Linguagem de marcação de modelo preditivo - Predictive Model Markup Language

PMML Logo.png

A linguagem de marcação de modelo preditivo ( PMML ) é um formato de intercâmbio de modelo preditivo baseado em XML , concebido pelo Dr. Robert Lee Grossman , então diretor do Centro Nacional de Mineração de Dados da Universidade de Illinois em Chicago . PMML fornece uma maneira para aplicativos analíticos descreverem e trocarem modelos preditivos produzidos por mineração de dados e algoritmos de aprendizado de máquina . Ele suporta modelos comuns, como regressão logística e outras redes neurais feedforward. A versão 0.9 foi publicada em 1998. As versões subsequentes foram desenvolvidas pelo Grupo de Mineração de Dados.

Como PMML é um padrão baseado em XML, a especificação vem na forma de um esquema XML . A própria PMML é um padrão maduro com mais de 30 organizações que anunciaram produtos que suportam PMML.

Componentes PMML

Um arquivo PMML pode ser descrito pelos seguintes componentes:

  • Cabeçalho : contém informações gerais sobre o documento PMML, como informações de copyright do modelo, sua descrição e informações sobre o aplicativo usado para gerar o modelo, como nome e versão. Ele também contém um atributo para um carimbo de data / hora que pode ser usado para especificar a data de criação do modelo.
  • Dicionário de dados : contém definições para todos os campos possíveis usados ​​pelo modelo. É aqui que um campo é definido como contínuo, categórico ou ordinal (tipo de atributo). Dependendo dessa definição, os intervalos de valores apropriados são então definidos, bem como o tipo de dados (como string ou double).
  • Transformações de dados : as transformações permitem o mapeamento dos dados do usuário em uma forma mais desejável para serem usados ​​pelo modelo de mineração. PMML define vários tipos de transformações de dados simples.
    • Normalização: mapeia valores para números, a entrada pode ser contínua ou discreta.
    • Discretização: mapeie valores contínuos para valores discretos.
    • Mapeamento de valor: mapeia valores discretos para valores discretos.
    • Funções (personalizadas e integradas): derivar um valor aplicando uma função a um ou mais parâmetros.
    • Agregação: usado para resumir ou coletar grupos de valores.
  • Modelo : contém a definição do modelo de mineração de dados. Por exemplo, uma rede neural feedforward multicamadasé representada em PMML por um elemento "NeuralNetwork" que contém atributos como:
    • Nome do modelo (atributo modelName)
    • Nome da função (atributo functionName)
    • Nome do algoritmo (atributo algorithmName)
    • Função de ativação (atributo activationFunction)
    • Número de camadas (atributo numberOfLayers)
Essas informações são seguidas por três tipos de camadas neurais que especificam a arquitetura do modelo de rede neural que está sendo representado no documento PMML. Esses atributos são NeuralInputs, NeuralLayer e NeuralOutputs. Além das redes neurais, a PMML permite a representação de muitos outros tipos de modelos, incluindo máquinas de vetores de suporte , regras de associação , classificador Naive Bayes , modelos de agrupamento, modelos de texto , árvores de decisão e diferentes modelos de regressão .
  • Esquema de mineração : uma lista de todos os campos usados ​​no modelo. Pode ser um subconjunto dos campos, conforme definido no dicionário de dados. Ele contém informações específicas sobre cada campo, como:
    • Nome (nome do atributo): deve se referir a um campo no dicionário de dados
    • Tipo de uso (atributo usageType): define a forma como um campo deve ser usado no modelo. Os valores típicos são: ativo, previsto e suplementar. Os campos previstos são aqueles cujos valores são previstos pelo modelo.
    • Tratamento outlier (atributo outliers): define o tratamento outlier a ser usado. Em PMML, os outliers podem ser tratados como valores ausentes, como valores extremos (com base na definição de valores altos e baixos para um determinado campo) ou como estão.
    • Política de substituição de valor ausente (atributo missingValueReplacement): se este atributo for especificado, um valor ausente será automaticamente substituído pelos valores fornecidos.
    • Tratamento de valor ausente (atributo missingValueTreatment): indica como a substituição do valor ausente foi derivada (por exemplo, como valor, média ou mediana).
  • Alvos : permite o pós-processamento do valor previsto no formato de escalonamento se a saída do modelo for contínua. Os alvos também podem ser usados ​​para tarefas de classificação. Nesse caso, o atributo priorProbability especifica uma probabilidade padrão para a categoria de destino correspondente. É usado se a própria lógica de previsão não produziu um resultado. Isso pode acontecer, por exemplo, se um valor de entrada estiver faltando e não houver outro método para tratar os valores faltantes.
  • Saída : este elemento pode ser usado para nomear todos os campos de saída desejados esperados do modelo. Esses são recursos do campo previsto e, portanto, são normalmente o próprio valor previsto, a probabilidade, afinidade do cluster (para modelos de clustering), erro padrão, etc. A versão mais recente de PMML, PMML 4.1, Saída estendida para permitir pós-processamento genérico de saídas do modelo. Na PMML 4.1, todas as funções integradas e personalizadas que estavam originalmente disponíveis apenas para pré-processamento também se tornaram disponíveis para pós-processamento.

PMML 4.0, 4.1, 4.2 e 4.3

PMML 4.0 foi lançado em 16 de junho de 2009.

Exemplos de novos recursos incluídos:

PMML 4.1 foi lançada em 31 de dezembro de 2011.

Novos recursos incluídos:

  • Novos elementos de modelo para representar Scorecards, k-vizinhos mais próximos ( KNN ) e modelos de linha de base.
  • Simplificação de vários modelos. Na PMML 4.1, o mesmo elemento é usado para representar a segmentação, conjunto e encadeamento do modelo.
  • Definição geral de escopo de campo e nomes de campo.
  • Um novo atributo que identifica para cada elemento do modelo se o modelo está pronto ou não para implantação de produção.
  • Recursos aprimorados de pós-processamento (por meio do elemento Output).

PMML 4.2 foi lançado em 28 de fevereiro de 2014.

Os novos recursos incluem:

  • Transformações: Novos elementos para a implementação de mineração de texto
  • Novas funções integradas para a implementação de expressões regulares: corresponde, concat e substitui
  • Saídas simplificadas para pós-processamento
  • Aprimoramentos nos elementos do modelo Scorecard e Naive Bayes

PMML 4.3 foi lançado em 23 de agosto de 2016.

Os novos recursos incluem:

  • Novos tipos de modelo:
    • Processo Gaussiano
    • Rede Bayesiana
  • Novas funções integradas
  • Esclarecimentos de uso
  • Melhorias de documentação

A versão 4.4 foi lançada em novembro de 2019.

Histórico de lançamento

Versão Data de lançamento
Versão 0.7 Julho de 1997
Versão 0.9 Julho de 1998
Versão 1.0 Agosto de 1999
Versão 1.1 Agosto de 2000
Versão 2.0 Agosto de 2001
Versão 2.1 Março de 2003
Versão 3.0 Outubro de 2004
Versão 3.1 Dezembro de 2005
Versão 3.2 Maio de 2007
Versão 4.0 Junho de 2009
Versão 4.1 Dezembro 2011
Versão 4.2 Fevereiro de 2014
Versão 4.2.1 Março de 2015
Versão 4.3 Agosto 2016
Versão 4.4 Novembro de 2019

Grupo de mineração de dados

O Data Mining Group é um consórcio administrado pelo Center for Computational Science Research, Inc., uma organização sem fins lucrativos fundada em 2008. O Data Mining Group também desenvolveu um padrão denominado Portable Format for Analytics , ou PFA, que é complementar ao PMML.

Veja também

Referências

links externos