Linguagem de marcação de modelo preditivo - Predictive Model Markup Language
A linguagem de marcação de modelo preditivo ( PMML ) é um formato de intercâmbio de modelo preditivo baseado em XML , concebido pelo Dr. Robert Lee Grossman , então diretor do Centro Nacional de Mineração de Dados da Universidade de Illinois em Chicago . PMML fornece uma maneira para aplicativos analíticos descreverem e trocarem modelos preditivos produzidos por mineração de dados e algoritmos de aprendizado de máquina . Ele suporta modelos comuns, como regressão logística e outras redes neurais feedforward. A versão 0.9 foi publicada em 1998. As versões subsequentes foram desenvolvidas pelo Grupo de Mineração de Dados.
Como PMML é um padrão baseado em XML, a especificação vem na forma de um esquema XML . A própria PMML é um padrão maduro com mais de 30 organizações que anunciaram produtos que suportam PMML.
Componentes PMML
Um arquivo PMML pode ser descrito pelos seguintes componentes:
- Cabeçalho : contém informações gerais sobre o documento PMML, como informações de copyright do modelo, sua descrição e informações sobre o aplicativo usado para gerar o modelo, como nome e versão. Ele também contém um atributo para um carimbo de data / hora que pode ser usado para especificar a data de criação do modelo.
- Dicionário de dados : contém definições para todos os campos possíveis usados pelo modelo. É aqui que um campo é definido como contínuo, categórico ou ordinal (tipo de atributo). Dependendo dessa definição, os intervalos de valores apropriados são então definidos, bem como o tipo de dados (como string ou double).
-
Transformações de dados : as transformações permitem o mapeamento dos dados do usuário em uma forma mais desejável para serem usados pelo modelo de mineração. PMML define vários tipos de transformações de dados simples.
- Normalização: mapeia valores para números, a entrada pode ser contínua ou discreta.
- Discretização: mapeie valores contínuos para valores discretos.
- Mapeamento de valor: mapeia valores discretos para valores discretos.
- Funções (personalizadas e integradas): derivar um valor aplicando uma função a um ou mais parâmetros.
- Agregação: usado para resumir ou coletar grupos de valores.
-
Modelo : contém a definição do modelo de mineração de dados. Por exemplo, uma rede neural feedforward multicamadasé representada em PMML por um elemento "NeuralNetwork" que contém atributos como:
- Nome do modelo (atributo modelName)
- Nome da função (atributo functionName)
- Nome do algoritmo (atributo algorithmName)
- Função de ativação (atributo activationFunction)
- Número de camadas (atributo numberOfLayers)
- Essas informações são seguidas por três tipos de camadas neurais que especificam a arquitetura do modelo de rede neural que está sendo representado no documento PMML. Esses atributos são NeuralInputs, NeuralLayer e NeuralOutputs. Além das redes neurais, a PMML permite a representação de muitos outros tipos de modelos, incluindo máquinas de vetores de suporte , regras de associação , classificador Naive Bayes , modelos de agrupamento, modelos de texto , árvores de decisão e diferentes modelos de regressão .
-
Esquema de mineração : uma lista de todos os campos usados no modelo. Pode ser um subconjunto dos campos, conforme definido no dicionário de dados. Ele contém informações específicas sobre cada campo, como:
- Nome (nome do atributo): deve se referir a um campo no dicionário de dados
- Tipo de uso (atributo usageType): define a forma como um campo deve ser usado no modelo. Os valores típicos são: ativo, previsto e suplementar. Os campos previstos são aqueles cujos valores são previstos pelo modelo.
- Tratamento outlier (atributo outliers): define o tratamento outlier a ser usado. Em PMML, os outliers podem ser tratados como valores ausentes, como valores extremos (com base na definição de valores altos e baixos para um determinado campo) ou como estão.
- Política de substituição de valor ausente (atributo missingValueReplacement): se este atributo for especificado, um valor ausente será automaticamente substituído pelos valores fornecidos.
- Tratamento de valor ausente (atributo missingValueTreatment): indica como a substituição do valor ausente foi derivada (por exemplo, como valor, média ou mediana).
- Alvos : permite o pós-processamento do valor previsto no formato de escalonamento se a saída do modelo for contínua. Os alvos também podem ser usados para tarefas de classificação. Nesse caso, o atributo priorProbability especifica uma probabilidade padrão para a categoria de destino correspondente. É usado se a própria lógica de previsão não produziu um resultado. Isso pode acontecer, por exemplo, se um valor de entrada estiver faltando e não houver outro método para tratar os valores faltantes.
- Saída : este elemento pode ser usado para nomear todos os campos de saída desejados esperados do modelo. Esses são recursos do campo previsto e, portanto, são normalmente o próprio valor previsto, a probabilidade, afinidade do cluster (para modelos de clustering), erro padrão, etc. A versão mais recente de PMML, PMML 4.1, Saída estendida para permitir pós-processamento genérico de saídas do modelo. Na PMML 4.1, todas as funções integradas e personalizadas que estavam originalmente disponíveis apenas para pré-processamento também se tornaram disponíveis para pós-processamento.
PMML 4.0, 4.1, 4.2 e 4.3
PMML 4.0 foi lançado em 16 de junho de 2009.
Exemplos de novos recursos incluídos:
- Capacidades de pré-processamento aprimoradas: adições às funções integradas incluem uma variedade de operações booleanas e uma função If-Then-Else .
- Modelos de séries temporais : Novos modelos de suavização exponencial ; também placeholders para ARIMA , Seasonal Trend Decomposition e Spectral density estimation , que devem ser suportados em um futuro próximo.
- Explicação do modelo: Salvando as medidas de avaliação e desempenho do modelo no próprio arquivo PMML.
- Modelos múltiplos: recursos para composição, conjuntos e segmentação de modelos (por exemplo, combinação de regressão e árvores de decisão).
- Extensões de elementos existentes: adição de classificação multiclasse para máquinas de vetores de suporte , representação aprimorada para regras de associação e adição de modelos de regressão de Cox .
PMML 4.1 foi lançada em 31 de dezembro de 2011.
Novos recursos incluídos:
- Novos elementos de modelo para representar Scorecards, k-vizinhos mais próximos ( KNN ) e modelos de linha de base.
- Simplificação de vários modelos. Na PMML 4.1, o mesmo elemento é usado para representar a segmentação, conjunto e encadeamento do modelo.
- Definição geral de escopo de campo e nomes de campo.
- Um novo atributo que identifica para cada elemento do modelo se o modelo está pronto ou não para implantação de produção.
- Recursos aprimorados de pós-processamento (por meio do elemento Output).
PMML 4.2 foi lançado em 28 de fevereiro de 2014.
Os novos recursos incluem:
- Transformações: Novos elementos para a implementação de mineração de texto
- Novas funções integradas para a implementação de expressões regulares: corresponde, concat e substitui
- Saídas simplificadas para pós-processamento
- Aprimoramentos nos elementos do modelo Scorecard e Naive Bayes
PMML 4.3 foi lançado em 23 de agosto de 2016.
Os novos recursos incluem:
- Novos tipos de modelo:
- Processo Gaussiano
- Rede Bayesiana
- Novas funções integradas
- Esclarecimentos de uso
- Melhorias de documentação
A versão 4.4 foi lançada em novembro de 2019.
Histórico de lançamento
Versão | Data de lançamento |
---|---|
Versão 0.7 | Julho de 1997 |
Versão 0.9 | Julho de 1998 |
Versão 1.0 | Agosto de 1999 |
Versão 1.1 | Agosto de 2000 |
Versão 2.0 | Agosto de 2001 |
Versão 2.1 | Março de 2003 |
Versão 3.0 | Outubro de 2004 |
Versão 3.1 | Dezembro de 2005 |
Versão 3.2 | Maio de 2007 |
Versão 4.0 | Junho de 2009 |
Versão 4.1 | Dezembro 2011 |
Versão 4.2 | Fevereiro de 2014 |
Versão 4.2.1 | Março de 2015 |
Versão 4.3 | Agosto 2016 |
Versão 4.4 | Novembro de 2019 |
Grupo de mineração de dados
O Data Mining Group é um consórcio administrado pelo Center for Computational Science Research, Inc., uma organização sem fins lucrativos fundada em 2008. O Data Mining Group também desenvolveu um padrão denominado Portable Format for Analytics , ou PFA, que é complementar ao PMML.
Veja também
Referências
links externos
- Pré-processamento de dados em PMML e ADAPA - A Primer
- Vídeo da apresentação do Dr. Alex Guazzelli em PMML para o ACM Data Mining Group (hospedado pelo LinkedIn)
- Especificação PMML 3.2
- Especificação PMML 4.0
- Especificação PMML 4.1
- Especificação PMML 4.2.1
- Especificação PMML 4.3
- Representando soluções preditivas em PMML: Mova de dados brutos para previsões - Artigo publicado no site da Web do IBM developerWorks.
- Análise preditiva em assistência médica: A importância dos padrões abertos - Artigo publicado no site do IBM developerWorks.