Oracle Data Mining - Oracle Data Mining

Oracle Data Mining (ODM) é uma opção do Oracle Database Enterprise Edition. Ele contém vários algoritmos de mineração de dados e análise de dados para classificação , predição , regressão , associações , seleção de recursos , detecção de anomalias , extração de recursos e análises especializadas. Ele fornece meios para a criação, gerenciamento e implantação operacional de modelos de mineração de dados dentro do ambiente de banco de dados.

Oracle Data Mining
Desenvolvedor (s) Oracle Corporation
Versão estável
11gR2 / setembro de 2009
Modelo mineração e análise de dados
Licença proprietário
Local na rede Internet Oracle Data Mining

Visão geral

A Oracle Corporation implementou uma variedade de algoritmos de mineração de dados dentro de seu produto de banco de dados relacional Oracle Database . Essas implementações se integram diretamente ao kernel do banco de dados Oracle e operam nativamente nos dados armazenados nas tabelas do banco de dados relacional . Isso elimina a necessidade de extração ou transferência de dados para servidores independentes de mineração / analítica . A plataforma de banco de dados relacional é aproveitada para gerenciar modelos com segurança e executar consultas SQL com eficiência em grandes volumes de dados. O sistema é organizado em torno de algumas operações genéricas, fornecendo uma interface unificada geral para funções de mineração de dados . Essas operações incluem funções para criar , aplicar , testar e manipular modelos de mineração de dados . Os modelos são criados e armazenados como objetos de banco de dados , e seu gerenciamento é feito dentro do banco de dados - semelhante a tabelas, visualizações, índices e outros objetos de banco de dados.

Na mineração de dados, o processo de usar um modelo para derivar previsões ou descrições de comportamento que ainda está para ocorrer é chamado de "pontuação". Em bancadas de trabalho analíticas tradicionais, um modelo construído no mecanismo analítico deve ser implantado em um sistema de missão crítica para pontuar novos dados ou os dados são movidos de tabelas relacionais para a bancada de trabalho analítica - a maioria das bancadas oferece interfaces de pontuação proprietárias. ODM simplifica a implantação do modelo, oferecendo funções Oracle SQL para pontuar dados armazenados diretamente no banco de dados. Dessa forma, o usuário / desenvolvedor de aplicativos pode aproveitar todo o poder do Oracle SQL - em termos de capacidade de pipeline e manipular os resultados em vários níveis, e em termos de paralelização e particionamento do acesso a dados para desempenho.

Os modelos podem ser criados e gerenciados por um de vários meios. O Oracle Data Miner fornece uma interface gráfica de usuário que orienta o usuário no processo de criação, teste e aplicação de modelos (por exemplo, ao longo das linhas da metodologia CRISP-DM ). Os desenvolvedores de aplicativos e ferramentas podem incorporar recursos de mineração preditivos e descritivos usando APIs PL / SQL ou Java . Os analistas de negócios podem experimentar rapidamente ou demonstrar o poder da análise preditiva usando o Oracle Spreadsheet Add-In para Predictive Analytics, uma interface de adaptador dedicada do Microsoft Excel . ODM oferece uma escolha de abordagens de aprendizado de máquina bem conhecidas , como árvores de decisão , Naive Bayes , máquinas de vetores de suporte , modelo linear generalizado (GLM) para mineração preditiva, regras de associação , K-médias e agrupamento de particionamento ortogonal e fatoração de matriz não negativa para mineração descritiva. Uma técnica baseada em comprimento de descrição mínimo para classificar a importância relativa dos atributos de mineração de entrada para um determinado problema também é fornecida. A maioria das funções do Oracle Data Mining também permite a mineração de texto aceitando atributos de texto ( dados não estruturados ) como entrada. Os usuários não precisam configurar opções de mineração de texto - a opção de banco de dados Database_options trata disso nos bastidores.

História

O Oracle Data Mining foi introduzido pela primeira vez em 2002 e seus lançamentos são nomeados de acordo com o lançamento do banco de dados Oracle correspondente:

  • Oracle Data Mining 9iR2 (9.2.0.1.0 - maio de 2002)
  • Oracle Data Mining 10gR1 (10.1.0.2.0 - fevereiro de 2004)
  • Oracle Data Mining 10gR2 (10.2.0.1.0 - julho de 2005)
  • Oracle Data Mining 11gR1 (11.1 - setembro de 2007)
  • Oracle Data Mining 11gR2 (11.2 - setembro de 2009)

O Oracle Data Mining é um sucessor lógico do conjunto de ferramentas de mineração de dados Darwin desenvolvido pela Thinking Machines Corporation em meados da década de 1990 e posteriormente distribuído pela Oracle após a aquisição da Thinking Machines em 1999. No entanto, o produto em si é totalmente reprojetado e reescrito a partir do solo -up - enquanto Darwin era um workbench analítico baseado em GUI clássico, ODM oferece uma plataforma de desenvolvimento / implantação de mineração de dados integrada ao banco de dados Oracle, junto com a GUI do Oracle Data Miner.

A nova GUI de fluxo de trabalho do Oracle Data Miner 11gR2 foi apresentada no Oracle Open World 2009. Uma GUI do Oracle Data Miner atualizada foi lançada em 2012. É gratuita e está disponível como uma extensão do Oracle SQL Developer 3.1.

Funcionalidade

A partir da versão 11gR1, o Oracle Data Mining contém as seguintes funções de mineração de dados :

Fontes de entrada e preparação de dados

A maioria das funções do Oracle Data Mining aceita como entrada uma tabela ou visão relacional. Dados simples podem ser combinados com dados transacionais por meio do uso de colunas aninhadas, permitindo a mineração de dados envolvendo relacionamentos um-para-muitos (por exemplo, um esquema em estrela ). A funcionalidade completa do SQL pode ser usada ao preparar dados para mineração de dados, incluindo datas e dados espaciais.

O Oracle Data Mining distingue atributos numéricos, categóricos e não estruturados (texto). O produto também fornece utilitários para as etapas de preparação de dados antes da construção do modelo, como tratamento de outlier , discretização , normalização e binning ( classificação em geral)

Interface gráfica do usuário: Oracle Data Miner

Os usuários podem acessar o Oracle Data Mining por meio do Oracle Data Miner, um aplicativo cliente GUI que fornece acesso às funções de mineração de dados e modelos estruturados (chamados de Atividades de Mineração) que prescrevem automaticamente a ordem das operações, realizam as transformações de dados necessárias e definem os parâmetros do modelo. A interface do usuário também permite a geração automatizada de código Java e / ou SQL associado às atividades de mineração de dados . O Java Code Generator é uma extensão do Oracle JDeveloper . Também existe uma interface independente: o Spreadsheet Add-In para Predictive Analytics, que permite o acesso ao pacote PL / SQL do Oracle Data Mining Predictive Analytics do Microsoft Excel .

A partir da versão 11.2 do banco de dados Oracle, o Oracle Data Miner se integra ao Oracle SQL Developer .

Interfaces PL / SQL e Java

O Oracle Data Mining fornece um pacote PL / SQL nativo (DBMS_DATA_MINING) para criar, destruir, descrever, aplicar, testar, exportar e importar modelos. O código a seguir ilustra uma chamada típica para construir um modelo de classificação :

BEGIN
  DBMS_DATA_MINING.CREATE_MODEL (
    model_name          => 'credit_risk_model', 
    function            => DBMS_DATA_MINING.classification, 
    data_table_name     => 'credit_card_data', 
    case_id_column_name => 'customer_id', 
    target_column_name  => 'credit_risk',
    settings_table_name => 'credit_risk_model_settings');
END;

onde 'credit_risk_model' é o nome do modelo, construído com o propósito expresso de classificar futuros clientes '' credit_risk ', com base nos dados de treinamento fornecidos na tabela' credit_card_data ', cada caso distinguido por um único' customer_id ', com o resto do parâmetros do modelo especificados através da tabela 'credit_risk_model_settings'.

O Oracle Data Mining também oferece suporte a uma API Java consistente com o padrão Java Data Mining (JDM) para mineração de dados (JSR-73) para permitir a integração com aplicativos da Web e Java EE e para facilitar a portabilidade entre plataformas.

Funções de pontuação SQL

A partir da versão 10gR2, o Oracle Data Mining contém funções SQL integradas para pontuação de modelos de mineração de dados. Essas funções de linha única suportam classificação, regressão, detecção de anomalias, clustering e extração de recursos. O código abaixo ilustra um uso típico de um modelo de classificação :

SELECT customer_name
  FROM credit_card_data
 WHERE PREDICTION (credit_risk_model USING *) = 'LOW' AND customer_value = 'HIGH';

PMML

Na Liberação 11gR2 (11.2.0.2), o ODM suporta a importação de PMML criada externamente para alguns dos modelos de mineração de dados. PMML é um padrão baseado em XML para representar modelos de mineração de dados.

Suplemento de análise preditiva do Microsoft Excel

O pacote PL / SQL DBMS_PREDICTIVE_ANALYTICS automatiza o processo de mineração de dados, incluindo pré-processamento de dados , construção e avaliação de modelos e pontuação de novos dados. A operação PREDICT é usada para prever a classificação ou regressão dos valores de destino, enquanto EXPLAIN classifica os atributos em ordem de influência para explicar a seleção de um recurso da coluna de destino. O novo recurso 11g PROFILE encontra segmentos de clientes e seus perfis, dado um atributo de destino. Essas operações podem ser usadas como parte de um pipeline operacional, fornecendo resultados acionáveis ​​ou exibidas para interpretação pelos usuários finais.

Referências e leituras adicionais

  • TH Davenport, Competing on Analytics , Harvard Business Review, janeiro de 2006.
  • I. Ben-Gal, detecção de outlier , In: Maimon O. and Rockach L. (Eds.) Data Mining and Knowledge Discovery Handbook: A Complete Guide for Practitioners and Researchers, "Kluwer Academic Publishers, 2005, ISBN  0-387-24435 -2 .
  • MM Campos, PJ Stengard e BL Milenova, Data-centric Automated Data Mining. Nos anais da Quarta Conferência Internacional sobre Aprendizado de Máquina e Aplicativos 2005 , 15-17 de dezembro de 2005. pp8, ISBN  0-7695-2495-8
  • MF Hornick, Erik Marcade e Sunil Venkayala. Mineração de dados Java: estratégia, padrão e prática. Morgan-Kaufmann, 2006, ISBN  0-12-370452-9 .
  • BL Milenova, JS Yarmus e MM Campos. SVM no banco de dados Oracle 10g: removendo as barreiras para a adoção generalizada de máquinas de vetores de suporte. In Proceedings of the 31st International Conference on Very Large Data Bases (Trondheim, Norway, August 30 - September 2, 2005). pp1152–1163, ISBN  1-59593-154-6 .
  • BL Milenova e MM Campos. O-Cluster: cluster escalonável de grandes conjuntos de dados de alta dimensão. Nos anais da Conferência Internacional IEEE sobre Mineração de Dados de 2002: ICDM 2002 . pp290-297, ISBN  0-7695-1754-4 .
  • P. Tamayo, C. Berger, MM Campos, JS Yarmus, BLMilenova, A. Mozes, M. Taft, M. Hornick, R. Krishnan, S.Thomas, M. Kelly, D. Mukhin, R. Haberstroh, S. Stephens e J. Myczkowski. Oracle Data Mining - Data Mining no ambiente de banco de dados. Na Parte VII do Manual de Data Mining and Knowledge Discovery , Maimon, O .; Rokach, L. (Eds.) 2005, p315-1329, ISBN  0-387-24435-2 .
  • Brendan Tierney, Predictive Analytics using Oracle Data Miner: para o cientista de dados, analista do oracle, desenvolvedor e DBA do oracle, Oracle Press, McGraw Hill, primavera de 2014.

Veja também

  • Oracle LogMiner - em contraste com a mineração de dados genérica, visa a extração de informações dos logs internos de um banco de dados Oracle

Referências

links externos