Exemplos de mineração de dados - Examples of data mining

A mineração de dados , o processo de descoberta de padrões em grandes conjuntos de dados , tem sido usada em muitos aplicativos.

Jogos

Desde o início da década de 1960, com a disponibilidade de oráculos para certos jogos combinatórios , também chamados de bases de mesa (por exemplo, para xadrez 3x3) com qualquer configuração inicial, pontos e caixas de tabuleiro pequeno, hexadecimal de tabuleiro pequeno e certos jogos finais no xadrez , pontos e caixas e hex; uma nova área para mineração de dados foi aberta. Esta é a extração de estratégias utilizáveis ​​por humanos desses oráculos. As abordagens atuais de reconhecimento de padrões não parecem adquirir totalmente o alto nível de abstração necessário para serem aplicadas com sucesso. Em vez disso, a extensa experimentação com as bases de mesa - combinada com um estudo intensivo de respostas de base de mesa para problemas bem projetados e com conhecimento da técnica anterior (ou seja, conhecimento pré-base de mesa) - é usada para produzir padrões perspicazes. Berlekamp (em pontos e caixas, etc.) e John Nunn (em jogos finais de xadrez ) são exemplos notáveis ​​de pesquisadores fazendo esse trabalho, embora não estivessem - e não estejam - envolvidos na geração de tablebase.

O negócio

Nos negócios, data mining é a análise de atividades históricas de negócios, armazenados como dados estáticos em bancos de dados de data warehouse. O objetivo é revelar padrões e tendências ocultos. O software de mineração de dados usa algoritmos avançados de reconhecimento de padrões para filtrar grandes quantidades de dados e auxiliar na descoberta de informações estratégicas de negócios até então desconhecidas. Exemplos de como as empresas usam a mineração de dados incluem a realização de análises de mercado para identificar novos pacotes de produtos, encontrar a causa raiz dos problemas de fabricação, evitar o atrito de clientes e adquirir novos clientes, fazer vendas cruzadas para clientes existentes e criar perfis de clientes com mais precisão .

  • No mundo de hoje, os dados brutos estão sendo coletados por empresas em uma taxa explosiva. Por exemplo, o Walmart processa mais de 20 milhões de transações de ponto de venda todos os dias. Essas informações são armazenadas em um banco de dados centralizado, mas seriam inúteis sem algum tipo de software de mineração de dados para analisá-las. Se o Walmart analisasse seus dados de ponto de venda com técnicas de mineração de dados, seria capaz de determinar as tendências de vendas, desenvolver campanhas de marketing e prever com mais precisão a lealdade do cliente.
  • A categorização dos itens disponíveis no site de comércio eletrônico é um problema fundamental. Um sistema de categorização de itens correto é essencial para a experiência do usuário, pois ajuda a determinar os itens relevantes para ele para pesquisa e navegação. A categorização de itens pode ser formulada como um problema de classificação supervisionado em mineração de dados, onde as categorias são as classes-alvo e os recursos são as palavras que compõem alguma descrição textual dos itens. Uma das abordagens é encontrar grupos inicialmente semelhantes e colocá-los juntos em um grupo latente. Agora, dado um novo item, primeiro classifique em um grupo latente que é chamado de classificação de nível grosseiro. Em seguida, faça uma segunda rodada de classificação para encontrar a categoria à qual o item pertence.
  • Cada vez que um cartão de crédito ou cartão de fidelidade de loja está sendo usado, ou um cartão de garantia está sendo preenchido, dados estão sendo coletados sobre o comportamento do usuário. Muitas pessoas acham a quantidade de informações armazenadas sobre nós por empresas, como Google, Facebook e Amazon, perturbadora e preocupada com a privacidade. Embora haja o potencial de nossos dados pessoais serem usados ​​de maneiras prejudiciais ou indesejadas, também estão sendo usados ​​para tornar nossas vidas melhores. Por exemplo, a Ford e a Audi esperam um dia coletar informações sobre os padrões de direção dos clientes para que possam recomendar rotas mais seguras e alertar os motoristas sobre condições perigosas das estradas.
  • A mineração de dados em aplicativos de gerenciamento de relacionamento com o cliente pode contribuir significativamente para os resultados financeiros. Em vez de entrar em contato aleatoriamente com um cliente em potencial ou cliente por meio de um call center ou enviando uma correspondência, uma empresa pode concentrar seus esforços nos clientes em potencial com grande probabilidade de responder a uma oferta. Métodos mais sofisticados podem ser usados ​​para otimizar recursos em campanhas de modo que se possa prever a qual canal e a qual oferta um indivíduo tem mais probabilidade de responder (em todas as ofertas potenciais). Além disso, aplicativos sofisticados podem ser usados ​​para automatizar o envio de correspondência. Uma vez que os resultados da mineração de dados (cliente potencial / cliente e canal / oferta) são determinados, esse "aplicativo sofisticado" pode enviar automaticamente um e-mail ou um correio normal. Finalmente, nos casos em que muitas pessoas realizarão uma ação sem uma oferta, a " modelagem de elevação " pode ser usada para determinar quais pessoas têm o maior aumento na resposta se receber uma oferta. A modelagem Uplift permite que os profissionais de marketing concentrem as correspondências e ofertas em pessoas persuasivas, e não enviem ofertas a pessoas que comprarão o produto sem uma oferta. O armazenamento em cluster de dados também pode ser usado para descobrir automaticamente os segmentos ou grupos dentro de um conjunto de dados do cliente.
  • As empresas que empregam data mining podem ver um retorno sobre o investimento, mas também reconhecem que o número de modelos preditivos pode rapidamente se tornar muito grande. Por exemplo, em vez de usar um modelo para prever quantos clientes se desligarão , uma empresa pode optar por construir um modelo separado para cada região e tipo de cliente. Em situações em que um grande número de modelos precisa ser mantido, algumas empresas recorrem a metodologias de mineração de dados mais automatizadas.
  • A mineração de dados pode ser útil para os departamentos de recursos humanos (RH) na identificação das características de seus funcionários mais bem-sucedidos. As informações obtidas - como universidades frequentadas por funcionários altamente bem-sucedidos - podem ajudar o RH a concentrar os esforços de recrutamento de acordo. Além disso, os aplicativos Strategic Enterprise Management ajudam uma empresa a traduzir as metas de nível corporativo, como lucros e metas de participação de margem, em decisões operacionais, como planos de produção e níveis de força de trabalho.
  • A análise da cesta de compras foi usada para identificar os padrões de compra do consumidor alfa . A análise dos dados coletados sobre esse tipo de usuário permitiu às empresas prever as tendências de compra futuras e as demandas de fornecimento.
  • A mineração de dados é uma ferramenta altamente eficaz na indústria de marketing de catálogo. Os catalogadores têm um rico banco de dados de histórico de transações de seus clientes para milhões de clientes que datam de vários anos. As ferramentas de mineração de dados podem identificar padrões entre os clientes e ajudar a identificar os clientes mais prováveis ​​de responder às próximas campanhas de mala direta.
  • A mineração de dados para aplicativos de negócios pode ser integrada em um processo complexo de modelagem e tomada de decisão. O LIONsolver usa inteligência de negócios reativa (RBI) para defender uma abordagem "holística" que integra mineração de dados, modelagem e visualização interativa em um processo de descoberta de ponta a ponta e inovação contínua alimentado por aprendizagem humana e automatizada.
  • Na área de tomada de decisão , a abordagem RBI tem sido usada para extrair conhecimento que é adquirido progressivamente do tomador de decisão e, em seguida, ajustar o método de decisão de acordo. A relação entre a qualidade de um sistema de mineração de dados e a quantidade de investimento que o tomador de decisão está disposto a fazer foi formalizada ao fornecer uma perspectiva econômica sobre o valor do "conhecimento extraído" em termos de seu retorno para a organização. A estrutura de classificação foi aplicada a uma linha de fabricação de wafer de semicondutor do mundo real, onde as regras de decisão para monitorar e controlar efetivamente a linha de fabricação de wafer de semicondutor foram desenvolvidas.
  • Um exemplo de mineração de dados relacionado a uma linha de produção de circuito integrado (IC) é descrito no artigo "Mining IC Test Data to Optimize VLSI Testing". Neste artigo, a aplicação de mineração de dados e análise de decisão ao problema de teste funcional de nível de matriz é descrita. Os experimentos mencionados demonstram a capacidade de aplicar um sistema de mineração de dados históricos de teste de matriz para criar um modelo probabilístico de padrões de falha de matriz. Esses padrões são então utilizados para decidir, em tempo real, qual matriz testar em seguida e quando interromper o teste. Este sistema demonstrou, com base em experimentos com dados de teste históricos, ter o potencial de melhorar os lucros em produtos de IC maduros. Outros exemplos da aplicação de metodologias de mineração de dados em ambientes de fabricação de semicondutores sugerem que as metodologias de mineração de dados podem ser particularmente úteis quando os dados são escassos e os vários parâmetros físicos e químicos que afetam o processo exibem interações altamente complexas. Outra implicação é que o monitoramento on-line do processo de fabricação de semicondutores usando mineração de dados pode ser altamente eficaz.

Ciência e engenharia

Nos últimos anos, a mineração de dados tem sido amplamente utilizada nas áreas de ciência e engenharia, como bioinformática , genética , medicina , educação e engenharia de energia elétrica .

  • No estudo da genética humana, a mineração de sequência ajuda a abordar o importante objetivo de compreender a relação de mapeamento entre as variações interindividuais na sequência do DNA humano e a variabilidade na suscetibilidade a doenças. Em termos simples, visa descobrir como as alterações na sequência de DNA de um indivíduo afetam os riscos de desenvolvimento de doenças comuns, como o câncer , que é de grande importância para o aprimoramento dos métodos de diagnóstico, prevenção e tratamento dessas doenças. Um método de mineração de dados usado para realizar essa tarefa é conhecido como redução de dimensionalidade multifator .
  • Na área de engenharia de energia elétrica, métodos de mineração de dados têm sido amplamente usados ​​para monitoramento de condições de equipamentos elétricos de alta tensão. O objetivo do monitoramento de condição é obter informações valiosas sobre, por exemplo, o status do isolamento (ou outros parâmetros importantes relacionados à segurança). Técnicas de agrupamento de dados - como o mapa de auto-organização (SOM), foram aplicadas ao monitoramento de vibração e análise de comutadores em carga de transformador (OLTCS). Usando o monitoramento de vibração, pode-se observar que cada operação de comutação gera um sinal que contém informações sobre a condição dos contatos do comutador e dos mecanismos de acionamento. Obviamente, diferentes posições de tap irão gerar sinais diferentes. No entanto, houve uma variabilidade considerável entre os sinais de condição normal para exatamente a mesma posição de tap. O SOM foi aplicado para detectar condições anormais e fazer hipóteses sobre a natureza das anormalidades.
  • Métodos de mineração de dados têm sido aplicados à análise de gás dissolvido (DGA) em transformadores de potência . O DGA, como diagnóstico para transformadores de potência, está disponível há muitos anos. Métodos como o SOM foram aplicados para analisar os dados gerados e determinar tendências que não são óbvias para os métodos de razão DGA padrão (como o Triângulo de Duval).
  • Na pesquisa educacional, onde a mineração de dados tem sido usada para estudar os fatores que levam os alunos a escolherem se envolver em comportamentos que reduzem sua aprendizagem e para compreender os fatores que influenciam a retenção dos alunos universitários. Um exemplo semelhante de aplicação social de mineração de dados é seu uso em sistemas de localização de perícia , em que descritores de perícia humana são extraídos, normalizados e classificados de forma a facilitar a localização de especialistas, particularmente nos campos científicos e técnicos. Dessa forma, a mineração de dados pode facilitar a memória institucional .
  • Métodos de mineração de dados de dados biomédicos facilitados por ontologias de domínio , mineração de dados de ensaios clínicos e análise de tráfego usando SOM.
  • Na vigilância de reações adversas a medicamentos, o Centro de Monitoramento de Uppsala usa, desde 1998, métodos de mineração de dados para rastrear rotineiramente padrões de notificação indicativos de problemas emergentes de segurança de medicamentos no banco de dados global da OMS de 4,6 milhões de incidentes suspeitos de reações adversas a medicamentos . Recentemente, uma metodologia semelhante foi desenvolvida para explorar grandes coleções de registros eletrônicos de saúde em busca de padrões temporais que associam prescrições de medicamentos a diagnósticos médicos.
  • A mineração de dados foi aplicada a artefatos de software no domínio da engenharia de software : Repositórios de Software de Mineração .
  • No campo da microbiologia, métodos de mineração de dados têm sido usados ​​para prever o comportamento da população de bactérias em alimentos.

Direitos humanos

A mineração de dados de registros governamentais - especialmente registros do sistema de justiça (ou seja, tribunais, prisões) - permite a descoberta de violações sistêmicas de direitos humanos relacionadas à geração e publicação de registros jurídicos inválidos ou fraudulentos por várias agências governamentais.

Mineração de dados médicos

Alguns algoritmos de aprendizado de máquina podem ser aplicados na área médica como ferramentas de diagnóstico de segunda opinião e como ferramentas para a fase de extração de conhecimento no processo de descoberta de conhecimento em bancos de dados . Um desses classificadores (denominado classificador de aprendizagem exemplar de protótipo ( PEL-C ) é capaz de descobrir síndromes , bem como casos clínicos atípicos.

Uma área médica atual que utiliza o processo de mineração de dados é a Metabolômica , que é a investigação e estudo de moléculas biológicas e como sua interação com fluidos corporais, células, tecidos, etc. é caracterizada. A metabolômica é um assunto com muitos dados e muitas vezes envolve vasculhar grandes quantidades de dados irrelevantes antes de encontrar qualquer conclusão. A mineração de dados permitiu que esse campo relativamente novo de pesquisa médica crescesse consideravelmente na última década e provavelmente será o método pelo qual novas pesquisas serão encontradas dentro do assunto.

Em 2011, o caso Sorrell v. IMS Health, Inc. , decidido pela Suprema Corte dos Estados Unidos , determinou que as farmácias podem compartilhar informações com empresas externas. Essa prática foi autorizada pela 1ª Emenda da Constituição , protegendo a “liberdade de expressão”. No entanto, a aprovação da Lei de Tecnologia da Informação em Saúde para Saúde Econômica e Clínica (HITECH Act) ajudou a iniciar a adoção do registro eletrônico de saúde (EHR) e da tecnologia de apoio nos Estados Unidos. A Lei HITECH foi sancionada em 17 de fevereiro de 2009 como parte da Lei Americana de Recuperação e Reinvestimento (ARRA) e ajudou a abrir as portas para a mineração de dados médicos. Antes da assinatura desta lei, estimativas de apenas 20% dos médicos baseados nos Estados Unidos estavam utilizando registros eletrônicos de pacientes. Søren Brunak observa que "o registro do paciente se torna o mais rico em informações possível" e, portanto, "maximiza as oportunidades de mineração de dados". Conseqüentemente, os registros eletrônicos do paciente expandem ainda mais as possibilidades em relação à mineração de dados médicos, abrindo assim a porta para uma vasta fonte de análise de dados médicos.

Mineração de dados espaciais

A mineração de dados espaciais é a aplicação de métodos de mineração de dados aos dados espaciais. O objetivo final da mineração de dados espaciais é encontrar padrões nos dados em relação à geografia. Até agora, a mineração de dados e os Sistemas de Informação Geográfica (GIS) existiam como duas tecnologias separadas, cada uma com seus próprios métodos, tradições e abordagens para visualização e análise de dados. Particularmente, a maioria dos GIS contemporâneos tem apenas funcionalidades básicas de análise espacial. A imensa explosão de dados geograficamente referenciados ocasionada por desenvolvimentos em TI, mapeamento digital, sensoriamento remoto e a difusão global de GIS enfatiza a importância do desenvolvimento de abordagens indutivas baseadas em dados para análise e modelagem geográfica.

A mineração de dados oferece grandes benefícios potenciais para a tomada de decisão aplicada com base em GIS. Recentemente, a tarefa de integrar essas duas tecnologias tornou-se de importância crítica, especialmente porque várias organizações dos setores público e privado que possuem enormes bancos de dados com dados temáticos e geograficamente referenciados começaram a perceber o enorme potencial das informações neles contidas. Entre essas organizações estão:

  • Escritórios que requerem análise ou disseminação de dados estatísticos georreferenciados
  • Serviços de saúde pública em busca de explicações para o agrupamento de doenças
  • Agências ambientais avaliando o impacto das mudanças nos padrões de uso da terra nas mudanças climáticas
  • Empresas de geo-marketing que fazem segmentação de clientes com base na localização espacial.

Desafios na mineração espacial: os repositórios de dados geoespaciais tendem a ser muito grandes. Além disso, os conjuntos de dados GIS existentes são frequentemente fragmentados em componentes de recursos e atributos que são convencionalmente arquivados em sistemas híbridos de gerenciamento de dados. Os requisitos de algoritmo diferem substancialmente para gerenciamento de dados relacionais (atributos) e para gerenciamento de dados topológicos (recursos). Relacionado a isso está a gama e diversidade de formatos de dados geográficos, que apresentam desafios únicos. A revolução dos dados geográficos digitais está criando novos tipos de formatos de dados além dos formatos tradicionais de "vetor" e "raster". Os repositórios de dados geográficos incluem cada vez mais dados mal estruturados, como imagens e multimídia georreferenciada.

Existem vários desafios de pesquisa crítica na descoberta de conhecimento geográfico e mineração de dados. Miller e Han oferecem a seguinte lista de tópicos de pesquisa emergentes na área:

  • Desenvolvendo e dando suporte a data warehouses geográficos (GDWs) : As propriedades espaciais são freqüentemente reduzidas a simples atributos aspaciais em data warehouses convencionais. A criação de um GDW integrado requer a solução de problemas de interoperabilidade de dados espaciais e temporais - incluindo diferenças na semântica, sistemas de referência, geometria, precisão e posição.
  • Melhores representações espaço-temporais na descoberta de conhecimento geográfico : Os métodos atuais de descoberta de conhecimento geográfico (GKD) geralmente usam representações muito simples de objetos geográficos e relações espaciais. Os métodos de mineração de dados geográficos devem reconhecer objetos geográficos mais complexos (ou seja, linhas e polígonos) e relacionamentos (ou seja, distâncias não euclidianas, direção, conectividade e interação por meio de espaço geográfico atribuído, como terreno). Além disso, a dimensão do tempo precisa ser mais totalmente integrada nessas representações e relacionamentos geográficos.
  • Descoberta de conhecimento geográfico usando diversos tipos de dados : métodos GKD devem ser desenvolvidos para lidar com diversos tipos de dados além dos modelos raster e vetoriais tradicionais, incluindo imagens e multimídia georreferenciada, bem como tipos de dados dinâmicos (fluxos de vídeo, animação).

Mineração de dados temporais

Os dados podem conter atributos gerados e registrados em momentos diferentes. Nesse caso, encontrar relacionamentos significativos nos dados pode exigir a consideração da ordem temporal dos atributos. Uma relação temporal pode indicar uma relação causal ou simplesmente uma associação.

Mineração de dados de sensor

Redes de sensores sem fio podem ser usadas para facilitar a coleta de dados para mineração de dados espaciais para uma variedade de aplicações, como monitoramento de poluição do ar. Uma característica de tais redes é que os nós sensores próximos que monitoram uma característica ambiental normalmente registram valores semelhantes. Esse tipo de redundância de dados devido à correlação espacial entre as observações do sensor inspira as técnicas de agregação e mineração de dados na rede. Ao medir a correlação espacial entre os dados amostrados por diferentes sensores, uma ampla classe de algoritmos especializados pode ser desenvolvida para desenvolver algoritmos de mineração de dados espaciais mais eficientes.

Mineração de dados visuais

No processo de transformação de analógico em digital, grandes conjuntos de dados foram gerados, coletados e armazenados, descobrindo padrões estatísticos, tendências e informações que estão ocultas nos dados, a fim de construir padrões preditivos. Estudos sugerem que a mineração de dados visual é mais rápida e muito mais intuitiva do que a mineração de dados tradicional. Veja também Visão por computador .

Mineração de dados musicais

Técnicas de mineração de dados, e em particular a análise de co-ocorrência , têm sido usadas para descobrir semelhanças relevantes entre corpora de música (listas de rádio, bancos de dados de CD) para fins, incluindo a classificação da música em gêneros de uma maneira mais objetiva.

Vigilância

A mineração de dados tem sido usada pelo governo dos EUA. Os programas incluem o programa Total Information Awareness (TIA), Secure Flight (anteriormente conhecido como Computer-Assisted Passenger Prescreening System ( CAPPS II )), Análise, Disseminação, Visualização, Insight, Aprimoramento Semântico ( ADVISE ) e o Anti-Multi-state Troca de informações sobre terrorismo ( MATRIX ). Esses programas foram interrompidos devido à controvérsia sobre se eles violam a 4ª Emenda da Constituição dos Estados Unidos, embora muitos programas que foram formados sob eles continuem a ser financiados por diferentes organizações ou sob diferentes nomes.

No contexto do combate ao terrorismo, dois métodos particularmente plausíveis de mineração de dados são a "mineração de padrões" e a "mineração de dados com base no assunto".

Mineração de padrões

"Mineração de padrões" é um método de mineração de dados que envolve encontrar padrões existentes nos dados. Nesse contexto, os padrões geralmente significam regras de associação . A motivação original para pesquisar regras de associação veio do desejo de analisar dados de transações de supermercados, ou seja, examinar o comportamento do cliente em relação aos produtos adquiridos. Por exemplo, uma regra de associação "cerveja ⇒ batata frita (80%)" afirma que quatro em cada cinco clientes que compraram cerveja também compraram batata frita.

No contexto da mineração de padrões como uma ferramenta para identificar atividades terroristas, o National Research Council fornece a seguinte definição: "A mineração de dados baseada em padrões procura padrões (incluindo padrões de dados anômalos) que podem estar associados a atividades terroristas - esses padrões podem ser considerados pequenos sinais em um grande oceano de ruído. " O Pattern Mining inclui novas áreas, como Music Information Retrieval (MIR), onde os padrões vistos nos domínios temporal e não temporal são importados para métodos clássicos de pesquisa de descoberta de conhecimento.

Mineração de dados com base no assunto

"Mineração de dados baseada em assunto" é um método de mineração de dados que envolve a busca de associações entre indivíduos nos dados. No contexto do combate ao terrorismo, o Conselho Nacional de Pesquisa fornece a seguinte definição: "A mineração de dados com base no assunto usa um indivíduo iniciador ou outro dado que é considerado, com base em outras informações, de alto interesse, e o objetivo é determinar que outras pessoas ou transações ou movimentos financeiros, etc., estão relacionados a esse dado inicial. "

Grade de conhecimento

Descoberta de conhecimento "On the Grid" geralmente se refere à realização de descoberta de conhecimento em um ambiente aberto usando conceitos de computação em grade , permitindo aos usuários integrar dados de várias fontes de dados online, bem como fazer uso de recursos remotos, para executar suas tarefas de mineração de dados. O primeiro exemplo foi o Discovery Net , desenvolvido no Imperial College London , que ganhou o "Prêmio de Aplicativo Intensivo de Dados Mais Inovadores" na conferência e exposição ACM SC02 (Supercomputing 2002), com base em uma demonstração de um aplicativo de descoberta de conhecimento distribuído totalmente interativo para uma aplicação de bioinformática. Outros exemplos incluem trabalhos conduzidos por pesquisadores da Universidade da Calábria , que desenvolveram uma arquitetura Knowledge Grid para descoberta distribuída de conhecimento, baseada em computação em grade .

Referências

links externos