Análise preditiva - Predictive analytics

A análise preditiva abrange uma variedade de técnicas estatísticas de mineração de dados , modelagem preditiva e aprendizado de máquina que analisam fatos atuais e históricos para fazer previsões sobre eventos futuros ou desconhecidos.

Nos negócios, os modelos preditivos exploram padrões encontrados em dados históricos e transacionais para identificar riscos e oportunidades. Os modelos capturam relacionamentos entre muitos fatores para permitir a avaliação do risco ou potencial associado a um determinado conjunto de condições, orientando a tomada de decisão para transações candidatas.

O efeito funcional definidor dessas abordagens técnicas é que a análise preditiva fornece uma pontuação preditiva (probabilidade) para cada indivíduo (cliente, funcionário, paciente de saúde, SKU do produto, veículo, componente, máquina ou outra unidade organizacional) a fim de determinar, informar ou influenciar processos organizacionais que pertençam a um grande número de indivíduos, como marketing, avaliação de risco de crédito, detecção de fraude, manufatura, saúde e operações governamentais, incluindo aplicação da lei.

A análise preditiva é usada em ciência atuarial , marketing , gestão de negócios , esportes / esportes fantásticos , seguros , policiamento , telecomunicações , varejo , viagens , mobilidade , saúde , proteção infantil , produtos farmacêuticos , planejamento de capacidade , redes sociais e outros campos.

Uma das aplicações mais conhecidas é a pontuação de crédito , que é usada em toda a gestão empresarial . Os modelos de pontuação processam o histórico de crédito do cliente , o pedido de empréstimo , os dados do cliente, etc., para classificar os indivíduos de acordo com sua probabilidade de fazer futuros pagamentos de crédito no prazo.

Definição

A análise preditiva é uma área de estatísticas que trata da extração de informações dos dados e da sua utilização para prever tendências e padrões de comportamento. O aprimoramento da análise preditiva da web calcula as probabilidades estatísticas de eventos futuros online. As técnicas estatísticas de análise preditiva incluem modelagem de dados , aprendizado de máquina , IA , algoritmos de aprendizado profundo e mineração de dados . Freqüentemente, o evento desconhecido de interesse está no futuro, mas a análise preditiva pode ser aplicada a qualquer tipo de desconhecido, seja no passado, presente ou futuro. Por exemplo, identificar suspeitos depois que um crime foi cometido ou fraude de cartão de crédito conforme ocorre. O núcleo da análise preditiva se baseia na captura de relacionamentos entre as variáveis ​​explicativas e as variáveis ​​previstas de ocorrências passadas e em explorá-las para prever o resultado desconhecido. É importante observar, entretanto, que a precisão e a usabilidade dos resultados dependerão muito do nível de análise dos dados e da qualidade das suposições.

A análise preditiva geralmente é definida como a previsão em um nível mais detalhado de granularidade, ou seja, a geração de pontuações preditivas (probabilidades) para cada elemento organizacional individual. Isso o distingue da previsão . Por exemplo, "Análise preditiva - tecnologia que aprende com a experiência (dados) para prever o comportamento futuro dos indivíduos a fim de conduzir melhores decisões." Em sistemas industriais futuros, o valor da análise preditiva será prever e evitar possíveis problemas para atingir uma quebra quase zero e ser ainda mais integrada em análises prescritivas para otimização de decisão.

Tipos

Geralmente, o termo analítica preditiva é usado para significar modelagem preditiva , "pontuação" de dados com modelos preditivos e previsão . No entanto, as pessoas estão cada vez mais usando o termo para se referir a disciplinas analíticas relacionadas, como modelagem descritiva e modelagem de decisão ou otimização. Essas disciplinas também envolvem análise de dados rigorosa e são amplamente utilizadas em negócios para segmentação e tomada de decisão, mas têm finalidades diferentes e as técnicas estatísticas subjacentes variam.

Modelos preditivos

A modelagem preditiva usa modelos preditivos para analisar a relação entre o desempenho específico de uma unidade em uma amostra e um ou mais atributos ou recursos conhecidos dessa unidade. O objetivo do modelo é avaliar a probabilidade de uma unidade semelhante em uma amostra diferente exibir o desempenho específico. Essa categoria abrange modelos em muitas áreas, como marketing, onde procuram padrões de dados sutis para responder a perguntas sobre o desempenho do cliente ou modelos de detecção de fraude. Os modelos preditivos costumam realizar cálculos durante as transações ao vivo, por exemplo, para avaliar o risco ou oportunidade de um determinado cliente ou transação, a fim de orientar uma decisão. Com os avanços na velocidade de computação, os sistemas de modelagem de agentes individuais tornaram-se capazes de simular o comportamento humano ou reações a determinados estímulos ou cenários.

As unidades de amostra disponíveis com atributos e desempenhos conhecidos são chamadas de "amostra de treinamento". As unidades em outras amostras, com atributos conhecidos, mas desempenhos desconhecidos, são referidas como unidades "fora da amostra [de treinamento]". As unidades fora da amostra não guardam necessariamente uma relação cronológica com as unidades da amostra de formação. Por exemplo, a amostra de treinamento pode consistir em atributos literários de escritos de autores vitorianos, com atribuição conhecida, e a unidade fora da amostra pode ser encontrada recentemente em escritos com autoria desconhecida; um modelo preditivo pode auxiliar na atribuição de uma obra a um autor conhecido. Outro exemplo é dado pela análise de respingos de sangue em cenas de crime simuladas em que a unidade fora da amostra é o padrão real de respingos de sangue de uma cena de crime. A unidade fora da amostra pode ser do mesmo tempo que as unidades de treinamento, de um tempo anterior ou de um tempo futuro.

Modelos descritivos

Os modelos descritivos quantificam os relacionamentos nos dados de uma forma que costuma ser usada para classificar clientes ou clientes potenciais em grupos. Ao contrário dos modelos preditivos que se concentram em prever o comportamento de um único cliente (como risco de crédito), os modelos descritivos identificam muitos relacionamentos diferentes entre clientes ou produtos. Os modelos descritivos não classificam os clientes pela probabilidade de realizar uma ação específica da mesma forma que os modelos preditivos. Em vez disso, modelos descritivos podem ser usados, por exemplo, para categorizar os clientes por suas preferências de produto e estágio de vida. Ferramentas de modelagem descritiva podem ser utilizadas para desenvolver modelos adicionais que podem simular um grande número de agentes individualizados e fazer previsões.

Modelos de decisão

Os modelos de decisão descrevem a relação entre todos os elementos de uma decisão - os dados conhecidos (incluindo resultados de modelos preditivos), a decisão e os resultados de previsão da decisão - para prever os resultados de decisões envolvendo muitas variáveis. Esses modelos podem ser usados ​​na otimização, maximizando certos resultados enquanto minimiza outros. Modelos de decisão são geralmente usados ​​para desenvolver lógica de decisão ou um conjunto de regras de negócios que produzirá a ação desejada para cada cliente ou circunstância.

Formulários

Embora a análise preditiva possa ser usada em muitos aplicativos, destacamos alguns exemplos em que a análise preditiva mostrou um impacto positivo nos últimos anos.

O negócio

O gerenciamento analítico do relacionamento com o cliente (CRM) é uma aplicação comercial frequente de análise preditiva. Métodos de análise preditiva são aplicados aos dados do cliente para construir uma visão holística do cliente. O CRM usa análise preditiva em aplicativos para campanhas de marketing, vendas e atendimento ao cliente. O CRM analítico pode ser aplicado em todo o ciclo de vida do cliente ( aquisição , crescimento do relacionamento , retenção e reconquista).

Freqüentemente, as organizações corporativas coletam e mantêm dados abundantes, como registros de clientes ou transações de venda. Nesses casos, a análise preditiva pode ajudar a analisar os gastos dos clientes, uso e outros comportamentos, levando a vendas cruzadas eficientes ou vendendo produtos adicionais aos clientes atuais.

A aplicação adequada de análises preditivas pode levar a estratégias de retenção mais proativas e eficazes. Por meio de um exame frequente do uso do serviço anterior, do desempenho do serviço, dos gastos e de outros padrões de comportamento de um cliente, os modelos preditivos podem determinar a probabilidade de um cliente encerrar o serviço em breve. Uma intervenção com ofertas de alto valor percebido pode aumentar a chance de conversão ou retenção do cliente. A análise preditiva também pode prever o desgaste silencioso, o comportamento de um cliente para reduzir o uso de forma lenta, mas constante.

Proteção infantil

Algumas agências de bem-estar infantil começaram a usar análises preditivas para sinalizar casos de alto risco. Por exemplo, no condado de Hillsborough, Flórida , o uso de uma ferramenta de modelagem preditiva pela agência de bem-estar infantil evitou mortes de crianças relacionadas ao abuso na população-alvo.

Sistemas de apoio à decisão clínica

As análises preditivas foram utilizadas na área da saúde principalmente para determinar quais pacientes correm o risco de desenvolver doenças como diabetes, asma ou doenças cardíacas. Além disso, sistemas sofisticados de suporte a decisões clínicas incorporam análises preditivas para apoiar a tomada de decisões médicas.

Um estudo de 2016 de doenças neurodegenerativas fornece um exemplo poderoso de uma plataforma CDS para diagnosticar, rastrear, prever e monitorar a progressão da doença de Parkinson .

Previsão de resultados de decisões legais

A previsão do resultado das decisões jurídicas pode ser feita por programas de IA. Esses programas podem ser usados ​​como ferramentas auxiliares para profissionais nesta indústria.

Portfólio, produto ou previsão de nível de economia

Freqüentemente, o foco da análise não é o consumidor, mas o produto, portfólio, empresa, indústria ou mesmo a economia. Por exemplo, um varejista pode estar interessado em prever a demanda no nível da loja para fins de gerenciamento de estoque. Ou o Federal Reserve Board pode estar interessado em prever a taxa de desemprego para o próximo ano. Esses tipos de problemas podem ser resolvidos por análises preditivas usando técnicas de série temporal (veja abaixo). Eles também podem ser tratados por meio de abordagens de aprendizado de máquina que transformam a série temporal original em um espaço vetorial de recursos, onde o algoritmo de aprendizado encontra padrões com poder preditivo.

Subscrição

Muitas empresas têm que contabilizar a exposição ao risco devido aos seus diferentes serviços e determinar os custos necessários para cobrir o risco. A análise preditiva pode ajudar a subscrever essas quantidades, prevendo as chances de doença, inadimplência , falência , etc. A análise preditiva pode agilizar o processo de aquisição de clientes ao prever o comportamento de risco futuro de um cliente usando dados de nível de aplicativo. A análise preditiva na forma de pontuação de crédito reduziu o tempo necessário para a aprovação de empréstimos, especialmente no mercado de hipotecas. A análise preditiva adequada pode levar a decisões de preços adequadas, o que pode ajudar a mitigar o risco futuro de inadimplência.

Influências de tecnologia e big data

Big data é uma coleção de conjuntos de dados tão grandes e complexos que se torna difícil de trabalhar com o uso de ferramentas tradicionais de gerenciamento de banco de dados . O volume, a variedade e a velocidade do big data introduziram desafios gerais para captura, armazenamento, pesquisa, compartilhamento, análise e visualização. Exemplos de fontes de big data incluem web logs , RFID , dados de sensores , redes sociais , indexação de pesquisa na Internet, registros de detalhes de chamadas, vigilância militar e dados complexos em ciências astronômicas, biogeoquímicas, genômicas e atmosféricas. Big Data é o núcleo da maioria dos serviços de análise preditiva oferecidos por organizações de TI. Graças aos avanços tecnológicos no hardware mais rápido computador CPUs, memória mais barata, e MPP arquiteturas e novas tecnologias, como Hadoop , MapReduce , e em banco de dados e análise de texto para o processamento de dados grandes, agora é viável para coletar, analisar e mina grandes quantidades de dados estruturados e não estruturados para novos insights. Também é possível executar algoritmos preditivos em dados de streaming. Hoje, explorar big data e usar análise preditiva está ao alcance de mais organizações do que nunca e novos métodos que são capazes de lidar com esses conjuntos de dados são propostos.

Técnicas analíticas

As abordagens e técnicas usadas para conduzir análises preditivas podem ser amplamente agrupadas em técnicas de regressão e técnicas de aprendizado de máquina.

Técnicas de regressão

Os modelos de regressão são a base da análise preditiva. O foco está em estabelecer uma equação matemática como modelo para representar as interações entre as diferentes variáveis ​​em consideração. Dependendo da situação, há uma grande variedade de modelos que podem ser aplicados durante a execução de análises preditivas. Alguns deles são brevemente discutidos abaixo.

Modelo de regressão linear

O modelo de regressão linear prevê a variável de resposta como uma função linear dos parâmetros com coeficientes desconhecidos. Esses parâmetros são ajustados para que uma medida de ajuste seja otimizada. Grande parte do esforço no ajuste do modelo é focado em minimizar o tamanho do resíduo, bem como garantir que ele seja distribuído aleatoriamente em relação às previsões do modelo.

O objetivo da regressão é selecionar os parâmetros do modelo de forma a minimizar a soma dos resíduos quadrados. Isso é conhecido como estimativa de mínimos quadrados ordinários (OLS).

Modelos de escolha discreta

A regressão múltipla (acima) geralmente é usada quando a variável de resposta é contínua e tem um intervalo ilimitado. Freqüentemente, a variável de resposta pode não ser contínua, mas sim discreta. Embora matematicamente seja viável aplicar a regressão múltipla a variáveis ​​dependentes ordenadas discretas, algumas das suposições por trás da teoria da regressão linear múltipla não são mais válidas e há outras técnicas, como modelos de escolha discreta, mais adequados para este tipo de análise. Se a variável dependente for discreta, alguns desses métodos superiores são regressão logística , logit multinomial e modelos probit . Modelos de regressão logística e probit são usados ​​quando a variável dependente é binária .

Regressão logística

Em uma configuração de classificação, atribuir probabilidades de resultado a observações pode ser alcançado por meio do uso de um modelo logístico (também chamado de modelo lógico), que transforma informações sobre a variável dependente binária em uma variável contínua ilimitada e estima um modelo multivariado regular.

O teste de Wald e a razão de verossimilhança são usados ​​para testar a significância estatística de cada coeficiente b no modelo (análogo aos testes t usados ​​na regressão OLS; veja acima). Um teste que avalia a adequação de um modelo de classificação é a "porcentagem prevista corretamente".

Regressão probit

Os modelos Probit oferecem uma alternativa à regressão logística para modelar variáveis ​​dependentes categóricas.

Regressão logística multinomial

Uma extensão do modelo logit binário para casos em que a variável dependente tem mais de 2 categorias é o modelo logit multinomial . Nesses casos, recolher os dados em duas categorias pode não fazer sentido ou pode levar à perda de riqueza dos dados. O modelo logit multinomial é a técnica apropriada nesses casos, especialmente quando as categorias da variável dependente não são ordenadas (por exemplo, cores como vermelho, azul, verde). Alguns autores estenderam a regressão multinomial para incluir métodos de seleção / importância de recursos, como logit multinomial aleatório .

Logit versus probit

As duas regressões tendem a se comportar de forma semelhante, exceto que a distribuição logística tende a ser ligeiramente mais achatada. Os coeficientes obtidos a partir do modelo logit e probit são geralmente próximos. No entanto, o odds ratio é mais fácil de interpretar no modelo logit.

Razões práticas para escolher o modelo probit em vez do modelo logístico podem incluir:

  • Existe uma forte crença de que a distribuição subjacente é normal
  • O evento real não é um resultado binário ( por exemplo , situação de falência), mas uma proporção ( por exemplo , proporção da população em diferentes níveis de dívida).

Modelos de séries temporais

Os modelos de série temporal são usados ​​para prever ou prever o comportamento futuro das variáveis. Esses modelos levam em consideração o fato de que os pontos de dados obtidos ao longo do tempo podem ter uma estrutura interna (como autocorrelação, tendência ou variação sazonal) que deve ser contabilizada. Como resultado, as técnicas de regressão padrão não podem ser aplicadas aos dados da série temporal e a metodologia foi desenvolvida para decompor a tendência, o componente sazonal e cíclico da série.

Modelos de séries temporais estimam equações de diferença contendo componentes estocásticos. Duas formas comumente usadas desses modelos são os modelos autoregressivos (AR) e os modelos de média móvel (MA). A metodologia Box-Jenkins combina os modelos AR e MA para produzir o modelo ARMA (média móvel autorregressiva), que é a pedra angular da análise de séries temporais estacionárias. ARIMA (modelos de média móvel integrados autoregressivos), por outro lado, são usados ​​para descrever séries temporais não estacionárias.

Nos últimos anos, os modelos de séries temporais tornaram-se mais sofisticados e tentam modelar a heteroscedasticidade condicional. Tais modelos incluem o modelo ARCH ( heterocedasticidade condicional autorregressiva ) e o modelo GARCH (heteroscedasticidade condicional autorregressiva generalizada), ambos frequentemente usados ​​para séries temporais financeiras.

Análise de sobrevivência ou duração

Análise de sobrevivência é outro nome para análise de tempo até o evento. Essas técnicas foram desenvolvidas principalmente nas ciências médicas e biológicas, mas também são amplamente utilizadas nas ciências sociais, como economia, e também na engenharia.

A censura e a não normalidade, características dos dados de sobrevivência, geram dificuldade ao tentar analisar os dados por meio de modelos estatísticos convencionais, como a regressão linear múltipla . A distribuição normal , sendo uma distribuição simétrica, assume tanto valores positivos como negativos, mas a duração por sua própria natureza não pode ser negativa e, portanto, a normalidade não pode ser assumida quando se trata de dados de duração / sobrevivência.

Os modelos de duração podem ser paramétricos, não paramétricos ou semi-paramétricos. Alguns dos modelos comumente usados ​​são o modelo de risco proporcional de Kaplan-Meier e Cox (não paramétrico).

Árvores de classificação e regressão (CART)

Árvores de classificação e regressão (CART) são uma técnica de aprendizagem de árvore de decisão não paramétrica que produz árvores de classificação ou regressão, dependendo se a variável dependente é categórica ou numérica, respectivamente.

As árvores de decisão são formadas por uma coleção de regras baseadas em variáveis ​​no conjunto de dados de modelagem:

  • As regras baseadas nos valores das variáveis ​​são selecionadas para obter a melhor divisão para diferenciar as observações com base na variável dependente
  • Uma vez que uma regra é selecionada e divide um nó em dois, o mesmo processo é aplicado a cada nó "filho" (ou seja, é um procedimento recursivo)
  • A divisão para quando o CART detecta que nenhum ganho adicional pode ser feito ou algumas regras de parada predefinidas são atendidas. (Como alternativa, os dados são divididos tanto quanto possível e, em seguida, a árvore é posteriormente podada .)

Cada ramo da árvore termina em um nó terminal. Cada observação cai em um e exatamente um nó terminal, e cada nó terminal é exclusivamente definido por um conjunto de regras.

Um método muito popular para análise preditiva são as florestas aleatórias .

Splines de regressão adaptativa multivariada

Splines de regressão adaptativa multivariada (MARS) é uma técnica não paramétrica que constrói modelos flexíveis ajustando regressões lineares por partes .

A abordagem de spline de regressão multivariada e adaptativa superafe deliberadamente o modelo e, em seguida, poda para chegar ao modelo ideal. O algoritmo é computacionalmente muito intensivo e, na prática, um limite superior no número de funções básicas é especificado.

Técnicas de aprendizado de máquina

O aprendizado de máquina inclui vários métodos estatísticos avançados para regressão e classificação e encontra aplicação em uma ampla variedade de campos, incluindo diagnósticos médicos , detecção de fraude de cartão de crédito , reconhecimento de rosto e voz e análise do mercado de ações .

Ferramentas

Historicamente, o uso de ferramentas de análise preditiva - bem como a compreensão dos resultados que elas proporcionavam - exigia habilidades avançadas. No entanto, as ferramentas de análise preditiva modernas não estão mais restritas aos especialistas de TI. À medida que mais organizações adotam a análise preditiva em processos de tomada de decisão e a integram em suas operações, elas estão criando uma mudança no mercado em direção aos usuários de negócios como os principais consumidores das informações. Os usuários de negócios desejam ferramentas que possam usar por conta própria. Os fornecedores estão respondendo criando um novo software que remove a complexidade matemática, fornece interfaces gráficas amigáveis ​​e / ou cria atalhos que podem, por exemplo, reconhecer o tipo de dados disponíveis e sugerir um modelo preditivo apropriado. As ferramentas de análise preditiva se tornaram sofisticadas o suficiente para apresentar e dissecar adequadamente os problemas de dados, de modo que qualquer profissional da informação com experiência em dados possa utilizá-las para analisar dados e recuperar resultados úteis e significativos. Por exemplo, as ferramentas modernas apresentam descobertas usando tabelas, gráficos e pontuações simples que indicam a probabilidade de resultados possíveis.

Existem inúmeras ferramentas disponíveis no mercado que ajudam na execução de análises preditivas. Estes variam desde aqueles que precisam de muito pouca sofisticação do usuário até aqueles que são projetados para o profissional especialista. A diferença entre essas ferramentas geralmente está no nível de personalização e levantamento de dados pesado permitido.

PMML

A Predictive Model Markup Language (PMML) foi proposta para uma linguagem padrão de expressão de modelos preditivos. Essa linguagem baseada em XML fornece uma maneira para as diferentes ferramentas definirem modelos preditivos e compartilhá-los. PMML 4.0 foi lançado em junho de 2009.

Crítica

Existem muitos céticos quando se trata das habilidades dos computadores e algoritmos para prever o futuro, incluindo Gary King , professor da Universidade de Harvard e diretor do Institute for Quantitative Social Science. As pessoas são influenciadas por seu ambiente de inúmeras maneiras. Prever com perfeição o que as pessoas farão em seguida requer que todas as variáveis ​​influentes sejam conhecidas e medidas com precisão. "O ambiente das pessoas muda ainda mais rapidamente do que elas próprias. Tudo, desde o clima até o relacionamento com a mãe, pode mudar a maneira como as pessoas pensam e agem. Todas essas variáveis ​​são imprevisíveis. Como afetarão uma pessoa é ainda menos previsível. Se colocados exatamente na mesma situação amanhã, eles podem tomar uma decisão completamente diferente. Isso significa que uma previsão estatística só é válida em condições estéreis de laboratório, que de repente não são tão úteis quanto parecia antes. "

Em um estudo de 1.072 artigos publicados na Information Systems Research e MIS Quarterly entre 1990 e 2006, apenas 52 artigos empíricos tentaram afirmações preditivas, dos quais apenas 7 realizaram modelagem ou teste preditivo adequado.

Veja também

Referências

Leitura adicional

  • Agresti, Alan (2002). Análise de dados categóricos . Hoboken: John Wiley and Sons. ISBN 0-471-36093-7.
  • Coggeshall, Stephen, Davies, John, Jones, Roger. e Schutzer, Daniel, "Intelligent Security Systems", em Freedman, Roy S., Flein, Robert A. e Lederman, Jess, Editors (1995). Inteligência Artificial no Mercado de Capitais . Chicago: Irwin. ISBN 1-55738-811-3.CS1 maint: vários nomes: lista de autores ( link )
  • L. Devroye; L. Györfi; G. Lugosi (1996). A Probabilistic Theory of Pattern Recognition . Nova York: Springer-Verlag. ISBN 9781461207115.
  • Enders, Walter (2004). Econometria de séries temporais aplicada . Hoboken: John Wiley and Sons. ISBN 0-521-83919-X.
  • Greene, William (2012). Econometric Analysis, 7th Ed . Londres: Prentice Hall. ISBN 978-0-13-139538-1.
  • Guidère, Mathieu; Howard N, Sh. Argamon (2009). Análise de linguagem rica para contraterrorismo . Berlim, Londres, Nova York: Springer-Verlag. ISBN 978-3-642-01140-5.
  • Mitchell, Tom (1997). Aprendizado de máquina . Nova York: McGraw-Hill. ISBN 0-07-042807-7.
  • Siegel, Eric (2016). Análise preditiva: o poder de prever quem vai clicar, comprar, mentir ou morrer . John Wiley. ISBN 978-1119145677.
  • Tukey, John (1977). Análise Exploratória de Dados . Nova York: Addison-Wesley. ISBN 0-201-07616-0.
  • Finlay, Steven (2014). Análise preditiva, mineração de dados e big data. Mitos, concepções errôneas e métodos . Basingstoke: Palgrave Macmillan. ISBN 978-1-137-37927-6.
  • Coker, Frank (2014). Pulse: Compreendendo os sinais vitais do seu negócio . Bellevue, WA: Ambient Light Publishing. ISBN 978-0-9893086-0-1.