Regressão polinomial - Polynomial regression

Em estatísticas , regressão polinomial é uma forma de análise de regressão em que a relação entre a variável independente x e a variável dependente y é modelado como um n th grau polinomial em x . A regressão polinomial ajusta-se a uma relação não linear entre o valor de xea média condicional correspondente de y , denotada por E ( y  | x ). Embora a regressão polinomial ajuste um modelo não linear aos dados, como um problema de estimativa estatística é linear, no sentido de que a função de regressão E ( y  |  x ) é linear nos parâmetros desconhecidos que são estimados a partir dos dados . Por esse motivo, a regressão polinomial é considerada um caso especial de regressão linear múltipla .

As variáveis ​​explicativas (independentes) resultantes da expansão polinomial das variáveis ​​de "linha de base" são conhecidas como termos de grau superior. Essas variáveis ​​também são usadas em configurações de classificação .

História

Os modelos de regressão polinomial são geralmente ajustados usando o método dos mínimos quadrados . O método dos mínimos quadrados minimiza a variância das imparciais estimadores dos coeficientes, sob as condições do teorema de Gauss-Markov . O método dos mínimos quadrados foi publicado em 1805 por Legendre e em 1809 por Gauss . O primeiro projeto de um experimento para regressão polinomial apareceu em um artigo de Gergonne em 1815 . No século XX, a regressão polinomial desempenhou um papel importante no desenvolvimento da análise de regressão , com maior ênfase nas questões de design e inferência . Mais recentemente, o uso de modelos polinomiais foi complementado por outros métodos, com modelos não polinomiais apresentando vantagens para algumas classes de problemas.

Definição e exemplo

Um ajuste de regressão polinomial cúbico a um conjunto de dados simulado. A banda de confiança é uma banda de confiança simultânea de 95% construída usando a abordagem de Scheffé .

O objetivo da análise de regressão é modelar o valor esperado de uma variável dependente y em termos do valor de uma variável independente (ou vetor de variáveis ​​independentes) x . Na regressão linear simples, o modelo

é usado, onde ε é um erro aleatório não observado com média zero condicionado em uma variável escalar x . Nesse modelo, para cada aumento de unidade no valor de x , a expectativa condicional de y aumenta em β 1 unidades.

Em muitos ambientes, essa relação linear pode não se manter. Por exemplo, se estivermos modelando o rendimento de uma síntese química em termos da temperatura na qual a síntese ocorre, podemos descobrir que o rendimento melhora com o aumento de quantidades para cada aumento unitário de temperatura. Neste caso, podemos propor um modelo quadrático da forma

Neste modelo, quando a temperatura é aumentada de x para x  + 1 unidades, o rendimento esperado muda por (Isso pode ser visto substituindo x nesta equação por x +1 e subtraindo a equação em x da equação em x +1 .) para infinitesimais alterações em x , o efeito sobre y é dada pela derivada total no que diz respeito a X : o facto de que a mudança no rendimento depende x é o que faz com que a relação entre x e y não linear, embora o modelo está em linear os parâmetros a serem estimados.

Em geral, podemos modelar o valor esperado de y como um polinômio de grau n , produzindo o modelo de regressão polinomial geral

Convenientemente, esses modelos são todos lineares do ponto de vista da estimativa , uma vez que a função de regressão é linear em termos dos parâmetros desconhecidos β 0 , β 1 , .... Portanto, para análise de mínimos quadrados , os problemas computacionais e inferenciais de a regressão polinomial pode ser completamente abordada usando as técnicas de regressão múltipla . Isso é feito tratando xx 2 , ... como sendo variáveis ​​independentes distintas em um modelo de regressão múltipla.

Forma matricial e cálculo de estimativas

O modelo de regressão polinomial

pode ser expresso em forma de matriz em termos de uma matriz de design , um vetor de resposta , um vetor de parâmetro e um vetor de erros aleatórios. O i fileira de -ésimo e irá conter o x e y valor para o i de amostra de dados -ésimo. Então, o modelo pode ser escrito como um sistema de equações lineares:

que, ao usar a notação de matriz pura, é escrita como

O vetor de coeficientes de regressão polinomial estimados (usando estimativa de mínimos quadrados ordinários ) é

assumindo m < n que é necessário para que a matriz seja invertível; então, como é uma matriz de Vandermonde , a condição de invertibilidade é garantida para se manter se todos os valores forem distintos. Esta é a única solução de mínimos quadrados.

Interpretação

Embora a regressão polinomial seja tecnicamente um caso especial de regressão linear múltipla, a interpretação de um modelo de regressão polinomial ajustado requer uma perspectiva um pouco diferente. Freqüentemente, é difícil interpretar os coeficientes individuais em um ajuste de regressão polinomial, uma vez que os monômios subjacentes podem ser altamente correlacionados. Por exemplo, x e x 2 têm correlação em torno de 0,97 quando x está uniformemente distribuído no intervalo (0, 1). Embora a correlação possa ser reduzida usando polinômios ortogonais , geralmente é mais informativo considerar a função de regressão ajustada como um todo. Bandas de confiança pontuais ou simultâneas podem então ser usadas para fornecer uma noção da incerteza na estimativa da função de regressão.

Abordagens alternativas

A regressão polinomial é um exemplo de análise de regressão usando funções básicas para modelar uma relação funcional entre duas quantidades. Mais especificamente, ele substitui na regressão linear com base polinomial , por exemplo . Uma desvantagem das bases polinomiais é que as funções de base são "não locais", o que significa que o valor ajustado de y em um determinado valor x  =  x 0 depende fortemente dos valores de dados com x longe de x 0 . Na estatística moderna, funções de base polinomiais são usadas junto com novas funções de base , como splines , funções de base radial e wavelets . Essas famílias de funções básicas oferecem um ajuste mais parcimonioso para muitos tipos de dados.

O objetivo da regressão polinomial é modelar uma relação não linear entre as variáveis ​​independentes e dependentes (tecnicamente, entre a variável independente e a média condicional da variável dependente). Isso é semelhante ao objetivo da regressão não paramétrica , que visa capturar as relações de regressão não linear. Portanto, as abordagens de regressão não paramétrica, como suavização, podem ser alternativas úteis para a regressão polinomial. Alguns desses métodos usam uma forma localizada de regressão polinomial clássica. Uma vantagem da regressão polinomial tradicional é que a estrutura inferencial da regressão múltipla pode ser usada (isso também é válido ao usar outras famílias de funções básicas, como splines).

Uma alternativa final é usar modelos kernelizados , como regressão de vetor de suporte com um kernel polinomial .

Se os resíduos tiverem variância desigual , um estimador de mínimos quadrados ponderados pode ser usado para contabilizar isso.

Veja também

Notas

  • O Microsoft Excel faz uso de regressão polinomial ao ajustar uma linha de tendência a pontos de dados em um gráfico de dispersão XY.

Referências

links externos