Teste qui-quadrado de Pearson - Pearson's chi-squared test

O teste qui-quadrado de Pearson ( ) é um teste estatístico aplicado a conjuntos de dados categóricos para avaliar a probabilidade de que qualquer diferença observada entre os conjuntos tenha surgido por acaso. É o mais amplamente utilizado de muitos testes qui-quadrado (por exemplo, Yates , razão de verossimilhança , teste de portmanteau em séries temporais , etc.) - procedimentos estatísticos cujos resultados são avaliados por referência à distribuição qui-quadrado . Suas propriedades foram investigadas pela primeira vez por Karl Pearson em 1900. Em contextos onde é importante melhorar a distinção entre as estatísticas de testee sua distribuição, nomes semelhantes ao teste χ-quadrado de Pearson ou estatística são usados.

Ele testa uma hipótese nula afirmando que a distribuição de frequência de certos eventos observados em uma amostra é consistente com uma distribuição teórica particular. Os eventos considerados devem ser mutuamente exclusivos e ter probabilidade total 1. Um caso comum para isso é quando cada evento cobre um resultado de uma variável categórica . Um exemplo simples é a hipótese de que um de seis lados ordinária morrer é "justo" (i. E., Todos os seis resultados são igualmente prováveis de ocorrer.)

Definição

O teste qui-quadrado de Pearson é usado para avaliar três tipos de comparação: qualidade de ajuste , homogeneidade e independência .

  • Um teste de qualidade de ajuste estabelece se uma distribuição de frequência observada difere de uma distribuição teórica.
  • Um teste de homogeneidade compara a distribuição de contagens para dois ou mais grupos usando a mesma variável categórica (por exemplo, escolha de atividade - faculdade, militar, emprego, viagem - de graduados de uma escola secundária relatada um ano após a formatura, classificados por ano de graduação, para ver se o número de graduados que escolheram uma determinada atividade mudou de classe para classe, ou de década para década).
  • Um teste de independência avalia se as observações que consistem em medidas sobre duas variáveis, expressas em uma tabela de contingência , são independentes uma da outra (por exemplo, as respostas das pesquisas de pessoas de diferentes nacionalidades para ver se a nacionalidade de alguém está relacionada à resposta).

Para todos os três testes, o procedimento computacional inclui as seguintes etapas:

  1. Calcular o teste do qui-quadrado estatística , que se assemelha a um normalizada soma de desvios quadrados entre observados e teóricos frequências (ver abaixo).
  2. Determine os graus de liberdade , df , dessa estatística.
    1. Para um teste de adequação do ajuste, df = Cats - Parms , onde Cats é o número de categorias de observação reconhecidas pelo modelo e Parms é o número de parâmetros no modelo ajustados para fazer com que o modelo se ajuste melhor às observações: número de categorias reduzido pelo número de parâmetros ajustados na distribuição.
    2. Para um teste de homogeneidade, df = (Rows - 1) × (Cols - 1) , onde Rows corresponde ao número de categorias (ou seja, linhas na tabela de contingência associada), e Cols corresponde ao número de grupos independentes (ou seja, colunas na tabela de contingência associada).
    3. Para um teste de independência, df = (Rows - 1) × (Cols - 1) , onde, neste caso, Rows corresponde ao número de categorias em uma variável e Cols corresponde ao número de categorias na segunda variável.
  3. Selecione um nível de confiança desejado (nível de significância , valor p ou o nível alfa correspondente ) para o resultado do teste.
  4. Compare com o valor crítico da distribuição qui-quadrado com graus de liberdade df e o nível de confiança selecionado (unilateral, uma vez que o teste é apenas em uma direção, ou seja, o valor do teste é maior do que o valor crítico?), Que em muitos casos fornecem uma boa aproximação da distribuição de .
  5. Sustente ou rejeite a hipótese nula de que a distribuição de frequência observada é a mesma que a distribuição teórica baseada em se a estatística de teste excede o valor crítico de . Se a estatística de teste excede o valor crítico de , a hipótese nula ( = existe nenhuma diferença entre as distribuições) pode ser rejeitada, e a hipótese alternativa ( = ali é uma diferença entre as distribuições) pode ser aceite, ambos com o nível seleccionado de confiança. Se a estatística de teste cair abaixo do valor limite , nenhuma conclusão clara pode ser alcançada e a hipótese nula é sustentada (falhamos em rejeitar a hipótese nula), embora não necessariamente aceita.

Teste para ajuste de uma distribuição

Distribuição uniforme discreta

Nesse caso, as observações são divididas entre as células. Uma aplicação simples é testar a hipótese de que, na população geral, os valores ocorreriam em cada célula com igual frequência. A "frequência teórica" ​​para qualquer célula (sob a hipótese nula de uma distribuição uniforme discreta ) é, portanto, calculada como

e a redução nos graus de liberdade é , teoricamente, porque as frequências observadas são limitadas a somar .

Um exemplo específico de sua aplicação seria o teste de log-rank.

Outras distribuições

Ao testar se as observações são variáveis ​​aleatórias cuja distribuição pertence a uma determinada família de distribuições, as "frequências teóricas" são calculadas usando uma distribuição daquela família ajustada de alguma forma padrão. A redução nos graus de liberdade é calculada como , onde é o número de parâmetros usados ​​no ajuste da distribuição. Por exemplo, quando a verificação de um de três parâmetros de distribuição gama generalizada , e, quando da verificação de uma distribuição normal (em que os parâmetros são média e desvio padrão), e, quando da verificação de uma distribuição de Poisson (em que o parâmetro é o valor esperado), . Assim, haverá graus de liberdade, onde está o número de categorias.

Os graus de liberdade não são baseados no número de observações como com uma distribuição t ou F de Student . Por exemplo, se testando para uma feira, de seis lados morrer , haveria cinco graus de liberdade porque há seis categorias ou parâmetros (cada número); o número de vezes que o dado é lançado não influencia o número de graus de liberdade.

Calculando a estatística de teste

Distribuição do qui-quadrado , mostrando X 2 no eixo x e o valor P no eixo y.

O valor da estatística de teste é

Onde

= Estatística de teste cumulativa de Pearson, que assintoticamente se aproxima de uma distribuição .
= o número de observações do tipo i .
= número total de observações
= a contagem esperada (teórica) do tipo i , afirmada pela hipótese nula de que a fração do tipo i na população é
= o número de células da tabela.

A estatística qui-quadrado pode então ser usada para calcular um valor p , comparando o valor da estatística a uma distribuição qui-quadrada . O número de graus de liberdade é igual ao número de células , menos a redução dos graus de liberdade ,.

O resultado sobre os números de graus de liberdade é válido quando os dados originais são multinomiais e, portanto, os parâmetros estimados são eficientes para minimizar a estatística qui-quadrado. Mais geralmente, no entanto, quando a estimativa de máxima verossimilhança não coincide com a estimativa de qui-quadrado mínimo, a distribuição ficará em algum lugar entre uma distribuição de qui-quadrado com e graus de liberdade (ver, por exemplo, Chernoff e Lehmann, 1954).

Método bayesiano

Em estatísticas Bayesianas , seria possível usar uma distribuição de Dirichlet como a priori conjugada . Se tomarmos uma priorização uniforme, então a estimativa de probabilidade máxima para a probabilidade da população é a probabilidade observada e pode-se calcular uma região confiável em torno desta ou de outra estimativa.

Teste de independência estatística

Nesse caso, uma "observação" consiste nos valores de dois desfechos e a hipótese nula é que a ocorrência desses desfechos é estatisticamente independente . Cada observação é alocada a uma célula de uma matriz bidimensional de células (chamada de tabela de contingência ) de acordo com os valores dos dois resultados. Se houver r linhas ec colunas na tabela, a "frequência teórica" ​​para uma célula, dada a hipótese de independência, é

onde é o tamanho total da amostra (a soma de todas as células na tabela), e

é a fração de observações do tipo i ignorando o atributo da coluna (fração dos totais da linha), e

é a fração de observações do tipo j ignorando o atributo de linha (fração dos totais da coluna). O termo " frequências " refere-se a números absolutos em vez de valores já normalizados.

O valor da estatística de teste é

Observe que é 0 se e somente se , ou seja, somente se o número esperado e verdadeiro de observações forem iguais em todas as células.

Ajustar o modelo de "independência" reduz o número de graus de liberdade em p  =  r  +  c  - 1. O número de graus de liberdade é igual ao número de células rc , menos a redução em graus de liberdade, p , que reduz a ( r  - 1) ( c  - 1).

Para o teste de independência, também conhecido como teste de homogeneidade, uma probabilidade qui-quadrada menor ou igual a 0,05 (ou a estatística qui-quadrada sendo igual ou maior que o ponto crítico de 0,05) é comumente interpretada pelos trabalhadores aplicados como justificativa para rejeitar a hipótese nula de que a variável de linha é independente da variável de coluna. A hipótese alternativa corresponde às variáveis ​​que possuem uma associação ou relação em que a estrutura dessa relação não é especificada.

Premissas

O teste qui-quadrado, quando usado com a aproximação padrão de que uma distribuição qui-quadrado é aplicável, tem as seguintes suposições:

Amostra aleatória simples
Os dados da amostra são uma amostra aleatória de uma distribuição ou população fixa, onde cada coleção de membros da população de um determinado tamanho de amostra tem uma probabilidade igual de seleção. Variantes do teste foram desenvolvidas para amostras complexas, como quando os dados são ponderados. Outras formas podem ser usadas, como amostragem intencional .
Tamanho da amostra (tabela inteira)
Uma amostra com um tamanho suficientemente grande é assumida. Se um teste de qui quadrado for conduzido em uma amostra com um tamanho menor, o teste de qui quadrado produzirá uma inferência imprecisa. O pesquisador, ao usar o teste do qui quadrado em pequenas amostras, pode acabar cometendo um erro do tipo II .
Esperada contagem de células
Contagens de células esperadas adequadas. Alguns requerem 5 ou mais, e outros requerem 10 ou mais. Uma regra comum é 5 ou mais em todas as células de uma tabela 2 por 2 e 5 ou mais em 80% das células em tabelas maiores, mas nenhuma célula com contagem esperada zero. Quando essa suposição não é atendida, a correção de Yates é aplicada.
Independência
As observações são sempre consideradas independentes umas das outras. Isso significa que o qui-quadrado não pode ser usado para testar dados correlacionados (como pares combinados ou dados de painel). Nesses casos, o teste de McNemar pode ser mais apropriado.

Um teste que se baseia em diferentes suposições é o teste exato de Fisher ; se sua suposição de distribuições marginais fixas for satisfeita, é substancialmente mais preciso na obtenção de um nível de significância, especialmente com poucas observações. Na grande maioria das aplicações, essa suposição não será atendida e o teste exato de Fisher será excessivamente conservador e não terá uma cobertura correta.

Derivação

Derivação usando o Teorema do Limite Central

A distribuição nula da estatística de Pearson com j linhas ek colunas é aproximada pela distribuição qui-quadrada com ( k  - 1) ( j  - 1) graus de liberdade.

Essa aproximação surge como a distribuição verdadeira, sob a hipótese nula, se o valor esperado for dado por uma distribuição multinomial . Para tamanhos de amostra grandes, o teorema do limite central diz que essa distribuição tende a uma certa distribuição normal multivariada .

Duas células

No caso especial em que existem apenas duas células na tabela, os valores esperados seguem uma distribuição binomial ,

Onde

p = probabilidade, sob a hipótese nula,
n = número de observações na amostra.

No exemplo acima, a probabilidade hipotética de uma observação masculina é 0,5, com 100 amostras. Assim, esperamos observar 50 homens.

Se n for suficientemente grande, a distribuição binomial acima pode ser aproximada por uma distribuição Gaussiana (normal) e, portanto, a estatística de teste de Pearson se aproxima de uma distribuição qui-quadrada,

Seja O 1 o número de observações da amostra que estão na primeira célula. A estatística do teste de Pearson pode ser expressa como

que por sua vez pode ser expresso como

Pela aproximação normal de um binomial, este é o quadrado de uma variável normal padrão e, portanto, é distribuído como qui-quadrado com 1 grau de liberdade. Observe que o denominador é um desvio padrão da aproximação de Gauss, então pode ser escrito

Portanto, como consistente com o significado da distribuição qui-quadrada, estamos medindo quão provável é o número observado de desvios-padrão da média sob a aproximação gaussiana (que é uma boa aproximação para n grande ).

A distribuição qui-quadrada é então integrada à direita do valor da estatística para obter o valor P , que é igual à probabilidade de obter uma estatística igual ou maior que a observada, assumindo a hipótese nula.

Tabelas de contingência dois por dois

Quando o teste é aplicado a uma tabela de contingência contendo duas linhas e duas colunas, o teste é equivalente a um teste Z de proporções.

Muitas células

Argumentos amplamente semelhantes aos acima levam ao resultado desejado, embora os detalhes sejam mais complexos. Pode-se aplicar uma mudança ortogonal de variáveis ​​para transformar os summands limitantes na estatística de teste em um quadrado a menos de variáveis ​​aleatórias normais padrão iid.

Vamos agora provar que a distribuição de fato se aproxima assintoticamente da distribuição conforme o número de observações se aproxima do infinito.

Seja o número de observações, o número de células e a probabilidade de uma observação cair na i-ésima célula, para . Denotamos pela configuração onde para cada i há observações na i-ésima célula. Observe que

Seja a estatística de teste cumulativa de Pearson para tal configuração e seja a distribuição dessa estatística. Mostraremos que a última probabilidade se aproxima da distribuição com graus de liberdade, pois

Para qualquer valor arbitrário T:

Usaremos um procedimento semelhante à aproximação do teorema de Moivre-Laplace . Contribuições de pequeno são de ordem secundária e, portanto, para grandes podemos usar a fórmula de Stirling para ambos e para obter o seguinte:

Substituindo por

podemos aproximar muito a soma sobre o por uma integral sobre o . Notar que:

nós chegamos em

Ao expandir o logaritmo e tomando os termos de liderança em , obtemos

O chi de Pearson,, é precisamente o argumento do expoente (exceto para -1/2; observe que o termo final no argumento do expoente é igual a ).

Este argumento pode ser escrito como:

é uma matriz simétrica regular e, portanto, diagonalizável . Portanto, é possível fazer uma mudança linear de variáveis ​​de modo a obter novas variáveis ​​de modo que:

Essa mudança linear de variáveis ​​simplesmente multiplica a integral por uma constante Jacobiana , então obtemos:

Onde C é uma constante.

Esta é a probabilidade de que a soma quadrada de variáveis ​​independentes normalmente distribuídas de média zero e variância unitária seja maior que T, ou seja, que com graus de liberdade seja maior que T.

Assim, mostramos que no limite onde a distribuição do chi de Pearson se aproxima da distribuição do chi com graus de liberdade.

Exemplos

Justiça de dados

Um dado de 6 lados é lançado 60 vezes. O número de vezes que ele cai com 1, 2, 3, 4, 5 e 6 voltados para cima é 5, 8, 9, 8, 10 e 20, respectivamente. O dado está enviesado, de acordo com o teste qui-quadrado de Pearson, a um nível de significância de 95% e / ou 99%?

n = 6, pois há 6 resultados possíveis, 1 a 6. A hipótese nula é que o dado é imparcial, portanto, espera-se que cada número ocorra o mesmo número de vezes, neste caso,60/n = 10. Os resultados podem ser tabulados da seguinte forma:

1 5 10 -5 25 2,5
2 8 10 -2 4 0,4
3 9 10 -1 1 0,1
4 8 10 -2 4 0,4
5 10 10 0 0 0
6 20 10 10 100 10
Soma 13,4

O número de graus de liberdade é n - 1 = 5. Os valores críticos da cauda superior da tabela de distribuição do qui-quadrado fornecem um valor crítico de 11,070 a um nível de significância de 95%:

Graus
de
liberdade
Probabilidade menor que o valor crítico
0,90 0,95 0,975 0,99 0,999
5 9.236 11.070 12.833 15.086 20.515

Como a estatística qui-quadrada de 13,4 excede esse valor crítico, rejeitamos a hipótese nula e concluímos que o dado está enviesado em um nível de significância de 95%.

No nível de significância de 99%, o valor crítico é 15.086. Como a estatística qui-quadrado não o excede, deixamos de rejeitar a hipótese nula e, portanto, concluímos que não há evidências suficientes para mostrar que o dado está enviesado em um nível de significância de 99%.

Qualidade de ajuste

Nesse contexto, as frequências de ambas as distribuições teóricas e empíricas são contagens não normalizadas e, para um teste qui-quadrado, os tamanhos de amostra totais de ambas as distribuições (somas de todas as células das tabelas de contingência correspondentes ) devem ser iguais.

Por exemplo, para testar a hipótese de que uma amostra aleatória de 100 pessoas foi retirada de uma população na qual homens e mulheres são iguais em frequência, o número observado de homens e mulheres seria comparado com as frequências teóricas de 50 homens e 50 mulheres . Se houvesse 44 homens na amostra e 56 mulheres, então

Se a hipótese nula for verdadeira (ou seja, homens e mulheres são escolhidos com probabilidade igual), a estatística de teste será extraída de uma distribuição qui-quadrada com um grau de liberdade (porque se a frequência masculina for conhecida, então a frequência feminina é determinado).

A consulta da distribuição qui-quadrada para 1 grau de liberdade mostra que a probabilidade de observar essa diferença (ou uma diferença mais extrema do que essa) se homens e mulheres forem igualmente numerosos na população é de aproximadamente 0,23. Essa probabilidade é maior do que os critérios convencionais de significância estatística (0,01 ou 0,05), então normalmente não rejeitaríamos a hipótese nula de que o número de homens na população é igual ao número de mulheres (ou seja, consideraríamos nossa amostra dentro o intervalo do que esperaríamos para uma proporção homem / mulher de 50/50.)

Problemas

A aproximação da distribuição qui-quadrada é interrompida se as frequências esperadas forem muito baixas. Normalmente será aceitável, desde que não mais que 20% dos eventos tenham frequências esperadas abaixo de 5. Onde houver apenas 1 grau de liberdade, a aproximação não é confiável se as frequências esperadas estiverem abaixo de 10. Neste caso, uma aproximação melhor pode ser obtido reduzindo o valor absoluto de cada diferença entre as frequências observadas e esperadas em 0,5 antes do quadrado; isso é chamado de correção de Yates para a continuidade .

Nos casos em que o valor esperado, E, é considerado pequeno (indicando uma pequena probabilidade de população subjacente e / ou um pequeno número de observações), a aproximação normal da distribuição multinomial pode falhar e, em tais casos, verifica-se que ser mais apropriado usar o teste G , uma estatística de teste baseada na razão de verossimilhança . Quando o tamanho total da amostra é pequeno, é necessário usar um teste exato apropriado, normalmente o teste binomial ou, para tabelas de contingência , o teste exato de Fisher . Este teste usa a distribuição condicional da estatística de teste dados os totais marginais e, portanto, assume que as margens foram determinadas antes do estudo; alternativas como o teste de Boschloo, que não fazem essa suposição, são uniformemente mais poderosas .

Pode-se mostrar que o teste é uma aproximação de ordem inferior do teste. As razões acima para os problemas acima tornam-se aparentes quando os termos de ordem superior são investigados.

Veja também

Notas

Referências