Tamanho do efeito - Effect size

Em estatística , um tamanho de efeito é um número que mede a força da relação entre duas variáveis ​​em uma população ou uma estimativa com base em amostra dessa quantidade. Pode referir-se ao valor de uma estatística calculada a partir de uma amostra de dados , ao valor de um parâmetro para uma população hipotética ou à equação que operacionaliza como as estatísticas ou parâmetros levam ao valor do tamanho do efeito. Exemplos de tamanhos de efeito incluem a correlação entre duas variáveis, o coeficiente de regressão em uma regressão, a diferença média ou o risco de um evento específico (como um ataque cardíaco) acontecer. Os tamanhos de efeito complementam o teste de hipótese estatística e desempenham um papel importante nas análises de poder , no planejamento do tamanho da amostra e nas metanálises . O conjunto de métodos de análise de dados relativos aos tamanhos de efeito é conhecido como estatísticas de estimativa .

O tamanho do efeito é um componente essencial ao avaliar a força de uma afirmação estatística e é o primeiro item (magnitude) nos critérios do MAGIC . O desvio padrão do tamanho do efeito é de importância crítica, pois indica quanta incerteza está incluída na medição. Um desvio padrão muito grande tornará a medição quase sem sentido. Na meta-análise, onde o objetivo é combinar vários tamanhos de efeito, a incerteza no tamanho do efeito é usada para pesar os tamanhos dos efeitos, de modo que grandes estudos são considerados mais importantes do que pequenos estudos. A incerteza no tamanho do efeito é calculada de forma diferente para cada tipo de tamanho do efeito, mas geralmente requer apenas o conhecimento do tamanho da amostra do estudo ( N ), ou o número de observações ( n ) em cada grupo.

O relato dos tamanhos dos efeitos ou suas estimativas (estimativa do efeito [EE], estimativa do efeito) é considerado uma boa prática ao apresentar resultados de pesquisas empíricas em muitos campos. O relato de tamanhos de efeito facilita a interpretação da importância de um resultado de pesquisa, em contraste com sua significância estatística . Os tamanhos do efeito são particularmente proeminentes nas ciências sociais e na pesquisa médica (onde o tamanho do efeito do tratamento é importante).

Tamanhos de efeito podem ser medidos em termos relativos ou absolutos. Em tamanhos de efeito relativos, dois grupos são comparados diretamente entre si, como em razões de probabilidade e riscos relativos . Para tamanhos de efeito absolutos, um valor absoluto maior sempre indica um efeito mais forte. Muitos tipos de medidas podem ser expressos como absolutos ou relativos e podem ser usados ​​juntos porque transmitem informações diferentes. Uma proeminente força-tarefa na comunidade de pesquisa em psicologia fez a seguinte recomendação:

Sempre apresente tamanhos de efeito para resultados primários ... Se as unidades de medida são significativas em um nível prático (por exemplo, número de cigarros fumados por dia), então geralmente preferimos uma medida não padronizada (coeficiente de regressão ou diferença média) a uma medida padronizada ( r ou d ).

Visão geral

Tamanhos de efeito de população e amostra

Como na estimativa estatística , o verdadeiro tamanho do efeito é distinto do tamanho do efeito observado, por exemplo, para medir o risco de doença em uma população (o tamanho do efeito da população), pode-se medir o risco dentro de uma amostra dessa população (o tamanho do efeito da amostra) . As convenções para descrever tamanhos de efeito verdadeiros e observados seguem práticas estatísticas padrão - uma abordagem comum é usar letras gregas como ρ [rho] para denotar parâmetros populacionais e letras latinas como r para denotar a estatística correspondente. Alternativamente, um "chapéu" pode ser colocado sobre o parâmetro da população para denotar a estatística, por exemplo, sendo a estimativa do parâmetro .

Como em qualquer configuração estatística, os tamanhos do efeito são estimados com erro de amostragem e podem ser tendenciosos, a menos que o estimador do tamanho do efeito que é usado seja apropriado para a maneira como os dados foram amostrados e a maneira como as medições foram feitas. Um exemplo disso é o viés de publicação , que ocorre quando os cientistas relatam os resultados apenas quando os tamanhos de efeito estimados são grandes ou estatisticamente significativos. Como resultado, se muitos pesquisadores realizarem estudos com baixo poder estatístico, os tamanhos de efeito relatados tenderão a ser maiores do que os efeitos reais (da população), se houver. Outro exemplo onde os tamanhos do efeito podem ser distorcidos é em um experimento de múltiplas tentativas, onde o cálculo do tamanho do efeito é baseado na resposta média ou agregada entre as tentativas.

Relação com estatísticas de teste

Os tamanhos de efeito baseados em amostra são distintos das estatísticas de teste usadas no teste de hipótese, pois estimam a força (magnitude) de, por exemplo, uma relação aparente, em vez de atribuir um nível de significância refletindo se a magnitude da relação observada pode ser devida ao acaso. O tamanho do efeito não determina diretamente o nível de significância ou vice-versa. Dado um tamanho de amostra suficientemente grande, uma comparação estatística não nula sempre mostrará um resultado estatisticamente significativo, a menos que o tamanho do efeito da população seja exatamente zero (e mesmo assim mostrará significância estatística na taxa do erro Tipo I usado). Por exemplo, um coeficiente de correlação de Pearson de amostra de 0,01 é estatisticamente significativo se o tamanho da amostra for 1000. Relatar apenas o valor p significativo dessa análise pode ser enganoso se uma correlação de 0,01 for muito pequena para ter interesse em um aplicativo específico.

Tamanhos de efeito padronizados e não padronizados

O termo tamanho do efeito pode se referir a uma medida de efeito padronizada (como r , d de Cohen ou a razão de chances ) ou a uma medida não padronizada (por exemplo, a diferença entre as médias do grupo ou os coeficientes de regressão não padronizados). Medidas de tamanho de efeito padronizadas são normalmente usadas quando:

  • as métricas das variáveis ​​em estudo não têm significado intrínseco (por exemplo, uma pontuação em um teste de personalidade em uma escala arbitrária),
  • resultados de vários estudos estão sendo combinados,
  • alguns ou todos os estudos usam escalas diferentes, ou
  • deseja-se transmitir o tamanho de um efeito em relação à variabilidade na população.

Em meta-análises, tamanhos de efeito padronizados são usados ​​como uma medida comum que pode ser calculada para diferentes estudos e então combinados em um resumo geral.

Interpretação

Se um tamanho de efeito deve ser interpretado como pequeno, médio ou grande, depende de seu contexto substantivo e de sua definição operacional. Os critérios convencionais de Cohen, pequeno , médio ou grande, são quase onipresentes em muitos campos, embora Cohen tenha alertado:

"Os termos 'pequeno', 'médio' e 'grande' são relativos, não apenas uns aos outros, mas à área das ciências comportamentais ou, ainda mais particularmente, ao conteúdo específico e ao método de pesquisa empregado em qualquer investigação. .. Diante dessa relatividade, há um certo risco inerente em oferecer definições operacionais convencionais para esses termos para uso em análise de poder em um campo de investigação tão diverso como as ciências comportamentais. Este risco é, no entanto, aceito na crença de que mais é a ser ganhado do que perdido fornecendo um quadro de referência convencional comum que é recomendado para uso somente quando nenhuma base melhor para estimar o índice ES estiver disponível. " (p. 25)

No layout de duas amostras, Sawilowsky concluiu "Com base nas descobertas da pesquisa atual na literatura aplicada, parece apropriado revisar as regras básicas para tamanhos de efeito", tendo em mente os cuidados de Cohen, e expandiu as descrições para incluir muito pequeno , muito grande , e enorme . Os mesmos padrões de fato podem ser desenvolvidos para outros layouts.

Lenth notado por um tamanho de efeito "médio", você escolherá o mesmo n independentemente da precisão ou confiabilidade de seu instrumento, ou da estreiteza ou diversidade de seus assuntos. Claramente, considerações importantes estão sendo ignoradas aqui. Os pesquisadores devem interpretar o A importância substantiva de seus resultados, fundamentando-os em um contexto significativo ou quantificando sua contribuição para o conhecimento, e as descrições do tamanho do efeito de Cohen podem ser úteis como ponto de partida. " Da mesma forma, um relatório patrocinado pelo Departamento de Educação dos Estados Unidos disse que "o uso indiscriminado generalizado dos valores genéricos de tamanho de efeito pequeno, médio e grande de Cohen para caracterizar os tamanhos de efeito em domínios aos quais seus valores normativos não se aplicam é, portanto, igualmente impróprio e enganoso".

Eles sugeriram que "as normas apropriadas são aquelas baseadas em distribuições de tamanhos de efeito para medidas de resultados comparáveis ​​de intervenções comparáveis ​​direcionadas a amostras comparáveis." Portanto, se um estudo em um campo em que a maioria das intervenções são mínimas produziu um pequeno efeito (pelos critérios de Cohen), esses novos critérios o chamariam de "grande". Em um ponto relacionado, veja o paradoxo de Abelson e o paradoxo de Sawilowsky.

Tipos

Cerca de 50 a 100 medidas diferentes de tamanho do efeito são conhecidas. Muitos tamanhos de efeito de diferentes tipos podem ser convertidos em outros tipos, já que muitos estimam a separação de duas distribuições, portanto, são matematicamente relacionados. Por exemplo, um coeficiente de correlação pode ser convertido em um d de Cohen e vice-versa.

Família de correlação: tamanhos de efeito com base na "variância explicada"

Esses tamanhos de efeito estimam a quantidade de variação em um experimento que é "explicada" ou "contabilizada" pelo modelo do experimento ( variação explicada ).

Pearson r ou coeficiente de correlação

A correlação de Pearson , frequentemente denotada r e introduzida por Karl Pearson , é amplamente usada como um tamanho de efeito quando dados quantitativos pareados estão disponíveis; por exemplo, se alguém estivesse estudando a relação entre peso ao nascer e longevidade. O coeficiente de correlação também pode ser usado quando os dados são binários. O r de Pearson pode variar em magnitude de −1 a 1, com −1 indicando uma relação linear negativa perfeita, 1 indicando uma relação linear positiva perfeita e 0 indicando que não há relação linear entre duas variáveis. Cohen fornece as seguintes diretrizes para as ciências sociais:

Tamanho do efeito r
Pequena 0,10
Médio 0,30
Grande 0,50
Coeficiente de determinação ( r 2 ou R 2 )

Um tamanho de efeito relacionado é r 2 , o coeficiente de determinação (também referido como R 2 ou " r- quadrado"), calculado como o quadrado da correlação de Pearson r . No caso de dados pareados, esta é uma medida da proporção da variância compartilhada pelas duas variáveis ​​e varia de 0 a 1. Por exemplo, com um r de 0,21, o coeficiente de determinação é 0,0441, o que significa que 4,4% do a variância de qualquer uma das variáveis ​​é compartilhada com a outra variável. O r 2 é sempre positivo, portanto, não transmite a direção da correlação entre as duas variáveis.

Eta-quadrado ( η 2 )

Eta-quadrado descreve a razão de variância explicada na variável dependente por um preditor enquanto controla outros preditores, tornando-o análogo ao r 2 . O Eta-quadrado é um estimador enviesado da variância explicada pelo modelo na população (estima apenas o tamanho do efeito na amostra). Essa estimativa compartilha a fraqueza com r 2 de que cada variável adicional aumentará automaticamente o valor de η 2 . Além disso, mede a variância explicada da amostra, não da população, o que significa que sempre superestimará o tamanho do efeito, embora o viés diminua à medida que a amostra aumenta.

Omega-quadrado (ω 2 )

Um estimador menos enviesado da variância explicada na população é ω 2

Esta forma da fórmula é limitada à análise entre sujeitos com tamanhos de amostra iguais em todas as células. Uma vez que é menos inclinado (embora não un inclinado), ω 2 é preferível r | 2 ; no entanto, pode ser mais inconveniente calcular para análises complexas. Uma forma generalizada do estimador foi publicada para análises entre assuntos e dentro de assuntos, medidas repetidas, design misto e experimentos de design de blocos aleatórios. Além disso, foram publicados métodos para calcular ω 2 parcial para fatores individuais e fatores combinados em experimentos com até três variáveis ​​independentes.

Ƒ 2 de Cohen

O ƒ 2 de Cohen é uma das várias medidas de tamanho do efeito a serem usadas no contexto de um teste F para ANOVA ou regressão múltipla . Sua quantidade de viés (superestimativa do tamanho do efeito para a ANOVA) depende do viés de sua medida subjacente de variância explicada (por exemplo, R 2 , η 2 , ω 2 ).

A medida do tamanho do efeito ƒ 2 para regressão múltipla é definida como:

onde R 2 é a correlação múltipla quadrada .

Da mesma forma, ƒ 2 pode ser definido como:

ou
para modelos descritos por essas medidas de tamanho do efeito.

A medida do tamanho do efeito para regressão múltipla sequencial e também comum para modelagem PLS é definida como:

onde R 2 Uma é a variância explicada por um conjunto de uma ou mais variáveis independentes A , e R 2 AB é a variância combinado explicada por um e um outro conjunto de uma ou mais variáveis independentes de interesse B . Por convenção, ƒ 2 tamanhos de efeito de , e são denominados pequeno , médio e grande , respectivamente.

Cohen também pode ser encontrado para análise fatorial de variância (ANOVA) trabalhando para trás, usando:

Em um design balanceado (tamanhos de amostra equivalentes entre os grupos) de ANOVA, o parâmetro de população correspondente de é

em que μ j denota a média da população dentro do j ésimo grupo dos grupos K totais , e σ os desvios padrão da população equivalentes dentro de cada grupo. SS é a soma dos quadrados em ANOVA.

Q de Cohen

Outra medida usada com diferenças de correlação é o q de Cohen. Esta é a diferença entre dois coeficientes de regressão de Pearson transformados de Fisher. Em símbolos, isso é

onde r 1 e r 2 são as regressões sendo comparadas. O valor esperado de q é zero e sua variância é

onde N 1 e N 2 são o número de pontos de dados na primeira e na segunda regressão, respectivamente.

Família de diferença: tamanhos de efeito com base nas diferenças entre as médias

O tamanho do efeito bruto pertencente a uma comparação de dois grupos é inerentemente calculado como as diferenças entre as duas médias. No entanto, para facilitar a interpretação, é comum padronizar o tamanho do efeito; várias convenções para padronização estatística são apresentadas abaixo.

Diferença de média padronizada

Gráficos de densidades gaussianas ilustrando vários valores de d de Cohen.

Um tamanho de efeito (população) θ com base nas médias geralmente considera a diferença média padronizada entre duas populações

onde μ 1 é a média para uma população, μ 2 é a média para a outra população e σ é um desvio padrão baseado em uma ou ambas as populações.

Na configuração prática, os valores da população normalmente não são conhecidos e devem ser estimados a partir de estatísticas de amostra. As várias versões de tamanhos de efeito baseados em médias diferem em relação às estatísticas usadas.

Esta forma para o tamanho do efeito se assemelha ao cálculo para uma estatística de teste t , com a diferença crítica de que a estatística de teste t inclui um fator de . Isso significa que, para um determinado tamanho de efeito, o nível de significância aumenta com o tamanho da amostra. Ao contrário da estatística de teste t , o tamanho do efeito visa estimar um parâmetro da população e não é afetado pelo tamanho da amostra.

D de Cohen

O d de Cohen é definido como a diferença entre duas médias divididas por um desvio padrão para os dados, ou seja ,

Jacob Cohen definiu s , o desvio padrão agrupado , como (para duas amostras independentes):

onde a variância para um dos grupos é definida como

e da mesma forma para o outro grupo.

A tabela abaixo contém descritores para magnitudes de d = 0,01 a 2,0, como sugerido inicialmente por Cohen e expandido por Sawilowsky.

Tamanho do efeito d Referência
Muito pequeno 0,01
Pequena 0,20
Médio 0,50
Grande 0,80
Muito grande 1,20
Enorme 2.0

Outros autores escolhem um cálculo ligeiramente diferente do desvio padrão quando se referem ao " d de Cohen ", onde o denominador é sem "-2"

Esta definição de " d de Cohen " é chamada de estimador de máxima verossimilhança por Hedges e Olkin, e está relacionada a Hedges ' g por um fator de escala (veja abaixo).

Com duas amostras emparelhadas, observamos a distribuição das pontuações de diferença. Nesse caso, s é o desvio padrão desta distribuição de pontuações de diferença. Isso cria a seguinte relação entre a estatística t para testar uma diferença nas médias dos dois grupos e o d de Cohen :

e

O d de Cohen é freqüentemente usado na estimativa de tamanhos de amostra para testes estatísticos. Um d de Cohen mais baixo indica a necessidade de tamanhos de amostra maiores, e vice-versa, como pode ser subsequentemente determinado em conjunto com os parâmetros adicionais de nível de significância e poder estatístico desejados .

Para amostras emparelhadas, Cohen sugere que o d calculado é na verdade um d ', o que não fornece a resposta correta para obter o poder do teste, e que antes de procurar os valores nas tabelas fornecidas, deve ser corrigido para r como na seguinte fórmula:

Glass 'Δ

Em 1976, Gene V. Glass propôs um estimador do tamanho do efeito que usa apenas o desvio padrão do segundo grupo.

O segundo grupo pode ser considerado um grupo de controle, e Glass argumentou que, se vários tratamentos fossem comparados ao grupo de controle, seria melhor usar apenas o desvio padrão calculado a partir do grupo de controle, de modo que os tamanhos de efeito não diferissem em médias iguais e diferentes variações.

Sob uma suposição correta de variâncias populacionais iguais, uma estimativa combinada para σ é mais precisa.

Hedges ' g

Hedges ' g , sugerido por Larry Hedges em 1981, é como as outras medidas baseadas em uma diferença padronizada

onde o desvio padrão agrupado é calculado como:

No entanto, como um estimador para o tamanho do efeito da população θ, ele é enviesado . No entanto, esse viés pode ser corrigido de forma aproximada por meio da multiplicação por um fator

Hedges e Olkin referem-se a esse estimador menos tendencioso como d , mas não é o mesmo que o d de Cohen . A forma exata para o fator de correção J () envolve a função gama

Ψ, efeito padronizado de raiz quadrada média

Um estimador de tamanho de efeito semelhante para comparações múltiplas (por exemplo, ANOVA ) é o efeito padronizado Ψ raiz quadrada média. Isso essencialmente apresenta a diferença geral de todo o modelo ajustado pela raiz quadrada média, análogo a d ou g . A fórmula mais simples para Ψ, adequada para ANOVA unilateral, é

Além disso, uma generalização para experimentos multifatoriais foi fornecida.

Distribuição de tamanhos de efeito com base nas médias

Desde que os dados é Gaussiano distribuído um dimensionado Hedges' g , , segue um não central t -distribuição com o parâmetro noncentrality e ( n 1  +  n 2  - 2) graus de liberdade. Da mesma forma, o Glass escalado 'Δ é distribuído com n 2  - 1 graus de liberdade.

A partir da distribuição, é possível calcular a expectativa e a variância dos tamanhos de efeito.

Em alguns casos, são utilizadas grandes aproximações de amostra para a variância. Uma sugestão para a variância do estimador imparcial de Hedges é

Outras métricas

A distância de Mahalanobis (D) é uma generalização multivariada de d de Cohen, que leva em consideração as relações entre as variáveis.

Família categórica: tamanhos de efeito para associações entre variáveis ​​categóricas

  

  

Phi ( φ ) V de Cramér ( φ c )

As medidas de associação comumente usadas para o teste qui-quadrado são o coeficiente Phi e o V de Cramér (às vezes referido como phi de Cramér e denotado como φ c ). Phi está relacionada com o coeficiente de correlação ponto-bisserial e de Cohen d e calcula a medida da relação entre duas variáveis (2 × 2). O V de Cramér pode ser usado com variáveis ​​com mais de dois níveis.

Phi pode ser calculado encontrando a raiz quadrada da estatística qui-quadrada dividida pelo tamanho da amostra.

Da mesma forma, o V de Cramér é calculado tomando a raiz quadrada da estatística qui-quadrada dividida pelo tamanho da amostra e o comprimento da dimensão mínima ( k é o menor do número de linhas r ou colunas  c ).

φ c é a intercorrelação das duas variáveis ​​discretas e pode ser calculada para qualquer valor de r ou c . No entanto, como os valores do qui-quadrado tendem a aumentar com o número de células, quanto maior a diferença entre r e c , mais provavelmente V tenderá a 1 sem evidências fortes de uma correlação significativa.

O V de Cramér também pode ser aplicado a modelos qui-quadrado de 'qualidade de ajuste' (ou seja, aqueles em que c  = 1). Nesse caso, ele funciona como uma medida de tendência em direção a um único resultado (ou seja, de k resultados). Em tal caso deve-se utilizar r para k , a fim de preservar a 0-1 gama de  V . Caso contrário, usar c reduziria a equação para Phi.

W de Cohen

Outra medida do tamanho do efeito usada para testes de qui-quadrado é o w de Cohen . Isso é definido como

onde p 0 i é o valor da i ésima célula em H 0 , p 1 i é o valor da i ésima célula em H 1 e m é o número de células.

Tamanho do Efeito C
Pequena 0,10
Médio 0,30
Grande 0,50

Razão de probabilidade

O odds ratio (OR) é outro tamanho de efeito útil. É apropriado quando a questão de pesquisa enfoca o grau de associação entre duas variáveis ​​binárias. Por exemplo, considere um estudo da habilidade de ortografia. Em um grupo de controle, dois alunos passam na classe para cada um que reprova, então as chances de aprovação são de duas para um (ou 2/1 = 2). No grupo de tratamento, seis alunos são aprovados para cada um que reprova, então as chances de aprovação são de seis para um (ou 6/1 = 6). O tamanho do efeito pode ser calculado observando que as chances de aprovação no grupo de tratamento são três vezes maiores do que no grupo de controle (porque 6 dividido por 2 é 3). Portanto, a razão de chances é 3. As estatísticas da razão de chances estão em uma escala diferente do d de Cohen , então esse '3' não é comparável a um d de 3 de Cohen .

Risco relativo

O risco relativo (RR), também chamado de razão de risco, é simplesmente o risco (probabilidade) de um evento em relação a alguma variável independente. Essa medida do tamanho do efeito difere do odds ratio porque compara probabilidades em vez de probabilidades , mas assintoticamente se aproxima da última para pequenas probabilidades. Usando o exemplo acima, as probabilidades de aprovação no grupo de controle e no grupo de tratamento são 2/3 (ou 0,67) e 6/7 (ou 0,86), respectivamente. O tamanho do efeito pode ser calculado da mesma forma que acima, mas usando as probabilidades. Portanto, o risco relativo é de 1,28. Como foram usadas probabilidades de aprovação bastante grandes, há uma grande diferença entre o risco relativo e a razão de chances. Se o fracasso (uma probabilidade menor) tivesse sido usado como o evento (em vez de aprovação ), a diferença entre as duas medidas do tamanho do efeito não seria tão grande.

Embora ambas as medidas sejam úteis, elas têm usos estatísticos diferentes. Na pesquisa médica, a razão de chances é comumente usada para estudos de caso-controle , uma vez que as chances, mas não as probabilidades, são geralmente estimadas. O risco relativo é comumente usado em ensaios clínicos randomizados e estudos de coorte , mas o risco relativo contribui para superestimações da eficácia das intervenções.

Diferença de risco

A diferença de risco (RD), às vezes chamada de redução de risco absoluto, é simplesmente a diferença de risco (probabilidade) de um evento entre dois grupos. É uma medida útil na pesquisa experimental, uma vez que o RD informa até que ponto uma intervenção experimental muda a probabilidade de um evento ou resultado. Usando o exemplo acima, as probabilidades para aqueles no grupo de controle e aprovação do grupo de tratamento são 2/3 (ou 0,67) e 6/7 (ou 0,86), respectivamente, e assim o tamanho do efeito RD é 0,86 - 0,67 = 0,19 (ou 19%). RD é a medida superior para avaliar a eficácia das intervenções.

H de Cohen

Uma medida usada na análise de potência ao comparar duas proporções independentes é o h de Cohen  . Isso é definido como segue

onde p 1 e p 2 são as proporções das duas amostras sendo comparadas e arcsin é a transformação do arco seno.

Tamanho do efeito da linguagem comum

Para descrever mais facilmente o significado de um tamanho de efeito, para pessoas fora das estatísticas, o tamanho do efeito da linguagem comum, como o nome indica, foi projetado para comunicá-lo em inglês simples. É usado para descrever uma diferença entre dois grupos e foi proposto, bem como nomeado, por Kenneth McGraw e SP Wong em 1992. Eles usaram o seguinte exemplo (sobre alturas de homens e mulheres): "em qualquer par aleatório de adulto jovem homens e mulheres, a probabilidade de o homem ser mais alto do que a mulher é de 0,92, ou em termos mais simples ainda, em 92 de 100 encontros às cegas entre adultos jovens, o homem será mais alto que a mulher ", ao descrever o valor populacional do tamanho do efeito da linguagem comum.

O valor da população, para o tamanho do efeito da linguagem comum, é freqüentemente relatado assim, em termos de pares escolhidos aleatoriamente na população. Kerby (2014) observa que um par , definido como uma pontuação em um grupo emparelhado com uma pontuação em outro grupo, é um conceito central do tamanho do efeito de linguagem comum.

Como outro exemplo, considere um estudo científico (talvez de um tratamento para alguma doença crônica, como artrite) com dez pessoas no grupo de tratamento e dez pessoas em um grupo de controle. Se todos no grupo de tratamento forem comparados a todos no grupo de controle, então haverá (10 × 10 =) 100 pares. No final do estudo, o resultado é classificado em uma pontuação, para cada indivíduo (por exemplo, em uma escala de mobilidade e dor, no caso de um estudo de artrite) e, em seguida, todas as pontuações são comparadas entre os pares. O resultado, como a porcentagem de pares que suportam a hipótese, é o tamanho do efeito da linguagem comum. No estudo de exemplo, poderia ser (digamos) 0,80, se 80 dos 100 pares de comparação mostrassem um resultado melhor para o grupo de tratamento do que o grupo de controle, e o relatório poderia ser o seguinte: "Quando um paciente no tratamento o grupo foi comparado a um paciente do grupo controle, em 80 dos 100 pares o paciente tratado apresentou um melhor resultado do tratamento. " O valor da amostra, por exemplo, em um estudo como este, é um estimador imparcial do valor da população.

Vargha e Delaney generalizaram o tamanho do efeito da linguagem comum (Vargha-Delaney A ), para cobrir dados de nível ordinal.

Correlação rank-bisserial

Um tamanho de efeito relacionado ao tamanho do efeito da linguagem comum é a correlação hierárquica bisserial. Esta medida foi introduzida por Cureton como um tamanho de efeito para o teste U de Mann-Whitney . Ou seja, existem dois grupos e as pontuações dos grupos foram convertidas em classificações. A fórmula de diferença simples de Kerby calcula a correlação de classificação bisserial a partir do tamanho do efeito da linguagem comum. Supondo que f seja a proporção de pares favorável à hipótese (o tamanho do efeito da linguagem comum), e seja u a proporção de pares desfavoráveis, o r rank-bisserial é a diferença simples entre as duas proporções:  r  =  f  -  u . Em outras palavras, a correlação é a diferença entre o tamanho do efeito da linguagem comum e seu complemento. Por exemplo, se o tamanho do efeito da linguagem comum é 60%, então o r rank-bisserial é igual a 60% menos 40%, ou  r  = 0,20. A fórmula de Kerby é direcional, com valores positivos indicando que os resultados apóiam a hipótese.

Uma fórmula não direcional para a correlação bisserial foi fornecida por Wendt, de modo que a correlação é sempre positiva. A vantagem da fórmula de Wendt é que ela pode ser calculada com informações que estão prontamente disponíveis em artigos publicados. A fórmula usa apenas o valor de teste de U do teste U de Mann-Whitney e os tamanhos de amostra dos dois grupos: r  = 1 - (2 U ) / ( n 1  n 2 ). Observe que U é definido aqui de acordo com a definição clássica como o menor dos dois valores de U que podem ser calculados a partir dos dados. Isto assegura que 2 U  <  n 1 n 2 , como n 1 n 2 é o valor máximo dos U estatísticas .

Um exemplo pode ilustrar o uso das duas fórmulas. Considere um estudo de saúde de vinte adultos mais velhos, com dez no grupo de tratamento e dez no grupo de controle; portanto, há dez vezes dez ou 100 pares. O programa de saúde usa dieta, exercícios e suplementos para melhorar a memória, e a memória é medida por um teste padronizado. Um teste U de Mann-Whitney mostra que o adulto no grupo de tratamento teve melhor memória em 70 dos 100 pares e pior memória em 30 pares. O U de Mann-Whitney é o menor de 70 e 30, então U = 30. A correlação entre a memória e o desempenho do tratamento pela fórmula de diferença simples de Kerby é r  = (70/100) - (30/100) = 0,40. A correlação pela fórmula de Wendt é r  = 1 - (2 · 30) / (10 · 10) = 0,40.

Tamanho do efeito para dados ordinais

O delta de Cliff ou , originalmente desenvolvido por Norman Cliff para uso com dados ordinais, é uma medida de quantas vezes os valores em uma distribuição são maiores do que os valores em uma segunda distribuição. Crucialmente, não requer quaisquer suposições sobre a forma ou extensão das duas distribuições.

A estimativa da amostra é dada por:

onde as duas distribuições são de tamanho e com itens e , respectivamente, e é o colchete de Iverson , que é 1 quando o conteúdo é verdadeiro e 0 quando falso.

está linearmente relacionado à estatística U de Mann-Whitney ; no entanto, ele captura a direção da diferença em seu sinal. Dado o Mann-Whitney , é:

Intervalos de confiança por meio de parâmetros de não centralidade

Intervalos de confiança de tamanhos de efeito padronizados, especialmente Cohen e , dependem do cálculo de intervalos de confiança de parâmetros de não centralidade ( ncp ). Uma abordagem comum para construir o intervalo de confiança de ncp é encontrar os valores ncp críticos para ajustar a estatística observada para os quantis finais α / 2 e (1 -  α / 2). O MBESS SAS e R-package fornece funções para encontrar valores críticos de ncp .

teste t para diferença média de um único grupo ou dois grupos relacionados

Para um único grupo, M indica a média da amostra, μ a média da população, SD desvio padrão da amostra, σ desvio padrão da população, e n é o tamanho da amostra do grupo. O valor t é usado para testar a hipótese sobre a diferença entre a média e a linha de base  μ da linha de base . Normalmente, a linha de base μ é zero. No caso de dois grupos relacionados, o único grupo é construído pelas diferenças nos pares de amostras, enquanto SD e σ denotam os desvios padrão das diferenças da amostra e da população, em vez de dentro dos dois grupos originais.

e Cohen

é a estimativa pontual de

Então,

teste t para diferença média entre dois grupos independentes

n 1 ou n 2 são os respectivos tamanhos de amostra.

em que

e Cohen

é a estimativa pontual de

Então,

Teste ANOVA de uma via para diferença média em vários grupos independentes

O teste ANOVA de uma via aplica-se à distribuição F não central . Embora com um determinado desvio padrão da população , a mesma pergunta do teste aplica - se à distribuição não central do qui-quadrado .

Para cada j- ésima amostra dentro do i- ésimo grupo X i , j , denote

Enquanto,

Então, ambos ncp ( s ) de F e igualam

No caso de para K grupos independentes de mesmo tamanho, o tamanho total da amostra é N  : =  N · K .

O teste t para um par de grupos independentes é um caso especial de ANOVA unilateral. Observe que o parâmetro de não centralidade de F não é comparável ao parâmetro de não centralidade do t correspondente . Na verdade , e .

Veja também

Referências

Leitura adicional

links externos

Mais explicações