Intervalo interquartil - Interquartile range

Boxplot (com um intervalo interquartil) e uma função de densidade de probabilidade (pdf) de uma população normal N (0, σ 2 )

Na estatística descritiva , o intervalo interquartil ( IQR ), também chamado de espalhamento médio , meio 50% ou H-spread , é uma medida de dispersão estatística , sendo igual à diferença entre 75º e 25º percentis , ou entre quartis superior e inferior , IQR = Q 3  -  Q 1 . Em outras palavras, o IQR é o primeiro quartil subtraído do terceiro quartil; esses quartis podem ser vistos claramente em um gráfico de caixa nos dados. É um estimador aparado , definido como o intervalo aparado de 25% , e é uma medida de escala robusta comumente usada .

O IQR é uma medida de variabilidade, com base na divisão de um conjunto de dados em quartis. Os quartis dividem um conjunto de dados ordenados por classificação em quatro partes iguais. Os valores que separam as partes são chamados de primeiro, segundo e terceiro quartis; e são denotados por Q1, também denominado quartil inferior, Q2 e Q3, também denominado quartil superior, respectivamente. Esses quartis são determinados por interpolação linear.

Usar

Ao contrário do intervalo total , o intervalo interquartil tem um ponto de decomposição de 25% e, portanto, é frequentemente preferido ao intervalo total.

O IQR é usado para construir boxplots , representações gráficas simples de uma distribuição de probabilidade .

O IQR é usado nas empresas como um marcador para suas taxas de renda .

Para uma distribuição simétrica (onde a mediana é igual ao ponto médio, a média do primeiro e terceiro quartis), metade do IQR é igual ao desvio absoluto da mediana (MAD).

A mediana é a medida correspondente da tendência central .

O IQR pode ser usado para identificar outliers (veja abaixo ). O IQR também pode indicar a assimetria do conjunto de dados.

O desvio quartil ou intervalo semi-interquartil é definido como metade do IQR.

Algoritmo

O IQR de um conjunto de valores é calculado como a diferença entre os quartis superior e inferior, Q 3 e Q 1 . Cada quartil é uma mediana calculada da seguinte forma.

Dado um número par 2n ou ímpar 2n + 1 de valores

primeiro quartil Q 1 = mediana dos n menores valores
terceiro quartil Q 3 = mediana dos n maiores valores

O segundo quartil Q 2 é igual à mediana ordinária.

Exemplos

Conjunto de dados em uma tabela

A tabela a seguir possui 13 linhas e segue as regras para o número ímpar de entradas.

eu XI] Mediana Quartil
1 7 Q 2 = 87
(mediana de toda a tabela)
Q 1 = 31
(mediana da metade superior, da linha 1 a 6)
2 7
3 31
4 31
5 47
6 75
7 87
8 115
Q 3 = 119
(mediana da metade inferior, da linha 8 a 13)
9 116
10 119
11 119
12 155
13 177

Para os dados nesta tabela, o intervalo interquartil é IQR = Q 3 - Q 1 = 119 - 31 = 88.

Conjunto de dados em um gráfico de caixa de texto simples

                    
                             + −−−−− + - +     
               * | −−−−−−−−−−−−− | | | −−−−−−−−−−−−− |
                             + −−−−− + - +    
                    
 + −−− + −−− + −−− + −−− + −−− + −−− + −−− + −−− + −−− + −−− + −−− + −−− + número linha
 0 1 2 3 4 5 6 7 8 9 10 11 12
  

Para o conjunto de dados neste gráfico de caixa :

  • quartil inferior (primeiro) Q 1 = 7
  • mediana (segundo quartil) Q 2 = 8,5
  • quartil superior (terceiro) Q 3 = 9
  • intervalo interquartil, IQR = Q 3 - Q 1 = 2
  • menor 1,5 * bigode IQR = Q 1 - 1,5 * IQR = 7 - 3 = 4. (Se não houver ponto de dados em 4, então o ponto mais baixo é maior que 4.)
  • bigode 1,5 * IQR superior = Q 3 + 1,5 * IQR = 9 + 3 = 12. (Se não houver ponto de dados em 12, então o ponto mais alto será menor que 12.)

Isso significa que os bigodes de 1,5 * IQR podem ter comprimentos desiguais. A mediana, o mínimo, o máximo e o primeiro e terceiro quartil são os "cinco números de verão" sugeridos por JW Tukey.

Distribuições

O intervalo interquartil de uma distribuição contínua pode ser calculado integrando a função de densidade de probabilidade (que produz a função de distribuição cumulativa - qualquer outro meio de calcular o CDF também funcionará). O quartil inferior, Q 1 , é um número tal que a integral da PDF de -∞ a Q 1 é igual a 0,25, enquanto o quartil superior, Q 3 , é um número tal que a integral de -∞ a Q 3 é igual a 0,75; em termos de CDF, os quartis podem ser definidos da seguinte forma:

onde CDF −1 é a função de quantil .

O intervalo interquartil e a mediana de algumas distribuições comuns são mostrados abaixo

Distribuição Mediana IQR
Normal µ 2 Φ −1 (0,75) σ ≈ 1,349σ ≈ (27/20) σ
Laplace µ 2 b  ln (2) ≈ 1,386 b
Cauchy µ

Teste de intervalo interquartil para normalidade de distribuição

O IQR, a média e o desvio padrão de uma população P podem ser usados ​​em um teste simples para saber se P é ou não normalmente distribuído , ou Gaussiano. Se P é distribuído normalmente, então a pontuação padrão do primeiro quartil, z 1 , é −0,67, e a pontuação padrão do terceiro quartil, z 3 , é +0,67. Dado a média  =  e o desvio padrão  = σ para P , se P for normalmente distribuído, o primeiro quartil

e o terceiro quartil

Se os valores reais do primeiro ou terceiro quartis diferirem substancialmente dos valores calculados, P não é normalmente distribuído. No entanto, uma distribuição normal pode ser perturbada trivialmente para manter seu padrão Q1 e Q2. pontuações de 0,67 e −0,67 e não têm distribuição normal (portanto, o teste acima produziria um falso positivo). Um melhor teste de normalidade, como gráfico Q – Q, seria indicado aqui.

Outliers

Gráfico de caixa e bigode com quatro outliers suaves e um outlier extremo. Neste gráfico, os valores discrepantes são definidos como moderados acima de Q3 + 1,5 IQR e extremos acima de Q3 + 3 IQR.

O intervalo interquartil é freqüentemente usado para descobrir outliers em dados. Outliers aqui são definidos como observações que caem abaixo de Q1 - 1.5 IQR ou acima de Q3 + 1.5 IQR. Em um boxplot, o maior e o menor valor ocorrendo dentro deste limite são indicados pelos bigodes da caixa (frequentemente com uma barra adicional no final do bigode) e quaisquer outliers como pontos individuais.

Veja também

Referências

links externos