Desvio médio absoluto - Median absolute deviation

Em estatística , o desvio absoluto mediano ( MAD ) é uma medida robusta da variabilidade de uma amostra univariada de dados quantitativos . Também pode se referir ao parâmetro populacional que é estimado pelo MAD calculado a partir de uma amostra.

Para um conjunto de dados univariado X 1X 2 , ...,  X n , o MAD é definido como a mediana dos desvios absolutos da mediana dos dados :

ou seja, começando com os resíduos (desvios) da mediana dos dados, o MAD é a mediana de seus valores absolutos .

Exemplo

Considere os dados (1, 1, 2, 2 , 4, 6, 9). Tem um valor mediano de 2. Os desvios absolutos sobre 2 são (1, 1, 0, 0, 2, 4, 7) que por sua vez têm um valor mediano de 1 (porque os desvios absolutos classificados são (0, 0, 1, 1 , 2, 4, 7)). Portanto, o desvio absoluto mediano para esses dados é 1.

Usos

O desvio absoluto mediano é uma medida de dispersão estatística . Além disso, o MAD é uma estatística robusta , sendo mais resiliente a outliers em um conjunto de dados do que o desvio padrão . No desvio padrão, as distâncias da média são quadradas, então grandes desvios são ponderados com mais peso e, portanto, outliers podem influenciá-lo fortemente. No MAD, os desvios de um pequeno número de outliers são irrelevantes.

Como o MAD é um estimador de escala mais robusto do que a variância ou desvio padrão da amostra , ele funciona melhor com distribuições sem uma média ou variância, como a distribuição de Cauchy .

Relação com o desvio padrão

O MAD pode ser usado da mesma forma que se usaria o desvio para a média. A fim de usar o MAD como um estimador consistente para a estimativa do desvio padrão , toma-se

onde é um fator de escala constante , que depende da distribuição.

Para dados normalmente distribuídos são considerados

isto é, o recíproco da função de quantil (também conhecido como o inverso da função de distribuição cumulativa ) para a distribuição normal padrão . O argumento 3/4 é tal que cobre 50% (entre 1/4 e 3/4) da função de distribuição cumulativa normal padrão , ou seja,

Portanto, devemos ter isso

Percebendo que

nós temos isso , a partir do qual obtemos o fator de escala .

Outra forma de estabelecer a relação é observar que MAD é igual à mediana da distribuição semianormal:

Este formulário é usado, por exemplo, no erro provável .

Desvio absoluto da mediana geométrica

Da mesma forma que a mediana generaliza para a mediana geométrica em dados multivariados, um MAD geométrico pode ser construído que generaliza o MAD. Dado um conjunto bidimensional emparelhado de dados (X 1 , Y 1 ), (X 2 , Y 2 ), ..., (X n , Y n ) e uma mediana geométrica adequadamente calculada , o desvio absoluto da mediana geométrica é dado por :

Isso dá o resultado idêntico ao MAD univariado em 1 dimensão e se estende facilmente para dimensões superiores. No caso de valores complexos ( X + i Y ), a relação de MAD com o desvio padrão é inalterada para dados normalmente distribuídos.

A população MAD

A população MAD é definida analogamente à amostra MAD, mas é baseada na distribuição completa e não em uma amostra. Para uma distribuição simétrica com média zero, a população MAD é o 75º percentil da distribuição.

Ao contrário da variância , que pode ser infinita ou indefinida, a população MAD é sempre um número finito. Por exemplo, a distribuição de Cauchy padrão tem variância indefinida, mas seu MAD é 1.

A primeira menção conhecida do conceito de MAD ocorreu em 1816, em um artigo de Carl Friedrich Gauss sobre a determinação da precisão de observações numéricas.

Veja também

Notas

Referências