Desvio médio absoluto - Median absolute deviation

Em estatística , o desvio absoluto mediano ( MAD ) é uma medida robusta da variabilidade de uma amostra univariada de dados quantitativos . Também pode se referir ao parâmetro populacional que é estimado pelo MAD calculado a partir de uma amostra.

Para um conjunto de dados univariado X ₁ , X ₂ , ..., X _n , o MAD é definido como a mediana dos desvios absolutos da mediana dos dados : ${\ displaystyle {\ tilde {X}} = \ operatorname {median} (X)}$

{\ displaystyle \ operatorname {MAD} = \ operatorname {median} (| X_ {i} - {\ tilde {X}} |)}

ou seja, começando com os resíduos (desvios) da mediana dos dados, o MAD é a mediana de seus valores absolutos .

Exemplo

Considere os dados (1, 1, 2, 2 , 4, 6, 9). Tem um valor mediano de 2. Os desvios absolutos sobre 2 são (1, 1, 0, 0, 2, 4, 7) que por sua vez têm um valor mediano de 1 (porque os desvios absolutos classificados são (0, 0, 1, 1 , 2, 4, 7)). Portanto, o desvio absoluto mediano para esses dados é 1.

Usos

O desvio absoluto mediano é uma medida de dispersão estatística . Além disso, o MAD é uma estatística robusta , sendo mais resiliente a outliers em um conjunto de dados do que o desvio padrão . No desvio padrão, as distâncias da média são quadradas, então grandes desvios são ponderados com mais peso e, portanto, outliers podem influenciá-lo fortemente. No MAD, os desvios de um pequeno número de outliers são irrelevantes.

Como o MAD é um estimador de escala mais robusto do que a variância ou desvio padrão da amostra , ele funciona melhor com distribuições sem uma média ou variância, como a distribuição de Cauchy .

Relação com o desvio padrão

O MAD pode ser usado da mesma forma que se usaria o desvio para a média. A fim de usar o MAD como um estimador consistente para a estimativa do desvio padrão , toma-se ${\ displaystyle \ sigma}$

{\ displaystyle {\ hat {\ sigma}} = k \ cdot \ operatorname {MAD},}

onde é um fator de escala constante , que depende da distribuição. ${\ displaystyle k}$

Para dados normalmente distribuídos são considerados ${\ displaystyle k}$

{\ displaystyle k = 1 / \ left (\ Phi ^ {- 1} (3/4) \ right) \ approx 1,4826,}

isto é, o recíproco da função de quantil (também conhecido como o inverso da função de distribuição cumulativa ) para a distribuição normal padrão . O argumento 3/4 é tal que cobre 50% (entre 1/4 e 3/4) da função de distribuição cumulativa normal padrão , ou seja, ${\ displaystyle \ Phi ^ {- 1}}$ ${\ displaystyle Z = (X- \ mu) / \ sigma}$ ${\ displaystyle \ pm \ operatorname {MAD}}$

{\ displaystyle {\ frac {1} {2}} = P (| X- \ mu | \ leq \ operatorname {MAD}) = P \ left (\ left | {\ frac {X- \ mu} {\ sigma }} \ right | \ leq {\ frac {\ operatorname {MAD}} {\ sigma}} \ right) = P \ left (| Z | \ leq {\ frac {\ operatorname {MAD}} {\ sigma}} \direito).}

Portanto, devemos ter isso

{\ displaystyle \ Phi \ left (\ operatorname {MAD} / \ sigma \ right) - \ Phi \ left (- \ operatorname {MAD} / \ sigma \ right) = 1/2.}

Percebendo que

{\ displaystyle \ Phi \ left (- \ operatorname {MAD} / \ sigma \ right) = 1- \ Phi \ left (\ operatorname {MAD} / \ sigma \ right),}

nós temos isso , a partir do qual obtemos o fator de escala . ${\ displaystyle \ operatorname {MAD} / \ sigma = \ Phi ^ {- 1} (3/4) = 0,67449}$ ${\ displaystyle k = 1 / \ Phi ^ {- 1} (3/4) = 1,4826}$

Outra forma de estabelecer a relação é observar que MAD é igual à mediana da distribuição semianormal:

{\ displaystyle \ operatorname {MAD} = \ sigma {\ sqrt {2}} \ operatorname {erf} ^ {- 1} (1/2) \ approx 0,67449 \ sigma.}

Este formulário é usado, por exemplo, no erro provável .

Desvio absoluto da mediana geométrica

Da mesma forma que a mediana generaliza para a mediana geométrica em dados multivariados, um MAD geométrico pode ser construído que generaliza o MAD. Dado um conjunto bidimensional emparelhado de dados (X ₁ , Y ₁), (X ₂ , Y ₂ ), ..., (X _n , Y _n ) e uma mediana geométrica adequadamente calculada , o desvio absoluto da mediana geométrica é dado por : ${\ displaystyle ({\ tilde {X}}, {\ tilde {Y}})}$

${\ displaystyle \ operatorname {MAD} = {\ Bigl (} \ operatorname {median} (| X_ {i} - {\ tilde {X}} |) ^ {2} + \ operatorname {median} (| Y_ {i } - {\ tilde {Y}} |) ^ {2} {\ Bigr)} ^ {1/2}}$

Isso dá o resultado idêntico ao MAD univariado em 1 dimensão e se estende facilmente para dimensões superiores. No caso de valores complexos ( X + i Y ), a relação de MAD com o desvio padrão é inalterada para dados normalmente distribuídos.

A população MAD

A população MAD é definida analogamente à amostra MAD, mas é baseada na distribuição completa e não em uma amostra. Para uma distribuição simétrica com média zero, a população MAD é o 75º percentil da distribuição.

Ao contrário da variância , que pode ser infinita ou indefinida, a população MAD é sempre um número finito. Por exemplo, a distribuição de Cauchy padrão tem variância indefinida, mas seu MAD é 1.

A primeira menção conhecida do conceito de MAD ocorreu em 1816, em um artigo de Carl Friedrich Gauss sobre a determinação da precisão de observações numéricas.

Veja também

Notas

Referências

Hoaglin, David C .; Frederick Mosteller; John W. Tukey (1983). Noções básicas sobre análise de dados robusta e exploratória . John Wiley & Sons. pp. 404-414. ISBN 978-0-471-09777-8.
Russell, Roberta S .; Bernard W. Taylor III (2006). Gestão de operações . John Wiley & Sons. pp. 497–498 . ISBN 978-0-471-69209-6.
Venables, WN; BD Ripley (1999). Estatísticas Aplicadas Modernas com S-PLUS . Springer. p. 128. ISBN 978-0-387-98825-2.

Languages

In other projects