Desvio médio absoluto - Median absolute deviation
Em estatística , o desvio absoluto mediano ( MAD ) é uma medida robusta da variabilidade de uma amostra univariada de dados quantitativos . Também pode se referir ao parâmetro populacional que é estimado pelo MAD calculado a partir de uma amostra.
Para um conjunto de dados univariado X 1 , X 2 , ..., X n , o MAD é definido como a mediana dos desvios absolutos da mediana dos dados :
ou seja, começando com os resíduos (desvios) da mediana dos dados, o MAD é a mediana de seus valores absolutos .
Exemplo
Considere os dados (1, 1, 2, 2 , 4, 6, 9). Tem um valor mediano de 2. Os desvios absolutos sobre 2 são (1, 1, 0, 0, 2, 4, 7) que por sua vez têm um valor mediano de 1 (porque os desvios absolutos classificados são (0, 0, 1, 1 , 2, 4, 7)). Portanto, o desvio absoluto mediano para esses dados é 1.
Usos
O desvio absoluto mediano é uma medida de dispersão estatística . Além disso, o MAD é uma estatística robusta , sendo mais resiliente a outliers em um conjunto de dados do que o desvio padrão . No desvio padrão, as distâncias da média são quadradas, então grandes desvios são ponderados com mais peso e, portanto, outliers podem influenciá-lo fortemente. No MAD, os desvios de um pequeno número de outliers são irrelevantes.
Como o MAD é um estimador de escala mais robusto do que a variância ou desvio padrão da amostra , ele funciona melhor com distribuições sem uma média ou variância, como a distribuição de Cauchy .
Relação com o desvio padrão
O MAD pode ser usado da mesma forma que se usaria o desvio para a média. A fim de usar o MAD como um estimador consistente para a estimativa do desvio padrão , toma-se
onde é um fator de escala constante , que depende da distribuição.
Para dados normalmente distribuídos são considerados
isto é, o recíproco da função de quantil (também conhecido como o inverso da função de distribuição cumulativa ) para a distribuição normal padrão . O argumento 3/4 é tal que cobre 50% (entre 1/4 e 3/4) da função de distribuição cumulativa normal padrão , ou seja,
Portanto, devemos ter isso
Percebendo que
nós temos isso , a partir do qual obtemos o fator de escala .
Outra forma de estabelecer a relação é observar que MAD é igual à mediana da distribuição semianormal:
Este formulário é usado, por exemplo, no erro provável .
Desvio absoluto da mediana geométrica
Da mesma forma que a mediana generaliza para a mediana geométrica em dados multivariados, um MAD geométrico pode ser construído que generaliza o MAD. Dado um conjunto bidimensional emparelhado de dados (X 1 , Y 1 ), (X 2 , Y 2 ), ..., (X n , Y n ) e uma mediana geométrica adequadamente calculada , o desvio absoluto da mediana geométrica é dado por :
Isso dá o resultado idêntico ao MAD univariado em 1 dimensão e se estende facilmente para dimensões superiores. No caso de valores complexos ( X + i Y ), a relação de MAD com o desvio padrão é inalterada para dados normalmente distribuídos.
A população MAD
A população MAD é definida analogamente à amostra MAD, mas é baseada na distribuição completa e não em uma amostra. Para uma distribuição simétrica com média zero, a população MAD é o 75º percentil da distribuição.
Ao contrário da variância , que pode ser infinita ou indefinida, a população MAD é sempre um número finito. Por exemplo, a distribuição de Cauchy padrão tem variância indefinida, mas seu MAD é 1.
A primeira menção conhecida do conceito de MAD ocorreu em 1816, em um artigo de Carl Friedrich Gauss sobre a determinação da precisão de observações numéricas.
Veja também
- Desvio (estatísticas)
- Intervalo interquartil
- Erro provável
- Medidas robustas de escala
- Diferença absoluta média relativa
- Desvio médio absoluto
- Desvios mínimos absolutos
Notas
Referências
- Hoaglin, David C .; Frederick Mosteller; John W. Tukey (1983). Noções básicas sobre análise de dados robusta e exploratória . John Wiley & Sons. pp. 404-414. ISBN 978-0-471-09777-8.
- Russell, Roberta S .; Bernard W. Taylor III (2006). Gestão de operações . John Wiley & Sons. pp. 497–498 . ISBN 978-0-471-69209-6.
- Venables, WN; BD Ripley (1999). Estatísticas Aplicadas Modernas com S-PLUS . Springer. p. 128. ISBN 978-0-387-98825-2.