Variação qualitativa - Qualitative variation

Um índice de variação qualitativa ( IQV ) é uma medida de dispersão estatística em distribuições nominais . Há uma variedade deles, mas eles foram relativamente pouco estudados na literatura estatística. O mais simples é a razão de variação , enquanto os índices mais complexos incluem a entropia da informação .

Propriedades

Existem vários tipos de índices usados ​​para a análise de dados nominais. Vários são estatísticas padrão que são usadas em outro lugar - intervalo , desvio padrão , variância , desvio médio , coeficiente de variação , desvio absoluto mediano , intervalo interquartil e desvio quartil .

Além dessas, várias estatísticas foram desenvolvidas com dados nominais em mente. Um número foi resumido e desenvolvido por Wilcox ( Wilcox 1967 ), ( Wilcox 1973 ), que requer que as seguintes propriedades de padronização sejam satisfeitas:

  • A variação varia entre 0 e 1.
  • A variação é 0 se e somente se todos os casos pertencerem a uma única categoria.
  • A variação é 1 se e somente se os casos forem divididos uniformemente em todas as categorias.

Em particular, o valor desses índices padronizados não depende do número de categorias ou do número de amostras.

Para qualquer índice, quanto mais próxima de uniformizar a distribuição, maior será a variância e, quanto maiores as diferenças nas frequências entre as categorias, menor será a variância.

Os índices de variação qualitativa são então análogos à entropia da informação , que é minimizada quando todos os casos pertencem a uma única categoria e maximizada em uma distribuição uniforme. Na verdade, a entropia da informação pode ser usada como um índice de variação qualitativa.

Uma caracterização de um determinado índice de variação qualitativa (IQV) é como uma razão entre as diferenças observadas e as diferenças máximas.

Índices de Wilcox

Wilcox fornece uma série de fórmulas para vários índices de QV ( Wilcox 1973 ), o primeiro, que ele designa DM para "Desvio do Modo", é uma forma padronizada da razão de variação e é análogo à variância como desvio da média .

ModVR

A fórmula para a variação em torno do modo (ModVR) é derivada da seguinte forma:

onde f m é a frequência modal, K é o número de categorias e f i é a frequência do i ésimo grupo.

Isso pode ser simplificado para

onde N é o tamanho total da amostra.

O índice de Freeman (ou razão de variação) é

Isso está relacionado a M da seguinte forma:

O ModVR é definido como

onde v é o índice de Freeman.

Valores baixos de ModVR correspondem a pequenas quantidades de variação e valores altos a grandes quantidades de variação.

Quando K é grande, ModVR é aproximadamente igual ao índice v de Freeman  .

RanVR

Isso se baseia no intervalo em torno do modo. Está definido para ser

onde f m é a frequência modal ef l é a frequência mais baixa.

AvDev

Este é um análogo do desvio médio. É definido como a média aritmética das diferenças absolutas de cada valor em relação à média.

MNDif

Este é um análogo da diferença média - a média das diferenças de todos os pares possíveis de valores variáveis, obtidos independentemente do sinal. A diferença média difere da média e do desvio padrão porque depende da distribuição dos valores das variáveis ​​entre si e não dos desvios de algum valor central.

onde f i e f j são as frequências i ésima e j ésimas, respectivamente.

O MNDif é o coeficiente de Gini aplicado a dados qualitativos.

VarNC

Este é um análogo da variação.

É o mesmo índice do Índice de Variação Qualitativa de Mueller e Schussler e do índice M2 de Gibbs .

É distribuído como uma variável qui-quadrada com K  - 1 grau de liberdade .

StDev

Wilson sugeriu duas versões dessa estatística.

O primeiro é baseado no AvDev.

O segundo é baseado em MNDif

HRel

Este índice foi originalmente desenvolvido por Claude Shannon para uso na especificação das propriedades dos canais de comunicação.

onde p i = f i / N .

Isso é equivalente à entropia da informação dividida pelo e é útil para comparar a variação relativa entre tabelas de frequência de vários tamanhos.

Índice B

Wilcox adaptou uma proposta de Kaiser baseada na média geométrica e criou o índice B ' . O índice B é definido como

Pacotes R

Vários desses índices foram implementados na linguagem R.

Índices de Gibb e fórmulas relacionadas

Gibbs e Poston Jr (1975) propuseram seis índices.

M 1

O índice não padronizado ( M 1) ( Gibbs & Poston Jr 1975 , p. 471) é

onde K é o número de categorias e é a proporção de observações que se enquadram em uma determinada categoria i .

M 1 pode ser interpretado como um menos a probabilidade de que um par aleatório de amostras pertença à mesma categoria, portanto, esta fórmula para IQV é uma probabilidade padronizada de um par aleatório cair na mesma categoria. Este índice também é referido como índice de diferenciação, índice de diferenciação de sustento e índice de diferenciação geográfica, dependendo do contexto em que foi utilizado.

H 2

Um segundo índice é o M2 ( Gibbs & Poston Jr 1975 , p. 472) é:

onde K é o número de categorias e é a proporção de observações que se enquadram em uma determinada categoria i . O fator de é para padronização.

M1 e M2 podem ser interpretados em termos de variância de uma distribuição multinomial ( Swanson 1976 ) (aqui chamado de "modelo binomial expandido"). M 1 é a variância da distribuição multinomial e M 2 é a razão entre a variância da distribuição multinomial e a variância de uma distribuição binomial .

M 4

O índice M 4 é

onde m é a média.

M 6

A fórmula para M 6 é

· Onde K é o número de categorias, X i é o número de pontos de dados na i- ésima categoria, N é o número total de pontos de dados, || é o valor absoluto (módulo) e

Esta fórmula pode ser simplificada

onde p i é a proporção da amostra na i- ésima categoria.

Na prática, M1 e M6 tendem a ser altamente correlacionados, o que milita contra seu uso combinado.

Índices relacionados

A soma

também encontrou aplicação. Isso é conhecido como índice de Simpson em ecologia e como índice de Herfindahl ou índice de Herfindahl-Hirschman (HHI) em economia. Uma variante disso é conhecida como índice de Hunter-Gaston em microbiologia

Em linguística e criptanálise, essa soma é conhecida como taxa de repetição. A incidência de coincidência ( IC ) é um estimador imparcial desta estatística

onde f i é a contagem do i th grafema no texto e n é o número total de grafemas no texto.

M 1

A estatística M 1 definida acima foi proposta várias vezes em uma série de configurações diferentes sob uma variedade de nomes. Isso inclui o índice de mutabilidade de Gini, a medida de diversidade de Simpson, o índice de homogeneidade linguística de Bachi, o índice de variação qualitativa de Mueller e Schuessler, o índice de diversificação da indústria de Gibbs e Martin, o índice de Lieberson. e o índice de Blau em estudos de sociologia, psicologia e administração. A formulação de todos esses índices é idêntica.

D de Simpson é definido como

onde n é o tamanho total da amostra e n i é o número de itens na i- ésima categoria.

Para grande n temos

Outra estatística que foi proposta é o coeficiente de inalicabilidade, que varia entre 0 e 1.

onde n é o tamanho da amostra e c ( x , y ) = 1 se x e y são iguais e 0 caso contrário.

Para grande n temos

onde K é o número de categorias.

Outra estatística relacionada é a entropia quadrática

que está relacionado ao índice de Gini .

H 2

O índice monolíngue não ponderado de Greenberg de diversidade linguística é a estatística M 2 definida acima.

M 7

Outro índice - o M 7 - foi criado com base no índice M 4 de Gibbs & Poston Jr (1975)

Onde

e

onde K é o número de categorias, L é o número de subtipos, O ij e E ij são o número observado e esperado respectivamente do subtipo j na i- ésima categoria, n i é o número na i- ésima categoria e p j é a proporção do subtipo j na amostra completa.

Nota: Este índice foi desenhado para medir a participação das mulheres no local de trabalho: os dois subtipos para os quais foi desenvolvido eram masculino e feminino.

Outros índices de amostra única

Esses índices são estatísticas resumidas da variação dentro da amostra.

Índice de Berger-Parker

O índice de Berger-Parker é igual ao valor máximo no conjunto de dados, ou seja, a abundância proporcional do tipo mais abundante. Isso corresponde à média generalizada ponderada dos valores quando q se aproxima do infinito e, portanto, é igual ao inverso da verdadeira diversidade da ordem do infinito (1 / D ).

Índice Brillouin de diversidade

Este índice é estritamente aplicável apenas a populações inteiras, e não a amostras finitas. É definido como

onde N é o número total de indivíduos na população, n i é o número de indivíduos na i- ésima categoria e N ! é o factorial de N . O índice de uniformidade de Brillouin é definido como

onde I B (max) é o valor máximo de I B .

Números de diversidade de Hill

Hill sugeriu uma família de números de diversidade

Para determinados valores de a, vários dos outros índices podem ser calculados

  • a = 0: N a = riqueza de espécies
  • a = 1: N a = índice de Shannon
  • a = 2: N a = 1 / Índice de Simpson (sem a correção da pequena amostra)
  • a = 3: N a = 1 / índice de Berger-Parker

Hill também sugeriu uma família de medidas de uniformidade

onde a > b .

E 4 de Hill é

Hill's E 5 é

Índice de Margalef

onde S é o número de tipos de dados na amostra e N é o tamanho total da amostra.

Índice de Menhinick

onde S é o número de tipos de dados na amostra e N é o tamanho total da amostra.

Em linguística, este índice é idêntico ao índice de Kuraszkiewicz (índice de Guiard), onde S é o número de palavras distintas (tipos) e N é o número total de palavras (tokens) no texto que está sendo examinado. Este índice pode ser derivado como um caso especial da função Torquista Generalizado.

Estatística Q

Esta é uma estatística inventada por Kempton e Taylor. e envolve os quartis da amostra. É definido como

onde R 1 e R 1 são os quartis de 25% e 75% respectivamente na curva de espécies cumulativas, n j é o número de espécies na j ésima categoria, n Ri é o número de espécies na classe onde R i cai ( i = 1 ou 2).

Índice de Shannon-Wiener

Isso é tirado da teoria da informação

onde N é o número total na amostra e p i é a proporção na i ésima categoria.

Na ecologia, onde este índice é comumente usado, H geralmente fica entre 1,5 e 3,5 e apenas raramente excede 4,0.

Uma fórmula aproximada para o desvio padrão (SD) de H é

onde p i é a proporção formada pela i ésima categoria e N é o total da amostra.

Um valor aproximado mais preciso da variância de H (var ( H )) é dado por

onde N é o tamanho da amostra e K é o número de categorias.

Um índice relacionado é o Pielou J definido como

Uma dificuldade com esse índice é que S é desconhecido para uma amostra finita. Na prática, S é geralmente definido como o máximo presente em qualquer categoria da amostra.

Entropia Rényi

A entropia de Rényi é uma generalização da entropia de Shannon para outros valores de q que não a unidade. Pode ser expresso:

que é igual a

Isso significa que tomar o logaritmo da verdadeira diversidade com base em qualquer valor de q dá a entropia de Rényi correspondente ao mesmo valor de q .

O valor de também é conhecido como o número da colina.

D e E de McIntosh

onde N é o tamanho total da amostra e n i é o número na i ésima categoria.

onde K é o número de categorias.

Alfa de Fisher

Este foi o primeiro índice derivado de diversidade.

onde K é o número de categorias e N é o número de pontos de dados na amostra. O α de Fisher deve ser estimado numericamente a partir dos dados.

O número esperado de indivíduos na r th categoria em que as categorias foram colocados em tamanho crescente é

onde X é um parâmetro empírico situado entre 0 e 1. Embora X seja melhor estimado numericamente, um valor aproximado pode ser obtido resolvendo as duas equações a seguir

onde K é o número de categorias e N é o tamanho total da amostra.

A variância de α é de aproximadamente

Índice de Strong

Este índice ( D w ) é a distância entre a curva de Lorenz de distribuição das espécies e a linha de 45 graus. Ele está intimamente relacionado ao coeficiente de Gini.

Em símbolos é

onde max () é o valor máximo obtido sobre os N pontos de dados, K é o número de categorias (ou espécies) no conjunto de dados e c i é o total acumulado incluindo a i- ésima categoria.

Simpson's E

Isso está relacionado ao D de Simpson e é definido como

onde D é o D de Simpson e K é o número de categorias da amostra.

Índices Smith & Wilson

Smith e Wilson sugeriram vários índices baseados no D de Simpson .

onde D é o D de Simpson e K é o número de categorias.

Índice de Heip

onde H é a entropia de Shannon e K é o número de categorias.

Este índice está intimamente relacionado ao índice de Sheldon, que é

onde H é a entropia de Shannon e K é o número de categorias.

Índice de camargo

Esse índice foi criado pela Camargo em 1993.

onde K é o número de categorias e p i é a proporção na i ésima categoria.

B de Smith e Wilson

Este índice foi proposto por Smith e Wilson em 1996.

onde θ é a inclinação da curva log (abundância) -rank.

Índice de Nee, Harvey e Cotgreave

Esta é a inclinação da curva log (abundância) -rank.

Bulla's E

Existem duas versões deste índice - uma para distribuições contínuas ( E c ) e outra para discretas ( E d ).

Onde

é o índice Schoener-Czekanoski, K é o número de categorias e N é o tamanho da amostra.

Índice de teoria da informação de Horn

Este índice ( R ik ) é baseado na entropia de Shannon. É definido como

Onde

Nessas equações, x ij e x kj são o número de vezes que o j ésimo tipo de dados aparece na i ésima ou k ésima amostra, respectivamente.

Índice de rarefação

Em uma amostra rarefeita, uma subamostra aleatória n é escolhida do total de N itens. Nesta amostra, alguns grupos podem estar necessariamente ausentes desta subamostra. Let Ser o número de grupos ainda presentes na subamostra de n itens. é menor que K o número de categorias sempre que pelo menos um grupo está faltando nesta subamostra.

A curva de rarefacção , é definido como:

Note-se que 0 ≤ f ( n ) ≤ K .

Além disso,

Apesar de serem definidas em valores discretos de n , essas curvas são mais frequentemente exibidas como funções contínuas.

Este índice é discutido mais adiante em Rarefação (ecologia) .

V de Caswell

Esta é uma estatística do tipo z baseada na entropia de Shannon.

onde H é a entropia de Shannon, E ( H ) é a entropia de Shannon esperada para um modelo neutro de distribuição e SD ( H ) é o desvio padrão da entropia. O desvio padrão é estimado a partir da fórmula derivada de Pielou

onde p i é a proporção formada pela i ésima categoria e N é o total da amostra.

Índice de Lloyd & Ghelardi

Isto é

onde K é o número de categorias e K ' é o número de categorias de acordo com o modelo de bastão quebrado de MacArthur produzindo a diversidade observada.

Índice de distinção taxonômica média

Este índice é usado para comparar a relação entre os hospedeiros e seus parasitas. Ele incorpora informações sobre a relação filogenética entre as espécies hospedeiras.

onde s é o número de espécies hospedeiras utilizadas por um parasita e ω ij é a distinção entre espécies hospedeiras taxonómica i e j .

Índice de variação qualitativa

Vários índices com este nome foram propostos.

Um deles é

onde K é o número de categorias e p i é a proporção da amostra que se encontra na i- ésima categoria.

Theil's H

Este índice também é conhecido como índice de entropia multigrupo ou índice de teoria da informação. Foi proposto por Theil em 1972. O índice é uma média ponderada da entropia das amostras.

Deixar

e

onde p i é a proporção de tipo I no um po de amostra, r é o número total de amostras, n i é o tamanho do i th da amostra, N é o tamanho da população da qual foram obtidas as amostras e E é a entropia da população.

Índices para comparação de dois ou mais tipos de dados em uma única amostra

Vários desses índices foram desenvolvidos para documentar o grau em que diferentes tipos de dados de interesse podem coexistir dentro de uma área geográfica.

Índice de dissimilaridade

Sejam A e B dois tipos de item de dados. Então, o índice de dissimilaridade é

Onde

A i é o número do tipo de dados A no local da amostra i , B i é o número do tipo de dados B no local da amostra i , K é o número de locais da amostra e || é o valor absoluto.

Este índice é provavelmente mais conhecido como índice de dissimilaridade ( D ). Ele está intimamente relacionado ao índice de Gini.

Este índice é tendencioso, pois sua expectativa sob uma distribuição uniforme é> 0.

Uma modificação deste índice foi proposta por Gorard e Taylor. Seu índice (GT) é

Índice de segregação

O índice de segregação ( IS ) é

Onde

e K é o número de unidades, A i e t i é o número de tipo de dados A na unidade i e o número total de todos os tipos de dados na unidade i .

Índice de raiz quadrada de Hutchen

Este índice ( H ) é definido como

onde p i é a proporção da amostra composta pela i- ésima variável.

Índice de isolamento de Lieberson

Este índice ( L xy ) foi inventado por Lieberson em 1981.

onde X i e Y i são as variáveis ​​de interesse no i ésimo site, K é o número de sites examinados e X tot é o número total de variáveis ​​do tipo X no estudo.

Índice de Bell

Este índice é definido como

onde p x é a proporção da amostra composta por variáveis ​​do tipo X e

onde N x é o número total de variates do tipo X no estudo, K é o número de amostras no estudo e x i e p i são o número de variáveis e a proporção de variates de tipo X , respectivamente, na i th amostra .

Índice de isolamento

O índice de isolamento é

onde K é o número de unidades do estudo, A i e t i é o número de unidades do tipo A e o número de todas as unidades na i ésima amostra.

Um índice modificado de isolamento também foi proposto

O MII está entre 0 e 1.

Índice de segregação de Gorard

Este índice (GS) é definido como

Onde

e A i e t i são o número de itens de dados do tipo A e o número total de itens na i- ésima amostra.

Índice de exposição

Este índice é definido como

Onde

e A i e B i são o número dos tipos A e B na i- ésima categoria e t i é o número total de pontos de dados na i- ésima categoria.

Índice de Ochai

Esta é uma forma binária do índice cosseno. É usado para comparar dados de presença / ausência de dois tipos de dados (aqui A e B ). É definido como

em que uma é o número de unidades de amostragem, onde tanto A e B são encontrados, b é o número de unidades da amostra, onde A , mas não B ocorre e c é o número de unidades de amostragem cujo tipo B está presente mas não do tipo A .

Coeficiente de Kulczyński

Este coeficiente foi inventado por Stanisław Kulczyński em 1927 e é um índice de associação entre dois tipos (aqui A e B ). Ele varia em valor entre 0 e 1. É definido como

onde a é o número de unidades de amostra onde o tipo A e o tipo B estão presentes, b é o número de unidades de amostra onde o tipo A, mas não o tipo B está presente e c é o número de unidades de amostra onde o tipo B está presente, mas não o tipo A .

Q de Yule

Este índice foi inventado por Yule em 1900. Diz respeito à associação de dois tipos diferentes (aqui A e B ). É definido como

onde a é o número de amostras onde os tipos A e B estão presentes, b é onde o tipo A está presente, mas não o tipo B , c é o número de amostras onde o tipo B está presente, mas não o tipo A e d é a contagem de amostra onde nem o tipo A nem o tipo B estão presentes. Q varia em valor entre -1 e +1. No caso ordinal, Q é conhecido como Goodman-Kruskal γ .

Como o denominador pode ser potencialmente zero, Leinhert e Sporer recomendaram adicionar +1 a a , b , c e d .

Yule

Este índice é definido como

onde a é o número de amostras onde os tipos A e B estão presentes, b é onde o tipo A está presente, mas não o tipo B , c é o número de amostras onde o tipo B está presente, mas não o tipo A e d é a contagem de amostra onde nem o tipo A nem o tipo B estão presentes.

Coeficiente de Baroni – Urbani – Buser

Este índice foi inventado por Baroni-Urbani e Buser em 1976. Seu valor varia entre 0 e 1. É definido como

onde a é o número de amostras onde os tipos A e B estão presentes, b é onde o tipo A está presente, mas não o tipo B , c é o número de amostras onde o tipo B está presente, mas não o tipo A e d é a contagem de amostra onde nem o tipo A nem o tipo B estão presentes. N é o tamanho da amostra.

Quando d = 0, este índice é idêntico ao índice de Jaccard.

Coeficiente de Hamman

Este coeficiente é definido como

onde a é o número de amostras onde os tipos A e B estão presentes, b é onde o tipo A está presente, mas não o tipo B , c é o número de amostras onde o tipo B está presente, mas não o tipo A e d é a contagem de amostra onde nem o tipo A nem o tipo B estão presentes. N é o tamanho da amostra.

Coeficiente de Rogers-Tanimoto

Este coeficiente é definido como

onde a é o número de amostras onde os tipos A e B estão presentes, b é onde o tipo A está presente, mas não o tipo B , c é o número de amostras onde o tipo B está presente, mas não o tipo A e d é a contagem de amostra onde nem o tipo A nem o tipo B estão presentes. N é o tamanho da amostra

Coeficiente de Sokal-Sneath

Este coeficiente é definido como

onde a é o número de amostras onde os tipos A e B estão presentes, b é onde o tipo A está presente, mas não o tipo B , c é o número de amostras onde o tipo B está presente, mas não o tipo A e d é a contagem de amostra onde nem o tipo A nem o tipo B estão presentes. N é o tamanho da amostra.

Distância binária de Sokal

Este coeficiente é definido como

onde a é o número de amostras onde os tipos A e B estão presentes, b é onde o tipo A está presente, mas não o tipo B , c é o número de amostras onde o tipo B está presente, mas não o tipo A e d é a contagem de amostra onde nem o tipo A nem o tipo B estão presentes. N é o tamanho da amostra.

Coeficiente Russel-Rao

Este coeficiente é definido como

onde a é o número de amostras onde os tipos A e B estão presentes, b é onde o tipo A está presente, mas não o tipo B , c é o número de amostras onde o tipo B está presente, mas não o tipo A e d é a contagem de amostra onde nem o tipo A nem o tipo B estão presentes. N é o tamanho da amostra.

Coeficiente Phi

Este coeficiente é definido como

onde a é o número de amostras onde os tipos A e B estão presentes, b é onde o tipo A está presente, mas não o tipo B , c é o número de amostras onde o tipo B está presente, mas não o tipo A e d é a contagem de amostra onde nem o tipo A nem o tipo B estão presentes.

Coeficiente de Soergel

Este coeficiente é definido como

onde b é o número de amostras onde o tipo A está presente, mas não o tipo B , c é o número de amostras onde o tipo B está presente, mas não o tipo A e d é a contagem de amostra onde nem o tipo A nem o tipo B estão presentes. N é o tamanho da amostra.

Coeficiente de Simpson

Este coeficiente é definido como

em que b é o número de amostras onde tipo A está presente mas não do tipo B , c é o número de amostras onde tipo B está presente mas não do tipo A .

Coeficiente de Dennis

Este coeficiente é definido como

onde a é o número de amostras onde os tipos A e B estão presentes, b é onde o tipo A está presente, mas não o tipo B , c é o número de amostras onde o tipo B está presente, mas não o tipo A e d é a contagem de amostra onde nem o tipo A nem o tipo B estão presentes. N é o tamanho da amostra.

Coeficiente de Forbes

Este coeficiente foi proposto por Stephen Alfred Forbes em 1907. É definido como

onde a é o número de amostras onde os tipos A e B estão presentes, b é onde o tipo A está presente, mas não o tipo B , c é o número de amostras onde o tipo B está presente, mas não o tipo A e d é a contagem de amostra onde nem o tipo A nem o tipo B estão presentes. N é o tamanho da amostra ( N = a + b + c + d ).

Uma modificação deste coeficiente que não requer o conhecimento de d foi proposta por Alroy

Onde n = a + b + c .

Coeficiente de correspondência simples

Este coeficiente é definido como

onde a é o número de amostras onde os tipos A e B estão presentes, b é onde o tipo A está presente, mas não o tipo B , c é o número de amostras onde o tipo B está presente, mas não o tipo A e d é a contagem de amostra onde nem o tipo A nem o tipo B estão presentes. N é o tamanho da amostra.

Coeficiente de Fossum

Este coeficiente é definido como

onde a é o número de amostras onde os tipos A e B estão presentes, b é onde o tipo A está presente, mas não o tipo B , c é o número de amostras onde o tipo B está presente, mas não o tipo A e d é a contagem de amostra onde nem o tipo A nem o tipo B estão presentes. N é o tamanho da amostra.

Coeficiente de Stile

Este coeficiente é definido como

onde a é o número de amostras onde os tipos A e B estão presentes, b é onde o tipo A está presente, mas não o tipo B , c é o número de amostras onde o tipo B está presente, mas não o tipo A , d é a contagem de amostra onde nem o tipo A nem o tipo B estão presentes, n é igual a a + b + c + d e || é o módulo (valor absoluto) da diferença.

Coeficiente de Michael

Este coeficiente é definido como

onde a é o número de amostras onde os tipos A e B estão presentes, b é onde o tipo A está presente, mas não o tipo B , c é o número de amostras onde o tipo B está presente, mas não o tipo A e d é a contagem de amostra onde nem o tipo A nem o tipo B estão presentes.

Coeficiente de Peirce

Em 1884, Charles Peirce sugeriu o seguinte coeficiente

onde a é o número de amostras onde os tipos A e B estão presentes, b é onde o tipo A está presente, mas não o tipo B , c é o número de amostras onde o tipo B está presente, mas não o tipo A e d é a contagem de amostra onde nem o tipo A nem o tipo B estão presentes.

Coeficiente Hawkin-Dotson

Em 1975 Hawkin e Dotson propuseram o seguinte coeficiente

onde a é o número de amostras onde os tipos A e B estão presentes, b é onde o tipo A está presente, mas não o tipo B , c é o número de amostras onde o tipo B está presente, mas não o tipo A e d é a contagem de amostra onde nem o tipo A nem o tipo B estão presentes. N é o tamanho da amostra.

Coeficiente de Benini

Em 1901 Benini propôs o seguinte coeficiente

em que uma é o número de amostras em que os tipos A e B estão ambos presentes, b é onde tipo A está presente mas não do tipo B e C é o número de amostras onde tipo B está presente mas não do tipo A . Min ( b , c ) é o mínimo de b e c .

Coeficiente de Gilbert

Gilbert propôs o seguinte coeficiente

onde a é o número de amostras onde os tipos A e B estão presentes, b é onde o tipo A está presente, mas não o tipo B , c é o número de amostras onde o tipo B está presente, mas não o tipo A e d é a contagem de amostra onde nem o tipo A nem o tipo B estão presentes. N é o tamanho da amostra.

Índice de Gini

O índice Gini é

em que uma é o número de amostras em que os tipos A e B estão ambos presentes, b é onde tipo A está presente mas não do tipo B e C é o número de amostras onde tipo B está presente mas não do tipo A .

Índice Gini modificado

O índice Gini modificado é

em que uma é o número de amostras em que os tipos A e B estão ambos presentes, b é onde tipo A está presente mas não do tipo B e C é o número de amostras onde tipo B está presente mas não do tipo A .

Índice de Kuhn

Kuhn propôs o seguinte coeficiente em 1965

em que uma é o número de amostras em que os tipos A e B estão ambos presentes, b é onde tipo A está presente mas não do tipo B e C é o número de amostras onde tipo B está presente mas não do tipo A . K é um parâmetro de normalização. N é o tamanho da amostra.

Este índice também é conhecido como coeficiente de médias aritméticas.

Índice Eyraud

Eyraud propôs o seguinte coeficiente em 1936

onde a é o número de amostras onde os tipos A e B estão presentes, b é onde o tipo A está presente, mas não o tipo B , c é o número de amostras onde o tipo B está presente, mas não o tipo A e d é o número de amostras onde A e B não estão presentes.

Distância de Soergel

Isso é definido como

onde a é o número de amostras onde os tipos A e B estão presentes, b é onde o tipo A está presente, mas não o tipo B , c é o número de amostras onde o tipo B está presente, mas não o tipo A e d é o número de amostras onde A e B não estão presentes. N é o tamanho da amostra.

Índice de Tanimoto

Isso é definido como

onde a é o número de amostras onde os tipos A e B estão presentes, b é onde o tipo A está presente, mas não o tipo B , c é o número de amostras onde o tipo B está presente, mas não o tipo A e d é o número de amostras onde A e B não estão presentes. N é o tamanho da amostra.

Índice de Piatetsky – Shapiro

Isso é definido como

em que uma é o número de amostras em que os tipos A e B estão ambos presentes, b é onde tipo A está presente mas não do tipo B , c é o número de amostras onde tipo B está presente mas não do tipo A .

Índices para comparação entre duas ou mais amostras

Índice quantitativo de Czekanowski

Isso também é conhecido como índice de Bray-Curtis , índice de Schoener, índice de porcentagem menos comum, índice de afinidade ou similaridade proporcional. Está relacionado ao índice de similaridade de Sørensen .

onde x i e x j são o número de espécies nos locais i e j respectivamente e o mínimo é considerado o número de espécies em comum entre os dois locais.

Canberra metric

A distância de Canberra é uma versão ponderada da métrica L 1 . Foi introduzido por introduzido em 1966 e refinado em 1967 por GN Lance e WT Williams . É usado para definir uma distância entre dois vetores - aqui dois sites com K categorias dentro de cada site.

A distância de Canberra d entre os vetores p e q em um espaço vetorial real de dimensão K é

onde p i e q i são os valores do i th categoria dos dois vectores.

Coeficiente de comunidade de Sorensen

Isso é usado para medir semelhanças entre comunidades.

em que s 1 e s 2 são o número de espécies na comunidade 1 e 2, respectivamente, e c é o número de espécies comuns a ambas as áreas.

Índice de Jaccard

Esta é uma medida da similaridade entre duas amostras:

onde A é o número de pontos de dados compartilhados entre as duas amostras e B e C são os pontos de dados encontrados apenas na primeira e na segunda amostras, respectivamente.

Este índice foi inventado em 1902 pelo botânico suíço Paul Jaccard .

Sob uma distribuição aleatória, o valor esperado de J é

O erro padrão deste índice com a suposição de uma distribuição aleatória é

onde N é o tamanho total da amostra.

Índice de dados

Esta é uma medida da similaridade entre duas amostras:

onde A é o número de pontos de dados compartilhados entre as duas amostras e B e C são os pontos de dados encontrados apenas na primeira e na segunda amostras, respectivamente.

Coeficiente de correspondência

Esta é uma medida da similaridade entre duas amostras:

onde N é o número de pontos de dados nas duas amostras e B e C são os pontos de dados encontrados apenas na primeira e na segunda amostras, respectivamente.

Índice de Morisita

O índice de dispersão de Morisita ( I m ) é a probabilidade em escala de que dois pontos escolhidos ao acaso de toda a população estejam na mesma amostra. Valores mais altos indicam uma distribuição mais agregada.

Uma formulação alternativa é

onde n é o tamanho total da amostra, m é a média da amostra e x são os valores individuais com a soma de toda a amostra. Também é igual a

onde IMC é o índice de aglomeração de Lloyd.

Este índice é relativamente independente da densidade populacional, mas é afetado pelo tamanho da amostra.

Morisita mostrou que a estatística

é distribuído como uma variável qui-quadrada com n  - 1 grau de liberdade.

Um teste de significância alternativo para este índice foi desenvolvido para grandes amostras.

onde m é a média geral da amostra, n é o número de unidades da amostra ez é a abscissa da distribuição normal . A significância é testada comparando o valor de z com os valores da distribuição normal .

Índice de sobreposição de Morisita

O índice de sobreposição de Morisita é usado para comparar a sobreposição entre as amostras. O índice é baseado na suposição de que aumentar o tamanho das amostras aumentará a diversidade porque incluirá diferentes habitats

x i é o número de vezes que a espécie i é representada no total de X de uma amostra.
y i é o número de vezes que a espécie i é representada no Y total de outra amostra.
D x e D y são o índice de Simpson valores de x e y de amostras, respectivamente.
S é o número de espécies únicas

C D = 0 se as duas amostras não se sobrepõem em termos de espécies, e C D = 1 se as espécies ocorrem nas mesmas proporções em ambas as amostras.

Horn introduziu uma modificação do índice

Índice de Morisita padronizado

Smith-Gill desenvolveu uma estatística baseada no índice de Morisita que é independente do tamanho da amostra e da densidade populacional e limitada por -1 e +1. Esta estatística é calculada da seguinte maneira

Primeiro determine o índice de Morisita ( I d ) da maneira usual. Então, seja k o número de unidades das quais a população foi amostrada. Calcule os dois valores críticos

onde χ 2 é o valor do qui quadrado para n  - 1 graus de liberdade nos níveis de confiança de 97,5% e 2,5%.

O índice padronizado ( I p ) é então calculado a partir de uma das fórmulas abaixo

Quando I dM c > 1

Quando M c > I d ≥ 1

Quando 1> I dM u

Quando 1> M u > I d

I p varia entre +1 e −1 com intervalos de confiança de 95% de ± 0,5. I p tem o valor 0 se o padrão for aleatório; se o padrão é uniforme, I p <0 e se o padrão mostra agregação, I p > 0.

Índices de uniformidade de Peet

Esses índices são uma medida de uniformidade entre as amostras.

onde I é um índice de diversidade, I max e I min são os valores máximo e mínimo de I entre as amostras sendo comparadas.

Coeficiente de Loevinger

Loevinger sugeriu um coeficiente H definido como segue:

onde p max e p min são as proporções máximas e mínimas na amostra.

Índice Tversky

O índice de Tversky é uma medida assimétrica que fica entre 0 e 1.

Para as amostras A e B, o índice Tversky ( S ) é

Os valores de α e β são arbitrários. Definir α e β como 0,5 dá o coeficiente de Dice . Definir ambos como 1 fornece o coeficiente de Tanimoto .

Uma variante simétrica deste índice também foi proposta.

Onde

Vários índices semelhantes foram propostos.

Monostori et al. propôs o índice SymmetricSimilarity

onde d ( X ) é alguma medida de derivado de  X .

Bernstein e Zobel propuseram os índices S2 e S3

S3 é simplesmente duas vezes o índice SymmetricSimilarity. Ambos estão relacionados ao coeficiente de Dice

Métricas usadas

Uma série de métricas (distâncias entre amostras) foram propostas.

Distância euclidiana

Embora geralmente seja usado em trabalho quantitativo, também pode ser usado em trabalho qualitativo. Isso é definido como

onde d jk é a distância entre x ij e x ik .

Distância de Gower

Isso é definido como

onde d i é a distância entre as i ésimas amostras e w i é a pesagem dada à i ésima distância.

Distância de manhattan

Embora seja mais comumente usado no trabalho quantitativo, também pode ser usado no trabalho qualitativo. Isso é definido como

onde d jk é a distância entre x ij e x ik e || é o valor absoluto da diferença entre x ij e x ik .

Uma versão modificada da distância de Manhattan pode ser usada para encontrar um zero ( raiz ) de um polinômio de qualquer grau usando o método de Lill .

Distância de Prevosti

Isso está relacionado à distância de Manhattan. Foi descrito por Prevosti et al. e foi usado para comparar diferenças entre cromossomos . Sejam P e Q duas coleções de r distribuições de probabilidade finitas. Deixe que essas distribuições tenham valores que são divididos em k categorias. Então a distância D PQ é

onde r é o número de distribuições de probabilidade discretas em cada população, k j é o número de categorias nas distribuições P j e Q j e p ji (respectivamente q ji ) é a probabilidade teórica da categoria i na distribuição P j ( Q j ) na população P ( Q ).

Suas propriedades estatísticas foram examinadas por Sanchez et al. que recomendou um procedimento de bootstrap para estimar os intervalos de confiança ao testar as diferenças entre as amostras.

Outras métricas

Deixar

onde min ( x , y ) é o menor valor do par x e y .

Então

é a distância de Manhattan,

é a distância Bray-Curtis,

é a distância de Jaccard (ou Ruzicka) e

é a distância Kulczynski.

Semelhanças entre textos

HaCohen-Kerner et al. propuseram uma variedade de métricas para comparar dois ou mais textos.

Dados ordinais

Se as categorias forem pelo menos ordinais , vários outros índices podem ser calculados.

Leik's D

A medida de dispersão de Leik ( D ) é um desses índices. Haja K categorias e deixar p i ser f i / N onde f i é o número do i th categoria e deixar as categorias ser dispostas em ordem ascendente. Deixar

onde umaK . Seja d a = c a se c a ≤ 0,5 e 1 -  c a ≤ 0,5 caso contrário. Então

Medida Herfindahl normalizada

Este é o quadrado do coeficiente de variação dividido por N  - 1, onde N é o tamanho da amostra.

onde m é a média es é o desvio padrão.

Índice de potencial para conflito

O Índice de potencial para conflito (PCI) descreve a proporção de pontuação em cada lado do ponto central de uma escala de classificação. Este índice requer pelo menos dados ordinais. Essa proporção geralmente é exibida como um gráfico de bolha .

O PCI usa uma escala ordinal com um número ímpar de pontos de classificação (- n a + n ) centrado em 0. É calculado da seguinte forma

onde Z = 2 n , | · | é o valor absoluto (módulo), r + é o número de respostas no lado positivo da escala, r - é o número de respostas no lado negativo da escala, X + são as respostas no lado positivo da escala , X - são as respostas do lado negativo da escala e

Sabe-se da existência de dificuldades teóricas com o PCI. O PCI pode ser calculado apenas para escalas com um ponto central neutro e um número igual de opções de resposta em cada lado dele. Além disso, uma distribuição uniforme de respostas nem sempre produz o ponto médio da estatística PCI, mas varia com o número de respostas ou valores possíveis na escala. Por exemplo, escalas de cinco, sete e nove pontos com uma distribuição uniforme de respostas fornecem ICPs de 0,60, 0,57 e 0,50, respectivamente.

O primeiro desses problemas é relativamente menor, pois a maioria das escalas ordinais com um número par de respostas pode ser estendida (ou reduzida) por um único valor para fornecer um número ímpar de respostas possíveis. A escala geralmente pode ser recentrada, se necessário. O segundo problema é mais difícil de resolver e pode limitar a aplicabilidade do PCI.

O PCI foi estendido

onde K é o número de categorias, k i é o número na i ésima categoria, d ij é a distância entre a i ésima e i ésima categorias, e δ é a distância máxima na escala multiplicada pelo número de vezes que pode ocorrem na amostra. Para uma amostra com um número par de pontos de dados

e para uma amostra com um número ímpar de pontos de dados

onde N é o número de pontos de dados na amostra e d max é a distância máxima entre pontos na escala.

Vaske et al. sugerir uma série de medidas de distância possíveis para uso com este índice.

se os sinais (+ ou -) de r i e r j forem diferentes. Se os sinais forem iguais d ij = 0.

onde p é um número real arbitrário> 0.

se o sinal ( r i ) ≠ sinal ( r i ) e p for um número real> 0. Se os sinais forem iguais, então d ij = 0. m é D 1 , D 2 ou D 3 .

A diferença entre D 1 e D 2 é que o primeiro não inclui neutros na distância, enquanto o último inclui. Por exemplo, os respondentes com pontuação -2 e +1 teriam uma distância de 2 em D 1 e 3 em D 2 .

O uso de uma potência ( p ) nas distâncias permite o reescalonamento de respostas extremas. Essas diferenças podem ser destacadas com p > 1 ou diminuídas com p <1.

Em simulações com variáveis ​​retiradas de uma distribuição uniforme, o PCI 2 tem uma distribuição unimodal simétrica. As caudas de sua distribuição são maiores do que as de uma distribuição normal.

Vaske et al. sugerem o uso de um teste t para comparar os valores do ICP entre as amostras se os ICPs estiverem aproximadamente normalmente distribuídos.

A de van der Eijk

Esta medida é uma média ponderada do grau de concordância da distribuição de frequência. A varia de -1 ( bimodalidade perfeita ) a +1 ( unimodalidade perfeita ). É definido como

onde U é a unimodalidade da distribuição, S o número de categorias que possuem frequências diferentes de zero e K o número total de categorias.

O valor de U é 1 se a distribuição tiver qualquer uma das três características a seguir:

  • todas as respostas estão em uma única categoria
  • as respostas são distribuídas uniformemente entre todas as categorias
  • as respostas são distribuídas uniformemente entre duas ou mais categorias contíguas, com as outras categorias com nenhuma resposta

Com distribuições diferentes dessas, os dados devem ser divididos em 'camadas'. Dentro de uma camada, as respostas são iguais ou zero. As categorias não precisam ser contíguas. Um valor para A para cada camada ( A i ) é calculado e uma média ponderada para a distribuição é determinada. Os pesos ( w i ) para cada camada são o número de respostas nessa camada. Em símbolos

Uma distribuição uniforme tem A = 0: quando todas as respostas se enquadram em uma categoria A = +1.

Um problema teórico com esse índice é que ele assume que os intervalos são igualmente espaçados. Isso pode limitar sua aplicabilidade.

Estatísticas relacionadas

Problema de aniversario

Se houver n unidades na amostra e elas forem distribuídas aleatoriamente em k categorias ( nk ), isso pode ser considerado uma variante do problema do aniversário . A probabilidade ( p ) de todas as categorias tendo apenas uma unidade é

Se c é grande e n é pequeno em comparação com k 2/3, então, para uma boa aproximação

Esta aproximação segue a fórmula exata da seguinte forma:

Estimativas de tamanho da amostra

Para p = 0,5 ep = 0,05, respectivamente, as seguintes estimativas de n podem ser úteis

Essa análise pode ser estendida a várias categorias. Para p = 0,5 ep 0,05, temos respectivamente

onde c i é o tamanho da i ésima categoria. Esta análise assume que as categorias são independentes.

Se os dados são ordenados de alguma forma, então para pelo menos um evento ocorrendo em duas categorias dentro de j categorias uma da outra, que uma probabilidade de 0,5 ou 0,05 requer um tamanho de amostra ( n ) respectivamente de

onde k é o número de categorias.

Problema de aniversário-dia da morte

Se existe ou não uma relação entre aniversários e dias de morte foi investigado com a estatística

onde d é o número de dias no ano entre o aniversário e o dia da morte.

Índice de rand

O índice Rand é usado para testar se dois ou mais sistemas de classificação concordam em um conjunto de dados.

Dado um conjunto de elementos e duas partições de comparar, , uma partição de S em r subconjuntos, e , uma partição de S para S subconjuntos, definir o seguinte:

  • , o número de pares de elementos em que estão no mesmo subconjunto e no mesmo subconjunto em
  • , o número de pares de elementos em que estão em diferentes subconjuntos e em diferentes subconjuntos em
  • , o número de pares de elementos em que estão no mesmo subconjunto e em diferentes subconjuntos em
  • , o número de pares de elementos em que estão em diferentes subconjuntos e no mesmo subconjunto em

O índice Rand - - é definido como

Intuitivamente, pode ser considerado como o número de acordos entre e e como o número de desacordos entre e .

Índice Rand Ajustado

O índice Rand ajustado é a versão corrigida para o acaso do índice Rand. Embora o Índice Rand só possa produzir um valor entre 0 e +1, o índice Rand ajustado pode produzir valores negativos se o índice for menor do que o índice esperado.

A tabela de contingência

Dado um conjunto de elementos, e dois agrupamentos ou divisórias ( por exemplo, agrupamentos) destes pontos, a saber, e , a sobreposição entre e podem ser resumidos na tabela de contingência em que cada entrada indica o número de objectos em comum entre e  : .

X \ Y Somas
Somas

Definição

A forma ajustada do Índice Rand, o Índice Rand Ajustado, é

mais especificamente

onde estão os valores da tabela de contingência.

Como o denominador é o número total de pares, o índice de Rand representa a frequência de ocorrência de concordâncias sobre o total de pares, ou a probabilidade de que e concordem em um par escolhido aleatoriamente.

Avaliação de índices

Índices diferentes fornecem valores de variação diferentes e podem ser usados ​​para propósitos diferentes: vários são usados ​​e criticados especialmente na literatura sociológica.

Se alguém deseja simplesmente fazer comparações ordinais entre as amostras (uma amostra é mais ou menos variada do que outra), a escolha do IQV é relativamente menos importante, pois eles freqüentemente darão a mesma ordem.

Quando os dados são ordinais, um método que pode ser útil na comparação de amostras é o ORDANOVA .

Em alguns casos, é útil não padronizar um índice para ir de 0 a 1, independentemente do número de categorias ou amostras ( Wilcox 1973 , pp. 338), mas geralmente é padronizado assim.

Veja também

Notas

Referências

  • Swanson, David A. (setembro de 1976), "A Sampling Distribution and Significance Test for Differences in Qualitative Variation", Social Forces , 55 (1): 182-184, doi : 10.2307 / 2577102 , JSTOR  2577102
  • Wilcox, Allen R. (junho de 1973). "Índices de Variação Qualitativa e Medição Política". The Western Political Quarterly . 26 (2): 325–343. doi : 10.2307 / 446831 . JSTOR  446831 .