Lei de Zipf - Zipf's law

Lei de Zipf
Função de massa de probabilidade
Gráfico do Zipf PMF para N = 10
Zipf PMF para N = 10 em uma escala log – log. O eixo horizontal é o índice k  . (Observe que a função só é definida em valores inteiros de k . As linhas de conexão não indicam continuidade.)
Função de distribuição cumulativa
Gráfico do Zipf CDF para N = 10
Zipf CDF para N = 10. O eixo horizontal é o índice k  . (Observe que a função só é definida em valores inteiros de k . As linhas de conexão não indicam continuidade.)
Parâmetros ( real ) ( inteiro )
Apoio, suporte
PMF onde H N, S é o N ° generalizada número harmónico
CDF
Quer dizer
Modo
Variância
Entropia
MGF
CF

A lei de Zipf ( / z ɪ f / , não / t s ɪ p f / como em alemão) é uma lei empírica formulada usando estatísticas matemáticas que se refere ao fato de que, para muitos tipos de dados estudados nas ciências físicas e sociais , a classificação A distribuição de frequência é uma relação inversa. A distribuição Zipfian faz parte de uma família de distribuições discretas de probabilidade da lei de potência . Está relacionado à distribuição zeta , mas não é idêntico.

A lei de Zipf foi originalmente formulada em termos de linguística quantitativa , afirmando que dado algum corpus de enunciados em linguagem natural , a frequência de qualquer palavra é inversamente proporcional à sua classificação na tabela de frequência . Assim, a palavra mais frequente ocorrerá aproximadamente duas vezes mais que a segunda palavra mais frequente, três vezes mais que a terceira palavra mais frequente, etc. Por exemplo, no Brown Corpus do texto em inglês americano, a palavra " the " é o palavra que ocorre com mais frequência e por si só é responsável por quase 7% de todas as ocorrências de palavras (69.971 de um pouco mais de 1 milhão). Fiel à Lei de Zipf, a palavra em segundo lugar " de " responde por pouco mais de 3,5% das palavras (36.411 ocorrências), seguida por " e " (28.852). Apenas 135 itens de vocabulário são necessários para representar metade do Brown Corpus.

A lei leva o nome do lingüista americano George Kingsley Zipf (1902–1950), que a popularizou e procurou explicá-la (Zipf 1935,1949), embora ele não afirmasse tê-la originado. O estenógrafo francês Jean-Baptiste Estoup (1868–1950) parece ter notado a regularidade antes de Zipf. Também foi observado em 1913 pelo físico alemão Felix Auerbach (1856–1933).

A lei é semelhante em conceito, embora não idêntica na distribuição, à lei de Benford .

Outros conjuntos de dados

A mesma relação ocorre em muitas outras classificações de sistemas criados pelo homem, como as classificações de expressões matemáticas ou classificações de notas na música e até mesmo em ambientes não controlados, como as classificações populacionais de cidades em vários países, tamanhos de corporações, classificações de renda, classificações de número de pessoas assistindo ao mesmo canal de TV, transcriptomas de células e assim por diante. A aparência da distribuição em classificações de cidades por população foi notada pela primeira vez por Felix Auerbach em 1913. Empiricamente, um conjunto de dados pode ser testado para ver se a lei de Zipf se aplica, verificando a adequação de uma distribuição empírica à distribuição hipotética da lei de potência com um teste de Kolmogorov-Smirnov e, em seguida, comparando a razão de verossimilhança (log) da distribuição da lei de potência com distribuições alternativas como uma distribuição exponencial ou distribuição lognormal.

Quando a lei de Zipf é verificada para cidades, um melhor ajuste foi encontrado com o expoente s = 1,07; ou seja, o n -ésimo maior assentamento é o tamanho do maior assentamento, em outras palavras: como de acordo com a lei de Zipf.

Revisão teórica

A lei de Zipf é mais facilmente observada traçando os dados em um gráfico log-log , com os eixos sendo log (ordem de classificação) e log (frequência). Por exemplo, a palavra "o" (conforme descrito acima) apareceria em x = log (1), y = log (69971). Também é possível representar graficamente a classificação recíproca em relação à frequência ou a frequência recíproca ou o intervalo entre palavras em relação à classificação. Os dados estão em conformidade com a lei de Zipf na medida em que o gráfico é linear .

Formalmente, deixe:

  • N é o número de elementos;
  • k seja sua posição;
  • s é o valor do expoente que caracteriza a distribuição.

A lei de Zipf então prevê que, de uma população de N elementos, a frequência normalizada do elemento de classificação k , f ( k ; s , N ), é:

A lei de Zipf é válida se o número de elementos com uma determinada frequência for uma variável aleatória com distribuição da lei de potência

Alegou-se que esta representação da lei de Zipf é mais adequada para testes estatísticos e, dessa forma, foi analisada em mais de 30.000 textos em inglês. Os testes de adequação indicam que apenas cerca de 15% dos textos são estatisticamente compatíveis com esta forma da lei de Zipf. Pequenas variações na definição da lei de Zipf podem aumentar esse percentual até perto de 50%.

No exemplo da frequência de palavras da língua inglesa, N é o número de palavras da língua inglesa e, se usarmos a versão clássica da lei de Zipf, o expoente s é 1. f ( ks , N ) irá então, seja a fração de tempo em que a k- ésima palavra mais comum ocorre.

A lei também pode ser escrita:

onde H N, S é o N ° generalizada número harmónico .

O caso mais simples da lei de Zipf é um "1/f". Dado um conjunto de frequências distribuídas Zipfian, classificadas da mais comum para a menos comum, a segunda frequência mais comum ocorrerá com a metade da primeira, a terceira frequência mais comum ocorrerá 1/3tão frequentemente como o primeiro, e o n ° de frequência mais comum ocorrerá1/ntão frequentemente quanto o primeiro. No entanto, isso não pode ser exatamente válido, porque os itens devem ocorrer um número inteiro de vezes; não pode haver 2,5 ocorrências de uma palavra. No entanto, em intervalos bastante amplos, e com uma aproximação razoavelmente boa, muitos fenômenos naturais obedecem à lei de Zipf.

Em línguas humanas, as frequências de palavras têm uma distribuição de cauda muito pesada e, portanto, podem ser modeladas razoavelmente bem por uma distribuição Zipf com um s próximo de 1.

Desde que o expoente s exceda 1, é possível que tal lei seja válida com infinitas palavras, uma vez que se s  > 1, então

onde ζ é a função zeta de Riemann .

Explicação estatística

Um gráfico da classificação versus frequência para os primeiros 10 milhões de palavras em 30 Wikipédias (despejos de outubro de 2015) em uma escala log-log .

Embora a Lei de Zipf seja válida para todas as línguas, mesmo as não naturais como o Esperanto , a razão ainda não é bem compreendida. No entanto, isso pode ser parcialmente explicado pela análise estatística de textos gerados aleatoriamente. Wentian Li mostrou que em um documento em que cada caractere foi escolhido aleatoriamente a partir de uma distribuição uniforme de todas as letras (mais um caractere de espaço), as "palavras" com comprimentos diferentes seguem a macrotendência da lei de Zipf (a mais provável palavras são as mais curtas com igual probabilidade). Vitold Belevitch , em um artigo intitulado On the Statistical Laws of Linguistic Distribution , oferece uma derivação matemática. Ele pegou uma grande classe de distribuições estatísticas bem comportadas (não apenas a distribuição normal ) e as expressou em termos de classificação. Ele então expandiu cada expressão em uma série de Taylor . Em todos os casos, Belevitch obteve o resultado notável de que um truncamento de primeira ordem da série resultou na lei de Zipf. Além disso, um truncamento de segunda ordem da série de Taylor resultou na lei de Mandelbrot .

O princípio do mínimo esforço é outra explicação possível: o próprio Zipf propôs que nem os falantes nem os ouvintes usando uma determinada língua querem trabalhar mais do que o necessário para alcançar o entendimento, e o processo que resulta em distribuição aproximadamente igual do esforço leva à distribuição Zipf observada .

Da mesma forma, o apego preferencial (intuitivamente, "os ricos ficam mais ricos" ou "sucesso gera sucesso") que resulta na distribuição Yule-Simon mostrou se adequar à frequência de palavras versus classificação no idioma e população versus classificação da cidade melhor do que a lei de Zipf. Foi originalmente derivado para explicar população versus classificação em espécies por Yule e aplicado a cidades por Simon.

Explicação matemática

Os modelos Atlas são sistemas de processos de difusão de valor positivo trocáveis com parâmetros de deriva e variância que dependem apenas da classificação do processo. Foi demonstrado matematicamente que a lei de Zipf é válida para modelos Atlas que satisfazem certas condições naturais de regularidade. Os modelos de Atlas podem ser usados ​​para representar sistemas empíricos de dados multivariados dependentes do tempo, incluindo, por exemplo, a frequência das palavras em uma língua escrita, a população das cidades e o tamanho das empresas. Um modelo Atlas que representa um sistema empírico terá a mesma distribuição estacionária que o sistema empírico, portanto, se o modelo Atlas seguir a lei de Zipf, o sistema também seguirá a lei de Zipf. Como os modelos Atlas que satisfazem as condições de regularidade natural seguem a lei de Zipf, isso explica sua universalidade.

Na figura acima das 10 milhões de palavras da Wikipedia, os gráficos log-log não são precisamente linhas retas, mas curvas ligeiramente côncavas com uma tangente de inclinação -1 em algum ponto ao longo da curva. Essas distribuições são geralmente chamadas de distribuições quase Zipfianas , e a maioria dos sistemas de dados empíricos dependentes do tempo que supostamente seguem a lei de Zipf são, na verdade, quase Zipfianas. Os sistemas quase Zipfianos podem ser representados por modelos quase Atlas , e os modelos quase Atlas são passíveis de tratamento matemático semelhante ao da lei de Zipf.

Leis relacionadas

Um gráfico de frequência de palavras na Wikipedia (27 de novembro de 2006). O gráfico está em coordenadas log-log . x   é a classificação de uma palavra na tabela de frequência; y   é o número total de ocorrências da palavra. As palavras mais populares são "o", "de" e "e", como esperado. A lei de Zipf corresponde à parte linear intermediária da curva, seguindo aproximadamente a linha verde (1 / x ), enquanto a parte inicial está mais próxima da linha magenta (1 / x 0,5 ), enquanto a parte posterior está mais próxima do ciano (1 / ( k  +  x ) 2.0 ) linha. Essas linhas correspondem a três parametrizações distintas da distribuição Zipf-Mandelbrot, no geral uma lei de potência quebrada com três segmentos: cabeça, meio e cauda.

A lei de Zipf de fato se refere mais genericamente a distribuições de frequência de "dados de classificação", em que a frequência relativa do n -ésimo item classificado é dada pela distribuição zeta , 1 / ( n s ζ ( s )), onde o parâmetro s  > 1 indexa os membros desta família de distribuições de probabilidade . Na verdade, a lei de Zipf às vezes é sinônimo de "distribuição zeta", uma vez que as distribuições de probabilidade às vezes são chamadas de "leis". Essa distribuição às vezes é chamada de distribuição Zipfian .

Uma generalização da lei de Zipf é a lei Zipf – Mandelbrot , proposta por Benoit Mandelbrot , cujas frequências são:

A "constante" é o recíproco da função zeta de Hurwitz avaliada em s . Na prática, tão facilmente observável em gráficos de distribuição para grandes corpora, a distribuição observada pode ser modelada com mais precisão como uma soma de distribuições separadas para diferentes subconjuntos ou subtipos de palavras que seguem diferentes parametrizações da distribuição Zipf-Mandelbrot, em particular a classe fechada de palavras funcionais exibem s inferiores a 1, enquanto o crescimento do vocabulário aberto com o tamanho do documento e o tamanho do corpus requerem s superiores a 1 para convergência da Série Harmônica Generalizada .

As distribuições zipfianas podem ser obtidas a partir das distribuições de Pareto por uma troca de variáveis.

A distribuição Zipf é às vezes chamada de distribuição discreta de Pareto porque é análoga à distribuição contínua de Pareto da mesma forma que a distribuição uniforme discreta é análoga à distribuição uniforme contínua .

As frequências da cauda da distribuição Yule-Simon são aproximadamente

para qualquer escolha de ρ > 0.

Na distribuição fractal parabólica , o logaritmo da frequência é um polinômio quadrático do logaritmo da classificação. Isso pode melhorar significativamente o ajuste em relação a uma relação simples de lei de poder. Assim como a dimensão fractal, é possível calcular a dimensão Zipf, que é um parâmetro útil na análise de textos.

Tem sido argumentado que a lei de Benford é um caso especial limitado da lei de Zipf, com a conexão entre essas duas leis sendo explicada por ambas originando-se de relações funcionais invariáveis ​​de escala da física estatística e fenômenos críticos. As razões de probabilidades na lei de Benford não são constantes. Os dígitos iniciais dos dados que satisfazem a lei de Zipf com s = 1 satisfazem a lei de Benford.

Lei de Benford:
1 0,30103000
2 0,17609126 -0,7735840
3 0,12493874 -0,8463832
4 0,09691001 -0,8830605
5 0,07918125 -0,9054412
6 0,06694679 -0,9205788
7 0,05799195 -0,9315169
8 0,05115252 -0,9397966
9 0,04575749 -0,9462848

Formulários

Na teoria da informação , um símbolo (evento, sinal) de probabilidade contém bits de informação. Conseqüentemente, a lei de Zipf para números naturais: é equivalente a número contendo bits de informação. Para adicionar informações de um símbolo de probabilidade a informações já armazenadas em um número natural , devemos ir para tal que , ou de forma equivalente . Por exemplo, no sistema binário padrão, teríamos o que é ótimo para distribuição de probabilidade. Usar regra para uma distribuição de probabilidade geral é a base da família de sistemas numéricos assimétricos de métodos de codificação de entropia usados ​​na compressão de dados , cuja distribuição de estado também é governada pela lei de Zipf.

A lei de Zipf foi usada para extração de fragmentos paralelos de textos de corpora comparáveis. A lei de Zipf também foi usada por Laurance Doyle e outros no Instituto SETI como parte da busca por inteligência extraterrestre .

Veja também

Referências

Leitura adicional

Primário:

  • George K. Zipf (1949) Human Behavior and the Principle of Least Effort . Addison-Wesley. "Texto online [1] "
  • George K. Zipf (1935) The Psychobiology of Language . Houghton-Mifflin.

Secundário:

links externos