Distribuição de tamanho de classificação - Rank–size distribution

A distribuição de tamanho da população dos países segue uma distribuição exponencial esticada, exceto nos casos dos dois " Reis ": China e Índia .

A distribuição de tamanho de posto é a distribuição de tamanho por posto, em ordem decrescente de tamanho. Por exemplo, se um conjunto de dados consiste em itens de tamanhos 5, 100, 5 e 8, a distribuição do tamanho da classificação é 100, 8, 5, 5 (classificações de 1 a 4). Isso também é conhecido como distribuição de classificação de frequência , quando os dados de origem são de uma distribuição de frequência . Eles são particularmente interessantes quando os dados variam significativamente em escala, como o tamanho da cidade ou a frequência das palavras. Essas distribuições frequentemente seguem uma distribuição de lei de potência , ou menos conhecidas, como uma função exponencial esticada ou distribuição fractal parabólica , pelo menos aproximadamente para certas faixas de classificação; Veja abaixo.

Uma distribuição de tamanho de classificação não é uma distribuição de probabilidade ou função de distribuição cumulativa . Em vez disso, é uma forma discreta de uma função de quantil (distribuição cumulativa inversa) em ordem reversa, fornecendo o tamanho do elemento em uma determinada classificação.

Distribuições simples de tamanho de classificação

No caso de populações urbanas, a distribuição resultante em um país, região ou mundo será caracterizada por sua maior cidade, com as demais cidades diminuindo em relação a ela, inicialmente de forma rápida e depois mais lentamente. Isso resulta em algumas poucas cidades grandes e um número muito maior de cidades, ordens de magnitude menores. Por exemplo, uma cidade de nível 3 teria um terço da população da maior cidade de um país, uma cidade de nível 4 teria um quarto da população da maior cidade e assim por diante.

Quando qualquer fator log-linear é classificado, as classificações seguem os números de Lucas , que consistem nos números sequencialmente aditivos 1, 3, 4, 7, 11, 18, 29, 47, 76, 123, 199, etc. famosa sequência de Fibonacci , cada número é aproximadamente 1,618 (a proporção áurea ) vezes o número anterior. Por exemplo, o terceiro termo na sequência acima, 4, é aproximadamente 1,618 3 ou 4,236; o quarto termo, 7, é aproximadamente 1,618 4 , ou 6,854; o oitavo mandato, 47, é aproximadamente 1,618 8 , ou 46,979. Com valores mais altos, os números convergem. Uma espiral equiangular é às vezes usada para visualizar essas sequências.

Segmentação

Gráfico de frequência de palavras da Wikipedia, mostrando três segmentos com comportamento distinto.

Uma distribuição de tamanho de classificação (ou frequência de classificação) é freqüentemente segmentada em intervalos. Isso é frequentemente feito de forma um tanto arbitrária ou devido a fatores externos, particularmente para segmentação de mercado , mas também pode ser devido a um comportamento distinto conforme a classificação varia.

Mais simples e comumente, uma distribuição pode ser dividida em duas partes, denominadas cabeça e cauda . Se uma distribuição é quebrada em três partes, a terceira parte (do meio) tem vários termos, genericamente meio , também barriga , tronco e corpo . Estes freqüentemente têm alguns adjetivos acrescentou, mais significativamente cauda longa , também a gordura da barriga , meio robusto , etc. Em termos mais tradicionais, estes podem ser chamados de primeira linha , mid-tier , e bottom-tier .

Os tamanhos e pesos relativos desses segmentos (quantas classificações em cada segmento e que proporção da população total está em um determinado segmento) caracterizam qualitativamente uma distribuição, analogamente à assimetria ou curtose de uma distribuição de probabilidade. A saber: é dominado por alguns membros importantes (pesado, como lucros na indústria da música gravada), ou é dominado por muitos membros pequenos (pesado na cauda, ​​como consultas de pesquisa na Internet), ou distribuído de alguma outra forma? Praticamente, isso determina a estratégia: onde deve ser focada a atenção?

Essas distinções podem ser feitas por várias razões. Por exemplo, eles podem surgir de diferentes propriedades da população, como no princípio 90-9-1 , que postula que em uma comunidade da Internet, 90% dos participantes de uma comunidade apenas visualizam o conteúdo, 9% dos participantes editam o conteúdo e 1% dos participantes criam ativamente novos conteúdos. Como outro exemplo, em marketing, pode-se considerar pragmaticamente o chefe como todos os membros que recebem atenção personalizada, como ligações pessoais; enquanto a cauda é tudo o mais, que não recebe atenção personalizada, por exemplo, recebendo cartas-padrão ; e a linha é simplesmente definida em um ponto que os recursos permitem ou onde faz sentido para os negócios parar.

Puramente quantitativamente, uma maneira convencional de dividir uma distribuição em cabeça e cauda é considerar a cabeça como a primeira p porção das classificações, que representam a população geral, como no princípio de Pareto 80:20 , onde os 20% superiores (cabeça) compreende 80% da população total. O corte exato depende da distribuição - cada distribuição tem um único ponto de corte - e para as leis de potência pode ser calculado a partir do índice de Pareto .

Os segmentos podem surgir naturalmente devido a mudanças reais no comportamento da distribuição conforme a classificação varia. O mais comum é o efeito rei , em que o comportamento do punhado de itens no topo não se ajusta ao padrão do resto, conforme ilustrado na parte superior para populações de países e acima para palavras mais comuns na Wikipedia em inglês. Para postos mais altos, o comportamento pode mudar em algum ponto e ser bem modelado por diferentes relações em diferentes regiões; no todo, por uma função por partes . Por exemplo, se duas leis de potência diferentes se encaixam melhor em regiões diferentes, pode-se usar uma lei de potência violada para a relação geral; a frequência da palavra na Wikipedia em inglês (acima) também demonstra isso.

A distribuição Yule-Simon que resulta do apego preferencial (intuitivamente, "os ricos ficam mais ricos" e "sucesso gera sucesso") simula uma lei de potência quebrada e demonstrou "capturar muito bem" a frequência de palavras versus distribuições de classificação. Originou-se da tentativa de explicar a população versus classificação em diferentes espécies. Também foi demonstrado que se ajusta à população da cidade em vez de ter uma classificação melhor.

Regra do tamanho da classificação

A regra (ou lei ) do tamanho da categoria descreve a regularidade notável em muitos fenômenos, incluindo a distribuição dos tamanhos das cidades, os tamanhos das empresas, os tamanhos das partículas (como areia), os comprimentos dos rios, as frequências do uso das palavras, e riqueza entre os indivíduos.

Todas são observações do mundo real que seguem as leis de potência , como a lei de Zipf , a distribuição de Yule ou a distribuição de Pareto . Se alguém classificar o tamanho da população das cidades em um determinado país ou no mundo inteiro e calcular o logaritmo natural da classificação e da população da cidade, o gráfico resultante mostrará um padrão log-linear . Esta é a distribuição de tamanho de classificação.

Justificativa teórica

Um estudo afirma que a regra do tamanho da classificação "funciona" porque é uma "sombra" ou medida coincidente do verdadeiro fenômeno. O verdadeiro valor do tamanho do posto não é, portanto, como uma medida matemática precisa (já que outras fórmulas de lei de potência são mais precisas, especialmente em postos abaixo de 10), mas sim como uma medida útil ou "regra prática" para detectar leis de potência. Quando apresentada a uma classificação de dados, a variável de terceira classificação é aproximadamente um terço do valor da variável de classificação mais alta? Ou, inversamente, a variável com a classificação mais alta é aproximadamente dez vezes o valor da variável com a décima classificação? Nesse caso, a regra do tamanho do posto possivelmente ajudou a identificar outra relação de lei de poder.

Exceções conhecidas para distribuições simples de classificação

Embora a lei de Zipf funcione bem em muitos casos, ela tende a não se adequar às maiores cidades de muitos países; um tipo de desvio é conhecido como efeito King . Um estudo de 2002 descobriu que a lei de Zipf foi rejeitada em 53 de 73 países, muito mais do que seria esperado com base no acaso. O estudo também descobriu que as variações do expoente de Pareto são melhor explicadas por variáveis ​​políticas do que por variáveis ​​geográficas econômicas, como proxies para economias de escala ou custos de transporte. Um estudo de 2004 mostrou que a lei de Zipf não funcionou bem para as cinco maiores cidades de seis países. Nos países mais ricos, a distribuição foi mais plana do que o previsto. Por exemplo, nos Estados Unidos , embora sua maior cidade, Nova York , tenha mais do que o dobro da população da segunda colocada Los Angeles , as áreas metropolitanas das duas cidades (também as duas maiores do país) são muito mais próximas em população . Na população da área metropolitana, a cidade de Nova York é apenas 1,3 vezes maior do que Los Angeles. Em outros países, a maior cidade dominaria muito mais do que o esperado. Por exemplo, na República Democrática do Congo , a capital, Kinshasa , é mais de oito vezes maior do que a segunda maior cidade, Lubumbashi . Ao considerar toda a distribuição das cidades, incluindo as menores, a regra do tamanho da categoria não se aplica. Em vez disso, a distribuição é log-normal . Isso decorre da lei de crescimento proporcional de Gibrat .

Como as exceções são tão fáceis de encontrar, a função da regra para analisar cidades hoje é comparar os sistemas de cidades em diferentes países. A regra do tamanho da fila é um padrão comum pelo qual a primazia urbana é estabelecida. Uma distribuição como a dos Estados Unidos ou da China não exibe um padrão de primazia, mas os países com uma " cidade primata " dominante claramente variam em relação à regra do tamanho da categoria de maneira oposta. Portanto, a regra ajuda a classificar os sistemas de cidades nacionais (ou regionais) de acordo com o grau de dominância exibido pela maior cidade. Países com uma cidade primata, por exemplo, costumam ter uma história colonial que explica esse padrão de cidade. Se for esperado que um padrão de distribuição de cidade normal siga a regra do tamanho do posto (ou seja, se o princípio do tamanho do posto se correlaciona com a teoria do lugar central), então isso sugere que aqueles países ou regiões com distribuições que não seguem a regra experimentaram algumas condições que alteraram o padrão de distribuição normal. Por exemplo, a presença de várias regiões em grandes nações, como China e Estados Unidos, tende a favorecer um padrão em que aparecem mais cidades grandes do que seria previsto pela regra. Em contraste, pequenos países que foram conectados (por exemplo, colonial / economicamente) a áreas muito maiores exibirão uma distribuição em que a maior cidade é muito maior do que caberia na regra, em comparação com as outras cidades - o tamanho excessivo da cidade, teoricamente decorre de sua conexão com um sistema mais amplo, em vez da hierarquia natural que a teoria do lugar central poderia prever dentro de um único país ou região.

Veja também

Referências

Leitura adicional

links externos