Lei de Benford - Benford's law

Uma sequência de barras azuis decrescentes contra um fundo de grade cinza claro
A distribuição dos primeiros dígitos, de acordo com a lei de Benford. Cada barra representa um dígito, e a altura da barra é a porcentagem de números que começam com aquele dígito.
Frequência do primeiro dígito significativo de constantes físicas plotadas contra a lei de Benford

A lei de Benford , também chamada de lei de Newcomb-Benford , a lei dos números anômalos ou lei do primeiro dígito , é uma observação de que em muitos conjuntos de dados numéricos da vida real , o dígito inicial provavelmente é pequeno. Em conjuntos que obedecem à lei, o número 1 aparece como o dígito principal significativo cerca de 30% das vezes, enquanto o 9 aparece como o dígito principal significativo menos de 5% das vezes. Se os dígitos fossem distribuídos uniformemente, cada um ocorreria cerca de 11,1% do tempo. A lei de Benford também faz previsões sobre a distribuição de segundos, terceiros dígitos, combinações de dígitos e assim por diante.

O gráfico à direita mostra a lei de Benford para a base 10 , um dos infinitos muitos casos de uma lei generalizada sobre números expressos em bases arbitrárias (inteiras), o que exclui a possibilidade de que o fenômeno possa ser um artefato do sistema numérico de base 10. Outras generalizações foram publicadas em 1995, incluindo declarações análogas para o enésimo dígito, bem como a distribuição conjunta dos n dígitos iniciais, o último dos quais leva a um corolário em que os dígitos significativos são mostrados como uma quantidade estatisticamente dependente .

Foi demonstrado que esse resultado se aplica a uma ampla variedade de conjuntos de dados, incluindo contas de eletricidade, endereços, preços de ações, preços de casas, números da população, taxas de mortalidade, extensões de rios e constantes físicas e matemáticas . Como outros princípios gerais sobre dados naturais - por exemplo, o fato de que muitos conjuntos de dados são bem aproximados por uma distribuição normal - existem exemplos ilustrativos e explicações que cobrem muitos dos casos em que a lei de Benford se aplica, embora haja muitos outros casos em que a lei de Benford aplica-se que resiste a uma explicação simples. Ele tende a ser mais preciso quando os valores são distribuídos em várias ordens de magnitude , especialmente se o processo que gera os números é descrito por uma lei de potência (que é comum na natureza).

A lei leva o nome do físico Frank Benford , que a declarou em 1938 em um artigo intitulado "A Lei dos Números Anômalos", embora já tivesse sido declarada por Simon Newcomb em 1881.

A lei é semelhante em conceito, embora não idêntica em distribuição, à lei de Zipf .

Definição

Retângulo com eixo em negrito deslocado no canto inferior esquerdo e linhas cinza claro representando logaritmos
Uma barra de escala logarítmica . Escolher uma posição x aleatória uniformemente nesta linha numérica, aproximadamente 30% das vezes, o primeiro dígito do número será 1.

Diz-se que um conjunto de números satisfaz a lei de Benford se o dígito principal  d ( d  ∈ {1, ..., 9} ) ocorre com probabilidade

Os dígitos iniciais em tal conjunto, portanto, têm a seguinte distribuição:

d Tamanho relativo de
1 30,1% 30,1
 
2 17,6% 17,6
 
3 12,5% 12,5
 
4 9,7% 9,7
 
5 7,9% 7,9
 
6 6,7% 6,7
 
7 5,8% 5,8
 
8 5,1% 5,1
 
9 4,6% 4,6
 

A quantidade é proporcional ao espaço entre d e d  + 1 em uma escala logarítmica . Portanto, essa é a distribuição esperada se os logaritmos dos números (mas não os próprios números) forem distribuídos de maneira uniforme e aleatória .

Por exemplo, um número x , restrito a estar entre 1 e 10, começa com o dígito 1 se 1 ≤  x  <2 e começa com o dígito 9 se 9 ≤  x  <10 . Portanto, x começa com o dígito 1 se log 1 ≤ log  x  <log 2 , ou começa com 9 se log 9 ≤ log  x  <log 10 . O intervalo [log 1, log 2] é muito maior do que o intervalo [log 9, log 10] (0,30 e 0,05 respectivamente); portanto, se log x for distribuído de maneira uniforme e aleatória, é muito mais provável que caia no intervalo mais amplo do que no intervalo mais estreito, ou seja, é mais provável que comece com 1 do que com 9; as probabilidades são proporcionais às larguras dos intervalos, dando a equação acima (bem como a generalização para outras bases além do decimal).

A lei de Benford às vezes é afirmada em uma forma mais forte, afirmando que a parte fracionária do logaritmo dos dados é normalmente distribuída de maneira uniforme entre 0 e 1; disso, a principal afirmação sobre a distribuição dos primeiros dígitos pode ser derivada.

Em outras bases

Gráficos de P  ( d  ) para o dígito inicial d em várias bases. A linha pontilhada mostra que P  ( d  ) era o uniforme de distribuição. Na imagem SVG , passe o mouse sobre um gráfico para mostrar o valor de cada ponto.

Uma extensão da lei de Benford prevê a distribuição dos primeiros dígitos em outras bases além do decimal ; na verdade, qualquer base b  ≥ 2 . A forma geral é:

Para sistemas numéricos b  = 2,1 ( binário e unário ), a lei de Benford é verdadeira, mas trivial: todos os números binários e unários (exceto 0 ou o conjunto vazio) começam com o dígito 1. (Por outro lado, a generalização da lei de Benford para o segundo e os dígitos posteriores não é trivial, mesmo para números binários.)

Exemplos

Distribuição dos primeiros dígitos (em%, barras vermelhas) na população dos 237 países do mundo em julho de 2010. Os pontos pretos indicam a distribuição prevista pela lei de Benford.

O exame de uma lista das alturas das 58 estruturas mais altas do mundo, por categoria, mostra que 1 é de longe o dígito inicial mais comum, independentemente da unidade de medida (cf. "invariância de escala", abaixo):

Dígito inicial m pés Lei de Per Benford
Contar % Contar %
1 24 41,4% 16 27,6% 30,1%
2 9 15,5% 8 13,8% 17,6%
3 7 12,1% 5 8,6% 12,5%
4 6 10,3% 7 12,1% 9,7%
5 1 1,7% 10 17,2% 7,9%
6 5 8,6% 4 6,9% 6,7%
7 1 1,7% 2 3,4% 5,8%
8 4 6,9% 5 8,6% 5,1%
9 1 1,7% 1 1,7% 4,6%

Outro exemplo é o dígito inicial de 2 n . A sequência dos primeiros 96 dígitos iniciais (1, 2, 4, 8, 1, 3, 6, 1, 2, 5, 1, 2, 4, 8, 1, 3, 6, 1 ... (sequência A008952 no OEIS )) exibe maior aderência à lei de Benford do que o esperado para sequências de seu comprimento, porque é derivado de uma sequência geométrica, não aleatória; o dígito 1 sempre aparece a cada três ou quatro dígitos, e apenas o dígito 9 pode aparecer duas vezes consecutivas.

Dígito inicial Ocorrência Lei de Per Benford
Contar %
1 29 30,2% 30,1%
2 17 17,7% 17,6%
3 12 12,5% 12,5%
4 10 10,4% 9,7%
5 7 7,3% 7,9%
6 6 6,3% 6,7%
7 5 5,2% 5,8%
8 5 5,2% 5,1%
9 5 5,2% 4,6%

História

A descoberta da lei de Benford remonta a 1881, quando o astrônomo canadense-americano Simon Newcomb notou que nas tabelas de logaritmo as páginas anteriores (que começavam com 1) estavam muito mais gastas do que as outras páginas. O resultado publicado de Newcomb é a primeira instância conhecida dessa observação e também inclui uma distribuição no segundo dígito. Newcomb propôs uma lei segundo a qual a probabilidade de um único número N ser o primeiro dígito de um número era igual a log ( N  + 1) - log ( N ).

O fenômeno foi novamente observado em 1938 pelo físico Frank Benford , que o testou em dados de 20 domínios diferentes e foi creditado por ele. Seu conjunto de dados incluiu as áreas de superfície de 335 rios, o tamanho de 3.259 populações dos EUA, 104 constantes físicas , 1.800 pesos moleculares , 5.000 entradas de um manual matemático, 308 números contidos em uma edição do Reader's Digest , os endereços das primeiras 342 pessoas listadas em American Men of Science e 418 taxas de mortalidade. O número total de observações usadas no papel foi de 20.229. Esta descoberta foi posteriormente nomeada em homenagem a Benford (tornando-a um exemplo da lei de Stigler ).

Em 1995, Ted Hill provou o resultado sobre as distribuições mistas mencionadas abaixo .

Explicações

A lei de Benford tende a se aplicar com mais precisão a dados que abrangem várias ordens de magnitude. Como regra geral, quanto mais ordens de magnitude os dados cobrirem de maneira uniforme, mais precisamente a lei de Benford se aplicará. Por exemplo, pode-se esperar que a lei de Benford se aplique a uma lista de números que representam as populações dos assentamentos do Reino Unido. Mas se um "assentamento" for definido como uma vila com população entre 300 e 999, a lei de Benford não se aplicará.

Considere as distribuições de probabilidade mostradas abaixo, referenciadas a uma escala logarítmica . Em cada caso, a área total em vermelho é a probabilidade relativa de que o primeiro dígito seja 1, e a área total em azul é a probabilidade relativa de que o primeiro dígito seja 8. Para a primeira distribuição, o tamanho das áreas de vermelho e azuis são aproximadamente proporcionais às larguras de cada barra vermelha e azul. Portanto, os números retirados desta distribuição seguirão aproximadamente a lei de Benford. Por outro lado, para a segunda distribuição, a proporção das áreas de vermelho e azul é muito diferente da proporção das larguras de cada barra vermelha e azul. Em vez disso, as áreas relativas de vermelho e azul são determinadas mais pela altura das barras do que pela largura. Conseqüentemente, os primeiros dígitos nesta distribuição não satisfazem a lei de Benford de forma alguma.

Uma ampla distribuição de probabilidade do log de uma variável, mostrada em uma escala logarítmica. A lei de Benford pode ser vista na área maior coberta pelo sombreado vermelho (primeiro dígito um) em comparação com o sombreado azul (primeiro dígito 8).
Uma distribuição de probabilidade estreita do log de uma variável, mostrada em uma escala de log. A lei de Benford não é seguida, porque a distribuição restrita não atende aos critérios da lei de Benford.

Assim, as distribuições do mundo real que abrangem várias ordens de magnitude de maneira bastante uniforme ( por exemplo , populações de vilarejos / vilas / cidades, preços do mercado de ações), provavelmente satisfarão a lei de Benford com uma precisão muito alta. Por outro lado, é improvável que uma distribuição que esteja maioritariamente ou inteiramente dentro de uma ordem de magnitude ( por exemplo , alturas de humanos adultos ou pontuações de QI) satisfaça a lei de Benford, ou nem mesmo satisfaça. No entanto, a diferença entre os regimes aplicáveis ​​e não aplicáveis ​​não é um corte abrupto: conforme a distribuição fica mais estreita, os desvios da lei de Benford aumentam gradualmente.

(Esta discussão não é uma explicação completa da lei de Benford, porque não explicou por que conjuntos de dados são encontrados com tanta frequência que, quando representados como uma distribuição de probabilidade do logaritmo da variável, são relativamente uniformes em várias ordens de magnitude.)

Explicação da entropia de Krieger-Kafri

Em 1970, Wolfgang Krieger provou o que hoje é chamado de Teorema do Gerador de Krieger . O Teorema do Gerador de Krieger pode ser visto como uma justificativa para a suposição no modelo bola e caixa de Kafri de que, em uma determinada base com um número fixo de dígitos 0, 1, ... n , ... ,, dígito n é equivalente a uma caixa Kafri contendo n bolas não interagentes. Vários outros cientistas e estatísticos sugeriram explicações relacionadas à entropia para a lei de Benford.

Flutuações multiplicativas

Muitos exemplos reais da lei de Benford surgem de flutuações multiplicativas. Por exemplo, se o preço de uma ação começa em $ 100 e, a cada dia, ele é multiplicado por um fator escolhido aleatoriamente entre 0,99 e 1,01, então, durante um período estendido, a distribuição de probabilidade de seu preço satisfaz a lei de Benford com precisão cada vez maior.

A razão é que o logaritmo do preço das ações está passando por um passeio aleatório , portanto, com o tempo, sua distribuição de probabilidade ficará cada vez mais ampla e uniforme (veja acima ). (Mais tecnicamente, o teorema do limite central diz que multiplicar mais e mais variáveis ​​aleatórias criará uma distribuição log-normal com variância cada vez maior, então, eventualmente, cobre muitas ordens de magnitude quase uniformemente.) Para ter certeza de acordo aproximado com a lei de Benford , a distribuição deve ser aproximadamente invariante quando aumentada por qualquer fator até 10; um conjunto de dados lognormalmente distribuído com ampla dispersão teria essa propriedade aproximada.

Ao contrário das flutuações multiplicativas, as flutuações aditivas não levam à lei de Benford: elas levam, em vez disso, a distribuições de probabilidade normais (novamente pelo teorema do limite central ), que não satisfazem a lei de Benford. Por exemplo, o "número de batimentos cardíacos que experimento em um determinado dia" pode ser escrito como a soma de muitas variáveis ​​aleatórias (por exemplo, a soma dos batimentos cardíacos por minuto ao longo de todos os minutos do dia), portanto, é improvável que essa quantidade siga Lei de Benford. Em contraste, o preço hipotético das ações descrito acima pode ser escrito como o produto de muitas variáveis ​​aleatórias (ou seja, o fator de mudança de preço para cada dia), portanto, é provável que siga a lei de Benford muito bem.

Distribuições de probabilidade múltipla

Anton Formann forneceu uma explicação alternativa, direcionando a atenção para a inter-relação entre a distribuição dos dígitos significativos e a distribuição da variável observada . Ele mostrou em um estudo de simulação que distribuições de cauda direita longa de uma variável aleatória são compatíveis com a lei de Newcomb-Benford, e que para distribuições da razão de duas variáveis ​​aleatórias o ajuste geralmente melhora. Para números retirados de certas distribuições (pontuações de QI, alturas humanas), a lei de Benford falha em se manter porque essas variáveis ​​obedecem a uma distribuição normal que não satisfaz a lei de Benford, uma vez que as distribuições normais não podem abranger várias ordens de magnitude e as mantissas de seus logaritmos não serão (nem mesmo aproximadamente) uniformemente distribuídos. No entanto, se alguém "mistura" números dessas distribuições, por exemplo, pegando números de artigos de jornal, a lei de Benford reaparece. Isso também pode ser provado matematicamente: se alguém escolher repetidamente "aleatoriamente" uma distribuição de probabilidade (de um conjunto não correlacionado) e, em seguida, escolher aleatoriamente um número de acordo com essa distribuição, a lista de números resultante obedecerá à lei de Benford. Uma explicação probabilística semelhante para o aparecimento da lei de Benford nos números da vida cotidiana foi apresentada ao mostrar que ela surge naturalmente quando se considera as misturas de distribuições uniformes.

Invariância

Se houver uma lista de comprimentos, a distribuição dos primeiros dígitos dos números na lista pode ser geralmente semelhante, independentemente de todos os comprimentos serem expressos em metros, ou jardas, ou pés, ou polegadas, etc. O mesmo se aplica às unidades monetárias .

Nem sempre é esse o caso. Por exemplo, a altura de humanos adultos quase sempre começa com 1 ou 2 quando medida em metros, e quase sempre começa com 4, 5, 6 ou 7 quando medida em pés.

Mas considere uma lista de comprimentos que é distribuída uniformemente por muitas ordens de magnitude. Por exemplo, uma lista de 1000 comprimentos mencionados em artigos científicos incluirá as medidas de moléculas, bactérias, plantas e galáxias. Se alguém escrever todos esses comprimentos em metros ou todos em pés, é razoável esperar que a distribuição dos primeiros dígitos seja a mesma nas duas listas.

Nessas situações, onde a distribuição dos primeiros dígitos de um conjunto de dados é invariante à escala (ou independente das unidades em que os dados são expressos), a distribuição dos primeiros dígitos é sempre dada pela lei de Benford.

Por exemplo, o primeiro dígito (diferente de zero) nesta lista de comprimentos deve ter a mesma distribuição, quer a unidade de medida seja pés ou jardas. Mas há três pés em uma jarda, então a probabilidade de que o primeiro dígito de um comprimento em jardas seja 1 deve ser igual à probabilidade de que o primeiro dígito de um comprimento em pés seja 3, 4 ou 5; da mesma forma, a probabilidade de que o primeiro dígito de um comprimento em metros seja 2 deve ser a mesma que a probabilidade de que o primeiro dígito de um comprimento em pés seja 6, 7 ou 8. Aplicar isso a todas as escalas de medição possíveis dá a distribuição logarítmica de Lei de Benford.

A Lei de Benford para os primeiros dígitos é invariante de base para sistemas numéricos. Existem condições e provas de invariância de soma, invariância inversa, invariância de adição e subtração.

Formulários

Detecção de fraude contábil

Em 1972, Hal Varian sugeriu que a lei poderia ser usada para detectar possíveis fraudes em listas de dados socioeconômicos apresentadas em apoio às decisões de planejamento público. Com base na suposição plausível de que as pessoas que fabricam números tendem a distribuir seus dígitos de maneira bastante uniforme, uma simples comparação da distribuição de frequência do primeiro dígito dos dados com a distribuição esperada de acordo com a lei de Benford deve mostrar quaisquer resultados anômalos.

Use em julgamentos criminais

Nos Estados Unidos, as evidências baseadas na lei de Benford foram admitidas em casos criminais nos níveis federal, estadual e local.

Dados eleitorais

Walter Mebane , um cientista político e estatístico da Universidade de Michigan, foi o primeiro a aplicar o teste da lei de Benford de segundo dígito (teste 2BL) na perícia eleitoral . Essas análises são consideradas um método simples, embora não infalível, de identificar irregularidades nos resultados eleitorais e ajudar a detectar fraudes eleitorais . Um estudo de 2011 dos cientistas políticos Joseph Deckert, Mikhail Myagkov e Peter C. Ordeshook argumentou que a lei de Benford é problemática e enganosa como indicador estatístico de fraude eleitoral. O método deles foi criticado por Mebane em uma resposta, embora ele concordasse que há muitas ressalvas à aplicação da lei de Benford aos dados eleitorais.

A lei de Benford foi usada como prova de fraude nas eleições iranianas de 2009 . Uma análise de Mebane descobriu que os segundos dígitos nas contagens de votos para o presidente Mahmoud Ahmadinejad , o vencedor da eleição, tendiam a diferir significativamente das expectativas da lei de Benford, e que as urnas com muito poucos votos nulos tiveram uma maior influência no resultados, sugerindo recheio generalizado de cédulas . Outro estudo usou simulações de bootstrap para descobrir que o candidato Mehdi Karroubi recebeu quase duas vezes mais contagens de votos começando com o dígito 7 do que seria esperado de acordo com a lei de Benford, enquanto uma análise da Universidade de Columbia concluiu que a probabilidade de uma eleição justa produziria ambos poucos dígitos não adjacentes e os desvios suspeitos nas frequências do último dígito, conforme encontrado na eleição presidencial iraniana de 2009, é inferior a 0,5 por cento. A lei de Benford também foi aplicada para auditoria forense e detecção de fraude em dados da eleição para governador da Califórnia em 2003 , as eleições presidenciais dos Estados Unidos em 2000 e 2004 e as eleições federais alemãs de 2009 ; o Benford's Law Test foi considerado "digno de ser levado a sério como um teste estatístico de fraude", embora "não seja sensível a distorções que sabemos que afetaram significativamente muitos votos".

A lei de Benford também foi mal aplicada para alegar fraude eleitoral. Ao aplicar a lei aos resultados eleitorais de Joe Biden para Chicago , Milwaukee e outras localidades nas eleições presidenciais dos Estados Unidos em 2020 , a distribuição do primeiro dígito não seguiu a lei de Benford. A aplicação incorreta foi o resultado da análise de dados que tinham um intervalo estreitamente limitado, o que viola a suposição inerente à lei de Benford de que o intervalo dos dados seja grande. De acordo com Mebane, "é amplamente conhecido que os primeiros dígitos da contagem de votos nas zonas eleitorais não são úteis para tentar diagnosticar fraudes eleitorais."

Dados macroeconômicos

Da mesma forma, os dados macroeconômicos que o governo grego informou à União Europeia antes de entrar na zona do euro mostraram-se provavelmente fraudulentos de acordo com a lei de Benford, embora anos depois de o país aderir.

Análise de dígitos de preço

A lei de Benford como referência para a investigação de dígitos de preços foi introduzida com sucesso no contexto da pesquisa de preços. A importância deste parâmetro de referência para a detecção de irregularidades nos preços foi demonstrada pela primeira vez num estudo à escala europeia que investigou os dígitos dos preços ao consumidor antes e depois da introdução do euro para ajustamentos de preços. A introdução do euro em 2002, com as suas várias taxas de câmbio, distorceu os padrões de preços nominais existentes, ao mesmo tempo que manteve os preços reais. Enquanto os primeiros dígitos dos preços nominais são distribuídos de acordo com a lei de Benford, o estudo mostrou um claro desvio deste benchmark para o segundo e terceiro dígitos dos preços nominais de mercado, com uma tendência clara para os preços psicológicos após o choque nominal da introdução do euro.

Dados do genoma

O número de quadros de leitura abertos e sua relação com o tamanho do genoma difere entre eucariotos e procariontes, com o primeiro mostrando uma relação log-linear e o último uma relação linear. A lei de Benford foi usada para testar essa observação com um excelente ajuste aos dados em ambos os casos.

Detecção de fraude científica

Um teste de coeficientes de regressão em artigos publicados mostrou concordância com a lei de Benford. Como um grupo de comparação, os sujeitos foram solicitados a fabricar estimativas estatísticas. Os resultados fabricados estavam em conformidade com a lei de Benford nos primeiros dígitos, mas não obedeceram à lei de Benford nos segundos dígitos.

Testes estatísticos

Embora o teste qui-quadrado tenha sido usado para testar a conformidade com a lei de Benford, ele tem baixo poder estatístico quando usado com pequenas amostras.

O teste de Kolmogorov-Smirnov e o teste de Kuiper são mais poderosos quando o tamanho da amostra é pequeno, particularmente quando o fator corretivo de Stephens é usado. Esses testes podem ser excessivamente conservadores quando aplicados a distribuições discretas. Os valores para o teste de Benford foram gerados por Morrow. Os valores críticos das estatísticas de teste são mostrados abaixo:

α
Teste
0,10 0,05 0,01
Kuiper 1,191 1.321 1.579
Kolmogorov – Smirnov 1.012 1,148 1.420

Esses valores críticos fornecem os valores estatísticos de teste mínimos necessários para rejeitar a hipótese de conformidade com a lei de Benford nos níveis de significância dados .

Dois testes alternativos específicos para esta lei foram publicados: primeiro, a estatística max ( m ) é dada por

e em segundo lugar, a estatística de distância ( d ) é dada por

onde FSD é o primeiro dígito significativo e N é o tamanho da amostra. Morrow determinou os valores críticos para ambas as estatísticas, que são mostrados abaixo:

Estatística
0,10 0,05 0,01
Leemis's m 0,851 0,967 1.212
D de Cho – Gaines 1.212 1,330 1.569

Morrow também mostrou que para qualquer variável aleatória X (com uma pdf contínua) dividida por seu desvio padrão ( σ ), um valor A pode ser encontrado de modo que a probabilidade da distribuição do primeiro dígito significativo da variável aleatória (X/σ) A será diferente da lei de Benford por menos que ε > 0. O valor de A depende do valor de ε e da distribuição da variável aleatória.

Um método de detecção de fraude contábil baseado em bootstrapping e regressão foi proposto.

Se o objetivo é concluir um acordo com a lei de Benford, em vez de um desacordo, os testes de adequação mencionados acima são inadequados. Nesse caso, devem ser aplicados os testes específicos de equivalência . Uma distribuição empírica é chamada de equivalente à lei de Benford se uma distância (por exemplo, distância de variação total ou a distância euclidiana usual) entre as funções de massa de probabilidade é suficientemente pequena. Este método de teste com aplicação à lei de Benford é descrito em Ostrovski (2017).

Faixa de aplicabilidade

Distribuições que obedecem à lei de Benford

Provavelmente, algumas sequências inteiras infinitas bem conhecidas satisfazem exatamente a lei de Benford (no limite assintótico à medida que mais e mais termos da sequência são incluídos). Entre eles estão os números de Fibonacci , os fatoriais , as potências de 2 e as potências de quase qualquer outro número.

Da mesma forma, alguns processos contínuos satisfazem exatamente a lei de Benford (no limite assintótico conforme o processo continua ao longo do tempo). Um é um processo de crescimento ou decadência exponencial : se uma quantidade está aumentando ou diminuindo exponencialmente com o tempo, então a porcentagem de tempo em que ela tem cada primeiro dígito satisfaz a lei de Benford assintoticamente (ou seja, aumentando a precisão à medida que o processo continua ao longo do tempo).

Distribuições que desobedecem à lei de Benford

As raízes quadradas e os recíprocos de números naturais sucessivos não obedecem a esta lei. Listas de números de telefone locais na América do Norte (comprimento de 7 dígitos) violam a lei de Benford porque não podem começar com o prefixo de longa distância do dígito 1. A lei de Benford é violada pela população de todos os lugares com uma população de em pelo menos 2.500 indivíduos de cinco estados dos EUA de acordo com os censos de 1960 e 1970, onde apenas 19% começaram com o dígito 1, mas 20% começaram com o dígito 2, porque o truncamento em 2.500 introduz viés estatístico. Os dígitos terminais em relatórios de patologia violam a lei de Benford devido ao arredondamento.

Distribuições que não abrangem várias ordens de magnitude não seguirão a lei de Benford. Os exemplos incluem altura, peso e pontuações de QI.

Critérios para distribuições que se espera e não se espera que obedeçam à lei de Benford

Vários critérios, aplicáveis ​​particularmente a dados contábeis, foram sugeridos onde a lei de Benford pode ser aplicada.

Distribuições que devem obedecer à lei de Benford
  • Quando a média é maior que a mediana e a inclinação é positiva
  • Números que resultam da combinação matemática de números: por exemplo, quantidade × preço
  • Dados de nível de transação: por exemplo, desembolsos, vendas
Distribuições que não deveriam obedecer à lei de Benford
  • Onde os números são atribuídos sequencialmente: por exemplo, números de cheque, números de fatura
  • Onde os números são influenciados pelo pensamento humano: por exemplo, preços definidos por limites psicológicos ($ 1,99)
  • Contas com um grande número de números específicos da empresa: por exemplo, contas configuradas para registrar reembolsos de $ 100
  • Contas com um mínimo ou máximo integrado
  • Distribuições que não abrangem uma ordem de magnitude de números.

Teorema de cumprimento da Lei de Benford

Matematicamente, a lei de Benford se aplica se a distribuição testada se enquadrar no "Teorema de Conformidade da Lei de Benford". A derivação diz que a lei de Benford é seguida se a transformada de Fourier do logaritmo da função de densidade de probabilidade é zero para todos os valores inteiros. Mais notavelmente, isso é satisfeito se a transformada de Fourier for zero (ou desprezível) para n≥1. Isso é satisfeito se a distribuição for ampla (uma vez que a distribuição ampla implica em uma pequena transformada de Fourier). Smith resume assim (p. 716):

“A lei de Benford é seguida por distribuições que são amplas em comparação com a distância unitária ao longo da escala logarítmica. Da mesma forma, a lei não é seguida por distribuições estreitas em comparação com a distância unitária…. “Se a distribuição for ampla em comparação com a distância da unidade no eixo do log, isso significa que a dispersão no conjunto de números que está sendo examinado é muito maior do que dez.”

Em suma, a lei de Benford exige que os números na distribuição que está sendo medida tenham uma extensão de pelo menos uma ordem de magnitude.

Testes com distribuições comuns

A lei de Benford foi testada empiricamente contra os números (até o 10º dígito) gerados por uma série de distribuições importantes, incluindo a distribuição uniforme , a distribuição exponencial , a distribuição normal e outras.

A distribuição uniforme, como era de se esperar, não obedece à lei de Benford. Em contraste, a distribuição de razão de duas distribuições uniformes é bem descrita pela lei de Benford.

Nem a distribuição normal nem a distribuição de razão de duas distribuições normais (a distribuição de Cauchy ) obedecem à lei de Benford. Embora a distribuição semi-normal não obedeça à lei de Benford, a distribuição de razão de duas distribuições semi-normais obedece. Nem a distribuição normal truncada à direita nem a distribuição de razão de duas distribuições normais truncadas à direita são bem descritas pela lei de Benford. Isso não é surpreendente, pois essa distribuição é ponderada para números maiores.

A lei de Benford também descreve a distribuição exponencial e a distribuição de razão de duas distribuições exponenciais. O ajuste da distribuição qui-quadrada depende dos graus de liberdade (df) com boa concordância com df = 1 e concordância decrescente à medida que a df aumenta. A distribuição F é bem ajustada para baixos graus de liberdade. Com o aumento de dfs, o ajuste diminui, mas muito mais lentamente do que a distribuição qui-quadrado. O ajuste da distribuição log-normal depende da média e da variância da distribuição. A variação tem um efeito muito maior no ajuste do que a média. Valores maiores de ambos os parâmetros resultam em melhor concordância com a lei. A proporção de duas distribuições de log normal é um log normal, portanto, essa distribuição não foi examinada.

Outras distribuições que foram examinados incluem a distribuição de Muth , distribuição Gompertz , distribuição de Weibull , distribuição gama , a distribuição log-logística ea distribuição de energia exponencial todos os quais mostram acordo razoável com a lei. A distribuição de Gumbel - uma densidade aumenta com o aumento do valor da variável aleatória - não mostra concordância com esta lei.

Generalização para dígitos além do primeiro

Gráfico log-log da probabilidade de que um número comece com o (s) dígito (s) n , para uma distribuição que satisfaça a lei de Benford. Os pontos mostram a fórmula exata, P (n) = log 10 (1 + 1 / n). O gráfico tende para a assíntota tracejada passando por (1, log 10  e ) com inclinação −1 na escala log-log. O exemplo em amarelo mostra que a probabilidade de um número começar com 314 é cerca de 0,00138. As linhas pontilhadas mostram as probabilidades de uma distribuição uniforme para comparação. Na imagem SVG, passe o mouse sobre um ponto para mostrar seus valores.

É possível estender a lei para dígitos além do primeiro. Em particular, para qualquer número de dígitos, a probabilidade de encontrar um número começando com a sequência de dígitos n desse comprimento - descartando os zeros à esquerda - é dada por:

Por exemplo, a probabilidade de que um número comece com os dígitos 3, 1, 4 é log 10 (1 + 1/314) ≈ 0,00138 , como na figura à direita. Os números que satisfazem isso incluem 3,14159 ..., 314285,7 ... e 0,00314465 ....

Este resultado pode ser usado para encontrar a probabilidade de que um determinado dígito ocorra em uma determinada posição dentro de um número. Por exemplo, a probabilidade de que um "2" seja encontrado como o segundo dígito é

E a probabilidade de que d ( d  = 0, 1, ..., 9) seja encontrado como o n- ésimo ( n  > 1) dígito é

A distribuição do n- ésimo dígito, à medida que n aumenta, rapidamente se aproxima de uma distribuição uniforme com 10% para cada um dos dez dígitos, conforme mostrado abaixo. Quatro dígitos costumam ser suficientes para assumir uma distribuição uniforme de 10%, pois '0' aparece 10,0176% do tempo no quarto dígito, enquanto '9' aparece 9,9824% do tempo.

Dígito 0 1 2 3 4 5 6 7 8 9
N / D 30,1% 17,6% 12,5% 9,7% 7,9% 6,7% 5,8% 5,1% 4,6%
12,0% 11,4% 10,9% 10,4% 10,0% 9,7% 9,3% 9,0% 8,8% 8,5%
10,2% 10,1% 10,1% 10,1% 10,0% 10,0% 9,9% 9,9% 9,9% 9,8%

Momentos

A média e os momentos das variáveis ​​aleatórias para os dígitos 1 a 9 seguindo esta lei foram calculados:

Para a distribuição de dois dígitos de acordo com a lei de Benford, esses valores também são conhecidos:

Uma tabela das probabilidades exatas para a ocorrência conjunta dos primeiros dois dígitos de acordo com a lei de Benford está disponível, assim como a correlação populacional entre o primeiro e o segundo dígitos: ρ = 0,0561 .

Na cultura popular

Nos últimos anos, o conceito da lei de Benford tornou-se suficientemente conhecido para ser usado como um artifício para enredo em alguns entretenimentos populares, incluindo:

  • A lei de Benford foi usada para ajudar a resolver uma série de grandes roubos no episódio "The Running Man" (2006) do drama policial da televisão NUMB3RS .
  • A lei de Benford é usada para expor o roubo de fundos de uma empresa de robótica no filme de 2016 O Contador .
  • A lei de Benford é usada para analisar as demonstrações financeiras de um membro do cartel e descobrir que ele está sendo fraudado na série Ozark da Netflix .
  • A lei de Benford é usada para testar se os personagens estão em uma simulação ou realidade no romance Infinito 2 de Jeremy Robinson .

Veja também

Referências

Leitura adicional

links externos