Brown Corpus - Brown Corpus

O Brown University Standard Corpus do atual inglês americano (ou apenas Brown Corpus ) é uma coleção eletrônica de amostras de texto do inglês americano, o primeiro grande corpus estruturado de gêneros variados. Este corpus primeiro estabeleceu o padrão para o estudo científico da frequência e distribuição de categorias de palavras no uso cotidiano da linguagem. Compilado por Henry Kučera e W. Nelson Francis na Brown University , em Rhode Island , é um corpus de linguagem geral que contém 500 amostras de inglês, totalizando cerca de um milhão de palavras, compiladas de trabalhos publicados nos Estados Unidos em 1961.

História

Em 1967, Kučera e Francis publicaram sua obra clássica Computational Analysis of Present-Day American English , que fornecia estatísticas básicas sobre o que hoje é conhecido simplesmente como Brown Corpus .

O Brown Corpus foi uma seleção cuidadosamente compilada do inglês americano atual, totalizando cerca de um milhão de palavras extraídas de uma ampla variedade de fontes. Kučera e Francis o submeteram a uma variedade de análises computacionais, a partir das quais eles compilaram uma opus rica e variada, combinando elementos de linguística, psicologia, estatística e sociologia. Ele tem sido amplamente utilizado em linguística computacional e esteve por muitos anos entre os recursos mais citados na área.

Logo após a publicação da primeira análise léxicoestatística , o editor de Boston Houghton-Mifflin abordou Kučera para fornecer uma base de citação de três linhas e um milhão de palavras para seu novo Dicionário do Patrimônio Americano . Este dicionário inovador, que apareceu pela primeira vez em 1969, foi o primeiro dicionário a ser compilado usando linguística de corpus para frequência de palavras e outras informações.

O Brown Corpus inicial tinha apenas as próprias palavras, mais um identificador de localização para cada uma. Nos anos seguintes, foram aplicadas marcas de classe gramatical. O programa de marcação de Greene e Rubin (veja em marcação de classes gramaticais ) ajudou consideravelmente nisso, mas a alta taxa de erros significava que uma extensa revisão manual era necessária.

O Brown Corpus marcado usou uma seleção de cerca de 80 classes gramaticais, bem como indicadores especiais para formas compostas, contrações, palavras estrangeiras e alguns outros fenômenos, e formou o modelo para muitos corpora posteriores, como o Lancaster-Oslo-Bergen Corpus (Inglês britânico do início de 1990) e o Freiburg-Brown Corpus de Inglês Americano (FROWN) (Inglês Americano do início de 1990). A marcação do corpus permitiu análises estatísticas muito mais sofisticadas, como o trabalho programado por Andrew Mackie e documentado em livros de gramática inglesa.

Um resultado interessante é que, mesmo para muito grandes amostras, gráficos palavras por ordem decrescente de frequência de ocorrência mostra uma hipérbole : a frequência do n -ésimo palavra mais frequente é aproximadamente proporcional a 1 / n . Assim, "o" constitui quase 7% do Brown Corpus, "para" e "de" mais de outros 3% cada; enquanto cerca de metade do vocabulário total de cerca de 50.000 palavras são hapax legomena : palavras que ocorrem apenas uma vez no corpus. Essa relação simples de classificação versus frequência foi observada para uma variedade extraordinária de fenômenos por George Kingsley Zipf (por exemplo, consulte seu The Psychobiology of Language ) e é conhecida como lei de Zipf .

Embora o Brown Corpus tenha sido o pioneiro no campo da lingüística de corpus, agora corpora típicos (como o Corpus of Contemporary American English , o British National Corpus ou o International Corpus of English ) tendem a ser muito maiores, da ordem de 100 milhões de palavras.

Distribuição de amostra

O Corpus consiste em 500 amostras, distribuídas em 15 gêneros em proporção aproximada à quantidade publicada em 1961 em cada um desses gêneros. Todas as obras amostradas foram publicadas em 1961; até onde pudemos determinar, foram publicados pela primeira vez e escritos por falantes nativos do inglês americano.

Cada amostra começou em um limite de frase aleatório no artigo ou outra unidade escolhida e continuou até o limite da primeira frase após 2.000 palavras. Em alguns casos, erros de contagem levaram a amostras com pouco menos de 2.000 palavras.

A entrada de dados original foi feita apenas em máquinas de perfuração com letras maiúsculas ; as maiúsculas eram indicadas por um asterisco anterior e vários itens especiais, como fórmulas, também tinham códigos especiais.

O corpus originalmente (1961) continha 1.014.312 palavras amostradas em 15 categorias de texto:

  • A. IMPRENSA: Reportagem ( 44 textos )
    • Político
    • Esportes
    • Sociedade
    • Spot News
    • Financeiro
    • Cultural
  • B. IMPRENSA: Editorial ( 27 textos )
    • Diário Institucional
    • Pessoal
    • Cartas para o editor
  • C. IMPRENSA: Resenhas ( 17 textos )
    • teatro
    • livros
    • música
    • dança
  • D. RELIGION ( 17 textos )
    • Livros
    • Periódicos
    • Folhetos
  • E. HABILIDADE E HOBBIES ( 36 textos )
    • Livros
    • Periódicos
  • F. LORE POPULAR ( 48 textos )
    • Livros
    • Periódicos
  • G. BELLES-LETTRES - Biografia, Memórias, etc. ( 75 textos )
    • Livros
    • Periódicos
  • H. DIVERSOS: Governo dos EUA e Órgãos Domésticos ( 30 textos )
    • Documentos do Governo
    • Relatórios de Fundação
    • Relatórios da Indústria
    • Catálogo da faculdade
    • Órgão da indústria
  • J. APRENDIDO ( 80 textos )
    • Ciências Naturais
    • Remédio
    • Matemática
    • Ciências Sociais e Comportamentais
    • Ciência Política, Direito, Educação
    • Humanidades
    • Tecnologia e Engenharia
  • K. FICÇÃO: Geral ( 29 textos )
    • Romances
    • Histórias curtas
  • L. FICÇÃO: Ficção de mistério e detetive ( 24 textos )
    • Romances
    • Histórias curtas
  • M. FICTION: Ciência ( 6 textos )
    • Romances
    • Histórias curtas
  • N. FICÇÃO: Aventura e faroeste ( 29 textos )
    • Romances
    • Histórias curtas
  • P. FICTION: Romance and Love Story ( 29 textos )
    • Romances
    • Histórias curtas
  • R. HUMOR ( 9 textos )
    • Romances
    • Ensaios, etc.

Tags de parte da fala usadas

Tag Definição
. frase (. ; ? *)
( parêntese esquerdo
) parêntese certo
* não, não
- traço
, vírgula
: cólon
ABL pré-qualificador (bastante, melhor)
ABN pré-quantificador (metade, todos)
ABX pré-quantificador (ambos)
AP pós-determinante (muitos, vários, próximos)
AT artigo (a, o, não)
ESTAR estar
CAMA estavam
BEDZ estava
IMPLORAR ser
BEM sou
BEN fui
BER são, arte
BBB é
CC conjunção coordenadora (e, ou)
CD numeral cardinal (um, dois, 2, etc.)
CS conjunção subordinada (se, embora)
FAZ Faz
DOD fez
DOZ faz
DT determinante / quantificador singular (isto, aquilo)
DTI determinante / quantificador singular ou plural (algum, qualquer)
DTS determinante plural (estes, aqueles)
DTX determinante / conjunção dupla (qualquer um)
EX existencial lá
FW palavra estrangeira (hifenizada antes da tag regular)
HL palavra que ocorre no título (hifenizada após a tag regular)
HV ter
HVD tinha (pretérito)
HVG tendo
HVN teve (particípio passado)
HVZ tem
DENTRO preposição
JJ adjetivo
JJR adjetivo comparativo
JJS adjetivo semanticamente superlativo (chefe, topo)
J, J; T adjetivo morfologicamente superlativo (maior)
MD auxiliar modal (pode, deve, vai)
NC palavra citada (hifenizada após tag regular)
NN singular ou substantivo massivo
NN $ substantivo possessivo no singular
NNS substantivo plural
NNS $ substantivo plural possessivo
NP substantivo próprio ou parte da frase do nome
NP $ substantivo próprio possessivo
NPS substantivo próprio plural
NPS $ substantivo próprio possessivo plural
NR substantivo adverbial (casa, hoje, oeste)
NRS substantivo adverbial plural
OD numeral ordinal (primeiro, segundo)
PN pronome nominal (todos, nada)
PN $ pronome nominal possessivo
PP $ pronome pessoal possessivo (meu, nosso)
PP $$ segundo pronome possessivo (nominal) (meu, nosso)
PPL pronome pessoal reflexivo / intensivo singular (eu)
PPLS pronome pessoal reflexivo / intensivo plural (nós)
PPO pronome pessoal objetivo (eu, ele, isso, eles)
PPS 3º pronome nominativo singular (ele, ela, isso, um)
PPSS outro pronome pessoal nominativo (eu, nós, eles, você)
QL qualificador (muito, bastante)
QLP pós-qualificador (suficiente, de fato)
RB advérbio
RBR advérbio comparativo
RBT advérbio superlativo
RN advérbio nominal (aqui, então, dentro de casa)
RP advérbio / partícula (cerca, desligado, para cima)
TL palavra que ocorre no título (hifenizada após a tag regular)
PARA marcador infinitivo para
UH interjeição, exclamação
VB verbo, forma básica
VBD verbo, pretérito
VBG verbo, particípio presente / gerúndio
VBN verbo, particípio passado
VBP verbo, não 3ª pessoa, singular, presente
VBZ verbo, 3º. presente singular
WDT wh- determinador (o quê, qual)
WP $ possessivo que pronome (de quem)
WPO pronome quem objetivo (quem, qual, aquele)
WPS nominativo pronome quem (quem, qual, aquele)
WQL qualificador (como)
WRB wh- advérbio (como, onde, quando)

Observe que algumas versões do Brown corpus com tags contêm tags combinadas. Por exemplo, a palavra "wanna" é marcada como VB + TO, pois é uma forma contraída das duas palavras, want / VB e to / TO. Além disso, algumas tags podem ser negadas, por exemplo, "não" seria marcado como "BER *", onde * significa a negação. Além disso, as tags podem ter hifenizações: A tag -HL é hifenizada para as tags regulares de palavras nos títulos. A tag -TL é hifenizada para as tags regulares de palavras nos títulos. A hifenização -NC significa uma palavra enfatizada . Às vezes, a tag tem um prefixo FW- que significa palavra estrangeira.

Veja também

Referências

links externos