Corpus do texto - Text corpus

Em linguística , um corpus ( corpora plural ) ou corpus textual é um recurso linguístico que consiste em um grande e estruturado conjunto de textos (hoje em dia geralmente armazenados e processados ​​eletronicamente). Na linguística de corpus , eles são usados ​​para fazer análises estatísticas e testes de hipóteses , verificando ocorrências ou validando regras linguísticas dentro de um território linguístico específico.

Visão geral

Um corpus pode conter textos em um único idioma ( corpus monolíngue ) ou dados de texto em vários idiomas ( corpus multilíngue ).

Para tornar os corpora mais úteis para a realização de pesquisas linguísticas, eles são frequentemente submetidos a um processo conhecido como anotação . Um exemplo de anotação em um corpus é a marcação de classe gramatical , ou marcação POS , em que as informações sobre cada classe gramatical (verbo, substantivo, adjetivo etc.) são adicionadas ao corpus na forma de tags . Outro exemplo é indicar a forma lema (base) de cada palavra. Quando a linguagem do corpus não é uma linguagem de trabalho dos pesquisadores que a utilizam, a glosa interlinear é utilizada para tornar a anotação bilíngue.

Alguns corpora têm níveis de análise mais estruturados aplicados. Em particular, vários corpora menores podem ser totalmente analisados . Esses corpora são geralmente chamados de Treebanks ou Parsed Corpora . A dificuldade de garantir que todo o corpus seja anotado de forma completa e consistente significa que esses corpora são geralmente menores, contendo cerca de um a três milhões de palavras. Outros níveis de análise estruturada linguística são possíveis, incluindo anotações para morfologia , semântica e pragmática .

Formulários

Corpora são a principal base de conhecimento em linguística de corpus . Outras áreas notáveis ​​de aplicação incluem:

  • Maquina de tradução
    • Corpora multilíngue que foram formatados especialmente para comparação lado a lado são chamados de corpora paralelos alinhados . Existem dois tipos principais de corpora paralelos que contêm textos em duas línguas. Em um corpus de tradução , os textos em um idioma são traduções de textos em outro idioma. Em um corpus comparável , os textos são do mesmo tipo e cobrem o mesmo conteúdo, mas não são traduções um do outro. Para explorar um texto paralelo, algum tipo de alinhamento de texto identificando segmentos de texto equivalentes (frases ou sentenças) é um pré-requisito para a análise. Os algoritmos de tradução automática para traduzir entre duas línguas são frequentemente treinados usando fragmentos paralelos que compreendem um corpus da primeira língua e um corpus da segunda língua, que é uma tradução elemento a elemento do corpus da primeira língua.
  • Filologias
    • Os corpora de texto também são usados ​​no estudo de documentos históricos , por exemplo, em tentativas de decifrar escritas antigas ou em estudos bíblicos . Alguns corpora arqueológicos podem ter uma duração tão curta que fornecem um instantâneo no tempo. Um dos corpora mais curtos no tempo pode ser os textos das cartas de Amarna de 15-30 anos ( 1350 aC ). O corpus de uma cidade antiga (por exemplo, os " Textos Kültepe " da Turquia) pode passar por uma série de corpora, determinados pelas datas do local de descoberta.

Alguns corpora de texto notáveis

Veja também

Referências

links externos