Discurso corpus - Speech corpus

Um corpus de fala (ou corpus falado ) é um banco de dados de arquivos de áudio de fala e transcrições de texto . Na tecnologia da fala , os corpora da fala são usados, entre outras coisas, para criar modelos acústicos (que podem então ser usados ​​com um mecanismo de reconhecimento de fala ou identificação de alto - falante ). Na linguística , os corpora falados são usados ​​para fazer pesquisas em fonética , análise de conversação , dialetologia e outros campos.

Um corpus é um desses bancos de dados. Corpora é o plural de corpus (ou seja, muitos desses bancos de dados).

Existem dois tipos de Speech Corpora:

  1. Leia a fala - que inclui:
    • Trechos de livros
    • Notícias de transmissão
    • Listas de palavras
    • Seqüências de números
  2. Fala espontânea - que inclui:
    • Diálogos - entre duas ou mais pessoas (inclui reuniões);
    • Narrativas - uma pessoa que conta uma história (um desses corpus é o Buckeye Corpus );
    • Tarefas de mapa - uma pessoa explica uma rota em um mapa para outra;
    • Tarefas de compromisso - duas pessoas tentam encontrar um horário de reunião comum com base em agendas individuais.

Um tipo especial de corpora de fala são bancos de dados de fala não nativos que contêm fala com sotaque estrangeiro.

Veja também

Referências

  • Edwards, Jane / Lampert, Martin (eds.) (1992): Talking Data - Transcription and Coding in Discourse Research. Hillsdale: Erlbaum.
  • Leech, Geoffrey / Myers, Greg / Thomas, Jenny (eds.) (1995): Spoken English on Computer: Transcription, Markup and Application. Harlow: Longman.

links externos