Discurso corpus - Speech corpus
Um corpus de fala (ou corpus falado ) é um banco de dados de arquivos de áudio de fala e transcrições de texto . Na tecnologia da fala , os corpora da fala são usados, entre outras coisas, para criar modelos acústicos (que podem então ser usados com um mecanismo de reconhecimento de fala ou identificação de alto - falante ). Na linguística , os corpora falados são usados para fazer pesquisas em fonética , análise de conversação , dialetologia e outros campos.
Um corpus é um desses bancos de dados. Corpora é o plural de corpus (ou seja, muitos desses bancos de dados).
Existem dois tipos de Speech Corpora:
- Leia a fala - que inclui:
- Trechos de livros
- Notícias de transmissão
- Listas de palavras
- Seqüências de números
- Fala espontânea - que inclui:
- Diálogos - entre duas ou mais pessoas (inclui reuniões);
- Narrativas - uma pessoa que conta uma história (um desses corpus é o Buckeye Corpus );
- Tarefas de mapa - uma pessoa explica uma rota em um mapa para outra;
- Tarefas de compromisso - duas pessoas tentam encontrar um horário de reunião comum com base em agendas individuais.
Um tipo especial de corpora de fala são bancos de dados de fala não nativos que contêm fala com sotaque estrangeiro.
Veja também
- Corpo de fala árabe
- Voz Comum
- EXMARaLDA
- Lingua Libre , uma linha libre ferramenta
- Lista de corpora de fala infantil
- Banco de dados de fala não nativa
- Praat
- Corpus Inglês Falado
- O BABEL Speech Corpus
- TIMIT
- Transcriber
- Transcrição (linguística)
Referências
- Edwards, Jane / Lampert, Martin (eds.) (1992): Talking Data - Transcription and Coding in Discourse Research. Hillsdale: Erlbaum.
- Leech, Geoffrey / Myers, Greg / Thomas, Jenny (eds.) (1995): Spoken English on Computer: Transcription, Markup and Application. Harlow: Longman.
links externos
- Santa Bárbara Corpus do inglês americano falado
- Buckeye Corpus O Buckeye Corpus of Conversational Speech
- Spoken Language Corpora no Centro de Pesquisa em Multilinguismo
- O Corpus Turco Falado em METU Ancara
- Corpus Klient Falado com o Corp-Oral Corpus no ILTEC Lisboa
- VoxForge - corpora de fala de código aberto
- OLAC: Comunidade Open Language Archives
- Arquivo BAS da Baviera para sinais de fala
- Simmortel Speech Recognition Corpus para inglês indiano e hindi
- ELRA: a European Language Resources Association
- The PELCRA Conversational Corpus of Polish
- O corpo da fala árabe
- Corpus de discursos políticos : acesso gratuito a discursos políticos de políticos americanos e chineses, desenvolvido pela Biblioteca da Universidade Batista de Hong Kong