Recurso de linguagem - Language resource

Em linguística e tecnologia de linguagem, um recurso de linguagem é uma "[composição] de material linguístico usado na construção, melhoria e / ou avaliação de aplicações de processamento de linguagem, (...) em linguagem e estudos de pesquisa mediados por linguagem e aplicações."

De acordo com Bird & Simons (2003), isso inclui

  1. dados, ou seja, "qualquer informação que documente ou descreva uma linguagem, como uma monografia publicada, um arquivo de dados de computador ou até mesmo uma caixa de sapatos cheia de fichas manuscritas. As informações podem variar em conteúdo de gravações sonoras não analisadas a textos totalmente transcritos e anotados a uma gramática descritiva completa ",
  2. ferramentas, ou seja, "recursos computacionais que facilitam a criação, visualização, consulta ou de outra forma usando dados de linguagem", e
  3. conselho, ou seja, "qualquer informação sobre quais fontes de dados são confiáveis, quais ferramentas são adequadas em uma determinada situação, quais práticas seguir ao criar novos dados". O último aspecto é geralmente referido como "melhores práticas" ou "padrões (comunitários)".

Em um sentido mais restrito, o recurso de linguagem é especificamente aplicado a recursos que estão disponíveis na forma digital e , então, "abrangendo (a) conjuntos de dados (textuais, multimodais / multimídia e dados lexicais, gramáticas, modelos de linguagem, etc.) legíveis por máquina forma, e (b) ferramentas / tecnologias / serviços utilizados para o seu processamento e gestão ".

Tipologia

Em maio de 2020, nenhuma tipologia padrão amplamente usada de recursos de linguagem foi estabelecida (as propostas atuais incluem o LREMap , METASHARE e, para dados, a classificação LLOD ). Classes importantes de recursos de linguagem incluem

  1. dados
    1. recursos lexicais , por exemplo, dicionários legíveis por máquina ,
    2. corpora linguísticos , ou seja, coleções digitais de dados de linguagem natural,
    3. bancos de dados lingüísticos, como a coleta de dados cross-Linguistic Linked ,
  2. Ferramentas
    1. anotações linguísticas e ferramentas para criar tais anotações de forma manual ou semiautomática (por exemplo, ferramentas para anotar texto glosado interlinear , como Toolbox e FLEx , ou outras ferramentas de documentação de linguagem ),
    2. aplicativos para pesquisa e recuperação de tais dados ( sistemas de gerenciamento de corpus ), para anotação automatizada ( marcação de classes gramaticais , análise sintática , análise semântica , etc.),
  3. metadados e vocabulários
    1. vocabulários, repositórios de terminologia linguística e metadados de linguagem, por exemplo, MetaShare (para metadados de recursos de linguagem), o registro de categoria de dados ISO 12620 (para recursos linguísticos, estruturas de dados e anotações dentro de um recurso de linguagem) ou o banco de dados Glottolog (identificadores para variedades de linguagem e banco de dados bibliográficos).

Publicação, disseminação e criação de recursos linguísticos

Uma das principais preocupações da comunidade de recursos linguísticos tem sido desenvolver infra-estruturas e plataformas para apresentar, discutir e disseminar recursos linguísticos. Contribuições selecionadas a este respeito incluem:

Quanto ao desenvolvimento de padrões e melhores práticas para recursos linguísticos, estes estão sujeitos a vários grupos da comunidade e esforços de padronização, incluindo

  • Comitê Técnico da ISO 37: Terminologia e outros recursos de linguagem e conteúdo ( ISO / TC 37 ), desenvolvendo padrões para todos os aspectos dos recursos de linguagem,
  • W3C Community Group Best Practices para Multilingual Linked Open Data (BPMLOD), trabalhando em recomendações de melhores práticas para publicar recursos de linguagem como Linked Data ou RDF ,
  • W3C Community Group Linked Data for Language Technology (LD4LT), trabalhando em anotações linguísticas na web e metadados de recursos linguísticos,
  • W3C Community Group Ontology-Lexica ( OntoLex ), trabalhando em recursos lexicais,
  • o grupo de trabalho Open Linguistics da Open Knowledge Foundation , trabalhando em convenções para publicar e vincular recursos de linguagem aberta , desenvolvendo a nuvem Linguistic Linked Open Data ,
  • a Iniciativa de Codificação de Texto (TEI) , trabalhando em especificações baseadas em XML para recursos de linguagem e texto editado digitalmente.


Referências