lexicologia Computacional - Computational lexicology

Lexicologia computacional é um ramo da lingüística computacional , que se preocupa com o uso de computadores no estudo do léxico . Tem sido mais estreitamente descrito por alguns estudiosos (Amsler de 1980), como o uso de computadores no estudo de dicionários legíveis por máquina . Distingue-se da lexicografia computacional , que mais propriamente seria o uso de computadores na construção de dicionários, embora alguns pesquisadores têm utilizado lexicografia computacional como sinônimo .

História

Lexicologia computacional surgiu como uma disciplina separada dentro lingüística computacional com o aparecimento de dicionários legíveis por máquina, começando com a criação das fitas legíveis por máquina do Merriam-Webster Sétimo Collegiate Dictionary eo Merriam-Webster New Pocket Dictionary em 1960 por John Olney et al. no Sistema Development Corporation . Hoje, lexicologia computacional é mais conhecido através da criação e aplicação de WordNet . Como o processamento computacional dos pesquisadores aumentou ao longo do tempo, o uso de lexicologia computacional foi aplicado ubiquitously na análise de texto. Em 1987, entre outros Byrd, Calzolari, Chodorow desenvolveram ferramentas computacionais para análise de texto. Em particular, o modelo foi concebido para coordenar as associações que envolvem os sentidos da polissêmicos palavras.

Estudo do léxico

lexicologia Computacional tem contribuído para a compreensão do conteúdo e as limitações de dicionários impressos para fins computacionais (ou seja, ele esclareceu que o trabalho anterior da lexicografia não foi suficiente para as necessidades de lingüística computacional). Através do trabalho de lexicologists computacionais quase todos parte de uma entrada do dicionário de impressão foi estudado variando de:

  1. o que constitui uma headword - usado para gerar listas de correção de ortografia;
  2. o que variantes e inflexões as formas verás - usados ​​para compreender empiricamente morfologia;
  3. como o headword é delimitada em sílabas;
  4. como o headword é pronunciado - usado em sistemas de geração de fala;
  5. as partes do discurso do headword assume - usado para pichadores POS ;
  6. qualquer assunto ou uso códigos especiais atribuídos ao headword - usado para identificar importa texto do documento assunto;
  7. definições do verás e sua sintaxe - usado como um auxílio para a clarificação da palavra no contexto;
  8. a etimologia da headword e seu uso para caracterizar vocabulário, línguas de origem - utilizados para caracterizar o vocabulário texto quanto às suas línguas de origem;
  9. as frases de exemplo;
  10. run-ons (palavras adicionais e expressões de várias palavras que são formados a partir do núcleo); e
  11. palavras relacionadas, como sinônimos e antônimos .

Muitos lingüistas computacionais foram desencantados com os dicionários de impressão como um recurso para a lingüística computacional porque não tinham suficiente sintática e semântica de informações para programas de computador. O trabalho sobre lexicologia computacional rapidamente levou a esforços em duas direcções adicionais.

Sucessores Computacional Lexicologia

Em primeiro lugar, atividades de colaboração entre linguistas computacionais e lexicógrafos levou a uma compreensão do papel que a corpora desempenhado na criação de dicionários. A maioria dos lexicologists computacionais mudou-se para construir grandes corpora para reunir os dados básicos que lexicógrafos tinha usado para criar dicionários. O ACL / DCI (Iniciativa de Coleta de Dados) e do LDC ( Consórcio dados linguísticos ) passou por este caminho. O advento de linguagens de marcação levou à criação de corpora com etiquetas que podem ser mais facilmente analisados para criar sistemas de linguística computacional. Parte-of-speech marcado corpora e semanticamente corpora marcados foram criados a fim de testar e desenvolver pichadores POS e palavra tecnologia desambiguação semântica.

A segunda direcção era para a criação de bases de conhecimento lexicais (LKBs). A Lexical base de conhecimento foi considerado que um dicionário deve ser para fins de linguística computacional, especialmente para fins semânticos lexicais computacionais. Era para ter as mesmas informações em um dicionário de impressão, mas totalmente explicada como para os significados das palavras e as ligações adequadas entre os sentidos. Muitos começaram a criar os recursos que eles queriam dicionários foram, se tivessem sido criados para uso em análise computacional. WordNet pode ser considerado um tal desenvolvimento, como podem os esforços mais recentes no descrevendo informações sintática e semântica, como o trabalho FrameNet de Fillmore. Fora da linguística computacional, o trabalho Ontologia da inteligência artificial pode ser visto como um esforço evolutivo para construir uma base de conhecimento lexical para aplicações de IA.

estandardização

Optimizar a produção, manutenção e ampliação de léxicos computacionais é um dos aspectos cruciais que impactam PNL . O principal problema é a interoperabilidade : vários léxicos são muitas vezes incompatíveis. A situação mais frequente é: como mesclar dois léxicos, ou fragmentos de léxicos? Um problema secundário é que um léxico é geralmente concebido especificamente para um programa NLP específico e tem dificuldades de ser usado dentro de outros programas ou aplicações da PNL.

A este respeito, os vários modelos de dados de léxicos computacionais são estudados por ISO / TC37 desde 2003 no âmbito do projecto quadro lexical markup levando a um padrão ISO em 2008.

Referências

Amsler, Robert A. 1980. Ph.D. Dissertação, "A Estrutura da Merriam-Webster Pocket Dictionary". A Universidade do Texas em Austin.

links externos