Cadeia lexical - Lexical chain

A sequência entre palavras ordenadas relacionadas à semântica é classificada como uma cadeia lexical . Uma cadeia lexical é uma sequência de palavras relacionadas na escrita , abrangendo distâncias curtas (palavras ou frases adjacentes ) ou longas (texto inteiro). Uma cadeia é independente da estrutura gramatical do texto e, na verdade, é uma lista de palavras que captura uma parte da estrutura coesa do texto. Uma cadeia lexical pode fornecer um contexto para a resolução de um termo ambíguo e permitir a identificação do conceito que o termo representa.

  • Roma → capital → cidade → habitante
  • Wikipedia → recurso → web

Cerca de

Morris e Hirst introduzem o termo cadeia lexical como uma expansão da coesão lexical . Um texto em que muitas de suas frases estão semanticamente conectadas frequentemente produz certo grau de continuidade em suas ideias, proporcionando boa coesão entre suas frases. A definição usada para coesão lexical afirma que a coerência é o resultado da coesão, e não o contrário. A coesão está relacionada a um conjunto de palavras que se unem por causa de uma relação abstrata ou concreta. A coerência, por outro lado, está preocupada com o significado real de todo o texto.

Morris e Hirst definem que as cadeias lexicais fazem uso do contexto semântico para interpretar palavras, conceitos e frases. Em contraste, a coesão lexical está mais focada nas relações dos pares de palavras. As cadeias lexicais estendem essa noção a um número de série de palavras adjacentes. Existem duas razões principais pelas quais as cadeias lexicais são essenciais:

  • Contexto viável para auxiliar nos problemas de ambigüidade e estreitamento a um significado específico de uma palavra; e
  • Pistas para determinar a coerência e o discurso, portanto, um significado semântico-estrutural mais profundo do texto.

O método apresentado por Morris e Hirst é o primeiro a trazer o conceito de coesão lexical para sistemas de computador por meio de cadeias lexicais. Usando sua intuição, eles identificam cadeias lexicais em documentos de texto e constroem sua estrutura considerando as observações de Halliday e Hassan. Para essa tarefa, eles consideraram cinco documentos de texto, totalizando 183 frases de fontes diferentes e inespecíficas. Palavras repetitivas (por exemplo, palavras de alta frequência, pronomes, proposições, auxiliares verbais) não foram consideradas como elementos da cadeia prospectiva, uma vez que não agregam muito valor semântico à própria estrutura.

As cadeias lexicais são construídas de acordo com uma série de relações entre palavras em um documento de texto. No trabalho seminal de Morris e Hirst eles consideram um tesauro externo ( Tesauro de Roget ) como seu banco de dados lexical para extrair essas relações. Uma cadeia lexical é formada por uma sequência de palavras que aparecem nesta ordem, como quaisquer duas palavras consecutivas que apresentem as seguintes propriedades (ou seja, atributos como categoria , índices e ponteiros no banco de dados lexical) :

  • duas palavras compartilham uma categoria comum em seu índice;
  • a categoria de uma dessas palavras aponta para a outra palavra;
  • uma das palavras pertence à entrada ou categoria da outra palavra;
  • duas palavras são semanticamente relacionadas; e
  • suas categorias concordam com uma categoria comum.

Abordagens e Métodos

O uso de cadeias lexicais em tarefas de processamento de linguagem natural (por exemplo, similaridade de texto, desambiguação de sentido de palavra , agrupamento de documentos ) tem sido amplamente estudado na literatura. Barzilay et al usam cadeias lexicais para produzir resumos de textos. Eles propõem uma técnica baseada em quatro etapas: segmentação do texto original, construção de cadeias lexicais, identificação de cadeias confiáveis ​​e extração de sentenças significativas. Silber e McCoy também investiga o resumo de texto , mas sua abordagem para construir as cadeias lexicais é executada em tempo linear.

Alguns autores usam o WordNet para melhorar a busca e avaliação de cadeias lexicais. Budanitsky e Kirst comparam várias medidas de distância semântica e parentesco usando cadeias lexicais em conjunto com o WordNet . O estudo conclui que a medida de similaridade de Jiang e Conrath apresenta o melhor resultado geral. Moldovan e Adrian estudam o uso de cadeias lexicais para encontrar palavras relacionadas topicamente para sistemas de resposta a perguntas . Isso é feito considerando as glosas para cada synset no WordNet. De acordo com suas descobertas, as relações tópicas por meio de cadeias lexicais melhoram o desempenho dos sistemas de resposta a perguntas quando combinadas com o WordNet . McCarthy et al. apresentam uma metodologia para categorizar e encontrar os synsets mais predominantes em textos não rotulados usando WordNet . Diferente das abordagens tradicionais (por exemplo, BOW ), eles consideram as relações entre os termos que não ocorrem explicitamente. Ercan e Cicekli exploram os efeitos das cadeias lexicais na tarefa de extração de palavras-chave por meio de uma perspectiva de aprendizado de máquina supervisionado. Em Wei et al. combinar cadeias lexicais e WordNet para extrair um conjunto de palavras semanticamente relacionadas de textos e usá-las para agrupamento. A abordagem deles usa uma estrutura hierárquica ontológica para fornecer uma avaliação mais precisa da similaridade entre os termos durante a tarefa de desambiguação do sentido da palavra .

Cadeia lexical e incorporação de palavras

Mesmo que a aplicabilidade das cadeias lexicais seja diversa, há pouco trabalho explorando-as com os avanços recentes da PNL, mais especificamente com embeddings de palavras . Em, as cadeias lexicais são construídas usando padrões específicos encontrados na WordNet e usados ​​para aprender embeddings de palavras . Seus vetores resultantes são validados na tarefa de similaridade de documentos . Gonzales et al. use embeddings de sentido de palavra para produzir cadeias lexicais que são integradas a um modelo de tradução automática neural. Mascarelli propõe um modelo que usa cadeias lexicais para alavancar a tradução automática estatística usando um codificador de documentos. Em vez de usar um banco de dados léxico externo, eles usam embeddings de palavras para detectar as cadeias lexicais no texto de origem.

Ruas et al. propõem duas técnicas que combinam bases de dados lexicais , cadeias lexicais e embeddings de palavras , a saber, Cadeia Lexical Flexível II (FLLC II) e Cadeia Lexical Fixa II (FXLC II). O objetivo principal de FLLC II e FXLC II é representar uma coleção de palavras por seus valores semânticos de forma mais concisa. No FLLC II, as cadeias lexicais são montadas dinamicamente de acordo com o conteúdo semântico de cada termo avaliado e a relação com seus vizinhos adjacentes. Enquanto houver uma relação semântica que conecte duas ou mais palavras, elas devem ser combinadas em um conceito único. A relação semântica é obtida por meio do WordNet , que funciona como uma verdade fundamental para indicar qual estrutura lexical conecta duas palavras (por exemplo, hiperônimos, hipônimos, merônimos). Se uma palavra sem afinidade semântica com a cadeia atual se apresentar, uma nova cadeia lexical é inicializada. Por outro lado, FXLC II divide os segmentos de texto em blocos predefinidos, com um número específico de palavras cada. Diferente do FLLC II, a técnica FXLC II agrupa uma certa quantidade de palavras na mesma estrutura, independentemente da relação semântica expressa na base de dados lexical. Em ambos os métodos, cada cadeia formada é representada pela palavra cujo vetor de incorporação de palavras pré-treinadas é mais semelhante ao vetor médio das palavras constituintes dessa mesma cadeia.

Veja também

Referências