Lemmatização - Lemmatisation

Lemmatização ( ou lematização ) em linguística é o processo de agrupar as formas flexionadas de uma palavra para que possam ser analisadas como um único item, identificado pelo lema da palavra , ou forma de dicionário.

Em linguística computacional , a lematização é o processo algorítmico de determinar o lema de uma palavra com base em seu significado pretendido. Ao contrário da lematização , a lematização depende da identificação correta da parte gramatical pretendida e do significado de uma palavra em uma frase, bem como dentro do contexto mais amplo em torno dessa frase, como frases vizinhas ou até mesmo um documento inteiro. Como resultado, o desenvolvimento de algoritmos de lematização eficientes é uma área aberta de pesquisa.

Descrição

Em muitos idiomas, as palavras aparecem em várias formas flexionadas . Por exemplo, em inglês, o verbo 'andar' pode aparecer como 'andar', 'caminhar', 'caminhar' ou 'caminhar'. A forma básica, 'andar', que alguém pode procurar em um dicionário, é chamada de lema da palavra. A associação da forma básica com uma classe gramatical costuma ser chamada de lexema da palavra.

A lematização está intimamente relacionada à derivação . A diferença é que um lematizador opera em uma única palavra sem conhecimento do contexto e, portanto, não pode discriminar entre palavras que têm significados diferentes dependendo da classe gramatical. No entanto, os lematizadores são normalmente mais fáceis de implementar e executar com mais rapidez. A "precisão" reduzida pode não importar para alguns aplicativos. Na verdade, quando usado em sistemas de recuperação de informação, o lematização melhora a precisão da recuperação da consulta , ou taxa de positividade verdadeira, quando comparada à lematização. No entanto, a derivação reduz a precisão , ou a proporção de instâncias marcadas positivamente que são realmente positivas, para tais sistemas.

Por exemplo:

  1. A palavra "melhor" tem "bom" como lema. Este link é perdido pela lematização, pois requer uma consulta no dicionário.
  2. A palavra "andar" é a forma básica para a palavra "andar" e, portanto, é correspondida tanto na derivação quanto na lematização.
  3. A palavra "encontro" pode ser a forma básica de um substantivo ou a forma de um verbo ("encontrar") dependendo do contexto; por exemplo, "em nossa última reunião" ou "Voltaremos a nos encontrar amanhã". Ao contrário da lematização, a lematização tenta selecionar o lema correto dependendo do contexto.

O software de indexação de documentos, como o Lucene, pode armazenar o formato do radical básico da palavra sem o conhecimento do significado, mas considerando apenas as regras gramaticais de formação de palavras. A própria palavra de raiz pode não ser uma palavra válida: 'preguiçoso', como visto no exemplo abaixo, é derivado de muitos lematizadores para 'lazi'. Isso ocorre porque o objetivo da radiografia não é produzir o lema apropriado - essa é uma tarefa mais desafiadora que requer conhecimento do contexto. O principal objetivo da lematização é mapear diferentes formas de uma palavra em uma única forma. Como um algoritmo baseado em regras, dependente apenas da grafia de uma palavra, ele sacrifica a precisão para garantir que, por exemplo, quando 'preguiça' é derivado de 'preguiçoso', ele tem a mesma raiz de 'preguiçoso'.

Algoritmos

Uma maneira trivial de fazer lematização é por meio de uma consulta simples no dicionário. Isso funciona bem para formas flexionadas diretas, mas um sistema baseado em regras será necessário para outros casos, como em idiomas com palavras compostas longas . Essas regras podem ser feitas à mão ou aprendidas automaticamente a partir de um corpus anotado.

Uso em biomedicina

A análise morfológica da literatura biomédica publicada pode produzir resultados úteis. O processamento morfológico de texto biomédico pode ser mais eficaz por um programa de lematização especializado para biomedicina e pode melhorar a precisão das tarefas práticas de extração de informações .

Veja também

Referências

links externos