recuperação de documentos - Document retrieval

Recuperação de documentos é definido como a correspondência de algum consulta do usuário declarado contra um conjunto de de texto livre registros. Esses registros podem ser qualquer tipo de principalmente texto não estruturado , tais como artigos de jornais , registros imobiliários ou parágrafos em um manual. Consultas de usuários pode variar de multi-sentença descrições completas de uma informação precisa algumas palavras.

Recuperação de documentos é por vezes referido como, ou como um ramo de, recuperação de texto . Recuperação de texto é um ramo da recuperação de informação , onde a informação é armazenada principalmente na forma de texto . Bases de dados de texto tornou-se graças descentralizados para o computador pessoal e o CD-ROM . Recuperação de texto é uma área crítica de estudo de hoje, uma vez que é a base fundamental de todas internet motores de busca .

Descrição

Sistemas de recuperação de documento encontrar informações a determinados critérios, combinando os registros de texto ( documentos ) contra as consultas dos usuários, ao contrário de sistemas especialistas que respondem a perguntas de inferir sobre uma lógica de banco de dados de conhecimento . Um sistema de recuperação de documentos consiste em um banco de dados de documentos, um algoritmo de classificação para construir um índice de texto completo, e uma interface de usuário para acessar o banco de dados.

Um sistema de recuperação de documentos tem duas tarefas principais:

  1. Encontrar documentos relevantes para as consultas do usuário
  2. Avaliar os resultados correspondentes e classificá-los de acordo com a relevância, usando algoritmos como o PageRank .

Internet motores de busca são aplicações clássicas de recuperação de documentos. A grande maioria dos sistemas de recuperação actualmente no intervalo de utilizao de sistemas booleanas simples por meio de sistemas que utilizam estatísticos ou processamento de linguagem natural técnicas.

variações

Existem duas classes principais de esquemas de indexação para os sistemas de recuperação de documentos: formulário com base (ou palavra base ), e baseada em conteúdo indexação. O esquema de classificação de documentos (ou algoritmo de indexação ) em uso determina a natureza do sistema de recuperação de documentos.

formulário baseado

Recuperação de documentos baseada em formulário aborda as propriedades sintáticas exatas de um texto, comparáveis a substring correspondente em pesquisas de cadeia. O texto é geralmente não estruturadas e não necessariamente em uma linguagem natural, o sistema poderia, por exemplo, ser usado para processar grandes conjuntos de representações químicas em biologia molecular. A árvore de sufixo algoritmo é um exemplo para a indexação baseada em formulário.

conteúdo baseado

A abordagem baseada em conteúdo explora conexões semânticas entre documentos e suas partes, e conexões semânticas entre consultas e documentos. A maioria dos sistemas de recuperação de documentos de conteúdo com base usar um índice invertido algoritmo.

Um arquivo de assinatura é uma técnica que cria um rápido e sujo filtro, por exemplo, um filtro de Bloom , que vai manter todos os documentos que correspondem à consulta e esperamos que algumas aquelas que não o fazem. A forma como isso é feito é através da criação de cada arquivo uma assinatura, tipicamente uma versão de hash codificada. Um método de codificação é sobreposta. A etapa de pós-processamento é feito para descartar os falsos alarmes. Uma vez que na maioria dos casos, esta estrutura é inferior aos arquivos invertidos em termos de velocidade, tamanho e funcionalidade, não é amplamente utilizado. No entanto, com parâmetros adequados pode bater os arquivos invertidos em determinados ambientes.

Exemplo: PubMed

O PubMed interface de formulário apresenta o "artigos relacionados" busca que funciona através de uma comparação de palavras do título dos documentos, abstrato, e MeSH termos usando um algoritmo ponderado palavra.

Veja também

Referências

  1. ^ Kim W, Aronson AR, Wilbur WJ (2001). "MeSH automática atribuição prazo e avaliação da qualidade" . Proc AMIA Symp : 319-23. PMC  2.243.528 . PMID  11825203 .
  2. ^ "Computação de citações relacionadas" .
  3. ^ Lin J1, Wilbur WJ (30 de outubro de 2007). "PubMed artigos relacionados: um modelo probabilístico baseado em tema de similaridade de conteúdo" . BMC Bioinformatics . 8 : 423. doi : 10.1186 / 1471-2105-8-423 . PMC  2.212.667 . PMID  17971238 .

Outras leituras

links externos