Extração de conhecimento - Knowledge extraction

A extração de conhecimento é a criação de conhecimento a partir de fontes estruturadas ( bancos de dados relacionais , XML ) e não estruturadas ( texto , documentos, imagens ). O conhecimento resultante precisa estar em um formato legível e interpretável por máquina e deve representar o conhecimento de uma maneira que facilite a inferência. Embora seja metodicamente semelhante à extração de informações ( NLP ) e ETL (data warehouse), o principal critério é que o resultado da extração vá além da criação de informações estruturadas ou da transformação em um esquema relacional . Requer a reutilização do conhecimento formal existente (reutilização de identificadores ou ontologias ) ou a geração de um esquema baseado nos dados de origem.

O grupo RDB2RDF W3C está atualmente padronizando uma linguagem para extração de frameworks de descrição de recursos (RDF) de bancos de dados relacionais . Outro exemplo popular de extração de conhecimento é a transformação da Wikipedia em dados estruturados e também o mapeamento para o conhecimento existente (consulte DBpedia e Freebase ).

Visão geral

Após a padronização de linguagens de representação de conhecimento como RDF e OWL , muitas pesquisas foram realizadas na área, principalmente no que diz respeito à transformação de bancos de dados relacionais em RDF, resolução de identidade , descoberta de conhecimento e aprendizagem de ontologias. O processo geral usa métodos tradicionais de extração e extração, transformação e carregamento (ETL) de informações, que transformam os dados das fontes em formatos estruturados.

Os critérios a seguir podem ser usados ​​para categorizar abordagens neste tópico (alguns deles apenas consideram a extração de bancos de dados relacionais):

Fonte Quais fontes de dados são cobertas: texto, bancos de dados relacionais, XML, CSV
Exposição Como o conhecimento extraído é explicitado (arquivo de ontologia, banco de dados semântico)? Como você pode consultá-lo?
Sincronização O processo de extração de conhecimento é executado uma vez para produzir um dump ou o resultado é sincronizado com a fonte? Estático ou dinâmico. As alterações no resultado são escritas de volta (bidirecional)
Reutilização de vocabulários A ferramenta é capaz de reutilizar vocabulários existentes na extração. Por exemplo, a coluna da tabela 'firstName' pode ser mapeada para foaf: firstName. Algumas abordagens automáticas não são capazes de mapear o vocabulário.
Automatização O grau em que a extração é assistida / automatizada. Manual, GUI, semi-automático, automático.
Requer uma ontologia de domínio Uma ontologia pré-existente é necessária para mapear para ele. Portanto, um mapeamento é criado ou um esquema é aprendido da origem ( aprendizado de ontologia ).

Exemplos

Vinculação de entidades

  1. DBpedia Spotlight , OpenCalais , Dandelion dataTXT , a API Zemanta, Extractiv e PoolParty Extractor analisam texto livre por meio de reconhecimento de entidade nomeada e, em seguida, desambigua candidatos por meio de resolução de nome e vincula as entidades encontradas ao repositório de conhecimento DBpedia ( Dandelion dataTXT demo ou DBpedia Spotlight web demo ou PoolParty Extractor Demo ).

O presidente Obama pediu na quarta-feira ao Congresso para estender uma redução de impostos para estudantes incluídos no pacote de estímulo econômico do ano passado, argumentando que a política fornece uma assistência mais generosa.

Como o Presidente Obama está vinculado a um recurso DBpedia LinkedData , mais informações podem ser recuperadas automaticamente e um Reasoner Semântico pode, por exemplo, inferir que a entidade mencionada é do tipo Pessoa (usando FOAF (software) ) e do tipo Presidentes dos Estados Unidos ( usando YAGO ). Contra-exemplos: métodos que apenas reconhecem entidades ou vinculam a artigos da Wikipedia e outros alvos que não fornecem recuperação adicional de dados estruturados e conhecimento formal.

Bancos de dados relacionais para RDF

  1. Triplify , D2R Server, Ultrawrap e Virtuoso RDF Views são ferramentas que transformam bancos de dados relacionais em RDF. Durante esse processo, eles permitem a reutilização de vocabulários e ontologias existentes durante o processo de conversão. Ao transformar uma tabela relacional típica chamada usuários , uma coluna (por exemplo, nome ) ou uma agregação de colunas (por exemplo, first_name e last_name ) deve fornecer o URI da entidade criada. Normalmente, a chave primária é usada. Qualquer outra coluna pode ser extraída como uma relação com esta entidade. Em seguida, as propriedades com semântica formalmente definida são usadas (e reutilizadas) para interpretar as informações. Por exemplo, uma coluna em uma tabela de usuário chamada marriedTo pode ser definida como relação simétrica e uma página inicial da coluna pode ser convertida em uma propriedade do vocabulário FOAF chamado foaf: homepage , qualificando-a assim como uma propriedade funcional inversa . Então, cada entrada da tabela do usuário pode ser feita uma instância da classe foaf: Person (Ontology Population). Além disso, o conhecimento de domínio (na forma de uma ontologia) pode ser criado a partir do status_id , seja por regras criadas manualmente (se status_id for 2, a entrada pertence à classe Professor) ou por métodos (semi) -automatizados ( aprendizagem de ontologia ). Aqui está um exemplo de transformação:
Nome casado com pagina inicial status_id
Peter Mary http://example.org/Peters_page 1
Noel Eva http://example.org/Claus_page 2
 :Peter :marriedTo :Mary .  
 :marriedTo a owl:SymmetricProperty .  
 :Peter foaf:homepage  <http://example.org/Peters_page> .  
 :Peter a foaf:Person .   
 :Peter a :Student .  
 :Claus a :Teacher .

Extração de fontes estruturadas para RDF

1: 1 Mapeamento de tabelas / visualizações RDB para entidades / atributos / valores RDF

Ao construir uma representação RDB de um domínio de problema, o ponto de partida é freqüentemente um diagrama de relacionamento de entidade (ERD). Normalmente, cada entidade é representada como uma tabela de banco de dados, cada atributo da entidade se torna uma coluna nessa tabela e os relacionamentos entre as entidades são indicados por chaves estrangeiras. Cada tabela normalmente define uma classe particular de entidade, cada coluna um de seus atributos. Cada linha da tabela descreve uma instância de entidade, identificada exclusivamente por uma chave primária. As linhas da tabela descrevem coletivamente um conjunto de entidades. Em uma representação RDF equivalente do mesmo conjunto de entidades:

  • Cada coluna da tabela é um atributo (ou seja, predicado)
  • Cada valor de coluna é um valor de atributo (ou seja, objeto)
  • Cada chave de linha representa um ID de entidade (ou seja, assunto)
  • Cada linha representa uma instância de entidade
  • Cada linha (instância de entidade) é representada em RDF por uma coleção de triplos com um assunto comum (ID de entidade).

Portanto, para renderizar uma visualização equivalente com base na semântica RDF, o algoritmo de mapeamento básico seria o seguinte:

  1. crie uma classe RDFS para cada tabela
  2. converter todas as chaves primárias e chaves estrangeiras em IRIs
  3. atribuir um predicado IRI a cada coluna
  4. atribuir um predicado rdf: type para cada linha, vinculando-o a um IRI de classe RDFS correspondente à tabela
  5. para cada coluna que não faz parte de uma chave primária ou estrangeira, construa um triplo contendo a chave primária IRI como o assunto, a coluna IRI como o predicado e o valor da coluna como o objeto.

A menção inicial deste mapeamento básico ou direto pode ser encontrada na comparação de Tim Berners-Lee do modelo ER com o modelo RDF.

Mapeamentos complexos de bancos de dados relacionais para RDF

O mapeamento 1: 1 mencionado acima expõe os dados legados como RDF de uma maneira direta, refinamentos adicionais podem ser empregados para melhorar a utilidade da saída de RDF em relação aos casos de uso fornecidos. Normalmente, as informações são perdidas durante a transformação de um diagrama de relacionamento de entidade (ERD) em tabelas relacionais (os detalhes podem ser encontrados na incompatibilidade de impedância relacional de objeto ) e precisam ser submetidos à engenharia reversa . De uma visão conceitual, as abordagens para extração podem vir de duas direções. A primeira direção tenta extrair ou aprender um esquema OWL do esquema de banco de dados fornecido. As primeiras abordagens usavam uma quantidade fixa de regras de mapeamento criadas manualmente para refinar o mapeamento 1: 1. Métodos mais elaborados estão empregando heurísticas ou algoritmos de aprendizado para induzir informações esquemáticas (métodos se sobrepõem ao aprendizado de ontologias ). Enquanto algumas abordagens tentam extrair as informações da estrutura inerente ao esquema SQL (analisando, por exemplo, chaves estrangeiras), outras analisam o conteúdo e os valores nas tabelas para criar hierarquias conceituais (por exemplo, colunas com poucos valores são candidatas a se tornarem categorias) . A segunda direção tenta mapear o esquema e seu conteúdo para uma ontologia de domínio pré-existente (consulte também: alinhamento de ontologias ). Freqüentemente, entretanto, uma ontologia de domínio adequada não existe e deve ser criada primeiro.

XML

Como o XML é estruturado como uma árvore, qualquer dado pode ser facilmente representado em RDF, que é estruturado como um gráfico. XML2RDF é um exemplo de uma abordagem que usa nós em branco RDF e transforma elementos e atributos XML em propriedades RDF. O tópico, entretanto, é mais complexo como no caso de bancos de dados relacionais. Em uma tabela relacional, a chave primária é uma candidata ideal para se tornar o sujeito das triplas extraídas. Um elemento XML, entretanto, pode ser transformado - dependendo do contexto - como um sujeito, um predicado ou objeto de um triplo. O XSLT pode ser usado como uma linguagem de transformação padrão para converter XML em RDF manualmente.

Levantamento de métodos / ferramentas

Nome Fonte de dados Exposição de Dados Sincronização de Dados Linguagem de mapeamento Reutilização de vocabulário Mapping Automat. Req. Ontologia de Domínio Usa GUI
Um mapeamento direto de dados relacionais para RDF Dados Relacionais SPARQL / ETL dinâmico N / D falso automático falso falso
CSV2RDF4LOD CSV ETL estático RDF verdade manual falso falso
CoNLL-RDF TSV, CoNLL Fluxo SPARQL / RDF estático Nenhum verdade automático (específico do domínio, para casos de uso em tecnologia de linguagem, preserva as relações entre as linhas) falso falso
Convert2RDF Arquivo de texto delimitado ETL estático RDF / DAML verdade manual falso verdade
Servidor D2R RDB SPARQL bidirecional Mapa D2R verdade manual falso falso
DartGrid RDB própria linguagem de consulta dinâmico Ferramenta Visual verdade manual falso verdade
DataMaster RDB ETL estático proprietário verdade manual verdade verdade
Extensão RDF do Google Refine CSV, XML ETL estático Nenhum semiautomático falso verdade
Krextor XML ETL estático xslt verdade manual verdade falso
MAPONTO RDB ETL estático proprietário verdade manual verdade falso
METAmorfoses RDB ETL estático linguagem proprietária de mapeamento baseada em xml verdade manual falso verdade
MappingMaster CSV ETL estático MappingMaster verdade GUI falso verdade
ODEMapster RDB ETL estático proprietário verdade manual verdade verdade
Plug-in do importador OntoWiki CSV - DataCube e Tabular CSV ETL estático The RDF Data Cube Vocaublary verdade semiautomático falso verdade
Poolparty Extraktor (PPX) XML, Texto LinkedData dinâmico RDF (SKOS) verdade semiautomático verdade falso
RDBToOnto RDB ETL estático Nenhum falso automático, o usuário, além disso, tem a chance de ajustar os resultados falso verdade
RDF 123 CSV ETL estático falso falso manual falso verdade
RDOTE RDB ETL estático SQL verdade manual verdade verdade
Relational.OWL RDB ETL estático Nenhum falso automático falso falso
T2LD CSV ETL estático falso falso automático falso falso
O vocabulário do cubo de dados RDF Dados estatísticos multidimensionais em planilhas Vocabulário do cubo de dados verdade manual falso
TopBraid Composer CSV ETL estático SKOS falso semiautomático falso verdade
Triplificar RDB LinkedData dinâmico SQL verdade manual falso falso
Ultrawrap RDB SPARQL / ETL dinâmico R2RML verdade semiautomático falso verdade
Virtuoso RDF Views RDB SPARQL dinâmico Linguagem de Meta Schema verdade semiautomático falso verdade
Virtuoso Sponger fontes de dados estruturadas e semiestruturadas SPARQL dinâmico Virtuoso PL e XSLT verdade semiautomático falso falso
VisAVis RDB RDQL dinâmico SQL verdade manual verdade verdade
XLWrap: planilha para RDF CSV ETL estático Sintaxe TriG verdade manual falso falso
XML para RDF XML ETL estático falso falso automático falso falso

Extração de fontes de linguagem natural

A maior parte das informações contidas em documentos comerciais (cerca de 80%) é codificada em linguagem natural e, portanto, não estruturada. Como os dados não estruturados são um desafio para a extração de conhecimento, métodos mais sofisticados são necessários, que geralmente tendem a fornecer resultados piores em comparação com os dados estruturados. O potencial para uma aquisição massiva de conhecimento extraído, no entanto, deve compensar o aumento da complexidade e a diminuição da qualidade da extração. A seguir, as fontes de linguagem natural são entendidas como fontes de informação, onde os dados são fornecidos de forma não estruturada como texto simples. Se o texto fornecido for adicionalmente incorporado em um documento de marcação (por exemplo, documento HTML), os sistemas mencionados normalmente removem os elementos de marcação automaticamente.

Anotação linguística / processamento de linguagem natural (PNL)

Como uma etapa de pré-processamento para extração de conhecimento, pode ser necessário realizar anotações linguísticas por uma ou várias ferramentas de PNL . Módulos individuais em um fluxo de trabalho de PNL normalmente se baseiam em formatos específicos de ferramentas para entrada e saída, mas no contexto de extração de conhecimento, formatos estruturados para representar anotações linguísticas foram aplicados.

As tarefas típicas de PNL relevantes para a extração de conhecimento incluem:

  • etiquetagem de classe gramatical (POS)
  • lematização (LEMMA) ou lematização (STEM)
  • desambiguação do sentido da palavra (WSD, relacionado à anotação semântica abaixo)
  • reconhecimento de entidade nomeada (NER, veja também IE abaixo)
  • análise sintática, muitas vezes adotando dependências sintáticas (DEP)
  • análise sintática superficial (CHUNK): se o desempenho for um problema, a fragmentação produz uma extração rápida de frases nominais e outras
  • resolução de anáfora (consulte a resolução de co-referência no IE abaixo, mas vista aqui como a tarefa de criar links entre menções textuais em vez de entre a menção de uma entidade e uma representação abstrata da entidade)
  • rotulagem de função semântica (SRL, relacionada à extração de relação; não deve ser confundida com a anotação semântica, conforme descrito abaixo)
  • análise de discurso (relações entre frases diferentes, raramente usadas em aplicações do mundo real)

No NLP, esses dados são normalmente representados em formatos TSV (formatos CSV com TAB como separadores), geralmente chamados de formatos CoNLL. Para fluxos de trabalho de extração de conhecimento, visualizações RDF de tais dados foram criadas de acordo com os seguintes padrões da comunidade:

  • Formato de intercâmbio de PNL (NIF, para muitos tipos frequentes de anotação)
  • Web Annotation (WA, frequentemente usado para vinculação de entidades)
  • CoNLL-RDF (para anotações originalmente representadas em formatos TSV)

Outros formatos específicos de plataforma incluem

  • Formato de intercâmbio LAPPS (LIF, usado na grade LAPPS)
  • Formato de anotação de PNL (NAF, usado no sistema de gerenciamento de fluxo de trabalho NewsReader)

Extração de informação tradicional (IE)

A extração de informação tradicional é uma tecnologia de processamento de linguagem natural, que extrai informações de textos de linguagem tipicamente natural e os estrutura de maneira adequada. Os tipos de informação a serem identificados devem ser especificados em um modelo antes de iniciar o processo, razão pela qual todo o processo de Extração de Informação tradicional é dependente de domínio. O IE é dividido nas cinco subtarefas a seguir.

A tarefa de reconhecimento de entidade nomeada é reconhecer e categorizar todas as entidades nomeadas contidas em um texto (atribuição de uma entidade nomeada a uma categoria predefinida). Isso funciona pela aplicação de métodos baseados em gramática ou modelos estatísticos.

A resolução de correferência identifica entidades equivalentes, que foram reconhecidas pelo NER, dentro de um texto. Existem dois tipos relevantes de relação de equivalência. O primeiro diz respeito ao relacionamento entre duas entidades representadas diferentes (por exemplo, IBM Europa e IBM) e o segundo ao relacionamento entre uma entidade e suas referências anafóricas (por exemplo, ela e IBM). Ambos os tipos podem ser reconhecidos por resolução de correferência.

Durante a construção do elemento de modelo, o sistema IE identifica propriedades descritivas de entidades, reconhecidas por NER e CO. Essas propriedades correspondem a qualidades comuns como vermelho ou grande.

A construção da relação do template identifica as relações existentes entre os elementos do template. Essas relações podem ser de vários tipos, como obras para ou localizadas, com a restrição de que tanto o domínio quanto o intervalo correspondam a entidades.

No cenário template os eventos de produção, que estão descritos no texto, serão identificados e estruturados em relação às entidades, reconhecidas por NER e CO e relações, identificadas por TR.

Extração de informação baseada em ontologia (OBIE)

Extração de informação baseada em ontologia é um subcampo da extração de informação, com o qual pelo menos uma ontologia é usada para guiar o processo de extração de informação de texto em linguagem natural. O sistema OBIE utiliza métodos de extração de informação tradicional para identificar conceitos , instâncias e relações das ontologias utilizadas no texto, que serão estruturadas em uma ontologia após o processo. Assim, as ontologias de entrada constituem o modelo de informação a ser extraído.

Aprendizagem de ontologia (OL)

A aprendizagem de ontologias é a criação automática ou semiautomática de ontologias, incluindo a extração dos termos do domínio correspondente de um texto em linguagem natural. Como construir ontologias manualmente é extremamente trabalhoso e demorado, há uma grande motivação para automatizar o processo.

Anotação semântica (SA)

Durante a anotação semântica, o texto em linguagem natural é aumentado com metadados (frequentemente representados em RDFa ), o que deve tornar a semântica dos termos contidos compreensível por máquina. Neste processo, que geralmente é semiautomático, é extraído conhecimento no sentido de que se estabelece uma ligação entre termos lexicais e por exemplo conceitos de ontologias. Assim, adquire-se o conhecimento, cujo significado de um termo no contexto processado se pretendia e, portanto, o significado do texto está alicerçado em dados legíveis por máquina com capacidade de fazer inferências. A anotação semântica é normalmente dividida nas duas subtarefas a seguir.

  1. Extração de terminologia
  2. Vinculação de entidades

No nível de extração de terminologia, os termos lexicais do texto são extraídos. Para isso, um tokenizer determina primeiro os limites da palavra e resolve abreviações. Posteriormente, os termos do texto, que correspondem a um conceito, são extraídos com a ajuda de um léxico específico do domínio para vinculá-los na vinculação de entidades.

Na ligação de entidades, é estabelecido um vínculo entre os termos lexicais extraídos do texto de origem e os conceitos de uma ontologia ou base de conhecimento, como DBpedia . Para isso, são detectados conceitos-candidatos de forma adequada aos diversos significados de um termo com o auxílio de um léxico. Finalmente, o contexto dos termos é analisado para determinar a desambiguação mais apropriada e para atribuir o termo ao conceito correto.

Observe que a "anotação semântica" no contexto de extração de conhecimento não deve ser confundida com a análise semântica conforme entendida no processamento de linguagem natural (também conhecida como "anotação semântica"): a análise semântica visa uma representação completa e legível por máquina da linguagem natural , enquanto a anotação semântica no sentido de extração de conhecimento aborda apenas um aspecto muito elementar disso.

Ferramentas

Os critérios a seguir podem ser usados ​​para categorizar ferramentas, que extraem conhecimento de texto em linguagem natural.

Fonte Quais formatos de entrada podem ser processados ​​pela ferramenta (por exemplo, texto simples, HTML ou PDF)?
Paradigma de acesso A ferramenta pode consultar a fonte de dados ou requer um despejo inteiro para o processo de extração?
Sincronização de Dados O resultado do processo de extração está sincronizado com a fonte?
Usa Ontologia de Saída A ferramenta vincula o resultado a uma ontologia?
Automação de mapeamento Quão automatizado é o processo de extração (manual, semiautomático ou automático)?
Requer Ontologia A ferramenta precisa de uma ontologia para a extração?
Usa GUI A ferramenta oferece uma interface gráfica do usuário?
Abordagem Qual abordagem (IE, OBIE, OL ou SA) é usada pela ferramenta?
Entidades extraídas Quais tipos de entidades (por exemplo, entidades nomeadas, conceitos ou relacionamentos) podem ser extraídos pela ferramenta?
Técnicas Aplicadas Quais técnicas são aplicadas (por exemplo, PNL, métodos estatísticos, clustering ou aprendizado de máquina )?
Modelo de Saída Qual modelo é usado para representar o resultado da ferramenta (por exemplo, RDF ou OWL)?
Domínios Suportados Quais domínios são suportados (por exemplo, economia ou biologia)?
Idiomas Suportados Quais idiomas podem ser processados ​​(por exemplo, inglês ou alemão)?

A tabela a seguir caracteriza algumas ferramentas para Extração de Conhecimento de fontes de linguagem natural.

Nome Fonte Paradigma de acesso Sincronização de Dados Usa Ontologia de Saída Automação de mapeamento Requer Ontologia Usa GUI Abordagem Entidades extraídas Técnicas Aplicadas Modelo de Saída Domínios Suportados Idiomas Suportados
[1] texto simples, HTML, XML, SGML jogar fora não sim automático sim sim IE entidades nomeadas, relacionamentos, eventos regras lingüísticas proprietário independente de domínio Inglês, espanhol, árabe, chinês, indonésio
AlchemyAPI texto simples, HTML automático sim SA multilíngue
ANNIE texto simples jogar fora sim sim IE algoritmos de estado finito multilíngue
ASIUM texto simples jogar fora semiautomático sim OL conceitos, hierarquia de conceitos PNL, clustering
Extração Exaustiva de Atenção automático IE entidades nomeadas, relacionamentos, eventos PNL
API Dandelion texto simples, HTML, URL DESCANSO não não automático não sim SA entidades nomeadas, conceitos Métodos estatísticos JSON independente de domínio multilíngue
DBpedia Spotlight texto simples, HTML despejo, SPARQL sim sim automático não sim SA anotação para cada palavra, anotação para palavras sem parar PNL, métodos estatísticos, aprendizado de máquina RDFa independente de domínio inglês
EntityClassifier.eu texto simples, HTML jogar fora sim sim automático não sim IE, OL, SA anotação para cada palavra, anotação para palavras sem parar gramática baseada em regras XML independente de domínio Inglês, alemão, holandês
FRED texto simples despejo, API REST sim sim automático não sim IE, OL, SA, padrões de design de ontologia, semântica de quadros (multi-) palavra NIF ou anotação EarMark, predicados, instâncias, semântica composicional, taxonomias de conceito, quadros, papéis semânticos, relações perifrásticas, eventos, modalidade, tempo verbal, vinculação de entidade, vinculação de evento, sentimento PNL, aprendizado de máquina, regras heurísticas RDF / OWL independente de domínio Inglês, outros idiomas via tradução
iDocument HTML, PDF, DOC SPARQL sim sim OBIE instâncias, valores de propriedade PNL negócios pessoais
Extrator NetOwl texto simples, HTML, XML, SGML, PDF, MS Office jogar fora Não sim Automático sim sim IE entidades nomeadas, relacionamentos, eventos PNL XML, JSON, RDF-OWL, outros múltiplos domínios Inglês, árabe chinês (simplificado e tradicional), francês, coreano, persa (farsi e dari), russo, espanhol
OntoGen semiautomático sim OL conceitos, hierarquia de conceitos, relações não taxonômicas, instâncias PNL, aprendizado de máquina, clustering
OntoLearn texto simples, HTML jogar fora não sim automático sim não OL conceitos, hierarquia de conceitos, instâncias PNL, métodos estatísticos proprietário independente de domínio inglês
OntoLearn Reloaded texto simples, HTML jogar fora não sim automático sim não OL conceitos, hierarquia de conceitos, instâncias PNL, métodos estatísticos proprietário independente de domínio inglês
OntoSyphon HTML, PDF, DOC despejo, consultas de mecanismo de pesquisa não sim automático sim não OBIE conceitos, relações, instâncias PNL, métodos estatísticos RDF independente de domínio inglês
ontoX texto simples jogar fora não sim semiautomático sim não OBIE instâncias, valores de propriedade de tipo de dados métodos baseados em heurística proprietário independente de domínio independente da linguagem
OpenCalais texto simples, HTML, XML jogar fora não sim automático sim não SA anotação para entidades, anotação para eventos, anotação para fatos PNL, aprendizado de máquina RDF independente de domínio Inglês, francês, espanhol
Extrator PoolParty texto simples, HTML, DOC, ODT jogar fora não sim automático sim sim OBIE entidades nomeadas, conceitos, relações, conceitos que categorizam o texto, enriquecimentos PNL, aprendizado de máquina, métodos estatísticos RDF, OWL independente de domínio Inglês, alemão, espanhol, francês
Rosoka texto simples, HTML, XML, SGML, PDF, MS Office jogar fora sim sim Automático não sim IE extração de entidade nomeada, resolução de entidade, extração de relacionamento, atributos, conceitos, análise de sentimento multivetorial, geotagging, identificação de linguagem PNL, aprendizado de máquina XML, JSON, POJO, RDF múltiplos domínios Mais de 200 idiomas multilingues
SCOOBIE texto simples, HTML jogar fora não sim automático não não OBIE instâncias, valores de propriedade, tipos RDFS PNL, aprendizado de máquina RDF, RDFa independente de domínio Inglês, alemão
SemTag HTML jogar fora não sim automático sim não SA aprendizado de máquina registro de banco de dados independente de domínio independente da linguagem
smart FIX texto simples, HTML, PDF, DOC, e-mail jogar fora sim não automático não sim OBIE entidades nomeadas PNL, aprendizado de máquina proprietário independente de domínio Inglês, alemão, francês, holandês, polonês
Text2Onto texto simples, HTML, PDF jogar fora sim não semiautomático sim sim OL conceitos, hierarquia de conceitos, relações não taxonômicas, instâncias, axiomas PNL, métodos estatísticos, aprendizado de máquina, métodos baseados em regras CORUJA independente de deomain Inglês, alemão, espanhol
Texto para cima texto simples, HTML, PDF, PostScript jogar fora semiautomático sim sim OL conceitos, hierarquia de conceitos, relações não taxonômicas, entidades lexicais referentes a conceitos, entidades lexicais referentes a relações PNL, aprendizado de máquina, clustering, métodos estatísticos alemão
ThatNeedle Texto simples jogar fora automático não conceitos, relações, hierarquia PNL, proprietário JSON múltiplos domínios inglês
The Wiki Machine texto simples, HTML, PDF, DOC jogar fora não sim automático sim sim SA anotação para nomes próprios, anotação para nomes comuns aprendizado de máquina RDFa independente de domínio Inglês, alemão, espanhol, francês, português, italiano, russo
ThingFinder IE entidades nomeadas, relacionamentos, eventos multilíngue

Descoberta de conhecimento

A descoberta de conhecimento descreve o processo de pesquisa automática de grandes volumes de dados em busca de padrões que possam ser considerados conhecimento sobre os dados. Freqüentemente, é descrito como derivando conhecimento dos dados de entrada. A descoberta de conhecimento desenvolvida fora do domínio de mineração de dados e está intimamente relacionada a ele em termos de metodologia e terminologia.

O ramo mais conhecido da mineração de dados é a descoberta de conhecimento, também conhecida como descoberta de conhecimento em bancos de dados (KDD). Assim como muitas outras formas de descoberta de conhecimento, ele cria abstrações dos dados de entrada. O conhecimento obtido por meio do processo pode se tornar dados adicionais que podem ser usados ​​para posterior uso e descoberta. Freqüentemente, os resultados da descoberta de conhecimento não são acionáveis, a descoberta de conhecimento acionável , também conhecida como mineração de dados orientada por domínio , visa descobrir e fornecer conhecimentos e percepções acionáveis.

Outra aplicação promissora de descoberta de conhecimento é na área de modernização de software , descoberta de fraquezas e conformidade, que envolve a compreensão de artefatos de software existentes. Esse processo está relacionado a um conceito de engenharia reversa . Normalmente o conhecimento obtido com o software existente é apresentado na forma de modelos aos quais podem ser feitas consultas específicas quando necessário. Um relacionamento de entidade é um formato frequente de representação do conhecimento obtido do software existente. O Object Management Group (OMG) desenvolveu a especificação Knowledge Discovery Metamodel (KDM) que define uma ontologia para os ativos de software e seus relacionamentos com o objetivo de realizar a descoberta de conhecimento no código existente. A descoberta de conhecimento de sistemas de software existentes, também conhecida como mineração de software, está intimamente relacionada à mineração de dados , uma vez que os artefatos de software existentes contêm enorme valor para gerenciamento de risco e valor de negócios , chave para a avaliação e evolução de sistemas de software. Em vez de minerar conjuntos de dados individuais , a mineração de software concentra-se em metadados , como fluxos de processo (por exemplo, fluxos de dados, fluxos de controle e mapas de chamadas), arquitetura, esquemas de banco de dados e regras / termos / processos de negócios.

Dados de entrada

Formatos de saída

Veja também

Referências