Banco de dados distributivo-relacional - Distributional–relational database

Um banco de dados distribucional – relacional , ou banco de dados de vetores de palavras , é um sistema de gerenciamento de banco de dados (DBMS) que usa representações de vetores de palavras distribucionais para enriquecer a semântica de dados estruturados .

Como vetores de palavras distribucionais podem ser construídos automaticamente a partir de corpora em grande escala , este enriquecimento apóia a construção de bancos de dados que podem incorporar conhecimento de base de senso comum em grande escala em suas operações. Modelos distribucionais-relacionais podem ser aplicados à construção de bancos de dados agnósticos de esquema (bancos de dados nos quais os usuários podem consultar os dados sem estar cientes de seu esquema ), pesquisa semântica , integração de esquema e raciocinadores indutivos e abdutivos , bem como diferentes aplicativos nos quais um modelo de representação do conhecimento semanticamente flexível é necessário. A principal vantagem dos modelos distribucionais-relacionais sobre os modelos da web puramente lógicos / semânticos é o fato de que as associações semânticas centrais podem ser capturadas automaticamente de corpora em contraste com a definição de ontologias com curadoria manual e bases de conhecimento de regra.

Modelos distribucionais-relacionais

Modelos distribucionais-relacionais foram formalizados primeiro como um mecanismo para lidar com a lacuna de vocabulário / semântica entre os usuários e o esquema por trás dos dados. Nesse cenário, as medidas de relação semântica distributiva , combinadas com heurísticas de pivotamento semântico, podem dar suporte à aproximação entre as consultas do usuário (expressas em seu próprio vocabulário) e os dados (expressos no vocabulário do designer).

Neste modelo, os símbolos do banco de dados (entidades e relações) são embutidos em um espaço semântico distributivo e têm uma interpretação geométrica sob um espaço semântico latente ou explícito. O aspecto geométrico suporta a aproximação semântica entre entidades de bancos de dados diferentes ou entre um termo de consulta e uma entidade de banco de dados. O modelo de distribuição relacional, então, torna-se um modelo de camada dupla onde a semântica dos dados estruturados fornece a semântica refinada pretendida pelo designer do banco de dados , que é estendida pelo modelo semântico de distribuição que contém as associações semânticas expressas em um uso mais amplo. Esses modelos suportam a generalização de um cenário de comunicação fechada (em que designers de banco de dados e usuários vivem no mesmo contexto, por exemplo, a mesma organização) para um cenário de comunicação aberta (por exemplo, diferentes organizações, a Web), criando uma camada de abstração entre os usuários e os representação específica do modelo conceitual.

Referências

  1. ^ Harris, Z. (1954). “Estrutura distributiva”. Palavra. 10 (23): 146–162.
  2. ^ Métais, Elisabeth; Roche, Mathieu; Teisseire, Maguelonne (16/06/2014). Processamento de Linguagem Natural e Sistemas de Informação: 19ª Conferência Internacional sobre Aplicações de Linguagem Natural para Sistemas de Informação, NLDB 2014, Montpellier, França, 18-20 de junho de 2014. Proceedings . Springer. ISBN   978-3-319-07983-7 .
  3. ^ Freitas, A. “Schema-agnostic queries over large-schema databases: a distributional semantics approach” PhD Thesis, 2015
  4. ^ Freitas, A., Handschuh, S., Curry, E., Distributional-Relational Models: Scalable Semantics for Databases, AAAI Spring Symposium, Knowledge Representation & Reasoning Track, Stanford, 2014