Gramática de estrutura de frase baseada na cabeça - Head-driven phrase structure grammar

A gramática de estrutura de frase dirigida pela cabeça ( HPSG ) é uma gramática altamente lexicalizada e baseada em restrições desenvolvida por Carl Pollard e Ivan Sag . É um tipo de gramática de estrutura sintagmática , em oposição à gramática de dependência , e é a sucessora imediata da gramática sintática generalizada . O HPSG se baseia em outros campos, como a ciência da computação ( teoria dos tipos de dados e representação do conhecimento ) e usa a noção de signo de Ferdinand de Saussure . Ele usa um formalismo uniforme e é organizado de forma modular, o que o torna atraente para o processamento de linguagem natural .

Uma gramática HPSG inclui princípios e regras gramaticais e entradas de léxico que normalmente não são considerados pertencentes a uma gramática. O formalismo é baseado no lexicalismo. Isso significa que o léxico é mais do que apenas uma lista de entradas; é em si ricamente estruturado. As entradas individuais são marcadas com tipos. Os tipos formam uma hierarquia. As primeiras versões da gramática eram muito lexicalizadas com poucas regras gramaticais (esquema). Pesquisas mais recentes tendem a adicionar regras mais ricas, tornando-se mais parecidas com a gramática da construção .

O tipo básico de HPSG é o sinal. Palavras e frases são dois subtipos diferentes de signos. Uma palavra tem duas características: [PHON] (o som, a forma fonética ) e [SYNSEM] (a informação sintática e semântica ), ambas divididas em sub-características. Sinais e regras são formalizados como estruturas de recursos digitados .

Amostra de gramática

O HPSG gera strings combinando sinais, que são definidos por sua localização dentro de uma hierarquia de tipo e por sua estrutura de característica interna, representada por matrizes de valor de atributo (AVMs). Os recursos aceitam tipos ou listas de tipos como seus valores e esses valores podem, por sua vez, ter sua própria estrutura de recursos. As regras gramaticais são amplamente expressas por meio das restrições que os sinais colocam uns nos outros. A estrutura de características de um sinal descreve suas propriedades fonológicas, sintáticas e semânticas. Na notação comum, os AVMs são escritos com recursos em maiúsculas e os tipos em minúsculas em itálico. Índices numerados em um AVM representam valores idênticos de token.

No AVM simplificado para a palavra (neste caso, o verbo, não o substantivo como em "passeios agradáveis ​​para o fim de semana") "passeios" abaixo, a informação categórica do verbo (CAT) é dividida em características que o descrevem (HEAD) e recursos que descrevem seus argumentos (VALÊNCIA).

AVM para caminhadas

"Walks" é um sinal de palavra- tipo com um cabeçalho de verbo- tipo . Como um verbo intransitivo, "anda" não tem complemento, mas requer um sujeito que é um substantivo de terceira pessoa do singular. O valor semântico do sujeito (CONTEÚDO) é co-indexado com o único argumento do verbo (o indivíduo que anda). O seguinte AVM para "ela" representa um sinal com um valor SYNSEM que pode cumprir esses requisitos.

She-avm.png

Sinais do tipo frase se unem a um ou mais filhos e propagam as informações para cima. O AVM a seguir codifica a regra de dominância imediata para uma frase-subj-cabeça , que requer dois filhos: o filho-chefe (um verbo) e um filho não-chefe que preenche as restrições SUBJ do verbo.

Head-subj-avm.png

O resultado final é um sinal com um cabeçalho de verbo, recursos de subcategorização vazios e um valor fonológico que ordena os dois filhos.

Embora a gramática real do HPSG seja composta inteiramente de estruturas de características, os linguistas costumam usar árvores para representar a unificação de signos onde o AVM equivalente seria difícil de manejar.

Head-subj-tree.png

Implementações

Vários analisadores baseados no formalismo HPSG foram escritos e otimizações estão sendo investigadas. Um exemplo de sistema de análise de sentenças em alemão é fornecido pela Freie Universität Berlin . Além disso, o projeto CoreGram do Grammar Group da Freie Universität Berlin fornece gramáticas de código aberto que foram implementadas no sistema TRALE. Atualmente, existem gramáticas para alemão , dinamarquês , mandarim , maltês e persa que compartilham um núcleo comum e estão disponíveis ao público.

Grandes gramáticas HPSG de vários idiomas estão sendo desenvolvidas na Iniciativa de Processamento Linguístico Profundo com HPSG ( DELPH-IN ). Gramáticas de inglês, alemão e japonês com ampla cobertura estão disponíveis sob uma licença de código aberto. Essas gramáticas podem ser usadas com uma variedade de analisadores HPSG de código aberto intercompatíveis: LKB , PET, Ace e concorda . Todos esses produzem representações semânticas no formato de “Minimal Recursion Semantics,” MRS. A natureza declarativa do formalismo HPSG significa que essas gramáticas computacionais podem ser usadas para análise e geração (produzindo strings de superfície a partir de entradas semânticas). Os bancos de árvores, também distribuídos pelo DELPH-IN , são usados ​​para desenvolver e testar as gramáticas, bem como para treinar modelos de classificação para decidir sobre interpretações plausíveis ao analisar (ou realizações ao gerar).

Enju é um analisador HPSG probabilístico de ampla cobertura disponível gratuitamente para inglês, desenvolvido pelo Laboratório Tsujii da Universidade de Tóquio, no Japão .

Veja também

Referências

Leitura adicional

links externos