Gramática categorial - Categorial grammar

A gramática categorial é uma família de formalismos na sintaxe da linguagem natural que compartilha a suposição central de que os constituintes sintáticos se combinam como funções e argumentos . A gramática categorial postula uma relação próxima entre a sintaxe e a composição semântica , uma vez que normalmente trata as categorias sintáticas como correspondentes aos tipos semânticos. As gramáticas categoriais foram desenvolvidas na década de 1930 por Kazimierz Ajdukiewicz , Yehoshua Bar-Hillel e Joachim Lambek . Ele viu uma onda de interesse na década de 1970 após o trabalho de Richard Montague , cuja gramática Montague assumiu uma visão semelhante da sintaxe. Continua a ser um paradigma importante, particularmente dentro da semântica formal .

Fundamentos

Uma gramática categorial consiste em duas partes: um léxico, que atribui um conjunto de tipos (também chamados de categorias) a cada símbolo básico, e algumas regras de inferência de tipo , que determinam como o tipo de uma sequência de símbolos segue os tipos do constituinte símbolos. Tem a vantagem de que as regras de inferência de tipo podem ser fixadas de uma vez por todas, de modo que a especificação de uma gramática de uma língua particular é inteiramente determinada pelo léxico.

Uma gramática categorial compartilha alguns recursos com o cálculo lambda de digitação simples . Enquanto o cálculo lambda tem apenas um tipo de função , uma gramática categorial normalmente tem dois tipos de função, um tipo que é aplicado à esquerda e outro à direita. Por exemplo, uma gramática categorial simples pode ter dois tipos de função e . O primeiro,, é o tipo de frase que resulta em uma frase do tipo quando seguida (à direita) por uma frase do tipo . O segundo,, é o tipo de frase que resulta em uma frase do tipo quando precedida (à esquerda) por uma frase do tipo .

A notação é baseada na álgebra. Uma fração quando multiplicada por (isto é, concatenada com) seu denominador produz seu numerador. Como a concatenação não é comutativa , faz diferença se o denominador ocorre à esquerda ou à direita. A concatenação deve estar do mesmo lado que o denominador para que seja cancelada.

O primeiro e mais simples tipo de gramática categorial é chamada de gramática categorial básica ou, às vezes, gramática AB (após Ajdukiewicz e Bar-Hillel ). Dado um conjunto de tipos primitivos , seja o conjunto de tipos construídos a partir de tipos primitivos. No caso básico, este é o mínimo definido de tal forma que e se então . Pense nelas como expressões puramente formais geradas livremente a partir dos tipos primitivos; qualquer semântica será adicionada posteriormente. Alguns autores assumem um conjunto infinito fixo de tipos primitivos usados ​​por todas as gramáticas, mas ao tornar os tipos primitivos parte da gramática, toda a construção é mantida finita.

Uma gramática categorial básica é uma tupla onde é um conjunto finito de símbolos, é um conjunto finito de tipos primitivos e .

A relação é o léxico, que relaciona tipos a símbolos . Como o léxico é finito, ele pode ser especificado listando um conjunto de pares como .

Tal gramática para o inglês pode ter três tipos básicos , atribuindo nomes contáveis ao tipo , sintagmas nominais completos ao tipo e frases ao tipo . Então, um adjetivo pode ter o tipo , porque se for seguido por um substantivo, a frase inteira é um substantivo. Da mesma forma, um determinante tem o tipo , porque forma um sintagma nominal completo quando seguido por um substantivo. Os verbos intransitivos têm o tipo e os verbos transitivos o tipo . Então, uma sequência de palavras é uma frase se tiver um tipo geral .

Por exemplo, pegue a string "o bad boy fez aquela bagunça". Agora "o" e "que" são determinantes, "menino" e "bagunça" são substantivos, "mau" é um adjetivo, e "feito" é um verbo transitivo, de modo que o léxico é { , , , , , }.

e a sequência de tipos na string é

agora encontre funções e argumentos apropriados e reduza-os de acordo com as duas regras de inferência e :






O fato de o resultado ser significa que a string é uma frase, enquanto a sequência de reduções mostra que ela pode ser analisada como ((o (menino mau)) (feito (aquela bagunça))).

Gramáticas categoriais desta forma (tendo apenas regras de aplicação de função) são equivalentes em capacidade gerativa a gramáticas livres de contexto e, portanto, são frequentemente consideradas inadequadas para teorias de sintaxe de linguagem natural. Ao contrário dos CFGs, as gramáticas categóricas são lexicalizadas , o que significa que apenas um pequeno número de regras (principalmente independentes da linguagem) são empregadas e todos os outros fenômenos sintáticos derivam das entradas lexicais de palavras específicas.

Outro aspecto atraente das gramáticas categóricas é que muitas vezes é fácil atribuir-lhes uma semântica composicional, primeiro atribuindo tipos de interpretação a todas as categorias básicas e, em seguida, associando todas as categorias derivadas a tipos de função apropriados . A interpretação de qualquer constituinte é simplesmente o valor de uma função em um argumento. Com algumas modificações para lidar com intensionalidade e quantificação , essa abordagem pode ser usada para cobrir uma ampla variedade de fenômenos semânticos.

Cálculo de Lambek

Uma gramática de Lambek é uma elaboração dessa ideia que tem um operador de concatenação para tipos e várias outras regras de inferência. Mati Pentus mostrou que eles ainda têm a capacidade gerativa de gramáticas livres de contexto.

Para o cálculo de Lambek, existe um operador de concatenação de tipo , para que e se então .

O cálculo de Lambek consiste em várias regras de dedução, que especificam como as asserções de inclusão de tipo podem ser derivadas. Nas regras a seguir, as letras romanas maiúsculas representam os tipos, as letras gregas maiúsculas representam as sequências de tipos. Um sequente da forma pode ser lido: uma string é do tipo se consiste na concatenação de strings de cada um dos tipos em . Se um tipo for interpretado como um conjunto de strings, então o pode ser interpretado como , isto é, "inclui como um subconjunto". Uma linha horizontal significa que a inclusão acima da linha implica a inclusão abaixo da linha.

O processo é iniciado pela regra do Axioma, que não tem antecedentes e apenas diz que qualquer tipo inclui a si mesmo.

A regra de corte diz que as inclusões podem ser compostas.

As outras regras vêm em pares, um par para cada tipo de operador de construção, cada par consistindo em uma regra para o operador no destino, uma na origem, da flecha. O nome de uma regra consiste no operador e uma seta, com o operador do lado da seta em que ocorre na conclusão.

Alvo Fonte

Por exemplo, aqui está uma derivação de "levantamento de tipo", que diz isso . Os nomes das regras e as substituições usadas estão à direita.

Relação com gramáticas livres de contexto

Lembre-se de que uma gramática livre de contexto é uma 4 tupla, onde

  1. é um conjunto finito de não terminais ou variáveis .
  2. é um conjunto finito de símbolos terminais .
  3. é um conjunto finito de regras de produção , ou seja, uma relação finita .
  4. é a variável inicial.

Do ponto de vista das gramáticas categóricas, uma gramática livre de contexto pode ser vista como um cálculo com um conjunto de axiomas de propósito especial para cada linguagem, mas sem operadores de construção de tipo e sem regras de inferência, exceto Cut.

Especificamente, dada uma gramática livre de contexto como acima, defina uma gramática categorial onde , e . Que haja um axioma para cada símbolo , um axioma para cada regra de produção , uma entrada de léxico para cada símbolo terminal e Corte para a única regra. Essa gramática categorial gera a mesma linguagem que o CFG fornecido.

Claro, esta não é uma gramática categorial básica, uma vez que possui axiomas especiais que dependem da linguagem; ou seja, não é lexicalizado. Além disso, não faz uso de todos os tipos não primitivos.

Para mostrar que qualquer linguagem livre de contexto pode ser gerada por uma gramática categorial básica, lembre-se de que qualquer linguagem livre de contexto pode ser gerada por uma gramática livre de contexto na forma normal de Greibach .

A gramática está na forma normal de Greibach se todas as regras de produção forem da forma , onde as letras maiúsculas são variáveis, e , isto é, o lado direito da produção é um único símbolo terminal seguido por zero ou mais variáveis ​​(não terminais) .

Agora, dado um CFG na forma normal de Greibach, defina uma gramática categorial básica com um tipo primitivo para cada variável não terminal e com uma entrada no léxico para cada regra de produção . É bastante fácil ver que essa gramática categorial básica gera a mesma linguagem que o CFG original. Observe que o léxico dessa gramática geralmente atribui vários tipos a cada símbolo.

A mesma construção funciona para as gramáticas de Lambek, uma vez que são uma extensão das gramáticas categóricas básicas. É necessário verificar se as regras extras de inferência não alteram o idioma gerado. Isso pode ser feito e mostra que toda linguagem livre de contexto é gerada por alguma gramática de Lambek.

Para mostrar o contrário, que toda linguagem gerada por uma gramática de Lambek é livre de contexto, é muito mais difícil. Foi um problema aberto por quase trinta anos, desde o início dos anos 1960 até cerca de 1991, quando foi provado pelo Pentus.

A ideia básica é, dada uma gramática de Lambek, construir uma gramática livre de contexto com o mesmo conjunto de símbolos terminais, o mesmo símbolo inicial, com variáveis ​​de alguns (não todos) tipos e com uma regra de produção para cada entrada no léxico, e regras de produção para certos sequentes que são deriváveis ​​no cálculo de Lambek.

Obviamente, existem infinitos tipos e infinitos sequentes deriváveis; portanto, para fazer uma gramática finita, é necessário definir um limite para o tamanho dos tipos e sequentes necessários. O cerne da prova de Pentus é mostrar que existe esse limite finito.

Notação

A notação neste campo não é padronizada. As notações usadas na teoria da linguagem formal, lógica, teoria das categorias e linguística entram em conflito umas com as outras. Na lógica, as setas apontam para o mais geral do mais particular, ou seja, para a conclusão a partir das hipóteses. Neste artigo, esta convenção é seguida, ou seja, o alvo da seta é o tipo mais geral (inclusivo).

Na lógica, as setas geralmente apontam da esquerda para a direita. Neste artigo, essa convenção é revertida para consistência com a notação de gramáticas livres de contexto, em que o único símbolo não terminal está sempre à esquerda. Usamos o símbolo em uma regra de produção como na forma Backus – Naur . Alguns autores usam uma seta, que infelizmente pode apontar em qualquer direção, dependendo se a gramática é considerada como geradora ou reconhecendo a linguagem.

Alguns autores de gramáticas categóricas escrevem em vez de . A convenção usada aqui segue Lambek e álgebra.

Notas históricas

As idéias básicas da gramática categorial datam do trabalho de Kazimierz Ajdukiewicz (em 1935) e Yehoshua Bar-Hillel (em 1953). Em 1958, Joachim Lambek introduziu um cálculo sintático que formalizou os construtores de tipo de função junto com várias regras para a combinação de funções. Este cálculo é um precursor da lógica linear por ser uma lógica subestrutural . A gramática de Montague usa um sistema sintático ad hoc para o inglês que se baseia nos princípios da gramática categorial. Embora o trabalho de Montague às vezes seja considerado sintaticamente desinteressante, ele ajudou a aumentar o interesse pela gramática categorial ao associá-la a um tratamento formal altamente bem-sucedido da semântica da linguagem natural . Trabalhos mais recentes em gramática categorial concentraram-se no aprimoramento da cobertura sintática. Um formalismo que tem recebido considerável atenção nos últimos anos é Steedman e Szabolcsi 's combinatória categorial gramática , que se baseia na lógica combinatória inventado por Moses Schönfinkel e Haskell Curry .

Existem vários formalismos relacionados desse tipo em linguística, como gramática lógica de tipo e gramática categorial abstrata .

Algumas definições

Derivação
Uma derivação é uma árvore binária que codifica uma prova.
Analisar árvore
Uma árvore de análise exibe uma derivação, mostrando a estrutura sintática de uma frase.
Função e argumento
Em uma aplicação de função direita (esquerda), o nó do tipo A \ B (B / A) é chamado de functor, e o nó do tipo A é chamado de argumento.
Estrutura de argumento-função

Refinamentos da gramática categorial

Uma variedade de mudanças na gramática categorial foram propostas para melhorar a cobertura sintática. Alguns dos mais comuns estão listados abaixo.

Recursos e subcategorias

A maioria dos sistemas de gramática categorial subdivide categorias. A maneira mais comum de fazer isso é marcando-os com recursos , como pessoa , sexo , número e tempo verbal . Às vezes, apenas categorias atômicas são marcadas dessa maneira. Na gramática de Montague, é tradicional subdividir as categorias de funções usando uma convenção de barra múltipla, então A / B e A // B seriam duas categorias distintas de funções de aplicação à esquerda, que usavam os mesmos argumentos, mas poderiam ser distinguidas por outras funções tomando-os como argumentos.

Composição de funções

As regras de composição de funções estão incluídas em muitas gramáticas categóricas. Um exemplo de uma tal regra um seria um que permitiu a concatenação de um constituinte de tipo A / B com um tipo de B / C para produzir um novo tipo de componente A / C . A semântica de tal regra envolveria simplesmente a composição das funções envolvidas. A composição de funções é importante em descrições categóricas de conjunção e extração, especialmente no que se refere a fenômenos como a elevação do nó à direita . A introdução da composição de funções em uma gramática categorial leva a muitos tipos de ambigüidade derivacional que são vazios no sentido de que não correspondem a ambigüidades semânticas .

Conjunção

Muitas gramáticas categóricas incluem uma regra de conjunção típica, da forma geral X CONJ X → X , onde X é uma categoria. A conjunção geralmente pode ser aplicada a constituintes não padronizados resultantes de aumento de tipo ou composição de função.

Descontinuidade

A gramática é estendida para lidar com fenômenos linguísticos, como expressões idiomáticas descontínuas, lacunas e extração.

Veja também

Referências

  • Curry, Haskell B .; Feys, Richard (1958), Combinatory Logic , 1 , North Holland
  • Jacobson, Pauline (1999), "Towards a variable-free semantics.", Linguistics and Philosophy , 22 (2): 117–184, doi : 10.1023 / A: 1005464228727 , S2CID  60578091
  • Lambek, Joachim (1958), "A matemática da estrutura da frase", Amer. Matemática. Mensalmente , 65 (3): 154-170, CiteSeerX  10.1.1.538.885 , doi : 10.1080 / 00029890.1958.11989160
  • Pentus, Mati (1997), Lambek Calculus and Formal Grammars (PDF) , Amer. Matemática. Soc. Tradução
  • Steedman, Mark (1987), "Combinatory grammars and parasitic gaps", Natural Language and Linguistic Theory , 5 (3): 403-439, doi : 10.1007 / bf00134555 , S2CID  170899264
  • Steedman, Mark (1996), Surface Structure and Interpretation , The MIT Press
  • Steedman, Mark (2000), The Syntactic Process , The MIT Press
  • Szabolcsi, Anna (1989). "Variáveis ​​associadas na sintaxe (existem?)" (PDF) . Em Bartsch; van Benthem; van Emde Boas (eds.). Semântica e expressão contextual . Foris. pp. 294–318.
  • Szabolcsi, Anna (1992). "Gramática combinatória e projeção do léxico" (PDF) . In Sag; Szabolcsi (eds.). Lexical Matters . Notas da palestra CSLI . 24 . Stanford: Publicações CSLI. pp. 241–269.
  • Szabolcsi, Anna (2003), "Binding on the fly: Cross-sentential anaphora in variable-free semantics", em Kruijff; Oehrle (eds.), Resource Sensitivity in Binding and Anaphora , Studies in Linguistics and Philosophy, 80 , Kluwer, pp. 215-229, CiteSeerX  10.1.1.205.3142 , doi : 10.1007 / 978-94-010-0037-6_8 , ISBN 978-1-4020-1692-9
  • Morril, Glyn (1995), "Discontinuity in categorial grammar", Linguistics and Philosophy , 18 (2): 175–219, doi : 10.1007 / bf00985216 , S2CID  62533943

Leitura adicional

  • Michael Moortgat, Categorial Type Logics , Capítulo 2 em J. van Benthem e A. ter Meulen (eds.) Handbook of Logic and Language . Elsevier, 1997, ISBN  0-262-22053-9
  • Wojciech Buszkowski, Mathematical linguistics and proof theory , Capítulo 12 em J. van Benthem e A. ter Meulen (eds.) Handbook of Logic and Language . Elsevier, 1997, ISBN  0-262-22053-9
  • Gerhard Jäger (2005). Anáfora e Gramática Lógica de Tipo . Springer. ISBN 978-1-4020-3904-1.
  • Glyn Morrill (2010). Gramática Categorial: Sintaxe Lógica, Semântica e Processamento . Imprensa da Universidade de Oxford. ISBN 978-0-19-958986-9.
  • Richard Moot; Christian Retore (2012). The Logic of Categorial Grammars: A Deductive Account of Natural Language Syntax and Semantics . Springer Verlag. ISBN 978-3-642-31554-1.

links externos