Maquina de tradução - Machine translation

A tradução automática , às vezes referida pela abreviatura MT (não deve ser confundida com tradução auxiliada por computador , tradução humana auxiliada por máquina ou tradução interativa ), é um subcampo da linguística computacional que investiga o uso de software para traduzir texto ou fala de um idioma para outro.

Em um nível básico, a MT realiza a substituição mecânica de palavras em um idioma por palavras em outro, mas isso por si só raramente produz uma boa tradução, porque o reconhecimento de frases inteiras e suas contrapartes mais próximas no idioma de destino é necessário. Nem todas as palavras em um idioma têm palavras equivalentes em outro idioma e muitas palavras têm mais de um significado.

Resolver esse problema com técnicas estatísticas e neurais de corpus é um campo de rápido crescimento que está levando a melhores traduções, lidando com diferenças na tipologia linguística , tradução de expressões idiomáticas e isolamento de anomalias.

O software de tradução automática atual geralmente permite a personalização por domínio ou profissão (como relatórios meteorológicos ), melhorando a produção ao limitar o escopo de substituições permitidas. Essa técnica é particularmente eficaz em domínios onde a linguagem formal ou formulada é usada. Segue-se que a tradução automática de documentos governamentais e jurídicos produz resultados utilizáveis ​​mais prontamente do que a conversação ou texto menos padronizado.

A qualidade de saída aprimorada também pode ser alcançada por intervenção humana: por exemplo, alguns sistemas são capazes de traduzir com mais precisão se o usuário identificou inequivocamente quais palavras no texto são nomes próprios. Com a ajuda dessas técnicas, o MT tem se mostrado útil como uma ferramenta para auxiliar tradutores humanos e, em um número muito limitado de casos, pode até mesmo produzir resultados que podem ser usados ​​como estão (por exemplo, relatórios meteorológicos).

O progresso e o potencial da tradução automática foram muito debatidos ao longo de sua história. Desde a década de 1950, vários estudiosos, primeiro e mais notavelmente Yehoshua Bar-Hillel , questionaram a possibilidade de obter uma tradução automática de alta qualidade totalmente automática.

História

Origens

As origens da tradução automática podem ser rastreadas até o trabalho de Al-Kindi , um criptógrafo árabe do século 9 que desenvolveu técnicas para tradução de linguagem sistêmica, incluindo criptoanálise , análise de frequência e probabilidade e estatística , que são usadas na tradução automática moderna. A ideia da tradução automática apareceu mais tarde no século XVII. Em 1629, René Descartes propôs uma linguagem universal, com ideias equivalentes em diferentes línguas compartilhando um símbolo.

A ideia de usar computadores digitais para a tradução de línguas naturais foi proposta já em 1946 por AD Booth da Inglaterra e Warren Weaver na Fundação Rockefeller ao mesmo tempo. "O memorando escrito por Warren Weaver em 1949 é talvez a publicação mais influente nos primeiros dias da tradução automática." Outros o seguiram. Uma demonstração foi feita em 1954 na máquina APEXC no Birkbeck College ( University of London ) de uma tradução rudimentar do inglês para o francês. Vários artigos sobre o assunto foram publicados na época, e até mesmo artigos em periódicos populares (por exemplo, um artigo de Cleave e Zacharov na edição de setembro de 1955 da Wireless World ). Uma aplicação semelhante, também pioneira no Birkbeck College na época, era ler e compor textos em Braille por computador.

Década de 1950

O primeiro pesquisador da área, Yehoshua Bar-Hillel , iniciou suas pesquisas no MIT (1951). Uma equipe de pesquisa da Georgetown University MT, liderada pelo Professor Michael Zarechnak, seguiu (1951) com uma demonstração pública de seu sistema experimental Georgetown-IBM em 1954. Programas de pesquisa MT surgiram no Japão e na Rússia (1955), e a primeira conferência MT foi realizada em Londres (1956).

David G. Hays "escreveu sobre o processamento de linguagem assistido por computador já em 1957" e "foi o líder do projeto de linguística computacional na Rand de 1955 a 1968."

1960-1975

Os pesquisadores continuaram a ingressar no campo quando a Association for Machine Translation and Computational Linguistics foi formada nos Estados Unidos (1962) e a National Academy of Sciences formou o Automatic Language Processing Advisory Committee (ALPAC) para estudar MT (1964). O progresso real foi muito mais lento, no entanto, e após o relatório do ALPAC (1966), que concluiu que a pesquisa de dez anos não atendeu às expectativas, o financiamento foi muito reduzido. De acordo com um relatório de 1972 do Diretor de Pesquisa e Engenharia de Defesa (DDR & E), a viabilidade da MT em grande escala foi restabelecida pelo sucesso do sistema Logos MT na tradução de manuais militares para o vietnamita durante aquele conflito.

O French Textile Institute também usou a MT para traduzir resumos de e para francês, inglês, alemão e espanhol (1970); A Universidade Brigham Young iniciou um projeto para traduzir textos mórmons por tradução automática (1971).

1975 e além

O SYSTRAN , que "foi pioneiro no campo sob contratos do governo dos Estados Unidos" na década de 1960, foi usado pela Xerox para traduzir manuais técnicos (1978). A partir do final da década de 1980, à medida que o poder computacional aumentava e se tornava menos caro, mais interesse foi mostrado em modelos estatísticos para tradução automática . A MT se tornou mais popular após o advento dos computadores. O primeiro sistema de implementação do SYSTRAN foi implementado em 1988 pelo serviço online do Serviço Postal Francês denominado Minitel. Várias empresas de tradução baseadas em computador também foram lançadas, incluindo a Trados (1984), que foi a primeira a desenvolver e comercializar a tecnologia de Memória de Tradução (1989), embora não seja o mesmo que a MT. O primeiro sistema MT comercial para Russo / Inglês / Alemão-Ucraniano foi desenvolvido na Kharkov State University (1991).

Em 1998, "por apenas US $ 29,95", era possível "comprar um programa para traduzir em uma direção entre o inglês e um dos principais idiomas europeus de sua escolha" para rodar em um PC.

O MT na web começou com o SYSTRAN oferecendo tradução gratuita de pequenos textos (1996) e depois fornecendo isso por meio do AltaVista Babelfish, que acumulou 500.000 solicitações por dia (1997). O segundo serviço de tradução gratuita na web foi o GlobaLink de Lernout & Hauspie . A Atlantic Magazine escreveu em 1998 que "Systran's Babelfish e GlobaLink's Comprende" trataram "Não aposte nisso" com uma "atuação competente".

Franz Josef Och (o futuro chefe de Desenvolvimento de Tradução da Google) venceu a competição speed MT da DARPA (2003). Mais inovações durante esse tempo incluíram MOSES, o mecanismo de MT estatístico de código aberto (2007), um serviço de tradução de texto / SMS para celulares no Japão (2008) e um telefone celular com funcionalidade de tradução de fala para fala integrada para inglês , Japonês e chinês (2009). Em 2012, o Google anunciou que o Google Translate traduz texto aproximadamente o suficiente para preencher 1 milhão de livros em um dia.

Processo de tradução

O processo de tradução humana pode ser descrito como:

  1. Decodificando o significado do texto fonte ; e
  2. Re- codificar este significado na língua-alvo.

Por trás desse procedimento aparentemente simples está uma operação cognitiva complexa . Para decodificar o significado do texto de origem em sua totalidade, o tradutor deve interpretar e analisar todas as características do texto, um processo que requer conhecimento profundo da gramática , semântica , sintaxe , expressões idiomáticas , etc., do idioma de origem , bem como a cultura de seus falantes. O tradutor precisa do mesmo conhecimento profundo para recodificar o significado no idioma de destino.

É aí que reside o desafio da tradução automática: como programar um computador que "entenda" um texto como uma pessoa o faz, e que "crie" um novo texto na língua-alvo que soe como se tivesse sido escrito por uma pessoa . A menos que auxiliado por uma 'base de conhecimento', a TM fornece apenas uma aproximação geral, embora imperfeita, do texto original, obtendo a "essência" dele (um processo denominado "essência"). Isso é suficiente para muitos propósitos, incluindo fazer o melhor uso do tempo finito e caro de um tradutor humano, reservado para aqueles casos em que a precisão total é indispensável.

Abordagens

A pirâmide de Bernard Vauquois mostrando profundidades comparativas de representação intermediária, tradução automática interlingual no pico, seguida por tradução baseada em transferência e, em seguida, tradução direta.

A tradução automática pode usar um método baseado em regras linguísticas , o que significa que as palavras serão traduzidas de uma forma linguística - as palavras mais adequadas (oralmente) do idioma de destino substituirão as do idioma de origem.

Costuma-se argumentar que o sucesso da tradução automática requer que o problema de compreensão da linguagem natural seja resolvido primeiro.

Geralmente, os métodos baseados em regras analisam um texto, geralmente criando uma representação simbólica intermediária, a partir da qual o texto no idioma de destino é gerado. De acordo com a natureza da representação intermediária, uma abordagem é descrita como tradução automática interlingual ou tradução automática baseada em transferência . Esses métodos requerem léxicos extensos com informações morfológicas , sintáticas e semânticas e grandes conjuntos de regras.

Com dados suficientes, os programas de tradução automática geralmente funcionam bem o suficiente para um falante nativo de um idioma obter o significado aproximado do que foi escrito pelo outro falante nativo. A dificuldade é obter dados suficientes do tipo certo para dar suporte ao método específico. Por exemplo, o grande corpus multilíngue de dados necessários para que os métodos estatísticos funcionem não é necessário para os métodos baseados em gramática. Mas então, os métodos gramaticais precisam de um linguista habilidoso para projetar cuidadosamente a gramática que eles usam.

Para traduzir entre idiomas intimamente relacionados, a técnica conhecida como tradução automática baseada em regras pode ser usada.

Baseado em regras

O paradigma da tradução automática baseada em regras inclui tradução automática baseada em transferência, tradução automática interlingual e paradigmas de tradução automática baseada em dicionário. Este tipo de tradução é usado principalmente na criação de dicionários e programas gramaticais. Ao contrário de outros métodos, o RBMT envolve mais informações sobre a linguística das línguas de origem e de destino, usando as regras morfológicas e sintáticas e a análise semântica de ambas as línguas. A abordagem básica envolve ligar a estrutura da sentença de entrada com a estrutura da sentença de saída usando um analisador e um analisador para o idioma de origem, um gerador para o idioma de destino e um léxico de transferência para a tradução real. A maior queda do RBMT é que tudo deve ser explicitado: a variação ortográfica e a entrada errônea devem fazer parte do analisador do idioma de origem para lidar com isso, e as regras de seleção lexical devem ser escritas para todas as instâncias de ambiguidade. A adaptação a novos domínios em si não é tão difícil, pois a gramática central é a mesma em todos os domínios e o ajuste específico do domínio é limitado ao ajuste de seleção lexical.

Tradução automática baseada em transferência

A tradução automática baseada em transferência é semelhante à tradução automática interlingual, pois cria uma tradução a partir de uma representação intermediária que simula o significado da frase original. Ao contrário da MT interlinguística, depende parcialmente do par de línguas envolvido na tradução.

Interlingual

A tradução automática interlingual é uma instância das abordagens de tradução automática baseada em regras. Nesta abordagem, o idioma de origem, ou seja, o texto a ser traduzido, é transformado em um idioma interlingual, ou seja, uma representação "neutra em termos de linguagem" que é independente de qualquer idioma. O idioma de destino é gerado a partir da interlíngua . Uma das principais vantagens desse sistema é que a interlíngua se torna mais valiosa à medida que aumenta o número de línguas-alvo em que ela pode ser transformada. No entanto, o único sistema de tradução automática interlinguística que se tornou operacional no nível comercial é o sistema KANT (Nyberg e Mitamura, 1992), que foi projetado para traduzir o inglês técnico da Caterpillar (CTE) para outros idiomas.

Baseado em dicionário

A tradução automática pode usar um método baseado em entradas de dicionário , o que significa que as palavras serão traduzidas como são por um dicionário.

Estatístico

A tradução automática estatística tenta gerar traduções usando métodos estatísticos baseados em corpora textuais bilíngues, como o corpus canadense Hansard , o registro inglês-francês do parlamento canadense e o EUROPARL , o registro do Parlamento Europeu . Onde tais corpora estão disponíveis, bons resultados podem ser alcançados traduzindo textos semelhantes, mas tais corpora ainda são raros para muitos pares de idiomas. O primeiro software de tradução automática estatística foi o CANDIDE, da IBM . O Google usou o SYSTRAN por vários anos, mas mudou para um método de tradução estatística em outubro de 2007. Em 2005, o Google melhorou seus recursos de tradução interna usando aproximadamente 200 bilhões de palavras de materiais das Nações Unidas para treinar seu sistema; precisão da tradução melhorada. O Google Translate e programas de tradução estatística semelhantes funcionam detectando padrões em centenas de milhões de documentos que foram traduzidos anteriormente por humanos e fazendo suposições inteligentes com base nas descobertas. Geralmente, quanto mais documentos traduzidos por humanos disponíveis em um determinado idioma, mais provável é que a tradução seja de boa qualidade. Abordagens mais recentes em tradução automática estatística, como METIS II e PRESEMT, usam tamanho de corpus mínimo e, em vez disso, focam na derivação da estrutura sintática por meio do reconhecimento de padrões. Com um desenvolvimento posterior, isso pode permitir que a tradução automática estatística opere a partir de um corpus de texto monolíngue. A maior queda do SMT inclui ser dependente de grandes quantidades de textos paralelos, seus problemas com idiomas ricos em morfologia (especialmente com a tradução para tais idiomas) e sua incapacidade de corrigir erros singleton.

Baseado em exemplos

A abordagem da tradução automática baseada em exemplos (EBMT) foi proposta por Makoto Nagao em 1984. A tradução automática baseada em exemplos é baseada na ideia de analogia. Nessa abordagem, o corpus utilizado é aquele que contém textos já traduzidos. Dada uma frase a ser traduzida, são selecionadas frases desse corpus que contenham componentes sub-sentenciais semelhantes. As frases semelhantes são então usadas para traduzir os componentes substantivos da frase original para o idioma de destino, e essas frases são colocadas juntas para formar uma tradução completa.

Hybrid MT

A tradução automática híbrida (HMT) aproveita os pontos fortes das metodologias de tradução baseadas em regras e estatísticas. Várias organizações de MT afirmam uma abordagem híbrida que usa regras e estatísticas. As abordagens diferem de várias maneiras:

  • Regras pós-processadas por estatísticas : as traduções são executadas usando um mecanismo baseado em regras. As estatísticas são então usadas na tentativa de ajustar / corrigir a saída do mecanismo de regras.
  • Estatísticas guiadas por regras : as regras são usadas para pré-processar os dados na tentativa de guiar melhor o mecanismo estatístico. As regras também são usadas para pós-processar a saída estatística para executar funções como a normalização. Essa abordagem tem muito mais poder, flexibilidade e controle durante a tradução. Também fornece amplo controle sobre a forma como o conteúdo é processado durante a pré-tradução (por exemplo, marcação de conteúdo e termos não traduzíveis) e pós-tradução (por exemplo, correções e ajustes pós-tradução).

Mais recentemente, com o advento do Neural MT, uma nova versão de tradução automática híbrida está surgindo, combinando os benefícios das regras e da tradução automática estatística e neural. A abordagem permite o benefício do pré e pós-processamento em um fluxo de trabalho guiado por regras, bem como o benefício do NMT e SMT. A desvantagem é a complexidade inerente que torna a abordagem adequada apenas para casos de uso específicos.

Neural MT

Uma abordagem baseada no aprendizado profundo para a MT, a tradução automática neural tem feito um rápido progresso nos últimos anos, e o Google anunciou que seus serviços de tradução agora estão usando essa tecnologia em preferência aos métodos estatísticos anteriores. Uma equipe da Microsoft afirmou ter atingido a paridade humana no WMT-2017 ("EMNLP 2017 Second Conference On Machine Translation") em 2018, marcando um marco histórico. No entanto, muitos pesquisadores criticaram essa afirmação, reexaminando e discutindo seus experimentos; O consenso atual é que a chamada paridade humana alcançada não é real, baseando-se totalmente em domínios limitados, pares de idiomas e certos processos de teste - ou seja, carece de poder de significância estatística. Ainda há uma longa jornada antes que o NMT alcance desempenhos de paridade humana real.

Para abordar a tradução de frases idiomáticas, expressões com várias palavras e palavras de baixa frequência (também chamadas de OOV, ou tradução de palavras fora do vocabulário), recursos linguísticos focados na linguagem foram explorados na máquina neural de última geração modelos de tradução (NMT). Por exemplo, as decomposições de caracteres chineses em radicais e traços provaram ser úteis para traduzir expressões com várias palavras em NMT.

Problemas maiores

A tradução automática pode produzir algumas frases incompreensíveis.
Chinês quebrado "沒有 進入" da tradução automática em Bali, Indonésia . A frase quebrada em chinês soa como "não existe uma entrada" ou "ainda não foi inserida"

Desambiguação

A desambiguação do sentido da palavra diz respeito a encontrar uma tradução adequada quando uma palavra pode ter mais de um significado. O problema foi levantado pela primeira vez na década de 1950 por Yehoshua Bar-Hillel . Ele ressaltou que sem uma "enciclopédia universal", uma máquina nunca seria capaz de distinguir entre os dois significados de uma palavra. Hoje, existem várias abordagens projetadas para superar esse problema. Eles podem ser divididos aproximadamente em abordagens "superficiais" e abordagens "profundas".

As abordagens superficiais não pressupõem nenhum conhecimento do texto. Eles simplesmente aplicam métodos estatísticos às palavras que cercam a palavra ambígua. Abordagens profundas pressupõem um conhecimento abrangente da palavra. Até agora, as abordagens superficiais têm sido mais bem-sucedidas.

Claude Piron , um tradutor de longa data das Nações Unidas e da Organização Mundial da Saúde , escreveu que a tradução automática, em sua melhor forma, automatiza a parte mais fácil do trabalho de um tradutor; a parte mais difícil e demorada geralmente envolve a realização de uma extensa pesquisa para resolver ambigüidades no texto de origem , que as exigências gramaticais e lexicais do idioma de destino precisam ser resolvidas:

Por que um tradutor precisa de um dia de trabalho inteiro para traduzir cinco páginas, e não uma ou duas horas? ..... Cerca de 90% de um texto médio corresponde a essas condições simples. Mas, infelizmente, existem os outros 10%. É aquela parte que requer seis [mais] horas de trabalho. Existem ambigüidades que precisam ser resolvidas. Por exemplo, o autor do texto original, um médico australiano, citou o exemplo de uma epidemia que foi declarada durante a Segunda Guerra Mundial em um "campo de prisioneiros de guerra japonês". Ele estava falando sobre um campo americano com prisioneiros japoneses ou um campo japonês com prisioneiros americanos? O inglês tem dois sentidos. É necessário, portanto, pesquisar, talvez até um telefonema para a Austrália.

A abordagem profunda ideal exigiria que o software de tradução fizesse por conta própria todas as pesquisas necessárias para esse tipo de desambiguação; mas isso exigiria um grau mais alto de IA do que já foi alcançado. Uma abordagem superficial que simplesmente adivinhasse o sentido da frase inglesa ambígua que Piron menciona (com base, talvez, em que tipo de campo de prisioneiros de guerra é mais frequentemente mencionado em um determinado corpus) teria uma chance razoável de adivinhar razoavelmente muitas vezes. Uma abordagem superficial que envolve "perguntar ao usuário sobre cada ambigüidade" iria, pela estimativa de Piron, automatizar apenas cerca de 25% do trabalho de um tradutor profissional, deixando os 75% mais difíceis ainda para serem feitos por um humano.

Discurso fora do padrão

Uma das principais armadilhas da MT é sua incapacidade de traduzir linguagem não padrão com a mesma precisão da linguagem padrão. A TM com base heurística ou estatística obtém dados de várias fontes na forma padrão de um idioma. A tradução baseada em regras, por natureza, não inclui usos comuns fora do padrão. Isso causa erros na tradução de uma fonte vernácula ou para a linguagem coloquial. As limitações na tradução do discurso casual apresentam problemas no uso da tradução automática em dispositivos móveis.

Entidades nomeadas

Na extração de informações , entidades nomeadas, em um sentido restrito, referem-se a entidades concretas ou abstratas no mundo real, como pessoas, organizações, empresas e lugares que têm um nome próprio: George Washington, Chicago, Microsoft. Também se refere a expressões de tempo, espaço e quantidade, como 1 de julho de 2011, $ 500.

Na frase "Smith é o presidente da Fabrionix", Smith e Fabrionix são entidades nomeadas e podem ser qualificados posteriormente por meio do primeiro nome ou outras informações; "presidente" não é, já que Smith poderia ter ocupado anteriormente outro cargo na Fabrionix, por exemplo, vice-presidente. O termo designador rígido é o que define esses usos para análise em tradução automática estatística.

As entidades nomeadas devem primeiro ser identificadas no texto; caso contrário, eles podem ser traduzidos erroneamente como substantivos comuns, o que provavelmente não afetaria a classificação BLEU da tradução, mas mudaria a legibilidade humana do texto. Eles podem ser omitidos da tradução de saída, o que também teria implicações na legibilidade e na mensagem do texto.

A transliteração inclui encontrar as letras no idioma de destino que mais correspondam ao nome no idioma de origem. Isso, no entanto, foi citado como às vezes piorando a qualidade da tradução. Para "Southern California", a primeira palavra deve ser traduzida diretamente, enquanto a segunda palavra deve ser transliterada. As máquinas costumam transliterar ambos porque os tratam como uma entidade. Palavras como essas são difíceis para os tradutores automáticos, mesmo aqueles com um componente de transliteração, processar.

Uso de uma lista "do-not-translate", que tem o mesmo objetivo final - transliteração em oposição à tradução. ainda depende da identificação correta de entidades nomeadas.

Uma terceira abordagem é um modelo baseado em classe. Entidades nomeadas são substituídas por um token para representar sua "classe"; "Ted" e "Erica" ​​seriam substituídos por token de classe "pessoa". Em seguida, a distribuição estatística e o uso de nomes de pessoas, em geral, podem ser analisados ​​em vez de olhar para as distribuições de "Ted" e "Erica" ​​individualmente, de modo que a probabilidade de um determinado nome em um idioma específico não afete a probabilidade atribuída de uma tradução. Um estudo de Stanford sobre como melhorar esta área da tradução dá exemplos de que diferentes probabilidades serão atribuídas a "David está indo para uma caminhada" e "Ankit está indo para uma caminhada" para o inglês como idioma alvo devido ao número diferente de ocorrências para cada nome nos dados de treinamento. Um resultado frustrante do mesmo estudo de Stanford (e outras tentativas de melhorar a tradução de reconhecimento nomeado) é que, muitas vezes, uma diminuição nas pontuações BLEU para tradução resultará da inclusão de métodos para tradução de entidade nomeada.

Um pouco relacionadas estão as frases "bebendo chá com leite" vs. "bebendo chá com Molly".

Tradução de fontes multiparalelas

Algum trabalho foi feito na utilização de corpora multiparalelos , ou seja, um corpo de texto que foi traduzido para 3 ou mais idiomas. Usando esses métodos, um texto que foi traduzido em 2 ou mais idiomas pode ser utilizado em combinação para fornecer uma tradução mais precisa em um terceiro idioma em comparação com se apenas um desses idiomas de origem fosse usado sozinho.

Ontologias em MT

Uma ontologia é uma representação formal do conhecimento que inclui os conceitos (como objetos, processos, etc.) em um domínio e algumas relações entre eles. Se a informação armazenada é de natureza linguística, pode-se falar em léxico. Na PNL , as ontologias podem ser usadas como fonte de conhecimento para sistemas de tradução automática. Com acesso a uma grande base de conhecimento, os sistemas podem ser habilitados para resolver muitas ambiguidades (especialmente lexicais) por conta própria. Nos seguintes exemplos clássicos, como humanos, somos capazes de interpretar a frase proposicional de acordo com o contexto porque usamos nosso conhecimento de mundo, armazenado em nossos léxicos:

"Eu vi um homem / estrela / molécula com um microscópio / telescópio / binóculos."

Um sistema de tradução automática inicialmente não seria capaz de diferenciar os significados porque a sintaxe não muda. Com uma ontologia grande o suficiente como fonte de conhecimento, no entanto, as possíveis interpretações de palavras ambíguas em um contexto específico podem ser reduzidas. Outras áreas de uso de ontologias dentro da PNL incluem recuperação de informações , extração de informações e sumarização de texto .

Construindo ontologias

A ontologia gerada para o sistema de tradução automática baseado em conhecimento PANGLOSS em 1993 pode servir como um exemplo de como uma ontologia para fins de PNL pode ser compilada:

  • Uma ontologia em grande escala é necessária para ajudar na análise dos módulos ativos do sistema de tradução automática.
  • No exemplo Pangloss, cerca de 50.000 gânglios foram destina-se a ser incluídos no âmbito do menor, manualmente-construído superior (resumo) região do ontologia. Por causa de seu tamanho, ele teve que ser criado automaticamente.
  • O objetivo era mesclar os dois recursos LDOCE online e WordNet para combinar os benefícios de ambos: definições concisas do Longman e relações semânticas que permitem taxonomização semiautomática para a ontologia do WordNet.
    • Um algoritmo de correspondência de definições foi criado para mesclar automaticamente os significados corretos de palavras ambíguas entre os dois recursos online, com base nas palavras que as definições desses significados têm em comum no LDOCE e no WordNet. Usando uma matriz de similaridade , o algoritmo entregou correspondências entre significados, incluindo um fator de confiança. Este algoritmo sozinho, no entanto, não correspondia a todos os significados corretamente por conta própria.
    • Um segundo algoritmo de correspondência de hierarquia foi, portanto, criado que usa as hierarquias taxonômicas encontradas em WordNet (hierarquias profundas) e parcialmente em LDOCE (hierarquias planas). Isso funciona primeiro combinando significados inequívocos e, em seguida, limitando o espaço de busca apenas aos respectivos ancestrais e descendentes desses significados correspondentes. Assim, o algoritmo correspondia a significados localmente não ambíguos (por exemplo, embora a palavra selo como tal seja ambígua, há apenas um significado de "selo" na sub-hierarquia animal ).
  • Ambos os algoritmos se complementaram e ajudaram a construir uma ontologia em grande escala para o sistema de tradução automática. As hierarquias WordNet, juntamente com as definições correspondentes de LDOCE, foram subordinadas à região superior da ontologia . Como resultado, o sistema PANGLOSS MT foi capaz de fazer uso dessa base de conhecimento, principalmente em seu elemento de geração.

Formulários

Embora nenhum sistema forneça o santo graal da tradução automática de alta qualidade de texto irrestrito, muitos sistemas totalmente automatizados produzem resultados razoáveis. A qualidade da tradução automática é substancialmente melhorada se o domínio for restrito e controlado.

Apesar de suas limitações inerentes, os programas de MT são usados ​​em todo o mundo. Provavelmente, o maior usuário institucional é a Comissão Europeia . oO projeto MOLTO , por exemplo, coordenado pela Universidade de Gotemburgo , recebeu mais de 2.375 milhões de euros de apoio ao projeto da UE para criar uma ferramenta de tradução confiável que cobre a maioria das línguas da UE. O desenvolvimento de sistemas de TA ocorre em um momento em que os cortes orçamentários na tradução humana podem aumentar a dependência da UE de programas confiáveis ​​de TA. A Comissão Europeia contribuiu com 3,072 milhões de euros (através do seu programa ISA) para a criação do MT @ EC, um programa de tradução automática estatística adaptado às necessidades administrativas da UE, para substituir um sistema anterior de tradução automática baseado em regras.

Em 2005, o Google afirmou que resultados promissores foram obtidos usando um mecanismo de tradução automática de estatística. O mecanismo de tradução estatística usado nas ferramentas de idioma do Google para árabe <-> inglês e chinês <-> inglês teve uma pontuação geral de 0,4281 sobre a pontuação BLEU -4 da segunda colocada da IBM de 0,3954 (verão de 2006) em testes conduzidos pelo National Instituto de Padrões e Tecnologia.

Com o recente foco no terrorismo, as fontes militares nos Estados Unidos têm investido quantias significativas de dinheiro em engenharia de linguagem natural. A In-Q-Tel (um fundo de capital de risco, em grande parte financiado pela US Intelligence Community, para estimular novas tecnologias por meio de empreendedores do setor privado) criou empresas como a Language Weaver . Atualmente, a comunidade militar está interessada na tradução e processamento de idiomas como árabe , pashto e dari . Nessas linguagens, o foco está nas frases-chave e na comunicação rápida entre militares e civis por meio do uso de aplicativos para celulares. O Escritório de Tecnologia de Processamento de Informação da DARPA hospeda programas como o TIDES e o tradutor Babylon . A Força Aérea dos EUA fechou um contrato de US $ 1 milhão para desenvolver uma tecnologia de tradução de idiomas.

O notável crescimento das redes sociais na web nos últimos anos criou mais um nicho para a aplicação de software de tradução automática - em utilitários como o Facebook ou clientes de mensagens instantâneas como Skype, GoogleTalk, MSN Messenger, etc. - permitindo que os usuários falem línguas diferentes para se comunicarem entre si. Aplicativos de tradução automática também foram lançados para a maioria dos dispositivos móveis, incluindo telefones celulares, pocket PCs, PDAs, etc. Devido à sua portabilidade, esses instrumentos passaram a ser designados como ferramentas de tradução móvel , permitindo a rede de negócios móvel entre parceiros que falam idiomas diferentes, ou facilitando a aprendizagem de línguas estrangeiras e viagens desacompanhadas para países estrangeiros sem a necessidade da intermediação de um tradutor humano.

Apesar de ter sido rotulado como um concorrente indigno da tradução humana em 1966 pelo Comitê Consultivo de Processamento de Linguagem Automatizado organizado pelo governo dos Estados Unidos, a qualidade da tradução automática foi agora melhorada a tais níveis que sua aplicação em colaboração online e na área médica estão sendo investigados. A aplicação dessa tecnologia em ambientes médicos onde os tradutores humanos estão ausentes é outro tópico de pesquisa, mas surgem dificuldades devido à importância de traduções precisas em diagnósticos médicos.

Avaliação

Existem muitos fatores que afetam a forma como os sistemas de tradução automática são avaliados. Esses fatores incluem o uso pretendido da tradução, a natureza do software de tradução automática e a natureza do processo de tradução.

Programas diferentes podem funcionar bem para finalidades diferentes. Por exemplo, a tradução automática estatística (SMT) normalmente supera a tradução automática baseada em exemplos (EBMT), mas os pesquisadores descobriram que, ao avaliar a tradução do inglês para o francês, o EBMT tem um desempenho melhor. O mesmo conceito se aplica a documentos técnicos, que podem ser mais facilmente traduzidos pela SMT devido à sua linguagem formal.

Em certas aplicações, entretanto, por exemplo, descrições de produtos escritas em uma linguagem controlada , um sistema de tradução automática baseado em dicionário produziu traduções satisfatórias que não requerem intervenção humana, exceto para inspeção de qualidade.

Existem vários meios para avaliar a qualidade dos resultados dos sistemas de tradução automática. O mais antigo é o uso de juízes humanos para avaliar a qualidade de uma tradução. Mesmo que a avaliação humana seja demorada, ainda é o método mais confiável para comparar diferentes sistemas, como sistemas baseados em regras e estatísticos. Os meios automatizados de avaliação incluem BLEU , NIST , METEOR e LEPOR .

Contar exclusivamente com a tradução automática não editada ignora o fato de que a comunicação na linguagem humana está inserida no contexto e que é necessário que uma pessoa compreenda o contexto do texto original com um grau razoável de probabilidade. É certamente verdade que mesmo as traduções geradas exclusivamente por humanos estão sujeitas a erros. Portanto, para garantir que uma tradução gerada por máquina seja útil para um ser humano e que uma tradução de qualidade publicável seja alcançada, tais traduções devem ser revisadas e editadas por um ser humano. O falecido Claude Piron escreveu que a tradução automática, em sua melhor forma, automatiza a parte mais fácil do trabalho de um tradutor; a parte mais difícil e demorada geralmente envolve a realização de extensas pesquisas para resolver ambigüidades no texto de origem , que as exigências gramaticais e lexicais da língua de destino precisam ser resolvidas. Essa pesquisa é um prelúdio necessário para a pré-edição necessária a fim de fornecer dados para o software de tradução automática, de modo que a saída não perca o sentido .

Além dos problemas de desambiguação, a precisão diminuída pode ocorrer devido a níveis variáveis ​​de dados de treinamento para programas de tradução automática. Tanto a tradução automática baseada em exemplos quanto a estatística por máquina contam com uma vasta gama de frases de exemplo reais como base para a tradução e, quando muitas ou poucas frases são analisadas, a precisão é comprometida. Os pesquisadores descobriram que quando um programa é treinado em 203.529 pares de frases, a precisão na verdade diminui. O nível ideal de dados de treinamento parece ser pouco mais de 100.000 sentenças, possivelmente porque, conforme os dados de treinamento aumentam, o número de sentenças possíveis aumenta, tornando mais difícil encontrar uma correspondência de tradução exata.

Usando a tradução automática como ferramenta de ensino

Embora haja preocupações com a precisão da tradução automática, a Dra. Ana Nino, da University of Manchester, pesquisou algumas das vantagens de se utilizar a tradução automática em sala de aula. Um desses métodos pedagógicos é denominado "TA como um modelo ruim". A MT como um modelo ruim força o aluno do idioma a identificar inconsistências ou aspectos incorretos de uma tradução; por sua vez, o indivíduo irá (com sorte) possuir uma melhor compreensão da língua. Dr. Nino cita que esta ferramenta de ensino foi implementada no final dos anos 1980. No final de vários semestres, o Dr. Nino foi capaz de obter os resultados da pesquisa de alunos que usaram MT como um Modelo Ruim (bem como outros modelos). Incrivelmente, os alunos sentiram que observaram uma compreensão melhorada, recuperação lexical e aumento confiança na língua-alvo.

Tradução automática e línguas de sinalização

No início dos anos 2000, as opções de tradução automática entre as línguas faladas e de sinais eram severamente limitadas. Era uma crença comum que indivíduos surdos poderiam usar tradutores tradicionais. No entanto, a ênfase, a entonação, o tom e o tempo são transmitidos de maneira muito diferente nas línguas faladas em comparação com as línguas de sinais. Portanto, um indivíduo surdo pode interpretar mal ou ficar confuso sobre o significado de um texto escrito que se baseia em uma linguagem falada.

Pesquisadores Zhao, et al. (2000), desenvolveu um protótipo denominado TEAM (tradução do inglês para o ASL por máquina) que completou as traduções do inglês para a American Sign Language (ASL). O programa analisaria primeiro os aspectos sintáticos, gramaticais e morfológicos do texto em inglês. Seguindo esta etapa, o programa acessou um sintetizador de signos, que funcionou como um dicionário para ASL. Este sintetizador abrigou o processo que deve ser seguido para completar os sinais ASL, bem como os significados desses sinais. Uma vez que todo o texto é analisado e os sinais necessários para completar a tradução estão localizados no sintetizador, um humano gerado por computador aparece e usa o ASL para assinar o texto em inglês para o usuário.

direito autoral

Apenas trabalhos que são originais estão sujeitos a direitos de autor protecção, por isso alguns estudiosos afirmam que os resultados da tradução automática não têm direito a proteção de direitos autorais, porque MT não envolve criatividade . O copyright em questão é para um trabalho derivado ; o autor da obra original no idioma original não perde seus direitos quando uma obra é traduzida: o tradutor deve ter permissão para publicar uma tradução.

Veja também

Notas

Leitura adicional

links externos