Idioma vietnamita e computadores - Vietnamese language and computers

A língua vietnamita é escrita com uma escrita latina com diacríticos que requerem várias acomodações ao digitar no telefone ou no computador. Os sistemas baseados em software são a forma mais popular de escrever vietnamita. Telex é o método de entrada mais antigo desenvolvido para codificar o idioma vietnamita e costuma ser definido como o padrão em teclados virtuais de telefones e dispositivos com tela sensível ao toque. Outros métodos de entrada também podem incluir VNI e VIQR , que se adequam mais a computadores pessoais de mesa físicos ou laptops.

O método de entrada VNI não deve ser confundido com a página de código VNI.

Historicamente, o vietnamita também foi escrito em chữ Nôm , que é usado para fins cerimoniais e tradicionais hoje em dia, e permanece na área de historiadores e filólogos .

Fontes e codificações de caracteres

Alfabeto vietnamita

É comum que dois diacríticos sejam colocados em uma única vogal vietnamita. Algumas fontes empilham esses diacríticos, enquanto outras compensam a marca de tom.

Existem até 46 codificações de caracteres para representar o alfabeto vietnamita . Unicode se tornou a forma mais popular para muitos dos sistemas de escrita do mundo, devido à sua grande compatibilidade e suporte de software. Os diacríticos podem ser codificados como caracteres combinados ou como caracteres pré-compostos , que estão espalhados entre os blocos Latino Estendido-A , Latino Estendido-B e Latino Estendido Adicional . O símbolo đồng vietnamita está codificado no bloco Símbolos monetários . Historicamente, a língua vietnamita usava outros caracteres além do alfabeto moderno. A letra B do vietnamita médio com floreio (ꞗ) está incluída no bloco Latim Extended-D . O vértice não está incluído em Unicode, mas U + 1DC4 ◌᷄ COMBINING MACRON-AGUTE pode servir como uma aproximação grosseira.

As primeiras versões do Unicode atribuíam os caracteres U + 0340 ◌̀ COMBINAÇÃO DE MARCA DE TOM GRAVE e U + 0341 ◌́ COMBINAÇÃO DE MARCA DE TOM AGUDA com o propósito de colocar essas marcas ao lado de um circunflexo, como é comum na tipografia vietnamita. Esses dois personagens foram descontinuados; U + 0301 ◌́ COMBINAÇÃO DE ACENTO AGUDA e U + 0300 ◌̀ COMBINAÇÃO DE ACENTO GRAVE agora são usados ​​independentemente de qualquer circunflexo presente.

Para sistemas que carecem de suporte para Unicode, dezenas de páginas de código vietnamita de 8 bits foram projetadas. Os mais comumente usados ​​foram VISCII , VSCII (TCVN 5712: 1993), VNI , VPS e Windows-1258 . Onde ASCII é necessário, como ao garantir a legibilidade em e-mail de texto simples, as letras vietnamitas são frequentemente codificadas de acordo com o vietnamita Quoted-Readable (VIQR) ou VSCII Mnemonic (VSCII-MNEM), embora o uso de qualquer esquema de largura variável tenha diminuído dramaticamente após a adoção do Unicode na World Wide Web . Por exemplo, o suporte para todas as codificações de 8 bits mencionadas acima, com exceção do Windows-1258, foi retirado do software Mozilla em 2014.

Muitas fontes vietnamitas destinadas à editoração eletrônica são codificadas em VNI ou TCVN3 ( VSCII ). Essas fontes são conhecidas como "fontes ABC". Navegadores da web populares não têm suporte para codificações vietnamitas especiais, portanto, qualquer página da web que usa essas fontes aparece como mojibake ininteligível em sistemas sem elas instaladas.

À direita, um í que mantém seu título .

Os vietnamitas costumam empilhar diacríticos, então os designers de fontes devem tomar cuidado para evitar que os diacríticos empilhados colidam com letras ou linhas adjacentes. Quando uma marca de tom é usada junto com outro diacrítico, deslocar a marca de tom para a direita preserva a consistência e evita abrandar as sacadas . Na sinalização de publicidade e na caligrafia cursiva , os diacríticos geralmente assumem formas desconhecidas para outros alfabetos latinos. Por exemplo, a letra minúscula I mantém seu título em ì , , ĩ e í . Essas nuances raramente são levadas em consideração em ambientes de computação.

Abordagens

A escrita vietnamita requer 134 letras adicionais (entre os dois casos), além das 52 já presentes em ASCII. Isso excede os 128 caracteres adicionais disponíveis em uma codificação ASCII estendida convencional . Embora isso possa ser resolvido usando uma codificação de largura variável (como é feito por UTF-8 ), várias abordagens foram usadas por outras codificações para oferecer suporte ao vietnamita sem fazer isso:

  • Substitua pelo menos seis caracteres ASCII, selecionados por serem incomuns em vietnamita e / ou por serem não invariáveis ​​em ISO 646 ou DEC NRCS (como em VNI para DOS ).
  • Remova as letras maiúsculas que são usadas com menos frequência ou todas as letras maiúsculas com marcas de tom (como em VSCII-3 (TCVN3)). Essas letras ainda podem ser fornecidas por meio de fontes totalmente em maiúsculas.
  • Elimine os formulários da letra Y com marcas de tom, sendo necessário o uso da letra I nessas circunstâncias . Esta abordagem foi rejeitada pelos projetistas de VISCII com base no fato de que uma codificação de caracteres não deve tentar resolver um problema de reforma ortográfica.
  • Substitua pelo menos seis caracteres de controle C0 (como em VISCII , VSCII-1 (TCVN1) e VPS ).
  • Use a combinação de caracteres, permitindo que uma vogal com acentos seja totalmente representada usando uma sequência de caracteres (como em VNI , VSCII-2 (TCVN2), Windows-1258 e ANSEL ).

Chữ Nôm

𬖾
O caractere nôm para phở .

O Unicode inclui mais de 10.000 caracteres nôm como parte do repertório Unicode de Ideogramas Unificados CJK . Destes caracteres, 10082 pode ser encontrado no CJK Unified ideogramas extensão B do bloco, enquanto os restantes são distribuídos entre os CJK Unified ideogramas , CJK Unified ideogramas Extensão A , e CJK Unified ideogramas Extensão C blocos. Outros 1.028 caracteres, incluindo mais de 400 caracteres específicos do idioma Tày , são codificados no bloco de extensão E de Ideogramas unificados CJK . Os caracteres são retirados dos padrões vietnamitas TCVN 5773: 1993 e TCVN 6909: 2001 [erro para TCVN 6056: 1995?], Bem como de pesquisas do Han-Nom Research Institute e outros grupos. Todos os caracteres em TCVN 5773: 1993 e cerca de 95% dos caracteres em TCVN 6909: 2001 [erro para TCVN 6056: 1995?] Têm pontos de código correspondentes em Unicode 5.1, embora TCVN 5773: 1993 tenha mapeado a maioria de seus caracteres para o Privado Use Área de Unicode. O Unicode 13.0 adicionou dois caracteres diacríticos ao bloco de Símbolos ideográficos e pontuação que eram comumente usados ​​para indicar caracteres emprestados em chữ Nôm .

Os dois mais abrangentes nom fontes são o Vietnamita nom Fundação Preservação do nom Na Tống Luz e desenvolvido na comunidade HAN NOM A / HAN NOM B , ambos os quais colocar um grande número de caracteres não padronizados nas Áreas de uso privado .

O banco de dados Unihan do Unicode Consortium inclui leituras vietnamitas de alguns caracteres, mas não faz distinção entre leituras sino-vietnamitas e nôm .

Como outros sistemas de escrita CJKV , chữ Nôm é tradicionalmente escrito na vertical , de cima para baixo e da direita para a esquerda.

Chữ Hán e chữ Nôm também podem ser anotados com caracteres rubi , que é o mesmo que chữ quốc ngữ para vietnamita.

Entrada de texto

Um teclado vietnamita puramente físico seria impraticável, devido ao grande número de combinações de letras diacríticas-diacríticas no alfabeto, por exemplo, á, à, ả, ã, ạ, â, ấ, etc. Em vez disso, a entrada vietnamita depende de layouts de teclado baseados em software, teclados virtuais ou métodos de entrada (também conhecidos como IMEs).

Layouts de teclado

O Microsoft Windows inclui um layout de teclado vietnamita baseado em TCVN 6064: 1995.
Layout de teclado de máquina de escrever vietnamita baseado em AZERTY

Os layouts de teclado vietnamita dependem de teclas mortas para compor letras com diacríticos. A maioria dos sistemas operacionais de desktop inclui um layout de teclado vietnamita semelhante ao TCVN 6064: 1995  [ vi ] , um padrão nacional vietnamita. Anteriormente, as máquinas de escrever usavam um layout vietnamita baseado em AZERTY.

Métodos de entrada

xvnkb, um IME compatível com a estrutura do X Input Method em sistemas Unix, oferece suporte à saída em seis codificações de caracteres.

Os três métodos de entrada vietnamitas mais comuns são Telex , VNI e VIQR . Telex indica diacríticos usando letras que provavelmente não aparecem no final de uma palavra, enquanto VNI reaproveita as teclas numéricas ou de função e VIQR reaproveita vários sinais de pontuação. As convenções Telex e VIQR originaram-se em uma era anterior de máquinas de telex e máquinas de escrever, respectivamente.

O suporte para esses métodos de entrada é fornecido por editores de método de entrada (IMEs), que são conhecidos em vietnamita como bộ gõ , literalmente "peckers" ou "percussão" em termos mais gerais. Os IMEs podem ser fornecidos pelo sistema operacional, instalados como um aplicativo de terceiros, instalados como uma extensão do navegador ou fornecidos por um site individual na forma de um script . Os aplicativos comuns de terceiros incluem GoTiengViet, UniKey , VietKey, VPSKeys , WinVNKey e xvnkb. Em sistemas operacionais do tipo Unix, os frameworks IBus e SCIM oferecem suporte ao vietnamita. Scripts de IMEs como AVIM, Mudim e VietTyping podem ser encontrados na maioria dos painéis de mensagens vietnamitas , na Wikipedia vietnamita e em outros sites com muitos textos. O navegador vietnamita Cốc Cốc vem com um método de entrada integrado.

Os métodos de entrada permitem que as palavras sejam compostas em uma ordem mais flexível do que os layouts de teclado permitem. Por exemplo, para inserir a palavra " viết " usando o layout de teclado TCVN 6064: 1995, deve-se digitar VI38T, nessa ordem. Em contraste, a maioria dos IMEs permite que o usuário insira sinais diacríticos no final da palavra: VIEETSno Telex, VIET61no VNI ou VIET^'no VIQR. Alguns IMEs até permitem que sinais diacríticos sejam inseridos antes de suas letras básicas. Dependendo da implementação de um IME, também pode ser possível editar os diacríticos de uma palavra existente sem redigitar a palavra.

Emprestando um recurso comum entre os métodos de entrada chineses , alguns IMEs vietnamitas permitem pular os diacríticos completamente e, em vez disso, depois de digitar as letras básicas, o usuário pode selecionar a palavra acentuada em uma lista de candidatos. Para fornecer essa lista de preenchimento automático , o IME pode precisar se comunicar com um serviço da web . Alguns IMEs também usam listas de candidatos para permitir ao usuário converter texto do alfabeto vietnamita em chữ Nôm , porque não há correspondência direta entre palavras alfabéticas e caracteres nôm .

Outras considerações

O texto vietnamita típico contém uma alta proporção de palavras compostas. Palavras compostas nunca são hifenizadas no uso contemporâneo, então os corretores ortográficos são limitados a verificar sílabas individuais, a menos que um modelo estatístico de linguagem seja consultado.

O vietnamita tem regras de ortografia rígidas e poucas exceções, portanto, os mecanismos de conversão de texto em voz podem evitar pesquisas no dicionário, exceto ao encontrar uma palavra de empréstimo estrangeira. Os motores TTS devem levar em conta os tons , que são essenciais para o significado de qualquer palavra vietnamita, por exemplo, má (mãe) é uma palavra diferente de mà (mas).

Veja também

Referências

Leitura adicional

links externos