Caráter pré-composto - Precomposed character

Um caractere pré-composto (alternativamente, caractere composto ou caractere decomposto ) é uma entidade Unicode que também pode ser definida como uma sequência de um ou mais outros caracteres. Um caractere pré-composto normalmente pode representar uma letra com uma marca diacrítica , como é (letra latina minúscula e com acento agudo ). Tecnicamente, é (U + 00E9) é um caractere que pode ser decomposto em uma string equivalente da letra base e (U + 0065) e combinando acento agudo (U + 0301). Da mesma forma, ligaduras são pré-composições de suas letras ou grafemas constituintes .

Os caracteres pré-compostos são a solução legada para representar muitas letras especiais em vários conjuntos de caracteres . Em Unicode, eles são incluídos principalmente para auxiliar os sistemas de computador com suporte incompleto a Unicode, onde caracteres decompostos equivalentes podem ser renderizados incorretamente.

Comparando caracteres pré-compostos e decompostos

No exemplo a seguir, há um sobrenome sueco comum Åström escrito nos dois métodos alternativos, o primeiro com um Å pré-composto (U + 00C5) e ö (U + 00F6), e o segundo usando uma letra base decomposta A ( L + 0041) com uma combinação de anel acima (L + 030A) e um o (U + 006F) com uma combinação de trema (L + 0308).

  1. Å str ö m (U + 00C5U + 0073 U + 0074 U + 0072U + 00F6U + 006D)
  2. Åström (U + 0041 U + 030A U + 0073 U + 0074 U + 0072 U + 006F U + 0308 U + 006D)

Exceto pelas cores diferentes, as duas soluções são equivalentes e devem renderizar de forma idêntica. Na prática, entretanto, algumas implementações Unicode ainda têm dificuldades com caracteres decompostos. Na pior das hipóteses, a combinação de diacríticos pode ser desconsiderada ou processada como caracteres não reconhecidos após suas letras de base, uma vez que não estão incluídos em todas as fontes . Para superar os problemas, alguns aplicativos podem simplesmente tentar substituir os caracteres decompostos pelos caracteres pré-compostos equivalentes.

Com uma fonte incompleta, no entanto, os caracteres pré-compostos também podem ser problemáticos - especialmente se eles forem mais exóticos, como no exemplo a seguir (mostrando a palavra proto-indo-européia reconstruída para "cachorro"):

  1. ḱṷṓ n (U + 1E31 U + 1E77 U + 1E53U + 006E)
  2. ḱṷṓn (U + 006B U + 0301 U + 0075 U + 032D U + 006F U + 0304 U + 0301 U + 006E)

Em algumas situações, os k , u e o verdes pré-compostos com diacríticos podem ser processados ​​como caracteres não reconhecidos ou sua aparência tipográfica pode ser muito diferente da letra final n sem nenhum diacrítico. Na segunda linha, as letras básicas devem pelo menos renderizar corretamente, mesmo se os diacríticos combinados não puderem ser reconhecidos.

OpenType tem a "tag de recurso" ccmp para definir glifos que são composições ou decomposições envolvendo combinação de caracteres.

caracteres chineses

Em teoria, a maioria dos caracteres chineses codificados pela unificação Han e esquemas semelhantes podem ser tratados como caracteres pré-compostos, uma vez que podem ser reduzidos (decompostos) a seus traços constituintes e descrições ideográficas com linguagens de descrição de caracteres chineses . Tal abordagem poderia reduzir o número de caracteres no conjunto de caracteres de dezenas de milhares para apenas algumas centenas. Por outro lado, esse conjunto de caracteres altamente decomposto apresentaria desafios para a pesquisa e edição de software e exigiria mais bytes de codificação por documento.

Veja também

Fontes

links externos