Caráter pré-composto - Precomposed character

Um caractere pré-composto (alternativamente, caractere composto ou caractere decomposto ) é uma entidade Unicode que também pode ser definida como uma sequência de um ou mais outros caracteres. Um caractere pré-composto normalmente pode representar uma letra com uma marca diacrítica , como é (letra latina minúscula e com acento agudo ). Tecnicamente, é (U + 00E9) é um caractere que pode ser decomposto em uma string equivalente da letra base e (U + 0065) e combinando acento agudo (U + 0301). Da mesma forma, ligaduras são pré-composições de suas letras ou grafemas constituintes .

Os caracteres pré-compostos são a solução legada para representar muitas letras especiais em vários conjuntos de caracteres . Em Unicode, eles são incluídos principalmente para auxiliar os sistemas de computador com suporte incompleto a Unicode, onde caracteres decompostos equivalentes podem ser renderizados incorretamente.

Comparando caracteres pré-compostos e decompostos

No exemplo a seguir, há um sobrenome sueco comum Åström escrito nos dois métodos alternativos, o primeiro com um Å pré-composto (U + 00C5) e ö (U + 00F6), e o segundo usando uma letra base decomposta A ( L + 0041) com uma combinação de anel acima (L + 030A) e um o (U + 006F) com uma combinação de trema (L + 0308).

Å str ö m (U + 00C5U + 0073 U + 0074 U + 0072U + 00F6U + 006D)
Åström (U + 0041 U + 030A U + 0073 U + 0074 U + 0072 U + 006F U + 0308 U + 006D)

Exceto pelas cores diferentes, as duas soluções são equivalentes e devem renderizar de forma idêntica. Na prática, entretanto, algumas implementações Unicode ainda têm dificuldades com caracteres decompostos. Na pior das hipóteses, a combinação de diacríticos pode ser desconsiderada ou processada como caracteres não reconhecidos após suas letras de base, uma vez que não estão incluídos em todas as fontes . Para superar os problemas, alguns aplicativos podem simplesmente tentar substituir os caracteres decompostos pelos caracteres pré-compostos equivalentes.

Com uma fonte incompleta, no entanto, os caracteres pré-compostos também podem ser problemáticos - especialmente se eles forem mais exóticos, como no exemplo a seguir (mostrando a palavra proto-indo-européia reconstruída para "cachorro"):

ḱṷṓ n (U + 1E31 U + 1E77 U + 1E53U + 006E)
ḱṷṓn (U + 006B U + 0301 U + 0075 U + 032D U + 006F U + 0304 U + 0301 U + 006E)

Em algumas situações, os k , u e o verdes pré-compostos com diacríticos podem ser processados como caracteres não reconhecidos ou sua aparência tipográfica pode ser muito diferente da letra final n sem nenhum diacrítico. Na segunda linha, as letras básicas devem pelo menos renderizar corretamente, mesmo se os diacríticos combinados não puderem ser reconhecidos.

OpenType tem a "tag de recurso" ccmp para definir glifos que são composições ou decomposições envolvendo combinação de caracteres.

caracteres chineses

Em teoria, a maioria dos caracteres chineses codificados pela unificação Han e esquemas semelhantes podem ser tratados como caracteres pré-compostos, uma vez que podem ser reduzidos (decompostos) a seus traços constituintes e descrições ideográficas com linguagens de descrição de caracteres chineses . Tal abordagem poderia reduzir o número de caracteres no conjunto de caracteres de dezenas de milhares para apenas algumas centenas. Por outro lado, esse conjunto de caracteres altamente decomposto apresentaria desafios para a pesquisa e edição de software e exigiria mais bytes de codificação por documento.

Veja também

Lista de caracteres latinos pré-compostos em Unicode
Chave morta
Chave de composição
Personagem combinando
Equivalência Unicode
Layout de texto complexo
Caracteres de compatibilidade Unicode
Formas de apresentação alfabética - (bloco Unicode)
Formulários de apresentação em árabe-A - (bloco Unicode)
Formas de apresentação em árabe-B - (bloco Unicode)

Fontes

O Padrão Unicode, Versão 5.2: Conformidade (consulte a Seção 3.7 para Decomposição). The Unicode Consortium, dezembro de 2009.
MSDN: Definindo um Conjunto de Caracteres . 8 de abril de 2010.
Formulários de normalização Unicode (Unicode® Standard Anexo # 15): http://unicode.org/reports/tr15/

links externos

Livre Idg Serif , um derivado da fonte FreeSerif com declarações adicionadas de caracteres pré-compostos.

Languages

In other projects