Caráter pré-composto - Precomposed character
Um caractere pré-composto (alternativamente, caractere composto ou caractere decomposto ) é uma entidade Unicode que também pode ser definida como uma sequência de um ou mais outros caracteres. Um caractere pré-composto normalmente pode representar uma letra com uma marca diacrítica , como é (letra latina minúscula e com acento agudo ). Tecnicamente, é (U + 00E9) é um caractere que pode ser decomposto em uma string equivalente da letra base e (U + 0065) e combinando acento agudo (U + 0301). Da mesma forma, ligaduras são pré-composições de suas letras ou grafemas constituintes .
Os caracteres pré-compostos são a solução legada para representar muitas letras especiais em vários conjuntos de caracteres . Em Unicode, eles são incluídos principalmente para auxiliar os sistemas de computador com suporte incompleto a Unicode, onde caracteres decompostos equivalentes podem ser renderizados incorretamente.
Comparando caracteres pré-compostos e decompostos
No exemplo a seguir, há um sobrenome sueco comum Åström escrito nos dois métodos alternativos, o primeiro com um Å pré-composto (U + 00C5) e ö (U + 00F6), e o segundo usando uma letra base decomposta A ( L + 0041) com uma combinação de anel acima (L + 030A) e um o (U + 006F) com uma combinação de trema (L + 0308).
- Å str ö m (U + 00C5U + 0073 U + 0074 U + 0072U + 00F6U + 006D)
- Åström (U + 0041 U + 030A U + 0073 U + 0074 U + 0072 U + 006F U + 0308 U + 006D)
Exceto pelas cores diferentes, as duas soluções são equivalentes e devem renderizar de forma idêntica. Na prática, entretanto, algumas implementações Unicode ainda têm dificuldades com caracteres decompostos. Na pior das hipóteses, a combinação de diacríticos pode ser desconsiderada ou processada como caracteres não reconhecidos após suas letras de base, uma vez que não estão incluídos em todas as fontes . Para superar os problemas, alguns aplicativos podem simplesmente tentar substituir os caracteres decompostos pelos caracteres pré-compostos equivalentes.
Com uma fonte incompleta, no entanto, os caracteres pré-compostos também podem ser problemáticos - especialmente se eles forem mais exóticos, como no exemplo a seguir (mostrando a palavra proto-indo-européia reconstruída para "cachorro"):
- ḱṷṓ n (U + 1E31 U + 1E77 U + 1E53U + 006E)
- ḱṷṓn (U + 006B U + 0301 U + 0075 U + 032D U + 006F U + 0304 U + 0301 U + 006E)
Em algumas situações, os k , u e o verdes pré-compostos com diacríticos podem ser processados como caracteres não reconhecidos ou sua aparência tipográfica pode ser muito diferente da letra final n sem nenhum diacrítico. Na segunda linha, as letras básicas devem pelo menos renderizar corretamente, mesmo se os diacríticos combinados não puderem ser reconhecidos.
OpenType tem a "tag de recurso" ccmp para definir glifos que são composições ou decomposições envolvendo combinação de caracteres.
caracteres chineses
Em teoria, a maioria dos caracteres chineses codificados pela unificação Han e esquemas semelhantes podem ser tratados como caracteres pré-compostos, uma vez que podem ser reduzidos (decompostos) a seus traços constituintes e descrições ideográficas com linguagens de descrição de caracteres chineses . Tal abordagem poderia reduzir o número de caracteres no conjunto de caracteres de dezenas de milhares para apenas algumas centenas. Por outro lado, esse conjunto de caracteres altamente decomposto apresentaria desafios para a pesquisa e edição de software e exigiria mais bytes de codificação por documento.
Veja também
- Lista de caracteres latinos pré-compostos em Unicode
- Chave morta
- Chave de composição
- Personagem combinando
- Equivalência Unicode
- Layout de texto complexo
- Caracteres de compatibilidade Unicode
- Formas de apresentação alfabética - (bloco Unicode)
- Formulários de apresentação em árabe-A - (bloco Unicode)
- Formas de apresentação em árabe-B - (bloco Unicode)
Fontes
- O Padrão Unicode, Versão 5.2: Conformidade (consulte a Seção 3.7 para Decomposição). The Unicode Consortium, dezembro de 2009.
- MSDN: Definindo um Conjunto de Caracteres . 8 de abril de 2010.
- Formulários de normalização Unicode (Unicode® Standard Anexo # 15): http://unicode.org/reports/tr15/
links externos
- Livre Idg Serif , um derivado da fonte FreeSerif com declarações adicionadas de caracteres pré-compostos.