Combinando personagem - Combining character
Na tipografia digital , combinar caracteres são caracteres que se destinam a modificar outros caracteres. Os caracteres de combinação mais comuns na escrita latina são as marcas diacríticas combinadas (incluindo a combinação de acentos ).
O Unicode também contém muitos caracteres pré-compostos , de forma que em muitos casos é possível usar a combinação de caracteres diacríticos e pré-compostos, à escolha do usuário ou do aplicativo. Isso leva a um requisito de realizar a normalização Unicode antes de comparar duas strings Unicode e projetar cuidadosamente os conversores de codificação para mapear corretamente todas as maneiras válidas de representar um caractere em Unicode para uma codificação legada para evitar perda de dados.
Em Unicode, o bloco principal de combinação de diacríticos para idiomas europeus e o alfabeto fonético internacional é U + 0300 – U + 036F. A combinação de marcas diacríticas também está presente em muitos outros blocos de caracteres Unicode. Em Unicode, os diacríticos são sempre adicionados após o caractere principal (em contraste com alguns conjuntos de caracteres combinados mais antigos, como ANSEL ), e é possível adicionar vários diacríticos ao mesmo caractere, incluindo diacríticos empilhados acima e abaixo, embora alguns sistemas possam não renderize-os bem.
Intervalos Unicode
Os blocos a seguir são dedicados especificamente à combinação de caracteres:
- Combinando marcas diacríticas (0300-036F), desde a versão 1.0, com modificações nas versões subsequentes até 4.1
- Combinação de marcas diacríticas estendidas (1AB0–1AFF), versão 7.0
- Suplemento de combinação de marcas diacríticas (1DC0-1DFF), versões 4.1 a 5.2
- Combinação de marcas diacríticas para símbolos (20D0–20FF), desde a versão 1.0, com modificações nas versões subsequentes até 5.1
- Combinando Meias Marcas (FE20 – FE2F), versões 1.0, com modificações nas versões subsequentes até 8.0
Combinar personagens não se limita a esses blocos; por exemplo, a combinação dakuten (U + 3099) e a combinação de handakuten (U + 309A) estão no bloco Hiragana , o bloco Devanagari contém a combinação de sinais vocálicos e outras marcas para uso com aquele script, e assim por diante. Os caracteres combinados são atribuídos à categoria principal Unicode "M" ("Marca").
Tabela de códigos do Consórcio Unicode Oficial Combining Marks Diacritical (PDF) |
||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | UMA | B | C | D | E | F | |
U + 030x | ◌̀ | ◌́ | ◌̂ | ◌̃ | ◌̄ | ◌̅ | ◌̆ | ◌̇ | ◌̈ | ◌̉ | ◌̊ | ◌̋ | ◌̌ | ◌̍ | ◌̎ | ◌̏ |
U + 031x | ◌̐ | ◌̑ | ◌̒ | ◌̓ | ◌̔ | ◌̕ | ◌̖ | ◌̗ | ◌̘ | ◌̙ | ◌̚ | ◌̛ | ◌̜ | ◌̝ | ◌̞ | ◌̟ |
U + 032x | ◌̠ | ◌̡ | ◌̢ | ◌̣ | ◌̤ | ◌̥ | ◌̦ | ◌̧ | ◌̨ | ◌̩ | ◌̪ | ◌̫ | ◌̬ | ◌̭ | ◌̮ | ◌̯ |
U + 033x | ◌̰ | ◌̱ | ◌̲ | ◌̳ | ◌̴ | ◌̵ | ◌̶ | ◌̷ | ◌̸ | ◌̹ | ◌̺ | ◌̻ | ◌̼ | ◌̽ | ◌̾ | ◌̿ |
U + 034x | ◌̀ | ◌́ | ◌͂ | ◌̓ | ◌̈́ | ◌ͅ | ◌͆ | ◌͇ | ◌͈ | ◌͉ | ◌͊ | ◌͋ | ◌͌ | ◌͍ | ◌͎ | CGJ |
U + 035x | ◌͐ | ◌͑ | ◌͒ | ◌͓ | ◌͔ | ◌͕ | ◌͖ | ◌͗ | ◌͘ | ◌͙ | ◌͚ | ◌͛ | ◌͜ | ◌͝ | ◌͞ | ◌͟ |
U + 036x | ◌͠ | ◌͡ | ◌͢ | ◌ͣ | ◌ͤ | ◌ͥ | ◌ͦ | ◌ͧ | ◌ͨ | ◌ͩ | ◌ͪ | ◌ͫ | ◌ͬ | ◌ͭ | ◌ͮ | ◌ͯ |
Notas
|
Os pontos de código U + 032A e U + 0346–034A são símbolos IPA :
- U + 032A ◌̪ : odontológico
- U + 0346 ◌͆ : dentolabial
- U + 0347 ◌͇ : alveolar
- U + 0348 ◌͈ : articulação forte
- U + 0349 ◌͉ : articulação fraca
- U + 034A ◌͊ : denasal
Os pontos de código U + 034B-034E são diacríticos IPA para fala desordenada :
- U + 034B ◌͋ : escape nasal
- U + 034C ◌͌ : atrito velofaríngeo
- U + 034D ◌͍ : espalhamento labial
- U + 034E ◌͎ : articulação assobiada
U + 034F é o " combinador grapheme joiner " (CGJ) e não tem glifo visível.
Os pontos de código U + 035C – 0362 são diacríticos duplos , sinais diacríticos colocados em duas letras.
Os pontos de código U + 0363–036F são diacríticos de letras sobrescritas medievais, letras escritas diretamente acima de outras letras que aparecem em manuscritos germânicos medievais, mas em alguns casos em uso até o século XIX. Por exemplo, U + 0364 é um e escrito acima da letra anterior, para ser usado para a notação de trema do alemão alto ( antigo ) , como uͤ para o alemão moderno ü .
Combinação de marcas diacríticas estendido gráfico de código oficial Unicode Consortium (PDF) |
||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | UMA | B | C | D | E | F | |
U + 1ABx | ◌᪰ | ◌᪱ | ◌᪲ | ◌᪳ | ◌᪴ | ◌᪵ | ◌᪶ | ◌᪷ | ◌᪸ | ◌᪹ | ◌᪺ | ◌᪻ | ◌᪼ | ◌᪽ | ◌᪾ | ◌ᪿ |
U + 1ACx | ◌ᫀ | |||||||||||||||
U + 1ADx | ||||||||||||||||
U + 1AEx | ||||||||||||||||
U + 1AFx | ||||||||||||||||
Notas |
Combining Diacritical Marks Supplement Gráfico de código oficial do Unicode Consortium (PDF) |
||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | UMA | B | C | D | E | F | |
U + 1DCx | ◌᷀ | ◌᷁ | ◌᷂ | ◌᷃ | ◌᷄ | ◌᷅ | ◌᷆ | ◌᷇ | ◌᷈ | ◌᷉ | ◌᷊ | ◌᷋ | ◌᷌ | ◌᷍ | ◌᷎ | ◌᷏ |
U + 1DDx | ◌᷐ | ◌᷑ | ◌᷒ | ◌ᷓ | ◌ᷔ | ◌ᷕ | ◌ᷖ | ◌ᷗ | ◌ᷘ | ◌ᷙ | ◌ᷚ | ◌ᷛ | ◌ᷜ | ◌ᷝ | ◌ᷞ | ◌ᷟ |
U + 1DEx | ◌ᷠ | ◌ᷡ | ◌ᷢ | ◌ᷣ | ◌ᷤ | ◌ᷥ | ◌ᷦ | ◌ᷧ | ◌ᷨ | ◌ᷩ | ◌ᷪ | ◌ᷫ | ◌ᷬ | ◌ᷭ | ◌ᷮ | ◌ᷯ |
U + 1DFx | ◌ᷰ | ◌ᷱ | ◌ᷲ | ◌ᷳ | ◌ᷴ | ◌᷵ | ◌᷶ | ◌᷷ | ◌᷸ | ◌᷹ | ◌᷻ | ◌᷼ | ◌᷽ | ◌᷾ | ◌᷿ | |
Notas |
Combinação de marcas diacríticas para símbolos Gráfico de código oficial do Unicode Consortium (PDF) |
||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | UMA | B | C | D | E | F | |
U + 20Dx | ◌⃐ | ◌⃑ | ◌⃒ | ◌⃓ | ◌⃔ | ◌⃕ | ◌⃖ | ◌⃗ | ◌⃘ | ◌⃙ | ◌⃚ | ◌⃛ | ◌⃜ | ◌⃝ | ◌⃞ | ◌⃟ |
U + 20Ex | ◌⃠ | ◌⃡ | ◌⃢ | ◌⃣ | ◌⃤ | ◌⃥ | ◌⃦ | ◌⃧ | ◌⃨ | ◌⃩ | ◌⃪ | ◌⃫ | ◌⃬ | ◌⃭ | ◌⃮ | ◌⃯ |
U + 20Fx | ◌⃰ | |||||||||||||||
Notas |
Gráfico de código do Consórcio Unicode Oficial Combining Half Marks (PDF) |
||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | UMA | B | C | D | E | F | |
U + FE2x | ◌︠ | ◌︡ | ◌︢ | ◌︣ | ◌︤ | ◌︥ | ◌︦ | ◌︧ | ◌︨ | ◌︩ | ◌︪ | ◌︫ | ◌︬ | ◌︭ | ◌︮ | ◌︯ |
Notas
|
Tipo aberto
OpenType tem a "tag de recurso" ccmp para definir glifos que são composições ou decomposições envolvendo caracteres combinados, a tag de marca para definir o posicionamento dos caracteres combinados no glifo base e mkmk para os posicionamentos dos caracteres combinados uns sobre os outros.
Texto Zalgo
A combinação de caracteres foi usada para criar o texto Zalgo , que é o texto que parece "corrompido" ou "assustador" devido ao uso excessivo de diacríticos. Isso faz com que o texto se estenda verticalmente, sobrepondo-se a outro texto.
Veja também
- Círculo pontilhado
- Chave morta
- Letras de modificador de espaçamento que não deveriam combinar (embora façam erroneamente em algumas implementações onde um desenvolvedor confundiu "combinação" com "modificador")
Notas
links externos
- Gráfico de combinação de diacríticos (em formato Adobe PDF )
- Tabela de suplemento de diacríticos combinando (em formato Adobe PDF )
- Página de teste de combinação de marcas voltada para letras combinadas e pré-compostas
- Recursos Unicode de Alan Wood
- DecodeUnicode.org combinando referência de marcas diacríticas