Propriedade de caractere Unicode - Unicode character property
O padrão Unicode atribui várias propriedades a cada caractere Unicode e ponto de código .
As propriedades podem ser usadas para manipular caracteres (pontos de código) em processos, como quebra de linha, direção de script da direita para a esquerda ou aplicação de controles. Algumas "propriedades de caractere" também são definidas para pontos de código que não têm nenhum caractere atribuído e pontos de código que são rotulados como "<não é um caractere>". As propriedades dos caracteres são descritas no Anexo Padrão # 44.
As propriedades têm níveis de vigor: normativo, informativo, contributivo ou provisório. Para simplicidade de especificação, uma propriedade de caractere pode ser atribuída especificando um intervalo contínuo de pontos de código que têm a mesma propriedade.
Elementos semânticos
As propriedades são exibidas na seguinte ordem:
[code];[name];[gc];[cc];[bc];[decomposition];;;[nv];[bm];[alias];;;;
- 'alias' = nome corrigido
- 'bc' = categoria bidi (bidirecional) [L, R etc]
- 'bm' = bidi espelhado [N ou Y]
- 'cc' = classe combinada [posição do diacrítico]
- decomposição = letra + diacrítico, ligadura XY, sobrescrito X, fonte X, X inicial, X medial, X final, X isolado, X vertical, etc.
- 'gc' = categoria geral [letra, símbolo, dígito, pontuação, comportamento do caso, etc.]
- 'nv' = valor numérico [de um dígito]
Nome
Um caractere Unicode é atribuído a um Nome exclusivo (na). O nome é composto por letras maiúsculas de A – Z, dígitos 0–9, - (hífen-menos) e <espaço>. Algumas sequências são excluídas: nomes que começam com um espaço ou hífen, nomes que terminam com um espaço ou hífen, espaços ou hifens repetidos e espaço após hífen não são permitidos. O nome tem garantia de ser exclusivo dentro do Unicode e pode ser usado para identificar um ponto de código e seu caractere. Personagens ideográficos, dos quais existem dezenas de milhares, são nomeados no padrão " cjk unified ideograph - hhhh ". Por exemplo, U + 4E00 一 CJK UNIFIED IDEOGRAPH-4E00 . Os caracteres de formatação também são nomeados: U + 00A0 NO-BREAK SPACE .
As seguintes classes de ponto de código não têm um Nome (na = ""): Controles (Categoria Geral: Cc), Uso Privado (Co), Substituto (Cs), Sem Caracteres (Cn) e Reservado (Cn). Eles podem ser referenciados, informalmente, por um meta-nome genérico ou específico, chamado "Code Point Labels": <control>, <control-0088>, <reserved>, <noncharacter- hhhh >, <private-use- hhhh > , <surrogate>. Como esses rótulos contêm <> - colchetes, eles nunca podem aparecer como um Nome, o que evita confusão.
Nomes da versão 1.0
Na versão 2.0 do Unicode, muitos nomes foram alterados. A partir de então, a regra "um nome nunca mudará" entrou em vigor, incluindo o uso estrito (normativo) de nomes alternativos. Os nomes da versão 1.0 desativados foram movidos para a propriedade Alias, para fornecer alguma compatibilidade com versões anteriores.
Alias do nome do personagem
A partir do Unicode versão 2.0, o nome publicado para um ponto de código nunca será alterado. Portanto, no caso de um nome de personagem ser digitado incorretamente ou se o nome do personagem estiver completamente errado ou seriamente enganoso, um apelido de nome de personagem formal pode ser atribuído ao personagem, e este apelido pode ser usado por aplicativos em vez do nome real do personagem com defeito . Por exemplo, U + FE18 ︘ FORMULÁRIO DE APRESENTAÇÃO PARA BRAKCET VERTICAL RIGHT WHITE LENTICULAR tem o nome de personagem alias "FORMULÁRIO DE APRESENTAÇÃO PARA BRACKET VERTICAL RIGHT WHITE LENTICULAR" para mitigar o erro de ortografia de "colchete" como "brakcet" no nome do caractere real; U + A015 ꀕ YI SYLLABLE WU tem o apelido do nome do personagem "YI SYLLABLE ITERATION MARK" porque, ao contrário do nome do personagem, não tem um valor silábico fixo.
Além de apelidos de nome de personagem, que são correções para nomes de personagem defeituosos, alguns personagens são atribuídos a apelidos que são nomes alternativos ou abreviações. Cinco tipos de apelidos de nome de caractere são definidos no padrão Unicode:
- Correção: correções para nomes de personagens com erros ortográficos ou seriamente incorretos;
- Controle: nomes ISO 6429 para funções de controle C0 e C1 (que não são atribuídos a nomes de caracteres no padrão Unicode);
- Alternativo: nomes alternativos para alguns caracteres de formato (somente U + FEFF "LARGURA ZERO NO-BREAK SPACE" que possui o alias "BYTE ORDER MARK");
- Figment: Etiquetas documentadas para algumas funções do código de controle C1 que não são nomes reais em nenhum padrão;
- Abreviação: abreviações ou acrônimos para códigos de controle, caracteres de formato, espaços e seletores de variação.
Todos os aliases de nomes de caracteres formais seguem as regras para nomes de caracteres permitidos e têm a garantia de serem exclusivos tanto no alias do nome do caractere quanto nos namespaces do nome do caractere (por esse motivo, o nome ISO 6429 "BELL" não é definido como um alias para U +0007 porque U + 1F514 é denominado "BELL").
A partir do Unicode versão 12.1, vinte e oito apelidos de nomes de caracteres formais são definidos como correções para nomes de caracteres defeituosos. Eles estão listados abaixo .
Além desses nomes normativos, nomes informais podem ser mostrados nas tabelas de código Unicode. Esses são outros nomes comumente usados para um caractere e não precisam ser restritos às letras A – Z, dígitos 0–9, - (hífen-menos) e <espaço>. Não há garantia de que esses nomes informais sejam exclusivos e podem ser alterados ou removidos em versões posteriores do padrão.
Categoria Geral
Cada ponto de código é atribuído a um valor para a categoria geral. Esta é uma das propriedades de caractere que também são definidas para pontos de código não atribuídos e pontos de código que são definidos como "não é um caractere".
Categoria geral ( propriedade de caractere Unicode ) | |||||
---|---|---|---|---|---|
Valor | Categoria Maior, Menor | Tipo básico | Personagem atribuído | Contagem (a partir de 14.0) |
Observações |
L, Carta; LC, carta casada (apenas Lu, Ll e Lt) | |||||
Lu | Letra maiúscula | Gráfico | Personagem | 1.831 | |
Ll | Letra minúscula | Gráfico | Personagem | 2.227 | |
Tenente | Carta, titlecase | Gráfico | Personagem | 31 | Ligaduras contendo maiúsculas seguidas de letras minúsculas (por exemplo, Dž , Lj , Nj e Dz ) |
Lm | Letra, modificador | Gráfico | Personagem | 334 | Uma carta modificadora |
Lo | Carta, outra | Gráfico | Personagem | 127.333 | Um ideograma ou uma letra em um alfabeto unicase |
M, Mark | |||||
Mn | Mark, sem espaçamento | Gráfico | Personagem | 1.950 | |
Mc | Marca, combinação de espaçamento | Gráfico | Personagem | 445 | |
Mim | Mark, incluindo | Gráfico | Personagem | 13 | |
N, número | |||||
WL | Número, dígito decimal | Gráfico | Personagem | 660 | Todos estes, e apenas estes, têm Tipo Numérico = De |
Nl | Número, letra | Gráfico | Personagem | 236 | Números compostos por letras ou símbolos semelhantes a letras (por exemplo, algarismos romanos ) |
Não | Número, outro | Gráfico | Personagem | 895 | Por exemplo, frações vulgares , dígitos sobrescritos e subscritos |
P, pontuação | |||||
Pc | Pontuação, conector | Gráfico | Personagem | 10 | Inclui "_" sublinhado |
Pd | Pontuação, traço | Gráfico | Personagem | 26 | Inclui vários caracteres hífen |
Ps | Pontuação, aberto | Gráfico | Personagem | 79 | Caracteres de colchete de abertura |
Educaçao Fisica | Pontuação, fechar | Gráfico | Personagem | 77 | Caracteres de colchete de fechamento |
Pi | Pontuação, citação inicial | Gráfico | Personagem | 12 | Abrindo aspa . Não inclui as aspas "neutras" ASCII. Pode se comportar como Ps ou Pe dependendo do uso |
Pf | Pontuação, citação final | Gráfico | Personagem | 10 | Fechando aspas. Pode se comportar como Ps ou Pe dependendo do uso |
Po | Pontuação, outro | Gráfico | Personagem | 605 | |
S, símbolo | |||||
Sm | Símbolo, matemática | Gráfico | Personagem | 948 | Símbolos matemáticos (por exemplo, + , - , = , × , ÷ , √ , ∊ , ≠ ). Não inclui parênteses e colchetes, que estão nas categorias Ps e Pe. Também não inclui ! , * , - ou / , que apesar do uso frequente como operadores matemáticos, são considerados principalmente como "pontuação". |
Sc | Símbolo, moeda | Gráfico | Personagem | 63 | Símbolos de moeda |
Sk | Símbolo, modificador | Gráfico | Personagem | 125 | |
Então | Símbolo, outro | Gráfico | Personagem | 6.605 | |
Z, Separador | |||||
Zs | Separador, espaço | Gráfico | Personagem | 17 | Inclui o espaço, mas não TAB , CR ou LF , que são Cc |
Zl | Separador, linha | Formato | Personagem | 1 | Apenas U + 2028 LINE SEPARATOR (LSEP) |
Zp | Separador, parágrafo | Formato | Personagem | 1 | Apenas U + 2029 PARAGRAPH SEPARATOR (PSEP) |
C, Outro | |||||
Cc | Outro, controle | Ao controle | Personagem | 65 (nunca mudará) | Sem nome, <control> |
Cf | Outro, formato | Formato | Personagem | 163 | Inclui o hífen , junção de caracteres de controle ( zwnj e zwj ), caracteres de controle para oferecer suporte a texto bidirecional e caracteres de tag de idioma |
Cs | Outro, substituto | Substituto | Não (usado apenas em UTF-16 ) | 2.048 (nunca mudará) | Sem nome, <surrogate> |
Co | Outro, uso privado | Uso privado | Caráter (mas sem interpretação especificada) | 137.468 no total (nunca mudará) ( 6.400 em BMP , 131.068 nos aviões 15-16 ) | Sem nome, <private-use> |
Cn | Outro, não atribuído | Sem caráter | Não | 66 (nunca mudará) | Sem nome, <noncharacter> |
Reservado | Não | 829.768 | Sem nome, <reservado> | ||
Pontuação
Os caracteres têm propriedades separadas para denotar que são um caractere de pontuação . Todas as propriedades têm valores Sim / Não : Dash , Quotation_Mark , Sentença_Terminal , Terminal_Punctuation .
Espaço em branco
O espaço em branco é um conceito comumente usado para um efeito tipográfico. Basicamente, ele cobre caracteres invisíveis que têm um efeito de espaçamento no texto renderizado. Inclui espaços , tabulações e novos controles de formatação de linha. Em Unicode, esse caractere tem a propriedade definida "WSpace = yes". Na versão 14.0, existem 25 caracteres de espaço em branco.
Nome | Ponto de código | Caixa de largura | Pode quebrar ? | Em IDN ? |
Roteiro | Bloquear | Categoria geral |
Notas | |
---|---|---|---|---|---|---|---|---|---|
tabulação de caracteres | U + 0009 | 9 | sim | Não | Comum | Latim básico | Outro, controle |
HT, guia horizontal . HTML / XML entidade nomeada : 	 , LaTeX : '\ tab'
|
|
alimentação de linha | U + 000A | 10 | É uma quebra de linha | Comum | Latim básico | Outro, controle |
LF, alimentação de linha . Entidade nomeada HTML / XML:

|
||
tabulação de linha | U + 000B | 11 | É uma quebra de linha | Comum | Latim básico | Outro, controle |
VT, guia vertical | ||
feed de formulário | U + 000C | 12 | É uma quebra de linha | Comum | Latim básico | Outro, controle |
FF, feed de formulário | ||
retorno de carruagem | U + 000D | 13 | É uma quebra de linha | Comum | Latim básico | Outro, controle |
CR, retorno de carro | ||
espaço | U + 0020 | 32 | sim | Não | Comum | Latim básico | Separador, espaço |
Mais comum (espaço ASCII normal) | |
próxima linha | U + 0085 | 133 | É uma quebra de linha | Comum | Suplemento Latin-1 |
Outro, controle |
NEL, próxima linha | ||
espaço sem quebra | U + 00A0 | 160 | Não | Não | Comum | Suplemento Latin-1 |
Separador, espaço |
Espaço sem quebra : idêntico a U + 0020, mas não um ponto em que uma linha possa ser quebrada. Entidade nomeada em HTML / XML :, LaTeX: '\'
|
|
marca de espaço ogham | U + 1680 | 5760 | sim | Não | Ogham | Ogham | Separador, espaço |
Usado para separação entre palavras em texto Ogham . Normalmente uma linha vertical em texto vertical ou uma linha horizontal em texto horizontal, mas também pode ser um espaço em branco em fontes "sem haste". Requer uma fonte Ogham. | |
en quad | U + 2000 | 8192 | sim | Não | Comum | Pontuação Geral |
Separador, espaço |
Largura de um en . U + 2002 é canonicamente equivalente a este caractere; U + 2002 é o preferido. | |
em quad | U + 2001 | 8193 | sim | Não | Comum | Pontuação Geral |
Separador, espaço |
Também conhecido como "quad de carneiro". Largura de um em . U + 2003 é canonicamente equivalente a este caractere; U + 2003 é o preferido. | |
no espaço | U + 2002 | 8194 | sim | Não | Comum | Pontuação Geral |
Separador, espaço |
Também conhecido como "noz". Largura de um en . U + 2000 En Quad é canonicamente equivalente a este caractere; U + 2002 é o preferido. Entidade nomeada em HTML / XML   :, LaTeX: '\ enspace'
|
|
em espaço | U + 2003 | 8195 | sim | Não | Comum | Pontuação Geral |
Separador, espaço |
Também conhecido como "carneiro". Largura de um em . U + 2001 Em Quad é canonicamente equivalente a este caractere; U + 2003 é o preferido. Entidade nomeada HTML / XML   :, LaTeX: '\ quad'
|
|
espaço três por em | U + 2004 | 8196 | sim | Não | Comum | Pontuação Geral |
Separador, espaço |
Também conhecido como "espaço espesso". Um terço de um em largura. Entidade nomeada HTML / XML: 
|
|
espaço quatro por em | U + 2005 | 8197 | sim | Não | Comum | Pontuação Geral |
Separador, espaço |
Também conhecido como "espaço intermediário". Um quarto de largura. Entidade nomeada HTML / XML: 
|
|
espaço seis por em | U + 2006 | 8198 | sim | Não | Comum | Pontuação Geral |
Separador, espaço |
Um sexto de um em largura. Em tipografia de computador, às vezes equivale a U + 2009. | |
espaço de figura | U + 2007 | 8199 | Não | Não | Comum | Pontuação Geral |
Separador, espaço |
Figura espaço . Em fontes com dígitos monoespaçados, igual à largura de um dígito. Entidade nomeada HTML / XML: 
|
|
espaço de pontuação | U + 2008 | 8200 | sim | Não | Comum | Pontuação Geral |
Separador, espaço |
Tão largo quanto a pontuação estreita em uma fonte, ou seja, a largura de avanço do ponto ou vírgula. Entidade nomeada HTML / XML: 
|
|
espaço estreito | U + 2009 | 8201 | sim | Não | Comum | Pontuação Geral |
Separador, espaço |
Espaço fino ; um quinto (às vezes um sexto) de um em de largura. Recomendado para uso como separador de milhares para medidas feitas com unidades SI . Ao contrário de U + 2002 a U + 2008, sua largura pode ser ajustada na composição. HTML / XML entidade nomeada:   ; LaTeX: '\,'
|
|
espaço de cabelo | U + 200A | 8202 | sim | Não | Comum | Pontuação Geral |
Separador, espaço |
Mais fino do que um espaço tênue. Entidade nomeada HTML / XML:   ( não funciona em todos os navegadores)
|
|
separador de linha | U + 2028 | 8232 | É uma quebra de linha | Comum | Pontuação Geral |
Separador, linha |
|||
separador de parágrafo | U + 2029 | 8233 | É uma quebra de linha | Comum | Pontuação Geral |
Separador, parágrafo |
|||
espaço estreito sem quebra | U + 202F | 8239 | Não | Não | Comum | Pontuação Geral |
Separador, espaço |
Espaço estreito sem quebra . Semelhante em função ao U + 00A0 No-Break Space. Quando usado com o Mongol, sua largura geralmente é um terço do espaço normal; em outro contexto, sua largura às vezes se assemelha à do Thin Space (U + 2009). | |
espaço matemático médio | U + 205F | 8287 | sim | Não | Comum | Pontuação Geral |
Separador, espaço |
MMSP. Usado em fórmulas matemáticas. Quatro dezoito avos de um em. Na tipografia matemática, as larguras dos espaços são geralmente dadas em múltiplos inteiros de um décimo oitavo de um em, e 4/18 em pode ser usado em várias situações, por exemplo, entre o a e o + e entre o + e o b no expressão a + b . Entidade nomeada HTML / XML: 
|
|
espaço ideográfico | U + 3000 | 12288 | sim | Não | Comum | Símbolos e pontuação CJK |
Separador, espaço |
Tão largo quanto uma célula de caractere CJK ( largura total ). Usado, por exemplo, em tai tou . |
Nome | Ponto de código | Caixa de largura | Pode quebrar ? | Em IDN ? |
Roteiro | Bloquear | Categoria geral |
Notas | |
---|---|---|---|---|---|---|---|---|---|
separador de vogais mongol | U + 180E | 6158 | | sim | Não | mongol | mongol | Outro, formato |
MVS. Um caractere de espaço estreito, usado em mongol para fazer com que os dois caracteres finais de uma palavra adquiram formas diferentes. Ele não é mais classificado como caractere de espaço (ou seja, na categoria Zs) no Unicode 6.3.0, embora fosse nas versões anteriores do padrão. |
espaço de largura zero | U + 200B | 8203 | | sim | Não | ? | Pontuação Geral |
Outro, formato |
ZWSP, espaço de largura zero . Usado para indicar limites de palavras para sistemas de processamento de texto ao usar scripts que não usam espaçamento explícito. É semelhante ao hífen suave , com a diferença de que o último é usado para indicar os limites da sílaba e deve exibir um hífen visível quando a linha quebra nele. Entidade nomeada HTML / XML :​
|
não junta de largura zero | U + 200C | 8204 | | sim | Dependente do contexto | ? | Pontuação Geral |
Outro, formato |
ZWNJ, não junta de largura zero . Quando colocado entre dois caracteres que de outra forma seriam conectados, um ZWNJ faz com que eles sejam impressos em suas formas final e inicial, respectivamente. Entidade nomeada HTML / XML:‌
|
juntador de largura zero | U + 200D | 8205 | | sim | Dependente do contexto | ? | Pontuação Geral |
Outro, formato |
ZWJ, juntador de largura zero . Quando colocado entre dois caracteres que de outra forma não estariam conectados, um ZWJ faz com que eles sejam impressos em suas formas conectadas. Também pode ser usado para exibir formulários de junção isoladamente. Dependendo se uma ligadura ou conjunção é esperada por padrão, pode induzir (como em emoji e em Sinhala ) ou suprimir (como em Devanagari ) a substituição com um único glifo, embora ainda permitindo o uso de formas de junção individuais (ao contrário de ZWNJ). Entidade nomeada HTML / XML:‍
|
juntador de palavras | U + 2060 | 8288 | | Não | Não | ? | Pontuação Geral |
Outro, formato |
WJ, juntador de palavras . Semelhante a U + 200B, mas não é um ponto no qual uma linha pode ser interrompida. Entidade nomeada HTML / XML:⁠
|
espaço ininterrupto de largura zero | U + FEFF | 65279 | | Não | Não | ? | Formas de apresentação em árabe -B |
Outro, formato |
Espaço ininterrupto de largura zero . Usado principalmente como Marca de Ordem de Byte . O uso como uma indicação de não quebra está obsoleto a partir do Unicode 3.2; veja U + 2060 em vez disso. |
Outras características gerais
Ideográfico, alfabético, sem caráter.
Classe combinando
Alguns códigos comuns:
- 0 = letra, símbolo ou modificador de espaçamento (por exemplo, a, (, ʰ)
- 1 = sobreposição
- 6 = leitura Han (marcas de leitura diacrítica CJK)
- 7 = nukta (nukta diacrítico em scripts Brahmic )
- 8 = marcas de vozeamento kana
- 9 = virama
10–199 = várias classes de posição fixa
Marcas que se anexam à letra base:
- 200 = anexado na parte inferior esquerda
- 202 = anexado diretamente abaixo (por exemplo, cedilha em ç)
- 204 = anexado no canto inferior direito
- 208 = anexado à esquerda
- 210 = anexado à direita
- 212 = anexado ao canto superior esquerdo
- 214 = anexado diretamente acima
- 216 = anexado no canto superior direito
Marcas que não se anexam à letra base:
- 218 = inferior esquerdo
- 220 = diretamente abaixo (por exemplo, anel em n̥)
- 222 = abaixo à direita
- 224 = esquerda
- 226 = certo
- 228 = acima à esquerda
- 230 = acima (por exemplo, acento agudo em á)
- 232 = acima à direita
- 233 = dobro abaixo (subtende duas bases)
- 234 = duplo acima (estende duas bases)
- 240 = iota subscrito (apenas aquele diacrítico grego)
Modelagem, largura.
Escrita bidirecional
Seis propriedades de caracteres pertencem à escrita bidirecional: Bidi_Class, Bidi_Control, Bidi_Mirrored, Bidi_Mirroring_Glyph, Bidi_Paired_Bracket e Bidi_Paired_Bracket_Type.
Um dos principais recursos do Unicode é o suporte de exibição de texto bidirecional ( Bidi ) da direita para a esquerda (R para a esquerda) e da esquerda para a direita (da esquerda para a direita). O Algoritmo Bidirecional Unicode UAX9 descreve o processo de apresentação de texto com a alteração das direções do script. Por exemplo, permite uma citação em hebraico em um texto em inglês. O Bidi_Character_Type marca o comportamento de um personagem na escrita direcional. Para substituir uma direção, o Unicode definiu caracteres de controle de formatação especial ( Bidi-Control s). Esses caracteres podem impor uma direção e, por definição, afetam apenas a escrita bidirecional.
Cada ponto de código possui uma propriedade chamada Bidi_Class . Ele define seu comportamento em um texto bidirecional conforme interpretado pelo algoritmo:
Modelo | Descrição | Força | Direcionalidade | Escopo geral | Bidi_Control personagem |
---|---|---|---|---|---|
eu | Da esquerda para direita | Forte | Da esquerda para a direita | A maioria dos caracteres alfabéticos e silábicos, caracteres chineses, dígitos não europeus ou não árabes, caractere LRM, ... | U + 200E MARCA DA ESQUERDA PARA A DIREITA (LRM) |
R | Direita para esquerda | Forte | R-para-L | Adlam, Hebraico, Mandaico, Mende Kikakui, N'Ko, Samaritano, escritas antigas como Kharoshthi e Nabataean, personagem RLM, ... | U + 200F MARCA DA DIREITA PARA A ESQUERDA (RLM) |
AL | Letra árabe | Forte | R-para-L | Alfabetos árabe, Hanifi Rohingya, Sogdian, Siríaco e Thaana, e a maioria das pontuações específicas para esses scripts, caractere ALM, ... | U + 061C MARCA DA LETRA ÁRABE (ALM) |
EN | Número europeu | Fraco | Dígitos europeus, dígitos árabes orientais-índicos, números de epacto copta, ... | ||
ES | Separador Europeu | Fraco | sinal de mais , sinal de menos , ... | ||
ET | Terminador de número europeu | Fraco | sinal de grau , símbolos de moeda, ... | ||
UM | Número arábico | Fraco | Dígitos árabe-índicos, decimais árabes e separadores de milhares, dígitos de Rumi, dígitos de Hanifi Rohingya, ... | ||
CS | Separador de número comum | Fraco | dois pontos , vírgula , ponto final , espaço sem quebra , ... | ||
NSM | Marca Nonspacing | Fraco | Personagens nas categorias gerais Mark, nonspacing e Mark, incluindo (Mn, Me) | ||
BN | Limite neutro | Fraco | Ignoráveis padrão, não caracteres, caracteres de controle diferentes daqueles dados explicitamente de outros tipos | ||
B | Separador de Parágrafo | Neutro | separador de parágrafo , funções de nova linha apropriadas, determinação de parágrafo de protocolo de nível superior | ||
S | Separador de Segmento | Neutro | Abas | ||
WS | Espaço em branco | Neutro | espaço , espaço de figura , separador de linha , alimentação de formulário , espaços de bloco de pontuação geral (conjunto menor do que a lista de espaços em branco Unicode ) | ||
SOBRE | Outros neutros | Neutro | Todos os outros caracteres, incluindo o caractere de substituição de objeto | ||
LRE | Incorporação da esquerda para a direita | Explícito | Da esquerda para a direita | Personagem LRE apenas | U + 202A EMBUTIR DA ESQUERDA PARA A DIREITA (LRE) |
LRO | Substituição da esquerda para a direita | Explícito | Da esquerda para a direita | Personagem LRO apenas | U + 202D DA ESQUERDA PARA A DIREITA (LRO) |
RLE | Incorporação da direita para a esquerda | Explícito | R-para-L | Caractere RLE apenas | U + 202B ENCAIXE DA DIREITA PARA A ESQUERDA (RLE) |
RLO | Substituição da direita para a esquerda | Explícito | R-para-L | Caractere RLO apenas | U + 202E ANULAÇÃO DA DIREITA PARA A ESQUERDA (RLO) |
Formato Pop Direcional | Explícito | Caractere PDF apenas | U + 202C POP DIRECTIONAL FORMATTING (PDF) | ||
LRI | Isolado da esquerda para a direita | Explícito | Da esquerda para a direita | Personagem LRI apenas | U + 2066 ISOLADO DA ESQUERDA PARA A DIREITA (LRI) |
RLI | Isolar da direita para a esquerda | Explícito | R-para-L | Personagem RLI apenas | U + 2067 ISOLADO DA DIREITA PARA A ESQUERDA (RLI) |
FSI | Primeiro isolado forte | Explícito | Caractere FSI apenas | U + 2068 PRIMEIRO ISOLADO FORTE (FSI) | |
PDI | Pop direcional isolado | Explícito | Personagem PDI apenas | U + 2069 POP DIRECTIONAL ISOLATE (PDI) | |
Notas
|
Em situações normais, o algoritmo pode determinar a direção de um texto por esta propriedade de caractere. Para controlar situações Bidi mais complexas, por exemplo, quando um texto em inglês tem uma citação em hebraico, opções extras são adicionadas ao Unicode. Doze caracteres têm a propriedade Bidi_Control = Sim : ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM e RLO conforme indicados na tabela. Esses são caracteres de controle de formatação invisíveis, usados apenas pelo algoritmo e sem efeito fora da formatação bidirecional. Apesar do nome, eles são caracteres de formatação, não caracteres de controle, e possuem a categoria Geral "Outro, formato (Cf)" na definição Unicode.
Basicamente, o algoritmo determina uma sequência de caracteres com o mesmo tipo de direção forte (R-para-L ou L-para-R), levando em consideração uma anulação pelos controles especiais Bidi. Sequências de números (tipos fracos) recebem uma direção de acordo com seu ambiente forte, assim como caracteres neutros. Finalmente, os caracteres são exibidos de acordo com a direção de uma string.
Duas propriedades de caractere são relevantes para determinar uma imagem espelhada de um glifo em texto bidirecional: Bidi_Mirrored = Sim indica que o glifo deve ser espelhado quando escrito R-para-L. A propriedade Bidi_Mirroring_Glyph = U + hhhh pode então apontar para o caractere espelhado. Por exemplo, os colchetes "()" são espelhados desta forma. Moldar scripts cursivos, como o árabe, e espelhar glifos que têm uma direção, não faz parte do algoritmo.
Invólucro
O valor Case é normativo em Unicode. Ele se refere aos scripts com letras maiúsculas (também conhecidas como maiúsculas, maiúsculas) e minúsculas (também conhecidas como minúsculas e minúsculas). A diferença entre maiúsculas e minúsculas ocorre nos scripts Adlam, Armênio, Cherokee, Cóptico, Cirílico, Deseret, Glagolítico, Grego, Khutsuri e Mkhedruli Georgiano, Latino, Medefaidrin, Húngaro Antigo, Osage, Vithkuqi e Warang Citi.
(superior, inferior, título, dobrável - simples e completo)
Valores e tipos numéricos
Decimal
Os caracteres são classificados com um tipo numérico . Caracteres como frações, subscritos, sobrescritos, algarismos romanos, numeradores de moeda, números circulados e dígitos específicos do script são do tipo Numérico. Eles têm um valor numérico que pode ser decimal, incluindo zero e negativos, ou uma fração vulgar. Se não houver tal valor, como acontece com a maioria dos caracteres, o tipo numérico é "Nenhum".
Os caracteres que possuem um valor numérico são separados em três grupos: Decimal (De), Dígito (Di) e Numérico (Nu, ou seja, todos os outros). "Decimal" significa que o caractere é um dígito decimal reto. Apenas os caracteres que fazem parte de um intervalo codificado contíguo de 0 a 9 têm tipo numérico Decimal. Outros dígitos, como sobrescritos, têm tipo numérico Dígito. Todos os caracteres numéricos, como frações e algarismos romanos, terminam com o tipo "Numérico". O efeito pretendido é que um analisador simples pode usar esses valores numéricos decimais, sem se distrair com um sobrescrito numérico ou uma fração. Setenta e três Ideógrafos CJK que representam um número, incluindo aqueles usados para contabilidade, são digitados numéricos.
Por outro lado, os caracteres que poderiam ter um valor numérico como um segundo significado ainda são marcados com o tipo Numérico "Nenhum" e não têm valor numérico (""). Por exemplo, letras latinas podem ser usadas na numeração de parágrafos como "II.A.1.b", mas as letras "I", "A" e "b" não são numéricas (digite "Nenhum") e não têm valor numérico.
propriedade de caractere Unicode ) | Tipo Numérico (||||
---|---|---|---|---|
Tipo numérico | Código | Tem valor numérico | Exemplo | Observações |
Não numérico | None |
Não |
|
Valor numérico = "NaN" |
Decimal | De |
sim |
|
Dígito reto (raiz decimal ). Corresponde aos dois sentidos com Categoria Geral = Nd |
Dígito | Di |
sim |
|
Decimal, mas em contexto tipográfico |
Numérico | Nu |
sim |
|
Valor numérico, mas não raiz decimal |
uma. ^ "Seção 4.6: Valor numérico" (PDF) . O padrão Unicode . Consórcio Unicode. Setembro de 2021. | ||||
b. ^ "Tipos numéricos derivados de Unicode 14.0" . Banco de dados de caracteres Unicode . Consórcio Unicode. 2021-03-08. |
Dígitos hexadecimais
Os caracteres hexadecimais são aqueles na série com valores hexadecimais 0 ... 9ABCDEF (dezesseis caracteres, valor decimal 0-15). A propriedade do personagem Hex_Digit é definida como Sim quando um personagem está em tal série:
Caracteres em Unicode marcados Hex_Digit=Yes
|
|||
---|---|---|---|
0123456789ABCDEF |
Latim básico, maiúsculas | Também ASCII_Hex_Digit=Yes
|
|
0123456789abcdef |
Latim básico, letras minúsculas | Também ASCII_Hex_Digit=Yes
|
|
0123456789ABCDEF |
Formulários de largura total , maiúsculas | ||
0123456789abcdef |
Formulários de largura total, letras minúsculas | ||
uma. ^ "Unicode 14.0 UCD: PropList.txt" . 2021-08-12 . Recuperado em 2020-03-12 . |
Quarenta e quatro caracteres são marcados como Hex_Digit. Aqueles no bloco de latim básico também são marcados como ASCII_Hex_Digit .
Unicode não possui caracteres separados para valores hexadecimais. Uma consequência é que, ao usar caracteres regulares, não é possível determinar se o valor hexadecimal é pretendido, ou mesmo se um valor é pretendido. Isso deve ser determinado em um nível superior, por exemplo, acrescentando "0x" a um número hexadecimal ou por contexto. O único recurso é que o Unicode pode observar que uma sequência pode ou não ser um valor hexadecimal.
Bloquear
Um bloco é um intervalo contíguo de pontos de código com nome exclusivo. Ele é identificado por seu primeiro e último ponto de código. Os blocos não se sobrepõem . Um bloco pode conter pontos de código que são reservados, não atribuídos etc. Cada caractere que é atribuído, tem um único valor de "nome de bloco" dos 320 nomes atribuídos a partir do Unicode versão 14.0 Pontos de código não atribuídos fora de um bloco existente, tem o valor padrão "No_block".
Plano | Alcance do bloco | Nome do bloco | Pontos de código | Personagens atribuídos | Scripts |
---|---|---|---|---|---|
0 BMP | U + 0000..U + 007F | Latim básico | 128 | 128 | Latim (52 caracteres), Comum (76 caracteres) |
0 BMP | U + 0080..U + 00FF | Suplemento Latin-1 | 128 | 128 | Latim (64 caracteres), Comum (64 caracteres) |
0 BMP | U + 0100..U + 017F | Latim Extended-A | 128 | 128 | Latina |
0 BMP | U + 0180..U + 024F | Latim Extended-B | 208 | 208 | Latina |
0 BMP | U + 0250..U + 02AF | Extensões IPA | 96 | 96 | Latina |
0 BMP | U + 02B0..U + 02FF | Letras modificadoras de espaçamento | 80 | 80 | Bopomofo (2 caracteres), latino (14 caracteres), comum (64 caracteres) |
0 BMP | U + 0300..U + 036F | Combinando Marcas Diacríticas | 112 | 112 | Herdado |
0 BMP | U + 0370..U + 03FF | Grego e copta | 144 | 135 | Cóptico (14 caracteres), grego (117 caracteres), comum (4 caracteres) |
0 BMP | U + 0400..U + 04FF | cirílico | 256 | 256 | Cirílico (254 caracteres), herdado (2 caracteres) |
0 BMP | U + 0500..U + 052F | Suplemento Cirílico | 48 | 48 | cirílico |
0 BMP | U + 0530..U + 058F | Armênio | 96 | 91 | Armênio |
0 BMP | U + 0590..U + 05FF | hebraico | 112 | 88 | hebraico |
0 BMP | U + 0600..U + 06FF | árabe | 256 | 256 | Árabe (238 caracteres), Comum (6 caracteres), Herdado (12 caracteres) |
0 BMP | U + 0700..U + 074F | Siríaco | 80 | 77 | Siríaco |
0 BMP | U + 0750..U + 077F | Suplemento árabe | 48 | 48 | árabe |
0 BMP | U + 0780..U + 07BF | Thaana | 64 | 50 | Thaana |
0 BMP | U + 07C0..U + 07FF | NKo | 64 | 62 | Nko |
0 BMP | U + 0800..U + 083F | samaritano | 64 | 61 | samaritano |
0 BMP | U + 0840..U + 085F | Mandaico | 32 | 29 | Mandaico |
0 BMP | U + 0860..U + 086F | Suplemento Siríaco | 16 | 11 | Siríaco |
0 BMP | U + 0870..U + 089F | Árabe Estendido-B | 48 | 41 | árabe |
0 BMP | U + 08A0..U + 08FF | Árabe Extended-A | 96 | 96 | Árabe (95 caracteres), Comum (1 caractere) |
0 BMP | U + 0900..U + 097F | Devanágari | 128 | 128 | Devanágari (122 caracteres), Comum (2 caracteres), Herdado (4 caracteres) |
0 BMP | U + 0980..U + 09FF | bengali | 128 | 96 | bengali |
0 BMP | U + 0A00..U + 0A7F | Gurmukhi | 128 | 80 | Gurmukhi |
0 BMP | U + 0A80..U + 0AFF | Guzerate | 128 | 91 | Guzerate |
0 BMP | U + 0B00..U + 0B7F | Oriya | 128 | 91 | Oriya |
0 BMP | U + 0B80..U + 0BFF | tâmil | 128 | 72 | tâmil |
0 BMP | U + 0C00..U + 0C7F | Telugu | 128 | 100 | Telugu |
0 BMP | U + 0C80..U + 0CFF | Canarim | 128 | 90 | Canarim |
0 BMP | U + 0D00..U + 0D7F | Malaiala | 128 | 118 | Malaiala |
0 BMP | U + 0D80..U + 0DFF | Cingalês | 128 | 91 | Cingalês |
0 BMP | U + 0E00..U + 0E7F | tailandês | 128 | 87 | Tailandês (86 caracteres), Comum (1 caractere) |
0 BMP | U + 0E80..U + 0EFF | Lao | 128 | 82 | Lao |
0 BMP | U + 0F00..U + 0FFF | Tibetano | 256 | 211 | Tibetano (207 caracteres), Comum (4 caracteres) |
0 BMP | U + 1000..U + 109F | Myanmar | 160 | 160 | Myanmar |
0 BMP | U + 10A0..U + 10FF | Georgiano | 96 | 88 | Georgiano (87 caracteres), Comum (1 caractere) |
0 BMP | U + 1100..U + 11FF | Hangul Jamo | 256 | 256 | Hangul |
0 BMP | U + 1200..U + 137F | Etíope | 384 | 358 | Etíope |
0 BMP | U + 1380..U + 139F | Suplemento Etíope | 32 | 26 | Etíope |
0 BMP | U + 13A0..U + 13FF | Cherokee | 96 | 92 | Cherokee |
0 BMP | U + 1400..U + 167F | Syllabics aboriginal canadense unificado | 640 | 640 | Aborígine canadense |
0 BMP | U + 1680..U + 169F | Ogham | 32 | 29 | Ogham |
0 BMP | U + 16A0..U + 16FF | Rúnico | 96 | 89 | Rúnico (86 caracteres), Comum (3 caracteres) |
0 BMP | U + 1700..U + 171F | Tagalo | 32 | 23 | Tagalo |
0 BMP | U + 1720..U + 173F | Hanunoo | 32 | 23 | Hanunoo (21 caracteres), Comum (2 caracteres) |
0 BMP | U + 1740..U + 175F | Buhid | 32 | 20 | Buhid |
0 BMP | U + 1760..U + 177F | Tagbanwa | 32 | 18 | Tagbanwa |
0 BMP | U + 1780..U + 17FF | Khmer | 128 | 114 | Khmer |
0 BMP | U + 1800..U + 18AF | mongol | 176 | 158 | Mongol (155 caracteres), Comum (3 caracteres) |
0 BMP | U + 18B0..U + 18FF | Prolongamento de Syllabics Aboriginal Canadense Unificado | 80 | 70 | Aborígine canadense |
0 BMP | U + 1900..U + 194F | Limbu | 80 | 68 | Limbu |
0 BMP | U + 1950..U + 197F | Tai Le | 48 | 35 | Tai Le |
0 BMP | U + 1980..U + 19DF | Novo Tai Lue | 96 | 83 | Novo Tai Lue |
0 BMP | U + 19E0..U + 19FF | Símbolos Khmer | 32 | 32 | Khmer |
0 BMP | U + 1A00..U + 1A1F | Buginês | 32 | 30 | Buginês |
0 BMP | U + 1A20..U + 1AAF | Tai Tham | 144 | 127 | Tai Tham |
0 BMP | U + 1AB0..U + 1AFF | Combinando Marcas Diacríticas Estendidas | 80 | 31 | Herdado |
0 BMP | U + 1B00..U + 1B7F | Balinesa | 128 | 124 | Balinesa |
0 BMP | U + 1B80..U + 1BBF | Sudanês | 64 | 64 | Sudanês |
0 BMP | U + 1BC0..U + 1BFF | Batak | 64 | 56 | Batak |
0 BMP | U + 1C00..U + 1C4F | Lepcha | 80 | 74 | Lepcha |
0 BMP | U + 1C50..U + 1C7F | Ol Chiki | 48 | 48 | Ol Chiki |
0 BMP | U + 1C80..U + 1C8F | Cirílico Extended-C | 16 | 9 | cirílico |
0 BMP | U + 1C90..U + 1CBF | Georgian Extended | 48 | 46 | Georgiano |
0 BMP | U + 1CC0..U + 1CCF | Suplemento Sudanês | 16 | 8 | Sudanês |
0 BMP | U + 1CD0..U + 1CFF | Extensões Védicas | 48 | 43 | Comum (16 caracteres), Herdado (27 caracteres) |
0 BMP | U + 1D00..U + 1D7F | Extensões Fonéticas | 128 | 128 | Cirílico (2 caracteres), grego (15 caracteres), latino (111 caracteres) |
0 BMP | U + 1D80..U + 1DBF | Suplemento de extensões fonéticas | 64 | 64 | Grego (1 caractere), latino (63 caracteres) |
0 BMP | U + 1DC0..U + 1DFF | Suplemento de combinação de marcas diacríticas | 64 | 64 | Herdado |
0 BMP | U + 1E00..U + 1EFF | Adicional estendido latino | 256 | 256 | Latina |
0 BMP | U + 1F00..U + 1FFF | Grego estendido | 256 | 233 | grego |
0 BMP | U + 2000..U + 206F | Pontuação Geral | 112 | 111 | Comum (109 caracteres), herdado (2 caracteres) |
0 BMP | U + 2070..U + 209F | Sobrescritos e subscritos | 48 | 42 | Latim (15 caracteres), Comum (27 caracteres) |
0 BMP | U + 20A0..U + 20CF | Símbolos de Moeda | 48 | 33 | Comum |
0 BMP | U + 20D0..U + 20FF | Combinando Marcas Diacríticas para Símbolos | 48 | 33 | Herdado |
0 BMP | U + 2100..U + 214F | Símbolos semelhantes a letras | 80 | 80 | Grego (1 caractere), latino (4 caracteres), Comum (75 caracteres) |
0 BMP | U + 2150..U + 218F | Formulários numéricos | 64 | 60 | Latim (41 caracteres), Comum (19 caracteres) |
0 BMP | U + 2190..U + 21FF | Setas; flechas | 112 | 112 | Comum |
0 BMP | U + 2200..U + 22FF | Operadores matemáticos | 256 | 256 | Comum |
0 BMP | U + 2300..U + 23FF | Técnico Diverso | 256 | 256 | Comum |
0 BMP | U + 2400..U + 243F | Imagens de controle | 64 | 39 | Comum |
0 BMP | U + 2440..U + 245F | Reconhecimento Ótico de Caracteres | 32 | 11 | Comum |
0 BMP | U + 2460..U + 24FF | Alfanuméricos incluídos | 160 | 160 | Comum |
0 BMP | U + 2500..U + 257F | Desenho da Caixa | 128 | 128 | Comum |
0 BMP | U + 2580..U + 259F | Elementos de Bloco | 32 | 32 | Comum |
0 BMP | U + 25A0..U + 25FF | Formas geométricas | 96 | 96 | Comum |
0 BMP | U + 2600..U + 26FF | Símbolos Diversos | 256 | 256 | Comum |
0 BMP | U + 2700..U + 27BF | Dingbats | 192 | 192 | Comum |
0 BMP | U + 27C0..U + 27EF | Símbolos Matemáticos Diversos-A | 48 | 48 | Comum |
0 BMP | U + 27F0..U + 27FF | Setas Suplementares-A | 16 | 16 | Comum |
0 BMP | U + 2800..U + 28FF | Padrões de Braille | 256 | 256 | Braille |
0 BMP | U + 2900..U + 297F | Setas Suplementares-B | 128 | 128 | Comum |
0 BMP | U + 2980..U + 29FF | Símbolos Matemáticos Diversos-B | 128 | 128 | Comum |
0 BMP | U + 2A00..U + 2AFF | Operadores matemáticos suplementares | 256 | 256 | Comum |
0 BMP | U + 2B00..U + 2BFF | Símbolos e Setas Diversos | 256 | 253 | Comum |
0 BMP | U + 2C00..U + 2C5F | Glagolítico | 96 | 96 | Glagolítico |
0 BMP | U + 2C60..U + 2C7F | Latim Extended-C | 32 | 32 | Latina |
0 BMP | U + 2C80..U + 2CFF | cóptico | 128 | 123 | cóptico |
0 BMP | U + 2D00..U + 2D2F | Suplemento georgiano | 48 | 40 | Georgiano |
0 BMP | U + 2D30..U + 2D7F | Tifinagh | 80 | 59 | Tifinagh |
0 BMP | U + 2D80..U + 2DDF | Etíope Estendido | 96 | 79 | Etíope |
0 BMP | U + 2DE0..U + 2DFF | Cirílico Extended-A | 32 | 32 | cirílico |
0 BMP | U + 2E00..U + 2E7F | Pontuação Suplementar | 128 | 94 | Comum |
0 BMP | U + 2E80..U + 2EFF | Suplemento CJK Radicals | 128 | 115 | Han |
0 BMP | U + 2F00..U + 2FDF | Radicais Kangxi | 224 | 214 | Han |
0 BMP | U + 2FF0..U + 2FFF | Caracteres de descrição ideográfica | 16 | 12 | Comum |
0 BMP | U + 3000..U + 303F | Símbolos e pontuação CJK | 64 | 64 | Han (15 caracteres), Hangul (2 caracteres), Comum (43 caracteres), Herdado (4 caracteres) |
0 BMP | U + 3040..U + 309F | Hiragana | 96 | 93 | Hiragana (89 caracteres), Comum (2 caracteres), Herdado (2 caracteres) |
0 BMP | U + 30A0..U + 30FF | Katakana | 96 | 96 | Katakana (93 caracteres), Comum (3 caracteres) |
0 BMP | U + 3100..U + 312F | Bopomofo | 48 | 43 | Bopomofo |
0 BMP | U + 3130..U + 318F | Hangul Compatibility Jamo | 96 | 94 | Hangul |
0 BMP | U + 3190..U + 319F | Kanbun | 16 | 16 | Comum |
0 BMP | U + 31A0..U + 31BF | Bopomofo Extended | 32 | 32 | Bopomofo |
0 BMP | U + 31C0..U + 31EF | CJK Strokes | 48 | 36 | Comum |
0 BMP | U + 31F0..U + 31FF | Extensões Fonéticas Katakana | 16 | 16 | Katakana |
0 BMP | U + 3200..U + 32FF | Cartas CJK Incluídas e Meses | 256 | 255 | Hangul (62 caracteres), Katakana (47 caracteres), Comum (146 caracteres) |
0 BMP | U + 3300..U + 33FF | Compatibilidade CJK | 256 | 256 | Katakana (88 caracteres), Comum (168 caracteres) |
0 BMP | U + 3400..U + 4DBF | CJK Unified Ideographs Extension A | 6.592 | 6.592 | Han |
0 BMP | U + 4DC0..U + 4DFF | Símbolos de hexagrama Yijing | 64 | 64 | Comum |
0 BMP | U + 4E00..U + 9FFF | CJK Unified Ideographs | 20.992 | 20.992 | Han |
0 BMP | U + A000..U + A48F | Sílabas Yi | 1.168 | 1.165 | Yi |
0 BMP | U + A490..U + A4CF | Yi Radicals | 64 | 55 | Yi |
0 BMP | U + A4D0..U + A4FF | Lisu | 48 | 48 | Lisu |
0 BMP | U + A500..U + A63F | Vai | 320 | 300 | Vai |
0 BMP | U + A640..U + A69F | Cirílico estendido-B | 96 | 96 | cirílico |
0 BMP | U + A6A0..U + A6FF | Bamum | 96 | 88 | Bamum |
0 BMP | U + A700..U + A71F | Letras de tom modificador | 32 | 32 | Comum |
0 BMP | U + A720..U + A7FF | Latim Extended-D | 224 | 193 | Latino (188 caracteres), Comum (5 caracteres) |
0 BMP | U + A800..U + A82F | Syloti Nagri | 48 | 45 | Syloti Nagri |
0 BMP | U + A830..U + A83F | Formulários de números índicos comuns | 16 | 10 | Comum |
0 BMP | U + A840..U + A87F | Phags-pa | 64 | 56 | Phags Pa |
0 BMP | U + A880..U + A8DF | Saurashtra | 96 | 82 | Saurashtra |
0 BMP | U + A8E0..U + A8FF | Devanágari Estendido | 32 | 32 | Devanágari |
0 BMP | U + A900..U + A92F | Kayah Li | 48 | 48 | Kayah Li (47 caracteres), Comum (1 caractere) |
0 BMP | U + A930..U + A95F | Rejang | 48 | 37 | Rejang |
0 BMP | U + A960..U + A97F | Hangul Jamo Extended-A | 32 | 29 | Hangul |
0 BMP | U + A980..U + A9DF | Javanês | 96 | 91 | Javanês (90 caracteres), Comum (1 caractere) |
0 BMP | U + A9E0..U + A9FF | Myanmar Extended-B | 32 | 31 | Myanmar |
0 BMP | U + AA00..U + AA5F | Cham | 96 | 83 | Cham |
0 BMP | U + AA60..U + AA7F | Mianmar Extended-A | 32 | 32 | Myanmar |
0 BMP | U + AA80..U + AADF | Tai Viet | 96 | 72 | Tai Viet |
0 BMP | U + AAE0..U + AAFF | Extensões Meetei Mayek | 32 | 23 | Meetei Mayek |
0 BMP | U + AB00..U + AB2F | Ethiopic Extended-A | 48 | 32 | Etíope |
0 BMP | U + AB30..U + AB6F | Latim Extended-E | 64 | 60 | Latim (56 caracteres), Grego (1 caractere), Comum (3 caracteres) |
0 BMP | U + AB70..U + ABBF | Suplemento Cherokee | 80 | 80 | Cherokee |
0 BMP | U + ABC0..U + ABFF | Meetei Mayek | 64 | 56 | Meetei Mayek |
0 BMP | U + AC00..U + D7AF | Sílabas hangul | 11.184 | 11.172 | Hangul |
0 BMP | U + D7B0..U + D7FF | Hangul Jamo Extended-B | 80 | 72 | Hangul |
0 BMP | U + D800..U + DB7F | Altas substitutas | 896 | 0 | Desconhecido |
0 BMP | U + DB80..U + DBFF | Substitutos de alto uso privado | 128 | 0 | Desconhecido |
0 BMP | U + DC00..U + DFFF | Substitutos baixos | 1.024 | 0 | Desconhecido |
0 BMP | U + E000..U + F8FF | Área de Uso Privado | 6.400 | 6.400 | Desconhecido |
0 BMP | U + F900..U + FAFF | Ideogramas de compatibilidade CJK | 512 | 472 | Han |
0 BMP | U + FB00..U + FB4F | Formulários de apresentação alfabética | 80 | 58 | Armênio (5 caracteres), hebraico (46 caracteres), latino (7 caracteres) |
0 BMP | U + FB50..U + FDFF | Formulários de apresentação em árabe-A | 688 | 631 | Árabe (629 caracteres), Comum (2 caracteres) |
0 BMP | U + FE00..U + FE0F | Seletores de variação | 16 | 16 | Herdado |
0 BMP | U + FE10..U + FE1F | Formas Verticais | 16 | 10 | Comum |
0 BMP | U + FE20..U + FE2F | Combinando Meias Marcas | 16 | 16 | Cirílico (2 caracteres), Herdado (14 caracteres) |
0 BMP | U + FE30..U + FE4F | Formulários de compatibilidade CJK | 32 | 32 | Comum |
0 BMP | U + FE50..U + FE6F | Variantes de forma pequena | 32 | 26 | Comum |
0 BMP | U + FE70..U + FEFF | Formas de apresentação em árabe-B | 144 | 141 | Árabe (140 caracteres), Comum (1 caractere) |
0 BMP | U + FF00..U + FFEF | Formas de meia largura e largura total | 240 | 225 | Hangul (52 caracteres), Katakana (55 caracteres), Latino (52 caracteres), Comum (66 caracteres) |
0 BMP | U + FFF0..U + FFFF | Especiais | 16 | 5 | Comum |
1 SMP | U + 10000..U + 1007F | Linear B Silabário | 128 | 88 | Linear B |
1 SMP | U + 10080..U + 100FF | Ideogramas Lineares B | 128 | 123 | Linear B |
1 SMP | U + 10100..U + 1013F | Números do Egeu | 64 | 57 | Comum |
1 SMP | U + 10140..U + 1018F | Números da Grécia Antiga | 80 | 79 | grego |
1 SMP | U + 10190..U + 101CF | Símbolos Antigos | 64 | 14 | Grego (1 caractere), Comum (13 caracteres) |
1 SMP | U + 101D0..U + 101FF | Disco de Phaistos | 48 | 46 | Comum (45 caracteres), Herdado (1 caractere) |
1 SMP | U + 10280..U + 1029F | Lícia | 32 | 29 | Lícia |
1 SMP | U + 102A0..U + 102DF | Carian | 64 | 49 | Carian |
1 SMP | U + 102E0..U + 102FF | Números de epacto copta | 32 | 28 | Comum (27 caracteres), Herdado (1 caractere) |
1 SMP | U + 10300..U + 1032F | Itálico antigo | 48 | 39 | Itálico antigo |
1 SMP | U + 10330..U + 1034F | gótico | 32 | 27 | gótico |
1 SMP | U + 10350..U + 1037F | Old Permic | 48 | 43 | Old Permic |
1 SMP | U + 10380..U + 1039F | Ugarítico | 32 | 31 | Ugarítico |
1 SMP | U + 103A0..U + 103DF | Persa antigo | 64 | 50 | Persa antigo |
1 SMP | U + 10400..U + 1044F | Deseret | 80 | 80 | Deseret |
1 SMP | U + 10450..U + 1047F | Shavian | 48 | 48 | Shavian |
1 SMP | U + 10480..U + 104AF | Osmanya | 48 | 40 | Osmanya |
1 SMP | U + 104B0..U + 104FF | Osage | 80 | 72 | Osage |
1 SMP | U + 10500..U + 1052F | Elbasan | 48 | 40 | Elbasan |
1 SMP | U + 10530..U + 1056F | Albanês caucasiano | 64 | 53 | Albanês caucasiano |
1 SMP | U + 10570..U + 105BF | Vithkuqi | 80 | 70 | Vithkuqi |
1 SMP | U + 10600..U + 1077F | Linear A | 384 | 341 | Linear A |
1 SMP | U + 10780..U + 107BF | Latim Extended-F | 64 | 57 | Latina |
1 SMP | U + 10800..U + 1083F | Silabário cipriota | 64 | 55 | Cipriota |
1 SMP | U + 10840..U + 1085F | Aramaico imperial | 32 | 31 | Aramaico imperial |
1 SMP | U + 10860..U + 1087F | Palmireno | 32 | 32 | Palmireno |
1 SMP | U + 10880..U + 108AF | Nabateu | 48 | 40 | Nabateu |
1 SMP | U + 108E0..U + 108FF | Hatran | 32 | 26 | Hatran |
1 SMP | U + 10900..U + 1091F | Fenício | 32 | 29 | Fenício |
1 SMP | U + 10920..U + 1093F | Lídio | 32 | 27 | Lídio |
1 SMP | U + 10980..U + 1099F | Hieróglifos Meroíticos | 32 | 32 | Hieróglifos Meroíticos |
1 SMP | U + 109A0..U + 109FF | Meroitic Cursive | 96 | 90 | Meroitic Cursive |
1 SMP | U + 10A00..U + 10A5F | Kharoshthi | 96 | 68 | Kharoshthi |
1 SMP | U + 10A60..U + 10A7F | Old South Arabian | 32 | 32 | Old South Arabian |
1 SMP | U + 10A80..U + 10A9F | Old North Arabian | 32 | 32 | Old North Arabian |
1 SMP | U + 10AC0..U + 10AFF | Maniqueísta | 64 | 51 | Maniqueísta |
1 SMP | U + 10B00..U + 10B3F | Avestan | 64 | 61 | Avestan |
1 SMP | U + 10B40..U + 10B5F | Parta inscrita | 32 | 30 | Parta inscrita |
1 SMP | U + 10B60..U + 10B7F | Pahlavi inscrito | 32 | 27 | Pahlavi inscrito |
1 SMP | U + 10B80..U + 10BAF | Saltério Pahlavi | 48 | 29 | Saltério Pahlavi |
1 SMP | U + 10C00..U + 10C4F | Turco antigo | 80 | 73 | Turco antigo |
1 SMP | U + 10C80..U + 10CFF | Húngaro antigo | 128 | 108 | Húngaro antigo |
1 SMP | U + 10D00..U + 10D3F | Hanifi Rohingya | 64 | 50 | Hanifi Rohingya |
1 SMP | U + 10E60..U + 10E7F | Símbolos Numéricos Rumi | 32 | 31 | árabe |
1 SMP | U + 10E80..U + 10EBF | Iazidi | 64 | 47 | Iazidi |
1 SMP | U + 10F00..U + 10F2F | Old Sogdian | 48 | 40 | Old Sogdian |
1 SMP | U + 10F30..U + 10F6F | Sogdian | 64 | 42 | Sogdian |
1 SMP | U + 10F70..U + 10FAF | Velho uigur | 64 | 26 | Velho uigur |
1 SMP | U + 10FB0..U + 10FDF | Chorasmian | 48 | 28 | Chorasmian |
1 SMP | U + 10FE0..U + 10FFF | Elymaic | 32 | 23 | Elymaic |
1 SMP | U + 11000..U + 1107F | Brahmi | 128 | 115 | Brahmi |
1 SMP | U + 11080..U + 110CF | Kaithi | 80 | 68 | Kaithi |
1 SMP | U + 110D0..U + 110FF | Sora Sompeng | 48 | 35 | Sora Sompeng |
1 SMP | U + 11100..U + 1114F | Chakma | 80 | 71 | Chakma |
1 SMP | U + 11150..U + 1117F | Mahajani | 48 | 39 | Mahajani |
1 SMP | U + 11180..U + 111DF | Sharada | 96 | 96 | Sharada |
1 SMP | U + 111E0..U + 111FF | Números Arcaicos Sinhala | 32 | 20 | Cingalês |
1 SMP | U + 11200..U + 1124F | Khojki | 80 | 62 | Khojki |
1 SMP | U + 11280..U + 112AF | Multani | 48 | 38 | Multani |
1 SMP | U + 112B0..U + 112FF | Khudawadi | 80 | 69 | Khudawadi |
1 SMP | U + 11300..U + 1137F | Grantha | 128 | 86 | Grantha (85 caracteres), herdado (1 caractere) |
1 SMP | U + 11400..U + 1147F | Newa | 128 | 97 | Newa |
1 SMP | U + 11480..U + 114DF | Tirhuta | 96 | 82 | Tirhuta |
1 SMP | U + 11580..U + 115FF | Siddham | 128 | 92 | Siddham |
1 SMP | U + 11600..U + 1165F | Modi | 96 | 79 | Modi |
1 SMP | U + 11660..U + 1167F | Suplemento Mongol | 32 | 13 | mongol |
1 SMP | U + 11680..U + 116CF | Takri | 80 | 68 | Takri |
1 SMP | U + 11700..U + 1174F | Ahom | 80 | 65 | Ahom |
1 SMP | U + 11800..U + 1184F | Dogra | 80 | 60 | Dogra |
1 SMP | U + 118A0..U + 118FF | Warang Citi | 96 | 84 | Warang Citi |
1 SMP | U + 11900..U + 1195F | Dives Akuru | 96 | 72 | Dives Akuru |
1 SMP | U + 119A0..U + 119FF | Nandinagari | 96 | 65 | Nandinagari |
1 SMP | U + 11A00..U + 11A4F | Praça Zanabazar | 80 | 72 | Praça Zanabazar |
1 SMP | U + 11A50..U + 11AAF | Soyombo | 96 | 83 | Soyombo |
1 SMP | U + 11AB0..U + 11ABF | Syllabics aboriginal canadense unificado estendido-A | 16 | 16 | Aborígine canadense |
1 SMP | U + 11AC0..U + 11AFF | Pau Cin Hau | 64 | 57 | Pau Cin Hau |
1 SMP | U + 11C00..U + 11C6F | Bhaiksuki | 112 | 97 | Bhaiksuki |
1 SMP | U + 11C70..U + 11CBF | Marchen | 80 | 68 | Marchen |
1 SMP | U + 11D00..U + 11D5F | Masaram Gondi | 96 | 75 | Masaram Gondi |
1 SMP | U + 11D60..U + 11DAF | Gunjala Gondi | 80 | 63 | Gunjala Gondi |
1 SMP | U + 11EE0..U + 11EFF | Makasar | 32 | 25 | Makasar |
1 SMP | U + 11FB0..U + 11FBF | Suplemento Lisu | 16 | 1 | Lisu |
1 SMP | U + 11FC0..U + 11FFF | Suplemento de Tamil | 64 | 51 | tâmil |
1 SMP | U + 12000..U + 123FF | Cuneiforme | 1.024 | 922 | Cuneiforme |
1 SMP | U + 12400..U + 1247F | Números cuneiformes e pontuação | 128 | 116 | Cuneiforme |
1 SMP | U + 12480..U + 1254F | Cuneiforme Dinástico Inferior | 208 | 196 | Cuneiforme |
1 SMP | U + 12F90..U + 12FFF | Cypro-Minoan | 112 | 99 | Cypro Minoan |
1 SMP | U + 13000..U + 1342F | Hieróglifos egípcios | 1.072 | 1.071 | Hieróglifos egípcios |
1 SMP | U + 13430..U + 1343F | Controles de formato de hieróglifo egípcio | 16 | 9 | Hieróglifos egípcios |
1 SMP | U + 14400..U + 1467F | Hieróglifos da Anatólia | 640 | 583 | Hieróglifos da Anatólia |
1 SMP | U + 16800..U + 16A3F | Suplemento Bamum | 576 | 569 | Bamum |
1 SMP | U + 16A40..U + 16A6F | Mro | 48 | 43 | Mro |
1 SMP | U + 16A70..U + 16ACF | Tangsa | 96 | 89 | Tangsa |
1 SMP | U + 16AD0..U + 16AFF | Bassa Vah | 48 | 36 | Bassa Vah |
1 SMP | U + 16B00..U + 16B8F | Pahawh Hmong | 144 | 127 | Pahawh Hmong |
1 SMP | U + 16E40..U + 16E9F | Medefaidrin | 96 | 91 | Medefaidrin |
1 SMP | U + 16F00..U + 16F9F | Miao | 160 | 149 | Miao |
1 SMP | U + 16FE0..U + 16FFF | Símbolos ideográficos e pontuação | 32 | 7 | Han (4 caracteres), Khitan Small Script (1 caractere), Nushu (1 caractere), Tangut (1 caractere) |
1 SMP | U + 17000..U + 187FF | Tangut | 6.144 | 6.136 | Tangut |
1 SMP | U + 18800..U + 18AFF | Componentes Tangut | 768 | 768 | Tangut |
1 SMP | U + 18B00..U + 18CFF | Khitan Small Script | 512 | 470 | Khitan Small Script |
1 SMP | U + 18D00..U + 18D7F | Suplemento Tangut | 128 | 9 | Tangut |
1 SMP | U + 1AFF0..U + 1AFFF | Kana Extended-B | 16 | 13 | Katakana |
1 SMP | U + 1B000..U + 1B0FF | Suplemento Kana | 256 | 256 | Hiragana (255 caracteres), Katakana (1 caractere) |
1 SMP | U + 1B100..U + 1B12F | Kana Extended-A | 48 | 35 | Hiragana (32 caracteres), Katakana (3 caracteres) |
1 SMP | U + 1B130..U + 1B16F | Extensão Kana pequena | 64 | 7 | Hiragana (3 caracteres), Katakana (4 caracteres) |
1 SMP | U + 1B170..U + 1B2FF | Nushu | 400 | 396 | Nüshu |
1 SMP | U + 1BC00..U + 1BC9F | Duployan | 160 | 143 | Duployan |
1 SMP | U + 1BCA0..U + 1BCAF | Controles de formato abreviado | 16 | 4 | Comum |
1 SMP | U + 1CF00..U + 1CFCF | Notação Musical Znamenny | 208 | 185 | Comum (116 caracteres), herdado (69 caracteres) |
1 SMP | U + 1D000..U + 1D0FF | Símbolos Musicais Bizantinos | 256 | 246 | Comum |
1 SMP | U + 1D100..U + 1D1FF | Símbolos Musicais | 256 | 233 | Comum (211 caracteres), herdado (22 caracteres) |
1 SMP | U + 1D200..U + 1D24F | Notação Musical Grega Antiga | 80 | 70 | grego |
1 SMP | U + 1D2E0..U + 1D2FF | Algarismos maias | 32 | 20 | Comum |
1 SMP | U + 1D300..U + 1D35F | Símbolos de Tai Xuan Jing | 96 | 87 | Comum |
1 SMP | U + 1D360..U + 1D37F | Números da barra de contagem | 32 | 25 | Comum |
1 SMP | U + 1D400..U + 1D7FF | Símbolos Alfanuméricos Matemáticos | 1.024 | 996 | Comum |
1 SMP | U + 1D800..U + 1DAAF | Sutton SignWriting | 688 | 672 | SignWriting |
1 SMP | U + 1DF00..U + 1DFFF | Latim Extended-G | 256 | 31 | Latina |
1 SMP | U + 1E000..U + 1E02F | Suplemento Glagolítico | 48 | 38 | Glagolítico |
1 SMP | U + 1E100..U + 1E14F | Nyiakeng Puachue Hmong | 80 | 71 | Nyiakeng Puachue Hmong |
1 SMP | U + 1E290..U + 1E2BF | Totó | 48 | 31 | Totó |
1 SMP | U + 1E2C0..U + 1E2FF | Wancho | 64 | 59 | Wancho |
1 SMP | U + 1E7E0..U + 1E7FF | Ethiopic Extended-B | 32 | 28 | Etíope |
1 SMP | U + 1E800..U + 1E8DF | Mende Kikakui | 224 | 213 | Mende Kikakui |
1 SMP | U + 1E900..U + 1E95F | Adlam | 96 | 88 | Adlam |
1 SMP | U + 1EC70..U + 1ECBF | Números índicos de Siyaq | 80 | 68 | Comum |
1 SMP | U + 1ED00..U + 1ED4F | Números Otomanos de Siyaq | 80 | 61 | Comum |
1 SMP | U + 1EE00..U + 1EEFF | Símbolos alfabéticos matemáticos árabes | 256 | 143 | árabe |
1 SMP | U + 1F000..U + 1F02F | Mahjong Tiles | 48 | 44 | Comum |
1 SMP | U + 1F030..U + 1F09F | Domino Tiles | 112 | 100 | Comum |
1 SMP | U + 1F0A0..U + 1F0FF | Cartas de jogar | 96 | 82 | Comum |
1 SMP | U + 1F100..U + 1F1FF | Suplemento Alfanumérico Incluído | 256 | 200 | Comum |
1 SMP | U + 1F200..U + 1F2FF | Suplemento ideográfico fechado | 256 | 64 | Hiragana (1 caractere), Comum (63 caracteres) |
1 SMP | U + 1F300..U + 1F5FF | Símbolos e pictogramas diversos | 768 | 768 | Comum |
1 SMP | U + 1F600..U + 1F64F | Emoticons | 80 | 80 | Comum |
1 SMP | U + 1F650..U + 1F67F | Dingbats ornamentais | 48 | 48 | Comum |
1 SMP | U + 1F680..U + 1F6FF | Transporte e símbolos de mapa | 128 | 117 | Comum |
1 SMP | U + 1F700..U + 1F77F | Símbolos Alquímicos | 128 | 116 | Comum |
1 SMP | U + 1F780..U + 1F7FF | Formas geométricas estendidas | 128 | 102 | Comum |
1 SMP | U + 1F800..U + 1F8FF | Setas Suplementares-C | 256 | 150 | Comum |
1 SMP | U + 1F900..U + 1F9FF | Símbolos e pictogramas suplementares | 256 | 256 | Comum |
1 SMP | U + 1FA00..U + 1FA6F | Símbolos de xadrez | 112 | 98 | Comum |
1 SMP | U + 1FA70..U + 1FAFF | Símbolos e pictogramas estendidos-A | 144 | 88 | Comum |
1 SMP | U + 1FB00..U + 1FBFF | Símbolos para computação legada | 256 | 212 | Comum |
2 SIP | U + 20000..U + 2A6DF | CJK Unified Ideographs Extension B | 42.720 | 42.720 | Han |
2 SIP | U + 2A700..U + 2B73F | CJK Unified Ideographs Extension C | 4.160 | 4.153 | Han |
2 SIP | U + 2B740..U + 2B81F | CJK Unified Ideographs Extension D | 224 | 222 | Han |
2 SIP | U + 2B820..U + 2CEAF | CJK Unified Ideographs Extension E | 5.776 | 5.762 | Han |
2 SIP | U + 2CEB0..U + 2EBEF | CJK Unified Ideographs Extension F | 7.488 | 7.473 | Han |
2 SIP | U + 2F800..U + 2FA1F | Suplemento de ideogramas de compatibilidade CJK | 544 | 542 | Han |
3 DICA | U + 30000..U + 3134F | CJK Unified Ideographs Extension G | 4.944 | 4.939 | Han |
14 SSP | U + E0000..U + E007F | Tag | 128 | 97 | Comum |
14 SSP | U + E0100..U + E01EF | Suplemento de Seletores de Variação | 240 | 240 | Herdado |
15 PUA-A | U + F0000..U + FFFFF | Área de uso privado suplementar-A | 65.536 | 65.534 | Desconhecido |
16 PUA-B | U + 100000..U + 10FFFF | Área de uso privado suplementar-B | 65.536 | 65.534 | Desconhecido |
Roteiro
Cada caractere atribuído pode ter um único valor para sua propriedade "Script", indicando a qual script pertence. O valor é um código de quatro letras no intervalo Aaaa-Zzzz, conforme disponível na ISO 15924, que é mapeado para um sistema de escrita . Além de descrever o plano de fundo e o uso de um script, o Unicode não usa uma conexão entre um script e as linguagens que usam esse script. Portanto, "hebraico" se refere à escrita hebraica, não ao idioma hebraico.
O código especial Zyyy para "Comum" permite um único valor para um caractere que é usado em vários scripts. O código Zinh "script herdado", usado para combinar caracteres e alguns outros pontos de código de propósito especial, indica que um caractere "herda" sua identidade de script do caractere com o qual é combinado. (O Unicode costumava usar o código privado Qaai para esse propósito.) O código Zzzz "Desconhecido" é usado para todos os caracteres que não pertencem a um script (ou seja, o valor padrão), como símbolos e caracteres de formatação. No geral, os caracteres de um único script podem ser espalhados por vários blocos, como os caracteres latinos . E o contrário também: vários scripts podem estar presentes em um único bloco, por exemplo, o bloco Letterlike Symbols contém caracteres dos scripts latinos, gregos e comuns.
Quando o Script é "" (em branco), de acordo com o Unicode o caractere não pertence a um script. Isso se aplica aos símbolos, porque os códigos de script ISO existentes "Zmth" (notação matemática), "Zsym" (símbolo) e "Zsye" (símbolo, variante emoji) não são usados em Unicode. A propriedade "Script" também fica em branco para pontos de código que não são caracteres tipográficos, como controles, substitutos e pontos de código de uso privado.
Se houver um nome de alias script específico na ISO 15924, é usado no nome do personagem: U + 0041 A LATIN CAPITAL LETTER A e U + 05D0 א HEBRÉIA CARTA ALEF .
ISO 15924 | Script em Unicode | ||||||
---|---|---|---|---|---|---|---|
Código | Nome formal ISO | Direcionalidade | Unicode Alias | Versão | Personagens | Notas | Descrição |
Adlm | Adlam | script da direita para a esquerda | Adlam | 9,0 | 88 | Ch 19.9 | |
Afak | Afaka | varia | - Não em Unicode, a proposta é explorada | ||||
Aghb | Albanês caucasiano | da esquerda para direita | Albanês caucasiano | 7,0 | 53 | Antiga / histórica | Ch 8.11 |
Ahom | Ahom tai ahom | da esquerda para direita | Ahom | 8,0 | 65 | Antiga / histórica | Ch 15.15 |
árabe | árabe | script da direita para a esquerda | árabe | 1.0 | 1.365 | Ch 9.2 | |
Aran | Árabe (variante Nastaliq) | misturado | § árabe ) | - Variante tipográfica do árabe (||||
Armi | Aramaico imperial | script da direita para a esquerda | Aramaico imperial | 5,2 | 31 | Antiga / histórica | Ch 10.4 |
Armn | Armênio | da esquerda para direita | Armênio | 1.0 | 96 | Ch 7.6 | |
Avst | Avestan | script da direita para a esquerda | Avestan | 5,2 | 61 | Antiga / histórica | Ch 10.7 |
Bali | Balinesa | da esquerda para direita | Balinesa | 5.0 | 124 | Ch 17.3 | |
Bamu | Bamum | da esquerda para direita | Bamum | 5,2 | 657 | Ch 19.6 | |
Baixo | Bassa Vah | da esquerda para direita | Bassa Vah | 7,0 | 36 | Antiga / histórica | Ch 19.7 |
Batk | Batak | da esquerda para direita | Batak | 6,0 | 56 | Ch 17.6 | |
Beng | Bengali (bangla) | da esquerda para direita | bengali | 1.0 | 96 | Ch 12.2 | |
Bhks | Bhaiksuki | da esquerda para direita | Bhaiksuki | 9,0 | 97 | Antiga / histórica | Ch 14.3 |
Blis | Blissymbols | varia | - Não em Unicode, a proposta é explorada | ||||
Bopo | Bopomofo | da esquerda para direita | Bopomofo | 1.0 | 77 | Ch 18.3 | |
Brah | Brahmi | da esquerda para direita | Brahmi | 6,0 | 115 | Antiga / histórica | Ch 14.1 |
Brai | Braille | da esquerda para direita | Braille | 3,0 | 256 | Ch 21.1 | |
Bugi | Buginês | da esquerda para direita | Buginês | 4,1 | 30 | Ch 17.2 | |
Buhd | Buhid | da esquerda para direita | Buhid | 3,2 | 20 | Ch 17.1 | |
Cakm | Chakma | da esquerda para direita | Chakma | 6,1 | 71 | Ch 13.11 | |
Latas | Syllabics aboriginal canadense unificado | da esquerda para direita | Aborígine canadense | 3,0 | 726 | Ch 20.2 | |
Cari | Carian | script da esquerda para a direita, da direita para a esquerda | Carian | 5,1 | 49 | Antiga / histórica | Ch 8.5 |
Cham | Cham | da esquerda para direita | Cham | 5,1 | 83 | Ch 16.10 | |
Cher | Cherokee | da esquerda para direita | Cherokee | 3,0 | 172 | Ch 20.1 | |
Chrs | Chorasmian | script da direita para a esquerda , de cima para baixo | Chorasmian | 13,0 | 28 | Antiga / histórica | Ch 10.8 |
Cirt | Cirth | varia | - Não em Unicode | ||||
Copta | cóptico | da esquerda para direita | cóptico | 1.0 | 137 | Antigo / histórico, desunificado do grego em 4.1 | Ch 7.3 |
Cpmn | Cypro-Minoan | da esquerda para direita | Cypro Minoan | 14,0 | 99 | Antiga / histórica | Ch 8.4 |
Cprt | Silabário cipriota | script da direita para a esquerda | Cipriota | 4,0 | 55 | Antiga / histórica | Ch 8.3 |
Cyrl | cirílico | da esquerda para direita | cirílico | 1.0 | 443 | Inclui a variante tipográfica Old Church Slavonic ( § Cyrs) | Ch 7.4 |
Cyrs | Cirílico (variante eslavo da Igreja Antiga) | varia | § Cyrl ) | - Variante tipográfica do cirílico (Antiga / histórica | |||
Deva | Devanágari (Nagari) | da esquerda para direita | Devanágari | 1.0 | 154 | Ch 12.1 | |
Diak | Dives Akuru | da esquerda para direita | Dives Akuru | 13,0 | 72 | Antiga / histórica | Ch 15.14 |
Dogr | Dogra | da esquerda para direita | Dogra | 11,0 | 60 | Antiga / histórica | Ch 15.17 |
Dsrt | Deseret (mórmon) | da esquerda para direita | Deseret | 3,1 | 80 | Ch 20.4 | |
Dupl | Taquigrafia de Duployan, estenografia de Duployan | da esquerda para direita | Duployan | 7,0 | 143 | Ch 21.6 | |
Egyd | Demótico egípcio | misturado | - Não em Unicode | ||||
Egyh | Hierático egípcio | misturado | - Não em Unicode | ||||
Egyp | Hieróglifos egípcios | script da direita para a esquerda | Hieróglifos egípcios | 5,2 | 1.080 | Antiga / histórica | Ch 11.4 |
Elba | Elbasan | da esquerda para direita | Elbasan | 7,0 | 40 | Antiga / histórica | Ch 8.10 |
Elym | Elymaic | script da direita para a esquerda | Elymaic | 12,0 | 23 | Antiga / histórica | Ch 10.9 |
Ethi | Etíope (Geʻez) | da esquerda para direita | Etíope | 3,0 | 523 | Ch 19.1 | |
Geok | Khutsuri (Asomtavruli e Nuskhuri) | da esquerda para direita | Georgiano | O Unicode agrupa "Khutsori", "Asomtavruli" e "Nuskhuri" em "Georgiano" ( § Geok ). Além disso, "Mkhedruli" e "Mtavruli" são "georgianos" ( § Geor ) | Ch 7.7 | ||
Geor | Georgiano (Mkhedruli e Mtavruli) | da esquerda para direita | Georgiano | 1.0 | 173 | Em Unicode, também inclui Geok (Nuskhuri) | Ch 7.7 |
Glag | Glagolítico | da esquerda para direita | Glagolítico | 4,1 | 134 | Antiga / histórica | Ch 7.5 |
Gongo | Gunjala Gondi | da esquerda para direita | Gunjala Gondi | 11,0 | 63 | Ch 13.15 | |
Gonm | Masaram Gondi | da esquerda para direita | Masaram Gondi | 10,0 | 75 | Ch 13.14 | |
Gótico | gótico | da esquerda para direita | gótico | 3,1 | 27 | Antiga / histórica | Ch 8.9 |
Vovó | Grantha | da esquerda para direita | Grantha | 7,0 | 85 | Antiga / histórica | Ch 15.13 |
Grek | grego | da esquerda para direita | grego | 1.0 | 518 | Direcionalidade às vezes como boustrophedon | Ch 7.2 |
Gujr | Guzerate | da esquerda para direita | Guzerate | 1.0 | 91 | Ch 12.4 | |
Guru | Gurmukhi | da esquerda para direita | Gurmukhi | 1.0 | 80 | Ch 12.3 | |
Hanb | Han com Bopomofo (apelido de Han + Bopomofo) | misturado | § Hani , § Bopo | - Veja||||
Aguentar | Hangul (Hangŭl, Hangeul) | da esquerda para a direita, de cima para baixo | Hangul | 1.0 | 11.739 | Sílabas hangul realocadas em 2.0 | Ch 18.6 |
Hani | Han (Hanzi, Kanji, Hanja) | de cima para baixo, colunas da direita para a esquerda (historicamente) | Han | 1.0 | 94.215 | Ch 18.1 | |
Hano | Hanunoo (Hanunóo) | da esquerda para a direita, de baixo para cima | Hanunoo | 3,2 | 21 | Ch 17.1 | |
Hans | Han (variante simplificada) | varia | § Hani ) | - Subconjunto de Han (Hanzi, Kanji, Hanja) (||||
Hant | Han (variante tradicional) | varia | § Hani | - Subconjunto de||||
Hatr | Hatran | script da direita para a esquerda | Hatran | 8,0 | 26 | Antiga / histórica | Ch 10.12 |
Hebr | hebraico | script da direita para a esquerda | hebraico | 1.0 | 134 | Ch 9.1 | |
Hira | Hiragana | de cima para baixo, da esquerda para a direita | Hiragana | 1.0 | 380 | Ch 18.4 | |
Hluw | Hieróglifos da Anatólia (hieróglifos de Luwian, hieróglifos hititas) | da esquerda para direita | Hieróglifos da Anatólia | 8,0 | 583 | Antiga / histórica | Ch 11.6 |
Hmng | Pahawh Hmong | da esquerda para direita | Pahawh Hmong | 7,0 | 127 | Ch 16.11 | |
Hmnp | Nyiakeng Puachue Hmong | da esquerda para direita | Nyiakeng Puachue Hmong | 12,0 | 71 | Ch 16.12 | |
Hrkt | Silabários japoneses (apelido de Hiragana + Katakana) | de cima para baixo, da esquerda para a direita | Katakana ou Hiragana | Consulte § Hira , § Kana | Ch 18.4 | ||
Pendurado | Húngaro antigo (rúnico húngaro) | script da direita para a esquerda | Húngaro antigo | 8,0 | 108 | Antiga / histórica | Ch 8.8 |
Inds | Indus (Harappan) | misturado | - Não em Unicode, a proposta é explorada | ||||
Ital | Itálico antigo (etrusco, osco, etc.) | script da direita para a esquerda , da esquerda para a direita | Itálico antigo | 3,1 | 39 | Antiga / histórica | Ch 8.6 |
Jamo | Jamo (alias do subconjunto Jamo de Hangul) | varia | § Hang | - Subconjunto de||||
Java | Javanês | da esquerda para direita | Javanês | 5,2 | 90 | Ch 17.4 | |
Jpan | Japonês (alias de Han + Hiragana + Katakana) | varia | § Hani , § Hira e § Kana | - Ver||||
Jurc | Jurchen | da esquerda para direita | - Não em Unicode | ||||
Kali | Kayah Li | da esquerda para direita | Kayah Li | 5,1 | 47 | Ch 16.9 | |
Kana | Katakana | de cima para baixo, da esquerda para a direita | Katakana | 1.0 | 320 | Ch 18.4 | |
Khar | Kharoshthi | script da direita para a esquerda | Kharoshthi | 4,1 | 68 | Antiga / histórica | Ch 14.2 |
Khmr | Khmer | da esquerda para direita | Khmer | 3,0 | 146 | Ch 16.4 | |
Khoj | Khojki | da esquerda para direita | Khojki | 7,0 | 62 | Antiga / histórica | Ch 15.7 |
Kitl | Caligrafia khitana grande | da esquerda para direita | - Não em Unicode | ||||
Kits | Pequena caligrafia khitana | de cima para baixo | Khitan Small Script | 13,0 | 471 | Antiga / histórica | Ch 18.12 |
Knda | Canarim | da esquerda para direita | Canarim | 1.0 | 90 | Ch 12.8 | |
Kore | Coreano (alias de Hangul + Han) | da esquerda para direita | § Hani , § Hang | - Ver||||
Kpel | Kpelle | da esquerda para direita | - Não em Unicode, a proposta é explorada | ||||
Kthi | Kaithi | da esquerda para direita | Kaithi | 5,2 | 68 | Antiga / histórica | Ch 15.2 |
Lana | Tai Tham (Lanna) | da esquerda para direita | Tai Tham | 5,2 | 127 | Ch 16,7 | |
Laoo | Lao | da esquerda para direita | Lao | 1.0 | 82 | Ch 16.2 | |
Latf | Latim (variante Fraktur) | varia | § Latn ) | - Variante tipográfica do latim (||||
Latg | Latim (variante gaélico) | da esquerda para direita | § Latn ) | - Variante tipográfica do latim (||||
Latn | Latina | da esquerda para direita | Latina | 1.0 | 1.475 | Veja também: script latino em Unicode | Ch 7.1 |
Leke | Leke | da esquerda para direita | - Não em Unicode | ||||
Lepc | Lepcha (Róng) | da esquerda para direita | Lepcha | 5,1 | 74 | Ch 13.12 | |
Membro | Limbu | da esquerda para direita | Limbu | 4,0 | 68 | Ch 13.6 | |
Lina | Linear A | da esquerda para direita | Linear A | 7,0 | 341 | Antiga / histórica | Ch 8.1 |
Linb | Linear B | da esquerda para direita | Linear B | 4,0 | 211 | Antiga / histórica | Ch 8.2 |
Lisu | Lisu (Fraser) | da esquerda para direita | Lisu | 5,2 | 49 | Ch 18.9 | |
Loma | Loma | da esquerda para direita | - Não em Unicode, a proposta é explorada | ||||
Lyci | Lícia | da esquerda para direita | Lícia | 5,1 | 29 | Antiga / histórica | Ch 8.5 |
Lydi | Lídio | script da direita para a esquerda | Lídio | 5,1 | 27 | Antiga / histórica | Ch 8.5 |
Mahj | Mahajani | da esquerda para direita | Mahajani | 7,0 | 39 | Antiga / histórica | Ch 15.6 |
Maka | Makasar | da esquerda para direita | Makasar | 11,0 | 25 | Antiga / histórica | Ch 17.8 |
Mand | Mandáico, mandeísta | script da direita para a esquerda | Mandaico | 6,0 | 29 | Ch 9.5 | |
Mani | Maniqueísta | script da direita para a esquerda | Maniqueísta | 7,0 | 51 | Antiga / histórica | Ch 10.5 |
Marc | Marchen | da esquerda para direita | Marchen | 9,0 | 68 | Antiga / histórica | Ch 14.5 |
Maia | Hieróglifos maias | misturado | - Não em Unicode | ||||
Medf | Medefaidrin (Oberi Okaime, Oberi Ɔkaimɛ) | da esquerda para a direita, da esquerda para a direita | Medefaidrin | 11,0 | 91 | Ch 19.10 | |
Emendar | Mende Kikakui | script da direita para a esquerda | Mende Kikakui | 7,0 | 213 | Ch 19.8 | |
Merc | Meroitic Cursive | script da direita para a esquerda | Meroitic Cursive | 6,1 | 90 | Antiga / histórica | Ch 11.5 |
Mero | Hieróglifos Meroíticos | script da direita para a esquerda | Hieróglifos Meroíticos | 6,1 | 32 | Antiga / histórica | Ch 11.5 |
Mlym | Malaiala | da esquerda para direita | Malaiala | 1.0 | 118 | Ch 12.9 | |
Modi | Modi, Moḍī | da esquerda para direita | Modi | 7,0 | 79 | Antiga / histórica | Ch 15.11 |
Mong | mongol | de cima para baixo, da esquerda para a direita | mongol | 3,0 | 168 | Mong inclui scripts Clear e Manchu | Ch 13.5 |
Lua | Lua (código da lua, script da lua, tipo da lua) | misturado | - Não em Unicode, a proposta é explorada | ||||
Mroo | Mro, Mru | da esquerda para direita | Mro | 7,0 | 43 | Ch 13.8 | |
Mtei | Meitei Mayek (Meithei, Meetei) | da esquerda para direita | Meetei Mayek | 5,2 | 79 | Ch 13.7 | |
Mult | Multani | da esquerda para direita | Multani | 8,0 | 38 | Antiga / histórica | Ch 15.9 |
Mymr | Mianmar (birmanês) | da esquerda para direita | Myanmar | 3,0 | 223 | Ch 16.3 | |
Nand | Nandinagari | da esquerda para direita | Nandinagari | 12,0 | 65 | Antiga / histórica | Ch 15.12 |
Narb | Antiga Arábia do Norte (Antiga Arábia do Norte) | da direita para a esquerda roteiro , da direita para a esquerda roteiro | Old North Arabian | 7,0 | 32 | Antiga / histórica | Ch 10.1 |
Nbat | Nabateu | script da direita para a esquerda | Nabateu | 7,0 | 40 | Antiga / histórica | Ch 10.10 |
Newa | Newa, Newar, Newari, Nepāla lipi | da esquerda para direita | Newa | 9,0 | 97 | Ch 13.3 | |
Nkdb | Naxi Dongba (na²¹ɕi³³ a³³ba²¹, Nakhi Tomba) | da esquerda para direita | - Não em Unicode | ||||
Nkgb | Nakhi Geba (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-¹baw, Nakhi Geba) | da esquerda para direita | - Não em Unicode, a proposta é explorada | ||||
Nkoo | N'Ko | script da direita para a esquerda | NKo | 5.0 | 62 | Ch 19.4 | |
Nshu | Nüshu | de cima para baixo | Nushu | 10,0 | 397 | Ch 18.8 | |
Ogam | Ogham | de baixo para cima, da esquerda para a direita | Ogham | 3,0 | 29 | Antiga / histórica | Ch 8.14 |
Olck | Ol Chiki (Ol Cemet ', Ol, Santali) | da esquerda para direita | Ol Chiki | 5,1 | 48 | Ch 13.10 | |
Orkh | Antigo turco, orkhon rúnico | script da direita para a esquerda | Turco antigo | 5,2 | 73 | Antiga / histórica | Ch 14.8 |
Orya | Oriya (Odia) | da esquerda para direita | Oriya | 1.0 | 91 | Ch 12.5 | |
Osge | Osage | da esquerda para direita | Osage | 9,0 | 72 | Ch 20.3 | |
Osma | Osmanya | da esquerda para direita | Osmanya | 4,0 | 40 | Ch 19.2 | |
Ougr | Velho uigur | misturado | Velho uigur | 14,0 | 26 | Antiga / histórica | Ch 14.11 |
Palma | Palmireno | script da direita para a esquerda | Palmireno | 7,0 | 32 | Antiga / histórica | Ch 10.11 |
Pauc | Pau Cin Hau | da esquerda para direita | Pau Cin Hau | 7,0 | 57 | Ch 16.13 | |
Pcun | Protocuneiforme | da esquerda para direita | - Não em Unicode | ||||
Pelm | Proto-elamita | da esquerda para direita | - Não em Unicode | ||||
Permanente | Old Permic | da esquerda para direita | Old Permic | 7,0 | 43 | Antiga / histórica | Ch 8.13 |
Phag | Phags-pa | de cima para baixo | Phags-pa | 5.0 | 56 | Antiga / histórica | Ch 14.4 |
Phli | Pahlavi inscrito | script da direita para a esquerda | Pahlavi inscrito | 5,2 | 27 | Antiga / histórica | Ch 10.6 |
Phlp | Saltério Pahlavi | script da direita para a esquerda | Saltério Pahlavi | 7,0 | 29 | Antiga / histórica | Ch 10.6 |
Phlv | Livro Pahlavi | misturado | - Não em Unicode | ||||
Phnx | Fenício | script da direita para a esquerda | Fenício | 5.0 | 29 | Antiga / histórica | Ch 10.3 |
Piqd | Klingon (KLI pIqaD) | da esquerda para direita | - Rejeitado para inclusão em Unicode | ||||
Plrd | Miao (Pollard) | da esquerda para direita | Miao | 6,1 | 149 | Ch 18.10 | |
Prti | Parta inscrita | script da direita para a esquerda | Parta inscrita | 5,2 | 30 | Antiga / histórica | Ch 10.6 |
Psin | Proto-Sinaítico | misturado | - Não em Unicode | ||||
Qaaa-Qabx | Reservado para uso privado (alcance) | - Não em Unicode | |||||
Ranj | Ranjana | da esquerda para direita | - Não em Unicode | ||||
Rjng | Rejang (Redjang, Kaganga) | da esquerda para direita | Rejang | 5,1 | 37 | Ch 17.5 | |
Rohg | Hanifi Rohingya | script da direita para a esquerda | Hanifi Rohingya | 11,0 | 50 | Ch 16.14 | |
Roro | Rongorongo | misturado | - Não em Unicode, a proposta é explorada | ||||
Runr | Rúnico | da esquerda para a direita, boustrofédon | Rúnico | 3,0 | 86 | Antiga / histórica | Ch 8.7 |
Samr | samaritano | script da direita para a esquerda , de cima para baixo | samaritano | 5,2 | 61 | Ch 9.4 | |
Sara | Sarati | misturado | - Não em Unicode | ||||
Sarb | Old South Arabian | script da direita para a esquerda | Old South Arabian | 5,2 | 32 | Antiga / histórica | Ch 10.2 |
Saur | Saurashtra | da esquerda para direita | Saurashtra | 5,1 | 82 | Ch 13.13 | |
Sgnw | SignWriting | de cima para baixo | SignWriting | 8,0 | 672 | Ch 21.7 | |
Shaw | Shavian (Shaw) | da esquerda para direita | Shavian | 4,0 | 48 | Ch 8.15 | |
Shrd | Sharada, Śāradā | da esquerda para direita | Sharada | 6,1 | 96 | Ch 15.3 | |
Shui | Shuishu | da esquerda para direita | - Não em Unicode | ||||
Sidd | Siddham, Siddhaṃ, Siddhamātṛkā | da esquerda para direita | Siddham | 7,0 | 92 | Antiga / histórica | Ch 15.5 |
Sind | Khudawadi, sindi | da esquerda para direita | Khudawadi | 7,0 | 69 | Ch 15.8 | |
Sinh | Cingalês | da esquerda para direita | Cingalês | 3,0 | 111 | Ch 13.2 | |
Sogd | Sogdian | escrita horizontal e vertical em scripts do Leste Asiático , de cima para baixo | Sogdian | 11,0 | 42 | Antiga / histórica | Ch 14.10 |
Entao vai | Old Sogdian | script da direita para a esquerda | Old Sogdian | 11,0 | 40 | Antiga / histórica | Ch 14.9 |
Sora | Sora Sompeng | da esquerda para direita | Sora Sompeng | 6,1 | 35 | Ch 15.16 | |
Soyo | Soyombo | da esquerda para direita | Soyombo | 10,0 | 83 | Antiga / histórica | Ch 14.7 |
Sund | Sudanês | da esquerda para direita | Sudanês | 5,1 | 72 | Ch 17.7 | |
Sylo | Syloti Nagri | da esquerda para direita | Syloti Nagri | 4,1 | 45 | Antiga / histórica | Ch 15.1 |
Syrc | Siríaco | script da direita para a esquerda | Siríaco | 3,0 | 88 | Inclui variantes tipográficas Estrangelo ( § Syre ), Ocidental ( § Syrj ) e Oriental ( § Syrn ) | Ch 9.3 |
Syre | Siríaco (variante Estrangelo) | misturado | § Syrc ) | - Variante tipográfica do siríaco (||||
Syrj | Siríaco (variante ocidental) | misturado | § Syrc ) | - Variante tipográfica do siríaco (||||
Syrn | Siríaco (variante oriental) | misturado | § Syrc ) | - Variante tipográfica do siríaco (||||
Tagb | Tagbanwa | da esquerda para direita | Tagbanwa | 3,2 | 18 | Ch 17.1 | |
Takr | Takri, Ṭākrī, Ṭāṅkrī | da esquerda para direita | Takri | 6,1 | 68 | Ch 15.4 | |
Conto | Tai Le | da esquerda para direita | Tai Le | 4,0 | 35 | Ch 16.5 | |
Talu | Novo Tai Lue | da esquerda para direita | Novo Tai Lue | 4,1 | 83 | Ch 16.6 | |
Taml | tâmil | da esquerda para direita | tâmil | 1.0 | 123 | Ch 12.6 | |
Espiga | Tangut | de cima para baixo, colunas da direita para a esquerda, da esquerda para a direita | Tangut | 9,0 | 6.914 | Antiga / histórica | Ch 18.11 |
Tavt | Tai Viet | da esquerda para direita | Tai Viet | 5,2 | 72 | Ch 16.8 | |
Telu | Telugu | da esquerda para direita | Telugu | 1.0 | 100 | Ch 12.7 | |
Teng | Tengwar | da esquerda para direita | - Não em Unicode | ||||
Tfng | Tifinagh (berbere) | da esquerda para direita | Tifinagh | 4,1 | 59 | Ch 19.3 | |
Tglg | Tagalog (Baybayin, Alibata) | da esquerda para direita | Tagalo | 3,2 | 23 | Ch 17.1 | |
Thaa | Thaana | script da direita para a esquerda | Thaana | 3,0 | 50 | Ch 13.1 | |
tailandês | tailandês | da esquerda para direita | tailandês | 1.0 | 86 | Ch 16.1 | |
Tibt | Tibetano | da esquerda para direita | Tibetano | 2.0 | 207 | Adicionado em 1.0, removido em 1.1 e reintroduzido em 2.0 | Ch 13.4 |
Tirh | Tirhuta | da esquerda para direita | Tirhuta | 7,0 | 82 | Ch 15.10 | |
Tnsa | Tangsa | da esquerda para direita | Tangsa | 14,0 | 89 | Ch 13.18 | |
Totó | Totó | da esquerda para direita | Totó | 14,0 | 31 | Ch 13.17 | |
Ugar | Ugarítico | da esquerda para direita | Ugarítico | 4,0 | 31 | Antiga / histórica | Ch 11.2 |
Vaii | Vai | da esquerda para direita | Vai | 5,1 | 300 | Ch 19.5 | |
Visp | Discurso visível | da esquerda para direita | - Não em Unicode | ||||
Vith | Vithkuqi | da esquerda para direita | Vithkuqi | 14,0 | 70 | Antiga / histórica | Ch 8.12 |
Wara | Warang Citi (Varang Kshiti) | da esquerda para direita | Warang Citi | 7,0 | 84 | Ch 13.9 | |
Wcho | Wancho | da esquerda para direita | Wancho | 12,0 | 59 | Ch 13.16 | |
Wole | Woleai | misturado | - Não em Unicode, a proposta é explorada | ||||
Xpeo | Persa antigo | da esquerda para direita | Persa antigo | 4,1 | 50 | Antiga / histórica | Ch 11.3 |
Xsux | Cuneiforme, Sumero-Acadiano | da esquerda para direita | Cuneiforme | 5.0 | 1.234 | Antiga / histórica | Ch 11.1 |
Yezi | Iazidi | script da direita para a esquerda | Iazidi | 13,0 | 47 | Antiga / histórica | Ch 9.6 |
Yiii | Yi | da esquerda para direita | Yi | 3,0 | 1.220 | Ch 18.7 | |
Zanb | Praça Zanabazar (Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, Escrita quadrada horizontal) | da esquerda para direita | Praça Zanabazar | 10,0 | 72 | Antiga / histórica | Ch 14.6 |
Zinh | Código para script herdado | Herdado | 657 | ||||
Zmth | Notação matemática | - Não é um 'script' em Unicode | |||||
Zsym | Símbolos | - Não é um 'script' em Unicode | |||||
Zsye | Símbolos (variante emoji) | - Não é um 'script' em Unicode | |||||
Zxxx | Código para documentos não escritos | - Não é um 'script' em Unicode | |||||
Zyyy | Código para script indeterminado | Comum | 8.252 | ||||
Zzzz | Código para script não codificado | Desconhecido | 969.350 | Em Unicode: todos os outros pontos de código | |||
Notas
|
Propriedades de normalização
Decomposições, tipo de decomposição, classe de combinação canônica, exclusões de composição e muito mais.
Era
Idade é a versão do Padrão na qual o ponto de código foi designado pela primeira vez. O número da versão é abreviado para a numeração major.minor, embora números de versão mais detalhados sejam usados: as versões 4.0.0 e 4.0.1 são chamadas de 4.0 como Idade. Dados os lançamentos, Idade pode estar no intervalo: 1,1, 2,0, 2,1, 3,0, 3,1, 3,2, 4,0, 4,1, 5,0, 5,1, 5,2, 6,0, 6,1, 6,2, 6,3, 7,0, 8,0, 9,0, 10,0, 11,0 , 12,0, 12,1, 13,0 e 14,0. Os valores longos para Age começam em um V e usam um sublinhado em vez de um ponto: V1_1, por exemplo. Os pontos de código sem um valor de idade especificamente atribuído têm o valor "NA", com a forma longa "Não atribuído".
Descontinuada
Uma vez que um personagem tenha sido definido, ele não será removido ou reatribuído. No entanto, um caractere pode estar obsoleto , o que significa que seu "uso é fortemente desencorajado". A partir da versão 14.0 do Unicode, os quinze caracteres a seguir estão obsoletos:
Caracteres obsoletos em Unicode | ||||
---|---|---|---|---|
Codepoint | Nome do personagem | Alternativa recomendada | Observações | |
U + 0149 | LATIN PEQUENA LETRA N PRECEDIDA POR APÓSTROFO | U + 02BC U + 006E | ʼN | |
U + 0673 | LETRA ÁRABE ALEF COM WAVY HAMZA ABAIXO | U + 0627 U + 065F | اٟ | |
U + 0F77 | TIBETAN VOWEL SIGN VOCALIC RR | U + 0FB2 U + 0F81 | ྲཱ ྀ | |
U + 0F79 | TIBETAN VOWEL SIGN VOCALIC LL | U + 0FB3 U + 0F81 | ླཱ ྀ | |
U + 17A3 | KHMER INDEPENDENT VOWEL QAQ | U + 17A2 | អ | |
U + 17A4 | KHMER INDEPENDENT VOWEL QAA | U + 17A2 U + 17B6 | អា | |
U + 206A | INIBIR TROCA SIMÉTRICA | Nenhum | ||
U + 206B | ATIVAR A TROCA SIMÉTRICA | Nenhum | ||
U + 206C | INIBIR FORMA DE FORMA ÁRABE | Nenhum | ||
U + 206D | ATIVAR A FORMA DE FORMA ÁRABE | Nenhum | ||
U + 206E | FORMAS DE DÍGITOS NACIONAIS | Nenhum | ||
U + 206F | FORMAS DE DÍGITO NOMINAL | Nenhum | ||
U + 2329 | SUPORTE DE ÂNGULO PARA A ESQUERDA | U + 3008 | 〈 | U + 27E8 ⟨ MATEMÁTICA PARA A ESQUERDA ângulo do suporte é recomendado para uso técnico matemática e outras |
U + 232A | SUPORTE DE ÂNGULO PARA A DIREITA | U + 3009 | 〉 | U + 27E9 ⟩ MATEMÁTICA DIREITO ângulo do suporte é recomendado para uso técnico matemática e outras |
U + E0001 | TAG DE IDIOMA | Nenhum | ||
Limites
O padrão Unicode especifica as seguintes propriedades relacionadas a limites:
- Aglomerado de grafemas
- Palavra
- Linha
- Frase
Correção de apelidos de nomes Unicode
Personagem | Nome | Pseudônimo | |
---|---|---|---|
01A2 | Ƣ | LATIN CAPITAL LETTER OI | LATIN MAIÚSCULO LETRA GHA |
01A3 | ƣ | LATIN SMALL LETTER OI | LATIN SMALL LETTER GHA |
0709 | ܉ | SYRIAC SUBLINEAR COLON ENVIADO PARA A DIREITA | SYRIAC SUBLINEAR COLON ENVIADO PARA A ESQUERDA |
0CDE | ೞ | KANNADA LETTER FA | KANNADA LETTER LLLA |
0E9D | ຝ | LAO LETTER FO TAM | LAO LETTER FO FON |
0E9F | ຟ | LAO LETTER FO SUNG | LAO LETTER FO FAY |
0EA3 | ຣ | LAO LETTER LO LING | LAO LETTER RO |
0EA5 | ລ | LAO LETTER LO LOOT | LAO LETTER LO |
0FD0 | ࿐ | TIBETAN MARK BSKA- SHOG GI MGO RGYAN | TIBETAN MARK BKA- SHOG GI MGO RGYAN |
11EC | ᇬ | HANGUL JONGSEONG IEUNG-KIYEOK | HANGUL JONGSEONG YESIEUNG-KIYEOK |
11ED | ᇭ | HANGUL JONGSEONG IEUNG-SSANGKIYEOK | HANGUL JONGSEONG YESIEUNG-SSANGKIYEOK |
11EE | ᇮ | HANGUL JONGSEONG SSANGIEUNG | HANGUL JONGSEONG SSANGYESIEUNG |
11EF | ᇯ | HANGUL JONGSEONG IEUNG-KHIEUKH | HANGUL JONGSEONG YESIEUNG-KHIEUKH |
2118 | ℘ | SCRIPT CAPITAL P | WEIERSTRASS ELLIPTIC FUNCTION |
2448 | ⑈ | OCR DASH | MICR NO SÍMBOLO DOS EUA |
2449 | ⑉ | NÚMERO DA CONTA DO CLIENTE OCR | SÍMBOLO MICR DASH |
2B7A | ⭺ | SETA DE CABEÇA DO TRIÂNGULO ESQUERDA COM CURSO HORIZONTAL DUPLO | SETA COM CABEÇA DO TRIÂNGULO ESQUERDA COM CURSO VERTICAL DUPLO |
2B7C | ⭼ | SETA DE CABEÇA EM TRIÂNGULO DIREITA COM CURSO HORIZONTAL DUPLO | SETA DE CABEÇA DE TRIÂNGULO DIREITA COM CURSO VERTICAL DUPLO |
A015 | ꀕ | YI SYLLABLE WU | YI SÍLÁVEL MARCA DE ITERAÇÃO |
FE18 | ︘ | FORMULÁRIO DE APRESENTAÇÃO PARA FREIO LENTICULAR VERTICAL DIREITO BRANCO | FORMULÁRIO DE APRESENTAÇÃO PARA SUPORTE LENTICULAR VERTICAL DIREITO BRANCO |
122D4 | 𒋔 | CUNEIFORM SIGN SHIR TENU | SINAL CUNEIFORM NU11 TENU |
122D5 | 𒋕 | SINAL CUNEIFORM CAMISA SOBRE CAMISA BUR OVER BUR | SINAL CUNEIFORM NU11 SOBRE NU11 BUR OVER BUR |
16E56 | 𖹖 | LETRA MAIÚSCULA DA MEDEFAIDRIN HP | MEDEFAIDRIN MAIÚSCULA LETRA H |
16E57 | 𖹗 | MEDEFAIDRIN CAPITAL LETTER NY | MEDEFAIDRIN CAPITAL LETTER NG |
16E76 | 𖹶 | MEDEFAIDRIN SMALL LETTER HP | MEDEFAIDRIN SMALL LETTER H |
16E77 | 𖹷 | MEDEFAIDRIN SMALL LETTER NY | MEDEFAIDRIN SMALL LETTER NG |
1B001 | 𛀁 | HIRAGANA CARTA ARCHAIC YE | HENTAIGANA LETTER E-1 |
1D0C5 | 𝃅 | BIZANTINO MUSICAL SÍMBOLO FHTORA SKLIRON CHROMA VASIS | SÍMBOLO MUSICAL BIZANTINO FTHORA SKLIRON CHROMA VASIS |
links externos
- Banco de dados de caracteres Unicode , anexo # 44, explicando as diferentes propriedades
- UnicodeData.txt - uma lista de todos os caracteres Unicode, com suas propriedades
Referências
-
^ a b c d e "O padrão Unicode, Capítulo 4: Propriedades dos caracteres" (PDF) . Unicode, Inc. setembro de 2021 . Recuperado em 2021-08-15 . Citar diário requer
|journal=
( ajuda ) - ^ a b c "Padrão Unicode Anexo # 44: Banco de dados de caracteres Unicode" . O padrão Unicode . 14/06/2017.
- ^ "UCD: Aliases de nomes" . Banco de dados de caracteres Unicode . Consórcio Unicode. 08/03/2019.
- ^ "Padrões de design de personagens - caracteres de espaço" . Padrões de design de personagens . Microsoft . 1998–1999. Arquivado do original em 23 de agosto de 2000 . Página visitada em 18/05/2009 .
- ^ The Unicode Standard 5.0, edição impressa, p.205
- ^ "Pontuação geral" (PDF) . O padrão Unicode 5.1 . Unicode Inc . 1991–2008 . Página visitada em 13/05/2009 .
- ^ Sargent, Murray III (2006-08-29). "Codificação de texto quase simples Unicode de matemática (versão 2)" . Unicode Technical Note # 28 . Unicode Inc . pp. 19–20 . Página visitada em 2009-05-19 .
- ^ Gillam, Richard (2002). Unicode Demystified: A Practical Programmer's Guide to the Encoding Standard . Addison-Wesley. ISBN 0-201-70052-2.
- ^ a b Hickson, Ian . "12.5 Referências de caracteres nomeados" . Padrão HTML . WHATWG .
- ^ Wolfram . "\ [NegativeThickSpace]" . Wolfram Language Documentation .
- ^ Wolfram . "\ [NegativeMediumSpace]" . Wolfram Language Documentation .
- ^ Wolfram . "\ [NegativeThinSpace]" . Wolfram Language Documentation .
- ^ Wolfram . "\ [NegativeVeryThinSpace]" . Wolfram Language Documentation .
- ^ Faltstrom, P., ed. (Agosto de 2010). "Não associador de largura zero" . Os pontos de código Unicode e os nomes de domínio internacionalizados para aplicativos (IDNA) . IETF . seg. A.1. doi : 10.17487 / RFC5892 . RFC 5892 . Recuperado em 4 de setembro de 2019 .
- ^ Faltstrom, P., ed. (Agosto de 2010). "Marcador de largura zero" . Os pontos de código Unicode e os nomes de domínio internacionalizados para aplicativos (IDNA) . IETF . seg. A.2. doi : 10.17487 / RFC5892 . RFC 5892 . Recuperado em 4 de setembro de 2019 .
- ^ "Unicode Standard Annex # 44, Unicode Character Database" .
- ^ a b "Unicode Standard Annex # 9: Unicode Bidirectional Algorithm" . O padrão Unicode . 14-05-2017.
- ^ "Padrão Unicode Anexo # 24: Propriedade do Script Unicode" . O padrão Unicode . 01-06-2015.
- ^ a b c d e f g h i "Novos scripts propostos" . Consórcio Unicode . 25/05/2018 . Página visitada em 12/09/2019 .
- ^ Michael Everson (18/09/1997). "Proposta para codificar Klingon no Plano 1 da ISO / IEC 10646-2" .
- ^ The Unicode Consortium (2001-08-14). "Ata Aprovada da Reunião Conjunta UTC 87 / L2 184" .
- ^ "Middle East-II, Ancient Scripts" (PDF) . 14.0.0. The Unicode Consortiumtitle = Scripts do Oriente Médio II . Página visitada em 2021-09-15 .
- ^ "UCD: Idade derivada" . Banco de dados de caracteres Unicode . Consórcio Unicode. 2021-07-10.
-
^ "Políticas de estabilidade de codificação de caracteres Unicode" . Unicode . Consórcio Unicode . 23/06/2017 . Página visitada em 2021-07-25 .
Uma vez que um caractere é codificado, ele não será movido ou removido.
- ^ "3.4: Caracteres e codificação, D13: Caractere obsoleto" (PDF) . O padrão Unicode, versão 14.0 . Mountain View: Consórcio Unicode . 2021-09-14. ISBN 9781936213-290. Página visitada em 2021-09-15 .
- ^ "PropList-14.0.0.txt" . Unicode . Consórcio Unicode . 2021-08-12 . Página visitada em 2021-09-15 .
- ^ "Capítulo 23.3: Caracteres de formato obsoletos" (PDF) . O padrão Unicode, versão 13.0 . Mountain View: Consórcio Unicode . 2020-03-10. ISBN 9781936213269. Página visitada em 2021-07-25 .
- ^ "23.9: Caracteres de marcação, uso descontinuado para marcação de idioma" (PDF) . O padrão Unicode, versão 13.0 . Mountain View: Consórcio Unicode . 2020-03-10. ISBN 9781936213269. Página visitada em 2021-07-25 .