Propriedade de caractere Unicode - Unicode character property

O padrão Unicode atribui várias propriedades a cada caractere Unicode e ponto de código .

As propriedades podem ser usadas para manipular caracteres (pontos de código) em processos, como quebra de linha, direção de script da direita para a esquerda ou aplicação de controles. Algumas "propriedades de caractere" também são definidas para pontos de código que não têm nenhum caractere atribuído e pontos de código que são rotulados como "<não é um caractere>". As propriedades dos caracteres são descritas no Anexo Padrão # 44.

As propriedades têm níveis de vigor: normativo, informativo, contributivo ou provisório. Para simplicidade de especificação, uma propriedade de caractere pode ser atribuída especificando um intervalo contínuo de pontos de código que têm a mesma propriedade.

Elementos semânticos

As propriedades são exibidas na seguinte ordem:

[code];[name];[gc];[cc];[bc];[decomposition];;;[nv];[bm];[alias];;;;
  • 'alias' = nome corrigido
  • 'bc' = categoria bidi (bidirecional) [L, R etc]
  • 'bm' = bidi espelhado [N ou Y]
  • 'cc' = classe combinada [posição do diacrítico]
  • decomposição = letra + diacrítico, ligadura XY, sobrescrito X, fonte X, X inicial, X medial, X final, X isolado, X vertical, etc.
  • 'gc' = categoria geral [letra, símbolo, dígito, pontuação, comportamento do caso, etc.]
  • 'nv' = valor numérico [de um dígito]

Nome

Um caractere Unicode é atribuído a um Nome exclusivo (na). O nome é composto por letras maiúsculas de A – Z, dígitos 0–9, - (hífen-menos) e <espaço>. Algumas sequências são excluídas: nomes que começam com um espaço ou hífen, nomes que terminam com um espaço ou hífen, espaços ou hifens repetidos e espaço após hífen não são permitidos. O nome tem garantia de ser exclusivo dentro do Unicode e pode ser usado para identificar um ponto de código e seu caractere. Personagens ideográficos, dos quais existem dezenas de milhares, são nomeados no padrão " cjk unified ideograph - hhhh ". Por exemplo, U + 4E00 CJK UNIFIED IDEOGRAPH-4E00 . Os caracteres de formatação também são nomeados: U + 00A0 NO-BREAK SPACE .  

As seguintes classes de ponto de código não têm um Nome (na = ""): Controles (Categoria Geral: Cc), Uso Privado (Co), Substituto (Cs), Sem Caracteres (Cn) e Reservado (Cn). Eles podem ser referenciados, informalmente, por um meta-nome genérico ou específico, chamado "Code Point Labels": <control>, <control-0088>, <reserved>, <noncharacter- hhhh >, <private-use- hhhh > , <surrogate>. Como esses rótulos contêm <> - colchetes, eles nunca podem aparecer como um Nome, o que evita confusão.

Nomes da versão 1.0

Na versão 2.0 do Unicode, muitos nomes foram alterados. A partir de então, a regra "um nome nunca mudará" entrou em vigor, incluindo o uso estrito (normativo) de nomes alternativos. Os nomes da versão 1.0 desativados foram movidos para a propriedade Alias, para fornecer alguma compatibilidade com versões anteriores.

Alias ​​do nome do personagem

A partir do Unicode versão 2.0, o nome publicado para um ponto de código nunca será alterado. Portanto, no caso de um nome de personagem ser digitado incorretamente ou se o nome do personagem estiver completamente errado ou seriamente enganoso, um apelido de nome de personagem formal pode ser atribuído ao personagem, e este apelido pode ser usado por aplicativos em vez do nome real do personagem com defeito . Por exemplo, U + FE18 FORMULÁRIO DE APRESENTAÇÃO PARA BRAKCET VERTICAL RIGHT WHITE LENTICULAR tem o nome de personagem alias "FORMULÁRIO DE APRESENTAÇÃO PARA BRACKET VERTICAL RIGHT WHITE LENTICULAR" para mitigar o erro de ortografia de "colchete" como "brakcet" no nome do caractere real; U + A015 YI SYLLABLE WU tem o apelido do nome do personagem "YI SYLLABLE ITERATION MARK" porque, ao contrário do nome do personagem, não tem um valor silábico fixo.

Além de apelidos de nome de personagem, que são correções para nomes de personagem defeituosos, alguns personagens são atribuídos a apelidos que são nomes alternativos ou abreviações. Cinco tipos de apelidos de nome de caractere são definidos no padrão Unicode:

  • Correção: correções para nomes de personagens com erros ortográficos ou seriamente incorretos;
  • Controle: nomes ISO 6429 para funções de controle C0 e C1 (que não são atribuídos a nomes de caracteres no padrão Unicode);
  • Alternativo: nomes alternativos para alguns caracteres de formato (somente U + FEFF "LARGURA ZERO NO-BREAK SPACE" que possui o alias "BYTE ORDER MARK");
  • Figment: Etiquetas documentadas para algumas funções do código de controle C1 que não são nomes reais em nenhum padrão;
  • Abreviação: abreviações ou acrônimos para códigos de controle, caracteres de formato, espaços e seletores de variação.

Todos os aliases de nomes de caracteres formais seguem as regras para nomes de caracteres permitidos e têm a garantia de serem exclusivos tanto no alias do nome do caractere quanto nos namespaces do nome do caractere (por esse motivo, o nome ISO 6429 "BELL" não é definido como um alias para U +0007 porque U + 1F514 é denominado "BELL").

A partir do Unicode versão 12.1, vinte e oito apelidos de nomes de caracteres formais são definidos como correções para nomes de caracteres defeituosos. Eles estão listados abaixo .

Além desses nomes normativos, nomes informais podem ser mostrados nas tabelas de código Unicode. Esses são outros nomes comumente usados ​​para um caractere e não precisam ser restritos às letras A – Z, dígitos 0–9, - (hífen-menos) e <espaço>. Não há garantia de que esses nomes informais sejam exclusivos e podem ser alterados ou removidos em versões posteriores do padrão.

Categoria Geral

Cada ponto de código é atribuído a um valor para a categoria geral. Esta é uma das propriedades de caractere que também são definidas para pontos de código não atribuídos e pontos de código que são definidos como "não é um caractere".

Categoria geral ( propriedade de caractere Unicode )
Valor Categoria Maior, Menor Tipo básico Personagem atribuído Contagem
(a partir de 14.0)
Observações
 
L, Carta; LC, carta casada (apenas Lu, Ll e Lt)
Lu Letra maiúscula Gráfico Personagem 1.831
Ll Letra minúscula Gráfico Personagem 2.227
Tenente Carta, titlecase Gráfico Personagem 31 Ligaduras contendo maiúsculas seguidas de letras minúsculas (por exemplo, Dž , Lj , Nj e Dz )
Lm Letra, modificador Gráfico Personagem 334 Uma carta modificadora
Lo Carta, outra Gráfico Personagem 127.333 Um ideograma ou uma letra em um alfabeto unicase
M, Mark
Mn Mark, sem espaçamento Gráfico Personagem 1.950
Mc Marca, combinação de espaçamento Gráfico Personagem 445
Mim Mark, incluindo Gráfico Personagem 13
N, número
WL Número, dígito decimal Gráfico Personagem 660 Todos estes, e apenas estes, têm Tipo Numérico = De
Nl Número, letra Gráfico Personagem 236 Números compostos por letras ou símbolos semelhantes a letras (por exemplo, algarismos romanos )
Não Número, outro Gráfico Personagem 895 Por exemplo, frações vulgares , dígitos sobrescritos e subscritos
P, pontuação
Pc Pontuação, conector Gráfico Personagem 10 Inclui "_" sublinhado
Pd Pontuação, traço Gráfico Personagem 26 Inclui vários caracteres hífen
Ps Pontuação, aberto Gráfico Personagem 79 Caracteres de colchete de abertura
Educaçao Fisica Pontuação, fechar Gráfico Personagem 77 Caracteres de colchete de fechamento
Pi Pontuação, citação inicial Gráfico Personagem 12 Abrindo aspa . Não inclui as aspas "neutras" ASCII. Pode se comportar como Ps ou Pe dependendo do uso
Pf Pontuação, citação final Gráfico Personagem 10 Fechando aspas. Pode se comportar como Ps ou Pe dependendo do uso
Po Pontuação, outro Gráfico Personagem 605
S, símbolo
Sm Símbolo, matemática Gráfico Personagem 948 Símbolos matemáticos (por exemplo, + , - , = , × , ÷ , , , ). Não inclui parênteses e colchetes, que estão nas categorias Ps e Pe. Também não inclui ! , * , - ou / , que apesar do uso frequente como operadores matemáticos, são considerados principalmente como "pontuação".
Sc Símbolo, moeda Gráfico Personagem 63 Símbolos de moeda
Sk Símbolo, modificador Gráfico Personagem 125
Então Símbolo, outro Gráfico Personagem 6.605
Z, Separador
Zs Separador, espaço Gráfico Personagem 17 Inclui o espaço, mas não TAB , CR ou LF , que são Cc
Zl Separador, linha Formato Personagem 1 Apenas U + 2028 LINE SEPARATOR (LSEP)
Zp Separador, parágrafo Formato Personagem 1 Apenas U + 2029 PARAGRAPH SEPARATOR (PSEP)
C, Outro
Cc Outro, controle Ao controle Personagem 65 (nunca mudará) Sem nome, <control>
Cf Outro, formato Formato Personagem 163 Inclui o hífen , junção de caracteres de controle ( zwnj e zwj ), caracteres de controle para oferecer suporte a texto bidirecional e caracteres de tag de idioma
Cs Outro, substituto Substituto Não (usado apenas em UTF-16 ) 2.048 (nunca mudará) Sem nome, <surrogate>
Co Outro, uso privado Uso privado Caráter (mas sem interpretação especificada) 137.468 no total (nunca mudará) ( 6.400 em BMP , 131.068 nos aviões 15-16 ) Sem nome, <private-use>
Cn Outro, não atribuído Sem caráter Não 66 (nunca mudará) Sem nome, <noncharacter>
Reservado Não 829.768 Sem nome, <reservado>

Pontuação

Os caracteres têm propriedades separadas para denotar que são um caractere de pontuação . Todas as propriedades têm valores Sim / Não : Dash , Quotation_Mark , Sentença_Terminal , Terminal_Punctuation .

Espaço em branco

O espaço em branco é um conceito comumente usado para um efeito tipográfico. Basicamente, ele cobre caracteres invisíveis que têm um efeito de espaçamento no texto renderizado. Inclui espaços , tabulações e novos controles de formatação de linha. Em Unicode, esse caractere tem a propriedade definida "WSpace = yes". Na versão 14.0, existem 25 caracteres de espaço em branco.

Nome Ponto de código Caixa de largura Pode quebrar ? Em
IDN ?
Roteiro Bloquear
Categoria geral
Notas
tabulação de caracteres U + 0009 9 sim Não Comum Latim básico Outro,
controle
HT, guia horizontal . HTML / XML entidade nomeada : &Tab;, LaTeX : '\ tab'
alimentação de linha U + 000A 10 É uma quebra de linha Comum Latim básico Outro,
controle
LF, alimentação de linha . Entidade nomeada HTML / XML:&NewLine;
tabulação de linha U + 000B 11 É uma quebra de linha Comum Latim básico Outro,
controle
VT, guia vertical
feed de formulário U + 000C 12 É uma quebra de linha Comum Latim básico Outro,
controle
FF, feed de formulário
retorno de carruagem U + 000D 13 É uma quebra de linha Comum Latim básico Outro,
controle
CR, retorno de carro
espaço U + 0020 32 sim Não Comum Latim básico Separador,
espaço
Mais comum (espaço ASCII normal)
próxima linha U + 0085 133 É uma quebra de linha Comum
Suplemento Latin-1
Outro,
controle
NEL, próxima linha
espaço sem quebra U + 00A0 160   Não Não Comum
Suplemento Latin-1
Separador,
espaço
Espaço sem quebra : idêntico a U + 0020, mas não um ponto em que uma linha possa ser quebrada. Entidade nomeada em HTML / XML &nbsp;:, LaTeX: '\'
marca de espaço ogham U + 1680 5760 sim Não Ogham Ogham Separador,
espaço
Usado para separação entre palavras em texto Ogham . Normalmente uma linha vertical em texto vertical ou uma linha horizontal em texto horizontal, mas também pode ser um espaço em branco em fontes "sem haste". Requer uma fonte Ogham.
en quad U + 2000 8192   sim Não Comum
Pontuação Geral
Separador,
espaço
Largura de um en . U + 2002 é canonicamente equivalente a este caractere; U + 2002 é o preferido.
em quad U + 2001 8193 sim Não Comum
Pontuação Geral
Separador,
espaço
Também conhecido como "quad de carneiro". Largura de um em . U + 2003 é canonicamente equivalente a este caractere; U + 2003 é o preferido.
no espaço U + 2002 8194 sim Não Comum
Pontuação Geral
Separador,
espaço
Também conhecido como "noz". Largura de um en . U + 2000 En Quad é canonicamente equivalente a este caractere; U + 2002 é o preferido. Entidade nomeada em HTML / XML &ensp;:, LaTeX: '\ enspace'
em espaço U + 2003 8195 sim Não Comum
Pontuação Geral
Separador,
espaço
Também conhecido como "carneiro". Largura de um em . U + 2001 Em Quad é canonicamente equivalente a este caractere; U + 2003 é o preferido. Entidade nomeada HTML / XML &emsp;:, LaTeX: '\ quad'
espaço três por em U + 2004 8196 sim Não Comum
Pontuação Geral
Separador,
espaço
Também conhecido como "espaço espesso". Um terço de um em largura. Entidade nomeada HTML / XML:&emsp13;
espaço quatro por em U + 2005 8197 sim Não Comum
Pontuação Geral
Separador,
espaço
Também conhecido como "espaço intermediário". Um quarto de largura. Entidade nomeada HTML / XML:&emsp14;
espaço seis por em U + 2006 8198 sim Não Comum
Pontuação Geral
Separador,
espaço
Um sexto de um em largura. Em tipografia de computador, às vezes equivale a U + 2009.
espaço de figura U + 2007 8199 Não Não Comum
Pontuação Geral
Separador,
espaço
Figura espaço . Em fontes com dígitos monoespaçados, igual à largura de um dígito. Entidade nomeada HTML / XML:&numsp;
espaço de pontuação U + 2008 8200 sim Não Comum
Pontuação Geral
Separador,
espaço
Tão largo quanto a pontuação estreita em uma fonte, ou seja, a largura de avanço do ponto ou vírgula. Entidade nomeada HTML / XML:&puncsp;
espaço estreito U + 2009 8201 sim Não Comum
Pontuação Geral
Separador,
espaço
Espaço fino ; um quinto (às vezes um sexto) de um em de largura. Recomendado para uso como separador de milhares para medidas feitas com unidades SI . Ao contrário de U + 2002 a U + 2008, sua largura pode ser ajustada na composição. HTML / XML entidade nomeada: &thinsp;; LaTeX: '\,'
espaço de cabelo U + 200A 8202 sim Não Comum
Pontuação Geral
Separador,
espaço
Mais fino do que um espaço tênue. Entidade nomeada HTML / XML: &hairsp;( não funciona em todos os navegadores)
separador de linha U + 2028 8232 É uma quebra de linha Comum
Pontuação Geral
Separador,
linha
separador de parágrafo U + 2029 8233 É uma quebra de linha Comum
Pontuação Geral
Separador,
parágrafo
espaço estreito sem quebra U + 202F 8239 Não Não Comum
Pontuação Geral
Separador,
espaço
Espaço estreito sem quebra . Semelhante em função ao U + 00A0 No-Break Space. Quando usado com o Mongol, sua largura geralmente é um terço do espaço normal; em outro contexto, sua largura às vezes se assemelha à do Thin Space (U + 2009).
espaço matemático médio U + 205F 8287 sim Não Comum
Pontuação Geral
Separador,
espaço
MMSP. Usado em fórmulas matemáticas. Quatro dezoito avos de um em. Na tipografia matemática, as larguras dos espaços são geralmente dadas em múltiplos inteiros de um décimo oitavo de um em, e 4/18 em pode ser usado em várias situações, por exemplo, entre o a e o + e entre o + e o b no expressão a + b . Entidade nomeada HTML / XML:&MediumSpace;
espaço ideográfico U + 3000 12288   sim Não Comum Símbolos
e
pontuação CJK
Separador,
espaço
Tão largo quanto uma célula de caractere CJK ( largura total ). Usado, por exemplo, em tai tou .
 Nome  Ponto de código Caixa de largura Pode quebrar ? Em
IDN ?
Roteiro Bloquear
Categoria geral
Notas
separador de vogais mongol U + 180E 6158 sim Não mongol mongol Outro,
formato
MVS. Um caractere de espaço estreito, usado em mongol para fazer com que os dois caracteres finais de uma palavra adquiram formas diferentes. Ele não é mais classificado como caractere de espaço (ou seja, na categoria Zs) no Unicode 6.3.0, embora fosse nas versões anteriores do padrão.
espaço de largura zero U + 200B 8203 sim Não ?
Pontuação Geral
Outro,
formato
ZWSP, espaço de largura zero . Usado para indicar limites de palavras para sistemas de processamento de texto ao usar scripts que não usam espaçamento explícito. É semelhante ao hífen suave , com a diferença de que o último é usado para indicar os limites da sílaba e deve exibir um hífen visível quando a linha quebra nele. Entidade nomeada HTML / XML :&ZeroWidthSpace;
não junta de largura zero U + 200C 8204 sim Dependente do contexto ?
Pontuação Geral
Outro,
formato
ZWNJ, não junta de largura zero . Quando colocado entre dois caracteres que de outra forma seriam conectados, um ZWNJ faz com que eles sejam impressos em suas formas final e inicial, respectivamente. Entidade nomeada HTML / XML:&zwnj;
juntador de largura zero U + 200D 8205 sim Dependente do contexto ?
Pontuação Geral
Outro,
formato
ZWJ, juntador de largura zero . Quando colocado entre dois caracteres que de outra forma não estariam conectados, um ZWJ faz com que eles sejam impressos em suas formas conectadas. Também pode ser usado para exibir formulários de junção isoladamente. Dependendo se uma ligadura ou conjunção é esperada por padrão, pode induzir (como em emoji e em Sinhala ) ou suprimir (como em Devanagari ) a substituição com um único glifo, embora ainda permitindo o uso de formas de junção individuais (ao contrário de ZWNJ). Entidade nomeada HTML / XML:&zwj;
juntador de palavras U + 2060 8288 Não Não ?
Pontuação Geral
Outro,
formato
WJ, juntador de palavras . Semelhante a U + 200B, mas não é um ponto no qual uma linha pode ser interrompida. Entidade nomeada HTML / XML:&NoBreak;
espaço ininterrupto de largura zero U + FEFF 65279  Não Não ? Formas de
apresentação em árabe
-B
Outro,
formato
Espaço ininterrupto de largura zero . Usado principalmente como Marca de Ordem de Byte . O uso como uma indicação de não quebra está obsoleto a partir do Unicode 3.2; veja U + 2060 em vez disso.


Outras características gerais

Ideográfico, alfabético, sem caráter.

Classe combinando

Alguns códigos comuns:

0 = letra, símbolo ou modificador de espaçamento (por exemplo, a, (, ʰ)
1 = sobreposição
6 = leitura Han (marcas de leitura diacrítica CJK)
7 = nukta (nukta diacrítico em scripts Brahmic )
8 = marcas de vozeamento kana
9 = virama

10–199 = várias classes de posição fixa

Marcas que se anexam à letra base:

200 = anexado na parte inferior esquerda
202 = anexado diretamente abaixo (por exemplo, cedilha em ç)
204 = anexado no canto inferior direito
208 = anexado à esquerda
210 = anexado à direita
212 = anexado ao canto superior esquerdo
214 = anexado diretamente acima
216 = anexado no canto superior direito

Marcas que não se anexam à letra base:

218 = inferior esquerdo
220 = diretamente abaixo (por exemplo, anel em n̥)
222 = abaixo à direita
224 = esquerda
226 = certo
228 = acima à esquerda
230 = acima (por exemplo, acento agudo em á)
232 = acima à direita
233 = dobro abaixo (subtende duas bases)
234 = duplo acima (estende duas bases)
240 = iota subscrito (apenas aquele diacrítico grego)

Propriedades relacionadas à exibição

Modelagem, largura.

Escrita bidirecional

Seis propriedades de caracteres pertencem à escrita bidirecional: Bidi_Class, Bidi_Control, Bidi_Mirrored, Bidi_Mirroring_Glyph, Bidi_Paired_Bracket e Bidi_Paired_Bracket_Type.

Um dos principais recursos do Unicode é o suporte de exibição de texto bidirecional ( Bidi ) da direita para a esquerda (R para a esquerda) e da esquerda para a direita (da esquerda para a direita). O Algoritmo Bidirecional Unicode UAX9 descreve o processo de apresentação de texto com a alteração das direções do script. Por exemplo, permite uma citação em hebraico em um texto em inglês. O Bidi_Character_Type marca o comportamento de um personagem na escrita direcional. Para substituir uma direção, o Unicode definiu caracteres de controle de formatação especial ( Bidi-Control s). Esses caracteres podem impor uma direção e, por definição, afetam apenas a escrita bidirecional.

Cada ponto de código possui uma propriedade chamada Bidi_Class . Ele define seu comportamento em um texto bidirecional conforme interpretado pelo algoritmo:

Tipo de caractere bidirecional ( propriedade de caractere Unicode Bidi_Class)
Modelo Descrição Força Direcionalidade Escopo geral Bidi_Control personagem
eu Da esquerda para direita Forte Da esquerda para a direita A maioria dos caracteres alfabéticos e silábicos, caracteres chineses, dígitos não europeus ou não árabes, caractere LRM, ... U + 200E MARCA DA ESQUERDA PARA A DIREITA (LRM)
R Direita para esquerda Forte R-para-L Adlam, Hebraico, Mandaico, Mende Kikakui, N'Ko, Samaritano, escritas antigas como Kharoshthi e Nabataean, personagem RLM, ... U + 200F MARCA DA DIREITA PARA A ESQUERDA (RLM)
AL Letra árabe Forte R-para-L Alfabetos árabe, Hanifi Rohingya, Sogdian, Siríaco e Thaana, e a maioria das pontuações específicas para esses scripts, caractere ALM, ... U + 061C MARCA DA LETRA ÁRABE (ALM)
EN Número europeu Fraco Dígitos europeus, dígitos árabes orientais-índicos, números de epacto copta, ...
ES Separador Europeu Fraco sinal de mais , sinal de menos , ...
ET Terminador de número europeu Fraco sinal de grau , símbolos de moeda, ...
UM Número arábico Fraco Dígitos árabe-índicos, decimais árabes e separadores de milhares, dígitos de Rumi, dígitos de Hanifi Rohingya, ...
CS Separador de número comum Fraco dois pontos , vírgula , ponto final , espaço sem quebra , ...
NSM Marca Nonspacing Fraco Personagens nas categorias gerais Mark, nonspacing e Mark, incluindo (Mn, Me)
BN Limite neutro Fraco Ignoráveis ​​padrão, não caracteres, caracteres de controle diferentes daqueles dados explicitamente de outros tipos
B Separador de Parágrafo Neutro separador de parágrafo , funções de nova linha apropriadas, determinação de parágrafo de protocolo de nível superior
S Separador de Segmento Neutro Abas
WS Espaço em branco Neutro espaço , espaço de figura , separador de linha , alimentação de formulário , espaços de bloco de pontuação geral (conjunto menor do que a lista de espaços em branco Unicode )
SOBRE Outros neutros Neutro Todos os outros caracteres, incluindo o caractere de substituição de objeto
LRE Incorporação da esquerda para a direita Explícito Da esquerda para a direita Personagem LRE apenas U + 202A EMBUTIR DA ESQUERDA PARA A DIREITA (LRE)
LRO Substituição da esquerda para a direita Explícito Da esquerda para a direita Personagem LRO apenas U + 202D DA ESQUERDA PARA A DIREITA (LRO)
RLE Incorporação da direita para a esquerda Explícito R-para-L Caractere RLE apenas U + 202B ENCAIXE DA DIREITA PARA A ESQUERDA (RLE)
RLO Substituição da direita para a esquerda Explícito R-para-L Caractere RLO apenas U + 202E ANULAÇÃO DA DIREITA PARA A ESQUERDA (RLO)
PDF Formato Pop Direcional Explícito Caractere PDF apenas U + 202C POP DIRECTIONAL FORMATTING (PDF)
LRI Isolado da esquerda para a direita Explícito Da esquerda para a direita Personagem LRI apenas U + 2066 ISOLADO DA ESQUERDA PARA A DIREITA (LRI)
RLI Isolar da direita para a esquerda Explícito R-para-L Personagem RLI apenas U + 2067 ISOLADO DA DIREITA PARA A ESQUERDA (RLI)
FSI Primeiro isolado forte Explícito Caractere FSI apenas U + 2068 PRIMEIRO ISOLADO FORTE (FSI)
PDI Pop direcional isolado Explícito Personagem PDI apenas U + 2069 POP DIRECTIONAL ISOLATE (PDI)
Notas
1. ^ Unicode Bidirectional Algorithm (UAX # 9) , a partir do Unicode versão 12.0
2. ^ Tipos de caracteres bidirecionais possíveis para propriedade de caractere: Bidi_Class ou 'type'
3. ^ Caracteres Bidi_Control : Doze caracteres de formatação Bidi_Control são definidos. Eles são invisíveis e não têm efeito além da direcionalidade. Nove deles têm um tipo BiDi exclusivo que é usado pelo algoritmo. Seu tipo também é sua sigla (por exemplo, o caractere 'LRE' tem o tipo BiDi 'LRE').

Em situações normais, o algoritmo pode determinar a direção de um texto por esta propriedade de caractere. Para controlar situações Bidi mais complexas, por exemplo, quando um texto em inglês tem uma citação em hebraico, opções extras são adicionadas ao Unicode. Doze caracteres têm a propriedade Bidi_Control = Sim : ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM e RLO conforme indicados na tabela. Esses são caracteres de controle de formatação invisíveis, usados ​​apenas pelo algoritmo e sem efeito fora da formatação bidirecional. Apesar do nome, eles são caracteres de formatação, não caracteres de controle, e possuem a categoria Geral "Outro, formato (Cf)" na definição Unicode.

Basicamente, o algoritmo determina uma sequência de caracteres com o mesmo tipo de direção forte (R-para-L ou L-para-R), levando em consideração uma anulação pelos controles especiais Bidi. Sequências de números (tipos fracos) recebem uma direção de acordo com seu ambiente forte, assim como caracteres neutros. Finalmente, os caracteres são exibidos de acordo com a direção de uma string.

Duas propriedades de caractere são relevantes para determinar uma imagem espelhada de um glifo em texto bidirecional: Bidi_Mirrored = Sim indica que o glifo deve ser espelhado quando escrito R-para-L. A propriedade Bidi_Mirroring_Glyph = U + hhhh pode então apontar para o caractere espelhado. Por exemplo, os colchetes "()" são espelhados desta forma. Moldar scripts cursivos, como o árabe, e espelhar glifos que têm uma direção, não faz parte do algoritmo.

Invólucro

O valor Case é normativo em Unicode. Ele se refere aos scripts com letras maiúsculas (também conhecidas como maiúsculas, maiúsculas) e minúsculas (também conhecidas como minúsculas e minúsculas). A diferença entre maiúsculas e minúsculas ocorre nos scripts Adlam, Armênio, Cherokee, Cóptico, Cirílico, Deseret, Glagolítico, Grego, Khutsuri e Mkhedruli Georgiano, Latino, Medefaidrin, Húngaro Antigo, Osage, Vithkuqi e Warang Citi.

(superior, inferior, título, dobrável - simples e completo)

Valores e tipos numéricos

Decimal

Os caracteres são classificados com um tipo numérico . Caracteres como frações, subscritos, sobrescritos, algarismos romanos, numeradores de moeda, números circulados e dígitos específicos do script são do tipo Numérico. Eles têm um valor numérico que pode ser decimal, incluindo zero e negativos, ou uma fração vulgar. Se não houver tal valor, como acontece com a maioria dos caracteres, o tipo numérico é "Nenhum".

Os caracteres que possuem um valor numérico são separados em três grupos: Decimal (De), Dígito (Di) e Numérico (Nu, ou seja, todos os outros). "Decimal" significa que o caractere é um dígito decimal reto. Apenas os caracteres que fazem parte de um intervalo codificado contíguo de 0 a 9 têm tipo numérico Decimal. Outros dígitos, como sobrescritos, têm tipo numérico Dígito. Todos os caracteres numéricos, como frações e algarismos romanos, terminam com o tipo "Numérico". O efeito pretendido é que um analisador simples pode usar esses valores numéricos decimais, sem se distrair com um sobrescrito numérico ou uma fração. Setenta e três Ideógrafos CJK que representam um número, incluindo aqueles usados ​​para contabilidade, são digitados numéricos.

Por outro lado, os caracteres que poderiam ter um valor numérico como um segundo significado ainda são marcados com o tipo Numérico "Nenhum" e não têm valor numérico (""). Por exemplo, letras latinas podem ser usadas na numeração de parágrafos como "II.A.1.b", mas as letras "I", "A" e "b" não são numéricas (digite "Nenhum") e não têm valor numérico.

Tipo Numérico  ( propriedade de caractere Unicode )
Tipo numérico Código Tem valor numérico Exemplo Observações
Não numérico None Não
  • UMA
  • X  (latim)
  • !
  • Д
  • µ
Valor numérico = "NaN"
Decimal De sim
  • 0
  • 1
  • 9
  •  (Devanágari 6)
  •  (canarês 6)
  • 𝟨  (matemático, com estilo sem serifa)
Dígito reto (raiz decimal ). Corresponde aos dois sentidos com Categoria Geral = Nd
Dígito Di sim
  • ¹  (sobrescrito)
  •  (dígito com ponto final)
Decimal, mas em contexto tipográfico
Numérico Nu sim
  • ¾
  •  (Tamil número dez)
  •  (numeral romano)
  •  (Han número 6)
Valor numérico, mas não raiz decimal
uma. ^ "Seção 4.6: Valor numérico" (PDF) . O padrão Unicode . Consórcio Unicode. Setembro de 2021.
b. ^ "Tipos numéricos derivados de Unicode 14.0" . Banco de dados de caracteres Unicode . Consórcio Unicode. 2021-03-08.

Dígitos hexadecimais

Os caracteres hexadecimais são aqueles na série com valores hexadecimais 0 ... 9ABCDEF (dezesseis caracteres, valor decimal 0-15). A propriedade do personagem Hex_Digit é definida como Sim quando um personagem está em tal série:

Caracteres em Unicode marcados Hex_Digit=Yes
0123456789ABCDEF Latim básico, maiúsculas Também ASCII_Hex_Digit=Yes
0123456789abcdef Latim básico, letras minúsculas Também ASCII_Hex_Digit=Yes
0123456789ABCDEF Formulários de largura total , maiúsculas
0123456789abcdef Formulários de largura total, letras minúsculas
uma. ^ "Unicode 14.0 UCD: PropList.txt" . 2021-08-12 . Recuperado em 2020-03-12 .

Quarenta e quatro caracteres são marcados como Hex_Digit. Aqueles no bloco de latim básico também são marcados como ASCII_Hex_Digit .

Unicode não possui caracteres separados para valores hexadecimais. Uma consequência é que, ao usar caracteres regulares, não é possível determinar se o valor hexadecimal é pretendido, ou mesmo se um valor é pretendido. Isso deve ser determinado em um nível superior, por exemplo, acrescentando "0x" a um número hexadecimal ou por contexto. O único recurso é que o Unicode pode observar que uma sequência pode ou não ser um valor hexadecimal.

Bloquear

Um bloco é um intervalo contíguo de pontos de código com nome exclusivo. Ele é identificado por seu primeiro e último ponto de código. Os blocos não se sobrepõem . Um bloco pode conter pontos de código que são reservados, não atribuídos etc. Cada caractere que é atribuído, tem um único valor de "nome de bloco" dos 320 nomes atribuídos a partir do Unicode versão 14.0 Pontos de código não atribuídos fora de um bloco existente, tem o valor padrão "No_block".

Plano Alcance do bloco Nome do bloco Pontos de código Personagens atribuídos Scripts
 0 BMP U + 0000..U + 007F Latim básico 128 128 Latim (52 caracteres), Comum (76 caracteres)
 0 BMP U + 0080..U + 00FF Suplemento Latin-1 128 128 Latim (64 caracteres), Comum (64 caracteres)
 0 BMP U + 0100..U + 017F Latim Extended-A 128 128 Latina
 0 BMP U + 0180..U + 024F Latim Extended-B 208 208 Latina
 0 BMP U + 0250..U + 02AF Extensões IPA 96 96 Latina
 0 BMP U + 02B0..U + 02FF Letras modificadoras de espaçamento 80 80 Bopomofo (2 caracteres), latino (14 caracteres), comum (64 caracteres)
 0 BMP U + 0300..U + 036F Combinando Marcas Diacríticas 112 112 Herdado
 0 BMP U + 0370..U + 03FF Grego e copta 144 135 Cóptico (14 caracteres), grego (117 caracteres), comum (4 caracteres)
 0 BMP U + 0400..U + 04FF cirílico 256 256 Cirílico (254 caracteres), herdado (2 caracteres)
 0 BMP U + 0500..U + 052F Suplemento Cirílico 48 48 cirílico
 0 BMP U + 0530..U + 058F Armênio 96 91 Armênio
 0 BMP U + 0590..U + 05FF hebraico 112 88 hebraico
 0 BMP U + 0600..U + 06FF árabe 256 256 Árabe (238 caracteres), Comum (6 caracteres), Herdado (12 caracteres)
 0 BMP U + 0700..U + 074F Siríaco 80 77 Siríaco
 0 BMP U + 0750..U + 077F Suplemento árabe 48 48 árabe
 0 BMP U + 0780..U + 07BF Thaana 64 50 Thaana
 0 BMP U + 07C0..U + 07FF NKo 64 62 Nko
 0 BMP U + 0800..U + 083F samaritano 64 61 samaritano
 0 BMP U + 0840..U + 085F Mandaico 32 29 Mandaico
 0 BMP U + 0860..U + 086F Suplemento Siríaco 16 11 Siríaco
 0 BMP U + 0870..U + 089F Árabe Estendido-B 48 41 árabe
 0 BMP U + 08A0..U + 08FF Árabe Extended-A 96 96 Árabe (95 caracteres), Comum (1 caractere)
 0 BMP U + 0900..U + 097F Devanágari 128 128 Devanágari (122 caracteres), Comum (2 caracteres), Herdado (4 caracteres)
 0 BMP U + 0980..U + 09FF bengali 128 96 bengali
 0 BMP U + 0A00..U + 0A7F Gurmukhi 128 80 Gurmukhi
 0 BMP U + 0A80..U + 0AFF Guzerate 128 91 Guzerate
 0 BMP U + 0B00..U + 0B7F Oriya 128 91 Oriya
 0 BMP U + 0B80..U + 0BFF tâmil 128 72 tâmil
 0 BMP U + 0C00..U + 0C7F Telugu 128 100 Telugu
 0 BMP U + 0C80..U + 0CFF Canarim 128 90 Canarim
 0 BMP U + 0D00..U + 0D7F Malaiala 128 118 Malaiala
 0 BMP U + 0D80..U + 0DFF Cingalês 128 91 Cingalês
 0 BMP U + 0E00..U + 0E7F tailandês 128 87 Tailandês (86 caracteres), Comum (1 caractere)
 0 BMP U + 0E80..U + 0EFF Lao 128 82 Lao
 0 BMP U + 0F00..U + 0FFF Tibetano 256 211 Tibetano (207 caracteres), Comum (4 caracteres)
 0 BMP U + 1000..U + 109F Myanmar 160 160 Myanmar
 0 BMP U + 10A0..U + 10FF Georgiano 96 88 Georgiano (87 caracteres), Comum (1 caractere)
 0 BMP U + 1100..U + 11FF Hangul Jamo 256 256 Hangul
 0 BMP U + 1200..U + 137F Etíope 384 358 Etíope
 0 BMP U + 1380..U + 139F Suplemento Etíope 32 26 Etíope
 0 BMP U + 13A0..U + 13FF Cherokee 96 92 Cherokee
 0 BMP U + 1400..U + 167F Syllabics aboriginal canadense unificado 640 640 Aborígine canadense
 0 BMP U + 1680..U + 169F Ogham 32 29 Ogham
 0 BMP U + 16A0..U + 16FF Rúnico 96 89 Rúnico (86 caracteres), Comum (3 caracteres)
 0 BMP U + 1700..U + 171F Tagalo 32 23 Tagalo
 0 BMP U + 1720..U + 173F Hanunoo 32 23 Hanunoo (21 caracteres), Comum (2 caracteres)
 0 BMP U + 1740..U + 175F Buhid 32 20 Buhid
 0 BMP U + 1760..U + 177F Tagbanwa 32 18 Tagbanwa
 0 BMP U + 1780..U + 17FF Khmer 128 114 Khmer
 0 BMP U + 1800..U + 18AF mongol 176 158 Mongol (155 caracteres), Comum (3 caracteres)
 0 BMP U + 18B0..U + 18FF Prolongamento de Syllabics Aboriginal Canadense Unificado 80 70 Aborígine canadense
 0 BMP U + 1900..U + 194F Limbu 80 68 Limbu
 0 BMP U + 1950..U + 197F Tai Le 48 35 Tai Le
 0 BMP U + 1980..U + 19DF Novo Tai Lue 96 83 Novo Tai Lue
 0 BMP U + 19E0..U + 19FF Símbolos Khmer 32 32 Khmer
 0 BMP U + 1A00..U + 1A1F Buginês 32 30 Buginês
 0 BMP U + 1A20..U + 1AAF Tai Tham 144 127 Tai Tham
 0 BMP U + 1AB0..U + 1AFF Combinando Marcas Diacríticas Estendidas 80 31 Herdado
 0 BMP U + 1B00..U + 1B7F Balinesa 128 124 Balinesa
 0 BMP U + 1B80..U + 1BBF Sudanês 64 64 Sudanês
 0 BMP U + 1BC0..U + 1BFF Batak 64 56 Batak
 0 BMP U + 1C00..U + 1C4F Lepcha 80 74 Lepcha
 0 BMP U + 1C50..U + 1C7F Ol Chiki 48 48 Ol Chiki
 0 BMP U + 1C80..U + 1C8F Cirílico Extended-C 16 9 cirílico
 0 BMP U + 1C90..U + 1CBF Georgian Extended 48 46 Georgiano
 0 BMP U + 1CC0..U + 1CCF Suplemento Sudanês 16 8 Sudanês
 0 BMP U + 1CD0..U + 1CFF Extensões Védicas 48 43 Comum (16 caracteres), Herdado (27 caracteres)
 0 BMP U + 1D00..U + 1D7F Extensões Fonéticas 128 128 Cirílico (2 caracteres), grego (15 caracteres), latino (111 caracteres)
 0 BMP U + 1D80..U + 1DBF Suplemento de extensões fonéticas 64 64 Grego (1 caractere), latino (63 caracteres)
 0 BMP U + 1DC0..U + 1DFF Suplemento de combinação de marcas diacríticas 64 64 Herdado
 0 BMP U + 1E00..U + 1EFF Adicional estendido latino 256 256 Latina
 0 BMP U + 1F00..U + 1FFF Grego estendido 256 233 grego
 0 BMP U + 2000..U + 206F Pontuação Geral 112 111 Comum (109 caracteres), herdado (2 caracteres)
 0 BMP U + 2070..U + 209F Sobrescritos e subscritos 48 42 Latim (15 caracteres), Comum (27 caracteres)
 0 BMP U + 20A0..U + 20CF Símbolos de Moeda 48 33 Comum
 0 BMP U + 20D0..U + 20FF Combinando Marcas Diacríticas para Símbolos 48 33 Herdado
 0 BMP U + 2100..U + 214F Símbolos semelhantes a letras 80 80 Grego (1 caractere), latino (4 caracteres), Comum (75 caracteres)
 0 BMP U + 2150..U + 218F Formulários numéricos 64 60 Latim (41 caracteres), Comum (19 caracteres)
 0 BMP U + 2190..U + 21FF Setas; flechas 112 112 Comum
 0 BMP U + 2200..U + 22FF Operadores matemáticos 256 256 Comum
 0 BMP U + 2300..U + 23FF Técnico Diverso 256 256 Comum
 0 BMP U + 2400..U + 243F Imagens de controle 64 39 Comum
 0 BMP U + 2440..U + 245F Reconhecimento Ótico de Caracteres 32 11 Comum
 0 BMP U + 2460..U + 24FF Alfanuméricos incluídos 160 160 Comum
 0 BMP U + 2500..U + 257F Desenho da Caixa 128 128 Comum
 0 BMP U + 2580..U + 259F Elementos de Bloco 32 32 Comum
 0 BMP U + 25A0..U + 25FF Formas geométricas 96 96 Comum
 0 BMP U + 2600..U + 26FF Símbolos Diversos 256 256 Comum
 0 BMP U + 2700..U + 27BF Dingbats 192 192 Comum
 0 BMP U + 27C0..U + 27EF Símbolos Matemáticos Diversos-A 48 48 Comum
 0 BMP U + 27F0..U + 27FF Setas Suplementares-A 16 16 Comum
 0 BMP U + 2800..U + 28FF Padrões de Braille 256 256 Braille
 0 BMP U + 2900..U + 297F Setas Suplementares-B 128 128 Comum
 0 BMP U + 2980..U + 29FF Símbolos Matemáticos Diversos-B 128 128 Comum
 0 BMP U + 2A00..U + 2AFF Operadores matemáticos suplementares 256 256 Comum
 0 BMP U + 2B00..U + 2BFF Símbolos e Setas Diversos 256 253 Comum
 0 BMP U + 2C00..U + 2C5F Glagolítico 96 96 Glagolítico
 0 BMP U + 2C60..U + 2C7F Latim Extended-C 32 32 Latina
 0 BMP U + 2C80..U + 2CFF cóptico 128 123 cóptico
 0 BMP U + 2D00..U + 2D2F Suplemento georgiano 48 40 Georgiano
 0 BMP U + 2D30..U + 2D7F Tifinagh 80 59 Tifinagh
 0 BMP U + 2D80..U + 2DDF Etíope Estendido 96 79 Etíope
 0 BMP U + 2DE0..U + 2DFF Cirílico Extended-A 32 32 cirílico
 0 BMP U + 2E00..U + 2E7F Pontuação Suplementar 128 94 Comum
 0 BMP U + 2E80..U + 2EFF Suplemento CJK Radicals 128 115 Han
 0 BMP U + 2F00..U + 2FDF Radicais Kangxi 224 214 Han
 0 BMP U + 2FF0..U + 2FFF Caracteres de descrição ideográfica 16 12 Comum
 0 BMP U + 3000..U + 303F Símbolos e pontuação CJK 64 64 Han (15 caracteres), Hangul (2 caracteres), Comum (43 caracteres), Herdado (4 caracteres)
 0 BMP U + 3040..U + 309F Hiragana 96 93 Hiragana (89 caracteres), Comum (2 caracteres), Herdado (2 caracteres)
 0 BMP U + 30A0..U + 30FF Katakana 96 96 Katakana (93 caracteres), Comum (3 caracteres)
 0 BMP U + 3100..U + 312F Bopomofo 48 43 Bopomofo
 0 BMP U + 3130..U + 318F Hangul Compatibility Jamo 96 94 Hangul
 0 BMP U + 3190..U + 319F Kanbun 16 16 Comum
 0 BMP U + 31A0..U + 31BF Bopomofo Extended 32 32 Bopomofo
 0 BMP U + 31C0..U + 31EF CJK Strokes 48 36 Comum
 0 BMP U + 31F0..U + 31FF Extensões Fonéticas Katakana 16 16 Katakana
 0 BMP U + 3200..U + 32FF Cartas CJK Incluídas e Meses 256 255 Hangul (62 caracteres), Katakana (47 caracteres), Comum (146 caracteres)
 0 BMP U + 3300..U + 33FF Compatibilidade CJK 256 256 Katakana (88 caracteres), Comum (168 caracteres)
 0 BMP U + 3400..U + 4DBF CJK Unified Ideographs Extension A 6.592 6.592 Han
 0 BMP U + 4DC0..U + 4DFF Símbolos de hexagrama Yijing 64 64 Comum
 0 BMP U + 4E00..U + 9FFF CJK Unified Ideographs 20.992 20.992 Han
 0 BMP U + A000..U + A48F Sílabas Yi 1.168 1.165 Yi
 0 BMP U + A490..U + A4CF Yi Radicals 64 55 Yi
 0 BMP U + A4D0..U + A4FF Lisu 48 48 Lisu
 0 BMP U + A500..U + A63F Vai 320 300 Vai
 0 BMP U + A640..U + A69F Cirílico estendido-B 96 96 cirílico
 0 BMP U + A6A0..U + A6FF Bamum 96 88 Bamum
 0 BMP U + A700..U + A71F Letras de tom modificador 32 32 Comum
 0 BMP U + A720..U + A7FF Latim Extended-D 224 193 Latino (188 caracteres), Comum (5 caracteres)
 0 BMP U + A800..U + A82F Syloti Nagri 48 45 Syloti Nagri
 0 BMP U + A830..U + A83F Formulários de números índicos comuns 16 10 Comum
 0 BMP U + A840..U + A87F Phags-pa 64 56 Phags Pa
 0 BMP U + A880..U + A8DF Saurashtra 96 82 Saurashtra
 0 BMP U + A8E0..U + A8FF Devanágari Estendido 32 32 Devanágari
 0 BMP U + A900..U + A92F Kayah Li 48 48 Kayah Li (47 caracteres), Comum (1 caractere)
 0 BMP U + A930..U + A95F Rejang 48 37 Rejang
 0 BMP U + A960..U + A97F Hangul Jamo Extended-A 32 29 Hangul
 0 BMP U + A980..U + A9DF Javanês 96 91 Javanês (90 caracteres), Comum (1 caractere)
 0 BMP U + A9E0..U + A9FF Myanmar Extended-B 32 31 Myanmar
 0 BMP U + AA00..U + AA5F Cham 96 83 Cham
 0 BMP U + AA60..U + AA7F Mianmar Extended-A 32 32 Myanmar
 0 BMP U + AA80..U + AADF Tai Viet 96 72 Tai Viet
 0 BMP U + AAE0..U + AAFF Extensões Meetei Mayek 32 23 Meetei Mayek
 0 BMP U + AB00..U + AB2F Ethiopic Extended-A 48 32 Etíope
 0 BMP U + AB30..U + AB6F Latim Extended-E 64 60 Latim (56 caracteres), Grego (1 caractere), Comum (3 caracteres)
 0 BMP U + AB70..U + ABBF Suplemento Cherokee 80 80 Cherokee
 0 BMP U + ABC0..U + ABFF Meetei Mayek 64 56 Meetei Mayek
 0 BMP U + AC00..U + D7AF Sílabas hangul 11.184 11.172 Hangul
 0 BMP U + D7B0..U + D7FF Hangul Jamo Extended-B 80 72 Hangul
 0 BMP U + D800..U + DB7F Altas substitutas 896 0 Desconhecido
 0 BMP U + DB80..U + DBFF Substitutos de alto uso privado 128 0 Desconhecido
 0 BMP U + DC00..U + DFFF Substitutos baixos 1.024 0 Desconhecido
 0 BMP U + E000..U + F8FF Área de Uso Privado 6.400 6.400 Desconhecido
 0 BMP U + F900..U + FAFF Ideogramas de compatibilidade CJK 512 472 Han
 0 BMP U + FB00..U + FB4F Formulários de apresentação alfabética 80 58 Armênio (5 caracteres), hebraico (46 caracteres), latino (7 caracteres)
 0 BMP U + FB50..U + FDFF Formulários de apresentação em árabe-A 688 631 Árabe (629 caracteres), Comum (2 caracteres)
 0 BMP U + FE00..U + FE0F Seletores de variação 16 16 Herdado
 0 BMP U + FE10..U + FE1F Formas Verticais 16 10 Comum
 0 BMP U + FE20..U + FE2F Combinando Meias Marcas 16 16 Cirílico (2 caracteres), Herdado (14 caracteres)
 0 BMP U + FE30..U + FE4F Formulários de compatibilidade CJK 32 32 Comum
 0 BMP U + FE50..U + FE6F Variantes de forma pequena 32 26 Comum
 0 BMP U + FE70..U + FEFF Formas de apresentação em árabe-B 144 141 Árabe (140 caracteres), Comum (1 caractere)
 0 BMP U + FF00..U + FFEF Formas de meia largura e largura total 240 225 Hangul (52 caracteres), Katakana (55 caracteres), Latino (52 caracteres), Comum (66 caracteres)
 0 BMP U + FFF0..U + FFFF Especiais 16 5 Comum
 1 SMP U + 10000..U + 1007F Linear B Silabário 128 88 Linear B
 1 SMP U + 10080..U + 100FF Ideogramas Lineares B 128 123 Linear B
 1 SMP U + 10100..U + 1013F Números do Egeu 64 57 Comum
 1 SMP U + 10140..U + 1018F Números da Grécia Antiga 80 79 grego
 1 SMP U + 10190..U + 101CF Símbolos Antigos 64 14 Grego (1 caractere), Comum (13 caracteres)
 1 SMP U + 101D0..U + 101FF Disco de Phaistos 48 46 Comum (45 caracteres), Herdado (1 caractere)
 1 SMP U + 10280..U + 1029F Lícia 32 29 Lícia
 1 SMP U + 102A0..U + 102DF Carian 64 49 Carian
 1 SMP U + 102E0..U + 102FF Números de epacto copta 32 28 Comum (27 caracteres), Herdado (1 caractere)
 1 SMP U + 10300..U + 1032F Itálico antigo 48 39 Itálico antigo
 1 SMP U + 10330..U + 1034F gótico 32 27 gótico
 1 SMP U + 10350..U + 1037F Old Permic 48 43 Old Permic
 1 SMP U + 10380..U + 1039F Ugarítico 32 31 Ugarítico
 1 SMP U + 103A0..U + 103DF Persa antigo 64 50 Persa antigo
 1 SMP U + 10400..U + 1044F Deseret 80 80 Deseret
 1 SMP U + 10450..U + 1047F Shavian 48 48 Shavian
 1 SMP U + 10480..U + 104AF Osmanya 48 40 Osmanya
 1 SMP U + 104B0..U + 104FF Osage 80 72 Osage
 1 SMP U + 10500..U + 1052F Elbasan 48 40 Elbasan
 1 SMP U + 10530..U + 1056F Albanês caucasiano 64 53 Albanês caucasiano
 1 SMP U + 10570..U + 105BF Vithkuqi 80 70 Vithkuqi
 1 SMP U + 10600..U + 1077F Linear A 384 341 Linear A
 1 SMP U + 10780..U + 107BF Latim Extended-F 64 57 Latina
 1 SMP U + 10800..U + 1083F Silabário cipriota 64 55 Cipriota
 1 SMP U + 10840..U + 1085F Aramaico imperial 32 31 Aramaico imperial
 1 SMP U + 10860..U + 1087F Palmireno 32 32 Palmireno
 1 SMP U + 10880..U + 108AF Nabateu 48 40 Nabateu
 1 SMP U + 108E0..U + 108FF Hatran 32 26 Hatran
 1 SMP U + 10900..U + 1091F Fenício 32 29 Fenício
 1 SMP U + 10920..U + 1093F Lídio 32 27 Lídio
 1 SMP U + 10980..U + 1099F Hieróglifos Meroíticos 32 32 Hieróglifos Meroíticos
 1 SMP U + 109A0..U + 109FF Meroitic Cursive 96 90 Meroitic Cursive
 1 SMP U + 10A00..U + 10A5F Kharoshthi 96 68 Kharoshthi
 1 SMP U + 10A60..U + 10A7F Old South Arabian 32 32 Old South Arabian
 1 SMP U + 10A80..U + 10A9F Old North Arabian 32 32 Old North Arabian
 1 SMP U + 10AC0..U + 10AFF Maniqueísta 64 51 Maniqueísta
 1 SMP U + 10B00..U + 10B3F Avestan 64 61 Avestan
 1 SMP U + 10B40..U + 10B5F Parta inscrita 32 30 Parta inscrita
 1 SMP U + 10B60..U + 10B7F Pahlavi inscrito 32 27 Pahlavi inscrito
 1 SMP U + 10B80..U + 10BAF Saltério Pahlavi 48 29 Saltério Pahlavi
 1 SMP U + 10C00..U + 10C4F Turco antigo 80 73 Turco antigo
 1 SMP U + 10C80..U + 10CFF Húngaro antigo 128 108 Húngaro antigo
 1 SMP U + 10D00..U + 10D3F Hanifi Rohingya 64 50 Hanifi Rohingya
 1 SMP U + 10E60..U + 10E7F Símbolos Numéricos Rumi 32 31 árabe
 1 SMP U + 10E80..U + 10EBF Iazidi 64 47 Iazidi
 1 SMP U + 10F00..U + 10F2F Old Sogdian 48 40 Old Sogdian
 1 SMP U + 10F30..U + 10F6F Sogdian 64 42 Sogdian
 1 SMP U + 10F70..U + 10FAF Velho uigur 64 26 Velho uigur
 1 SMP U + 10FB0..U + 10FDF Chorasmian 48 28 Chorasmian
 1 SMP U + 10FE0..U + 10FFF Elymaic 32 23 Elymaic
 1 SMP U + 11000..U + 1107F Brahmi 128 115 Brahmi
 1 SMP U + 11080..U + 110CF Kaithi 80 68 Kaithi
 1 SMP U + 110D0..U + 110FF Sora Sompeng 48 35 Sora Sompeng
 1 SMP U + 11100..U + 1114F Chakma 80 71 Chakma
 1 SMP U + 11150..U + 1117F Mahajani 48 39 Mahajani
 1 SMP U + 11180..U + 111DF Sharada 96 96 Sharada
 1 SMP U + 111E0..U + 111FF Números Arcaicos Sinhala 32 20 Cingalês
 1 SMP U + 11200..U + 1124F Khojki 80 62 Khojki
 1 SMP U + 11280..U + 112AF Multani 48 38 Multani
 1 SMP U + 112B0..U + 112FF Khudawadi 80 69 Khudawadi
 1 SMP U + 11300..U + 1137F Grantha 128 86 Grantha (85 caracteres), herdado (1 caractere)
 1 SMP U + 11400..U + 1147F Newa 128 97 Newa
 1 SMP U + 11480..U + 114DF Tirhuta 96 82 Tirhuta
 1 SMP U + 11580..U + 115FF Siddham 128 92 Siddham
 1 SMP U + 11600..U + 1165F Modi 96 79 Modi
 1 SMP U + 11660..U + 1167F Suplemento Mongol 32 13 mongol
 1 SMP U + 11680..U + 116CF Takri 80 68 Takri
 1 SMP U + 11700..U + 1174F Ahom 80 65 Ahom
 1 SMP U + 11800..U + 1184F Dogra 80 60 Dogra
 1 SMP U + 118A0..U + 118FF Warang Citi 96 84 Warang Citi
 1 SMP U + 11900..U + 1195F Dives Akuru 96 72 Dives Akuru
 1 SMP U + 119A0..U + 119FF Nandinagari 96 65 Nandinagari
 1 SMP U + 11A00..U + 11A4F Praça Zanabazar 80 72 Praça Zanabazar
 1 SMP U + 11A50..U + 11AAF Soyombo 96 83 Soyombo
 1 SMP U + 11AB0..U + 11ABF Syllabics aboriginal canadense unificado estendido-A 16 16 Aborígine canadense
 1 SMP U + 11AC0..U + 11AFF Pau Cin Hau 64 57 Pau Cin Hau
 1 SMP U + 11C00..U + 11C6F Bhaiksuki 112 97 Bhaiksuki
 1 SMP U + 11C70..U + 11CBF Marchen 80 68 Marchen
 1 SMP U + 11D00..U + 11D5F Masaram Gondi 96 75 Masaram Gondi
 1 SMP U + 11D60..U + 11DAF Gunjala Gondi 80 63 Gunjala Gondi
 1 SMP U + 11EE0..U + 11EFF Makasar 32 25 Makasar
 1 SMP U + 11FB0..U + 11FBF Suplemento Lisu 16 1 Lisu
 1 SMP U + 11FC0..U + 11FFF Suplemento de Tamil 64 51 tâmil
 1 SMP U + 12000..U + 123FF Cuneiforme 1.024 922 Cuneiforme
 1 SMP U + 12400..U + 1247F Números cuneiformes e pontuação 128 116 Cuneiforme
 1 SMP U + 12480..U + 1254F Cuneiforme Dinástico Inferior 208 196 Cuneiforme
 1 SMP U + 12F90..U + 12FFF Cypro-Minoan 112 99 Cypro Minoan
 1 SMP U + 13000..U + 1342F Hieróglifos egípcios 1.072 1.071 Hieróglifos egípcios
 1 SMP U + 13430..U + 1343F Controles de formato de hieróglifo egípcio 16 9 Hieróglifos egípcios
 1 SMP U + 14400..U + 1467F Hieróglifos da Anatólia 640 583 Hieróglifos da Anatólia
 1 SMP U + 16800..U + 16A3F Suplemento Bamum 576 569 Bamum
 1 SMP U + 16A40..U + 16A6F Mro 48 43 Mro
 1 SMP U + 16A70..U + 16ACF Tangsa 96 89 Tangsa
 1 SMP U + 16AD0..U + 16AFF Bassa Vah 48 36 Bassa Vah
 1 SMP U + 16B00..U + 16B8F Pahawh Hmong 144 127 Pahawh Hmong
 1 SMP U + 16E40..U + 16E9F Medefaidrin 96 91 Medefaidrin
 1 SMP U + 16F00..U + 16F9F Miao 160 149 Miao
 1 SMP U + 16FE0..U + 16FFF Símbolos ideográficos e pontuação 32 7 Han (4 caracteres), Khitan Small Script (1 caractere), Nushu (1 caractere), Tangut (1 caractere)
 1 SMP U + 17000..U + 187FF Tangut 6.144 6.136 Tangut
 1 SMP U + 18800..U + 18AFF Componentes Tangut 768 768 Tangut
 1 SMP U + 18B00..U + 18CFF Khitan Small Script 512 470 Khitan Small Script
 1 SMP U + 18D00..U + 18D7F Suplemento Tangut 128 9 Tangut
 1 SMP U + 1AFF0..U + 1AFFF Kana Extended-B 16 13 Katakana
 1 SMP U + 1B000..U + 1B0FF Suplemento Kana 256 256 Hiragana (255 caracteres), Katakana (1 caractere)
 1 SMP U + 1B100..U + 1B12F Kana Extended-A 48 35 Hiragana (32 caracteres), Katakana (3 caracteres)
 1 SMP U + 1B130..U + 1B16F Extensão Kana pequena 64 7 Hiragana (3 caracteres), Katakana (4 caracteres)
 1 SMP U + 1B170..U + 1B2FF Nushu 400 396 Nüshu
 1 SMP U + 1BC00..U + 1BC9F Duployan 160 143 Duployan
 1 SMP U + 1BCA0..U + 1BCAF Controles de formato abreviado 16 4 Comum
 1 SMP U + 1CF00..U + 1CFCF Notação Musical Znamenny 208 185 Comum (116 caracteres), herdado (69 caracteres)
 1 SMP U + 1D000..U + 1D0FF Símbolos Musicais Bizantinos 256 246 Comum
 1 SMP U + 1D100..U + 1D1FF Símbolos Musicais 256 233 Comum (211 caracteres), herdado (22 caracteres)
 1 SMP U + 1D200..U + 1D24F Notação Musical Grega Antiga 80 70 grego
 1 SMP U + 1D2E0..U + 1D2FF Algarismos maias 32 20 Comum
 1 SMP U + 1D300..U + 1D35F Símbolos de Tai Xuan Jing 96 87 Comum
 1 SMP U + 1D360..U + 1D37F Números da barra de contagem 32 25 Comum
 1 SMP U + 1D400..U + 1D7FF Símbolos Alfanuméricos Matemáticos 1.024 996 Comum
 1 SMP U + 1D800..U + 1DAAF Sutton SignWriting 688 672 SignWriting
 1 SMP U + 1DF00..U + 1DFFF Latim Extended-G 256 31 Latina
 1 SMP U + 1E000..U + 1E02F Suplemento Glagolítico 48 38 Glagolítico
 1 SMP U + 1E100..U + 1E14F Nyiakeng Puachue Hmong 80 71 Nyiakeng Puachue Hmong
 1 SMP U + 1E290..U + 1E2BF Totó 48 31 Totó
 1 SMP U + 1E2C0..U + 1E2FF Wancho 64 59 Wancho
 1 SMP U + 1E7E0..U + 1E7FF Ethiopic Extended-B 32 28 Etíope
 1 SMP U + 1E800..U + 1E8DF Mende Kikakui 224 213 Mende Kikakui
 1 SMP U + 1E900..U + 1E95F Adlam 96 88 Adlam
 1 SMP U + 1EC70..U + 1ECBF Números índicos de Siyaq 80 68 Comum
 1 SMP U + 1ED00..U + 1ED4F Números Otomanos de Siyaq 80 61 Comum
 1 SMP U + 1EE00..U + 1EEFF Símbolos alfabéticos matemáticos árabes 256 143 árabe
 1 SMP U + 1F000..U + 1F02F Mahjong Tiles 48 44 Comum
 1 SMP U + 1F030..U + 1F09F Domino Tiles 112 100 Comum
 1 SMP U + 1F0A0..U + 1F0FF Cartas de jogar 96 82 Comum
 1 SMP U + 1F100..U + 1F1FF Suplemento Alfanumérico Incluído 256 200 Comum
 1 SMP U + 1F200..U + 1F2FF Suplemento ideográfico fechado 256 64 Hiragana (1 caractere), Comum (63 caracteres)
 1 SMP U + 1F300..U + 1F5FF Símbolos e pictogramas diversos 768 768 Comum
 1 SMP U + 1F600..U + 1F64F Emoticons 80 80 Comum
 1 SMP U + 1F650..U + 1F67F Dingbats ornamentais 48 48 Comum
 1 SMP U + 1F680..U + 1F6FF Transporte e símbolos de mapa 128 117 Comum
 1 SMP U + 1F700..U + 1F77F Símbolos Alquímicos 128 116 Comum
 1 SMP U + 1F780..U + 1F7FF Formas geométricas estendidas 128 102 Comum
 1 SMP U + 1F800..U + 1F8FF Setas Suplementares-C 256 150 Comum
 1 SMP U + 1F900..U + 1F9FF Símbolos e pictogramas suplementares 256 256 Comum
 1 SMP U + 1FA00..U + 1FA6F Símbolos de xadrez 112 98 Comum
 1 SMP U + 1FA70..U + 1FAFF Símbolos e pictogramas estendidos-A 144 88 Comum
 1 SMP U + 1FB00..U + 1FBFF Símbolos para computação legada 256 212 Comum
 2 SIP U + 20000..U + 2A6DF CJK Unified Ideographs Extension B 42.720 42.720 Han
 2 SIP U + 2A700..U + 2B73F CJK Unified Ideographs Extension C 4.160 4.153 Han
 2 SIP U + 2B740..U + 2B81F CJK Unified Ideographs Extension D 224 222 Han
 2 SIP U + 2B820..U + 2CEAF CJK Unified Ideographs Extension E 5.776 5.762 Han
 2 SIP U + 2CEB0..U + 2EBEF CJK Unified Ideographs Extension F 7.488 7.473 Han
 2 SIP U + 2F800..U + 2FA1F Suplemento de ideogramas de compatibilidade CJK 544 542 Han
 3 DICA U + 30000..U + 3134F CJK Unified Ideographs Extension G 4.944 4.939 Han
14 SSP U + E0000..U + E007F Tag 128 97 Comum
14 SSP U + E0100..U + E01EF Suplemento de Seletores de Variação 240 240 Herdado
15 PUA-A U + F0000..U + FFFFF Área de uso privado suplementar-A 65.536 65.534 Desconhecido
16 PUA-B U + 100000..U + 10FFFF Área de uso privado suplementar-B 65.536 65.534 Desconhecido

Roteiro

Cada caractere atribuído pode ter um único valor para sua propriedade "Script", indicando a qual script pertence. O valor é um código de quatro letras no intervalo Aaaa-Zzzz, conforme disponível na ISO 15924, que é mapeado para um sistema de escrita . Além de descrever o plano de fundo e o uso de um script, o Unicode não usa uma conexão entre um script e as linguagens que usam esse script. Portanto, "hebraico" se refere à escrita hebraica, não ao idioma hebraico.

O código especial Zyyy para "Comum" permite um único valor para um caractere que é usado em vários scripts. O código Zinh "script herdado", usado para combinar caracteres e alguns outros pontos de código de propósito especial, indica que um caractere "herda" sua identidade de script do caractere com o qual é combinado. (O Unicode costumava usar o código privado Qaai para esse propósito.) O código Zzzz "Desconhecido" é usado para todos os caracteres que não pertencem a um script (ou seja, o valor padrão), como símbolos e caracteres de formatação. No geral, os caracteres de um único script podem ser espalhados por vários blocos, como os caracteres latinos . E o contrário também: vários scripts podem estar presentes em um único bloco, por exemplo, o bloco Letterlike Symbols contém caracteres dos scripts latinos, gregos e comuns.

Quando o Script é "" (em branco), de acordo com o Unicode o caractere não pertence a um script. Isso se aplica aos símbolos, porque os códigos de script ISO existentes "Zmth" (notação matemática), "Zsym" (símbolo) e "Zsye" (símbolo, variante emoji) não são usados ​​em Unicode. A propriedade "Script" também fica em branco para pontos de código que não são caracteres tipográficos, como controles, substitutos e pontos de código de uso privado.

Se houver um nome de alias script específico na ISO 15924, é usado no nome do personagem: U + 0041 A LATIN CAPITAL LETTER A e U + 05D0 א HEBRÉIA CARTA ALEF .


ISO 15924 Script em Unicode
Código Nome formal ISO Direcionalidade Unicode Alias Versão Personagens Notas Descrição
Adlm Adlam script da direita para a esquerda Edite isso no Wikidata Adlam 9,0 88 Ch 19.9
Afak Afaka varia ZZ- Não em Unicode, a proposta é explorada
Aghb Albanês caucasiano da esquerda para direita Edite isso no Wikidata Albanês caucasiano 7,0 53 Antiga / histórica Ch 8.11
Ahom Ahom tai ahom da esquerda para direita Edite isso no Wikidata Ahom 8,0 65 Antiga / histórica Ch 15.15
árabe árabe script da direita para a esquerda Edite isso no Wikidata árabe 1.0 1.365 Ch 9.2
Aran Árabe (variante Nastaliq) misturado ZZ- Variante tipográfica do árabe ( § árabe )
Armi Aramaico imperial script da direita para a esquerda Edite isso no Wikidata Aramaico imperial 5,2 31 Antiga / histórica Ch 10.4
Armn Armênio da esquerda para direita Edite isso no Wikidata Armênio 1.0 96 Ch 7.6
Avst Avestan script da direita para a esquerda Edite isso no Wikidata Avestan 5,2 61 Antiga / histórica Ch 10.7
Bali Balinesa da esquerda para direita Edite isso no Wikidata Balinesa 5.0 124 Ch 17.3
Bamu Bamum da esquerda para direita Edite isso no Wikidata Bamum 5,2 657 Ch 19.6
Baixo Bassa Vah da esquerda para direita Edite isso no Wikidata Bassa Vah 7,0 36 Antiga / histórica Ch 19.7
Batk Batak da esquerda para direita Edite isso no Wikidata Batak 6,0 56 Ch 17.6
Beng Bengali (bangla) da esquerda para direita Edite isso no Wikidata bengali 1.0 96 Ch 12.2
Bhks Bhaiksuki da esquerda para direita Edite isso no Wikidata Bhaiksuki 9,0 97 Antiga / histórica Ch 14.3
Blis Blissymbols varia ZZ- Não em Unicode, a proposta é explorada
Bopo Bopomofo da esquerda para direita Edite isso no Wikidata Bopomofo 1.0 77 Ch 18.3
Brah Brahmi da esquerda para direita Edite isso no Wikidata Brahmi 6,0 115 Antiga / histórica Ch 14.1
Brai Braille da esquerda para direita Edite isso no Wikidata Braille 3,0 256 Ch 21.1
Bugi Buginês da esquerda para direita Edite isso no Wikidata Buginês 4,1 30 Ch 17.2
Buhd Buhid da esquerda para direita Edite isso no Wikidata Buhid 3,2 20 Ch 17.1
Cakm Chakma da esquerda para direita Edite isso no Wikidata Chakma 6,1 71 Ch 13.11
Latas Syllabics aboriginal canadense unificado da esquerda para direita Edite isso no Wikidata Aborígine canadense 3,0 726 Ch 20.2
Cari Carian script da esquerda para a direita, da direita para a esquerda Edite isso no Wikidata Carian 5,1 49 Antiga / histórica Ch 8.5
Cham Cham da esquerda para direita Edite isso no Wikidata Cham 5,1 83 Ch 16.10
Cher Cherokee da esquerda para direita Edite isso no Wikidata Cherokee 3,0 172 Ch 20.1
Chrs Chorasmian script da direita para a esquerda , de cima para baixo Edite isso no Wikidata Chorasmian 13,0 28 Antiga / histórica Ch 10.8
Cirt Cirth varia ZZ- Não em Unicode
Copta cóptico da esquerda para direita Edite isso no Wikidata cóptico 1.0 137 Antigo / histórico, desunificado do grego em 4.1 Ch 7.3
Cpmn Cypro-Minoan da esquerda para direita Cypro Minoan 14,0 99 Antiga / histórica Ch 8.4
Cprt Silabário cipriota script da direita para a esquerda Edite isso no Wikidata Cipriota 4,0 55 Antiga / histórica Ch 8.3
Cyrl cirílico da esquerda para direita Edite isso no Wikidata cirílico 1.0 443 Inclui a variante tipográfica Old Church Slavonic ( § Cyrs) Ch 7.4
Cyrs Cirílico (variante eslavo da Igreja Antiga) varia ZZ- Variante tipográfica do cirílico ( § Cyrl ) Antiga / histórica
Deva Devanágari (Nagari) da esquerda para direita Edite isso no Wikidata Devanágari 1.0 154 Ch 12.1
Diak Dives Akuru da esquerda para direita Edite isso no Wikidata Dives Akuru 13,0 72 Antiga / histórica Ch 15.14
Dogr Dogra da esquerda para direita Edite isso no Wikidata Dogra 11,0 60 Antiga / histórica Ch 15.17
Dsrt Deseret (mórmon) da esquerda para direita Edite isso no Wikidata Deseret 3,1 80 Ch 20.4
Dupl Taquigrafia de Duployan, estenografia de Duployan da esquerda para direita Edite isso no Wikidata Duployan 7,0 143 Ch 21.6
Egyd Demótico egípcio misturado ZZ- Não em Unicode
Egyh Hierático egípcio misturado ZZ- Não em Unicode
Egyp Hieróglifos egípcios script da direita para a esquerda Edite isso no Wikidata Hieróglifos egípcios 5,2 1.080 Antiga / histórica Ch 11.4
Elba Elbasan da esquerda para direita Edite isso no Wikidata Elbasan 7,0 40 Antiga / histórica Ch 8.10
Elym Elymaic script da direita para a esquerda Edite isso no Wikidata Elymaic 12,0 23 Antiga / histórica Ch 10.9
Ethi Etíope (Geʻez) da esquerda para direita Edite isso no Wikidata Etíope 3,0 523 Ch 19.1
Geok Khutsuri (Asomtavruli e Nuskhuri) da esquerda para direita Edite isso no Wikidata Georgiano O Unicode agrupa "Khutsori", "Asomtavruli" e "Nuskhuri" em "Georgiano" ( § Geok ). Além disso, "Mkhedruli" e "Mtavruli" são "georgianos" ( § Geor ) Ch 7.7
Geor Georgiano (Mkhedruli e Mtavruli) da esquerda para direita Edite isso no Wikidata Georgiano 1.0 173 Em Unicode, também inclui Geok (Nuskhuri) Ch 7.7
Glag Glagolítico da esquerda para direita Edite isso no Wikidata Glagolítico 4,1 134 Antiga / histórica Ch 7.5
Gongo Gunjala Gondi da esquerda para direita Edite isso no Wikidata Gunjala Gondi 11,0 63 Ch 13.15
Gonm Masaram Gondi da esquerda para direita Edite isso no Wikidata Masaram Gondi 10,0 75 Ch 13.14
Gótico gótico da esquerda para direita Edite isso no Wikidata gótico 3,1 27 Antiga / histórica Ch 8.9
Vovó Grantha da esquerda para direita Edite isso no Wikidata Grantha 7,0 85 Antiga / histórica Ch 15.13
Grek grego da esquerda para direita Edite isso no Wikidata grego 1.0 518 Direcionalidade às vezes como boustrophedon Ch 7.2
Gujr Guzerate da esquerda para direita Edite isso no Wikidata Guzerate 1.0 91 Ch 12.4
Guru Gurmukhi da esquerda para direita Edite isso no Wikidata Gurmukhi 1.0 80 Ch 12.3
Hanb Han com Bopomofo (apelido de Han + Bopomofo) misturado ZZ- Veja § Hani , § Bopo
Aguentar Hangul (Hangŭl, Hangeul) da esquerda para a direita, de cima para baixo Edite isso no Wikidata Hangul 1.0 11.739 Sílabas hangul realocadas em 2.0 Ch 18.6
Hani Han (Hanzi, Kanji, Hanja) de cima para baixo, colunas da direita para a esquerda (historicamente) Han 1.0 94.215 Ch 18.1
Hano Hanunoo (Hanunóo) da esquerda para a direita, de baixo para cima Edite isso no Wikidata Hanunoo 3,2 21 Ch 17.1
Hans Han (variante simplificada) varia ZZ- Subconjunto de Han (Hanzi, Kanji, Hanja) ( § Hani )
Hant Han (variante tradicional) varia ZZ- Subconjunto de § Hani
Hatr Hatran script da direita para a esquerda Edite isso no Wikidata Hatran 8,0 26 Antiga / histórica Ch 10.12
Hebr hebraico script da direita para a esquerda Edite isso no Wikidata hebraico 1.0 134 Ch 9.1
Hira Hiragana de cima para baixo, da esquerda para a direita Edite isso no Wikidata Hiragana 1.0 380 Ch 18.4
Hluw Hieróglifos da Anatólia (hieróglifos de Luwian, hieróglifos hititas) da esquerda para direita Edite isso no Wikidata Hieróglifos da Anatólia 8,0 583 Antiga / histórica Ch 11.6
Hmng Pahawh Hmong da esquerda para direita Edite isso no Wikidata Pahawh Hmong 7,0 127 Ch 16.11
Hmnp Nyiakeng Puachue Hmong da esquerda para direita Edite isso no Wikidata Nyiakeng Puachue Hmong 12,0 71 Ch 16.12
Hrkt Silabários japoneses (apelido de Hiragana + Katakana) de cima para baixo, da esquerda para a direita Edite isso no Wikidata Katakana ou Hiragana Consulte § Hira , § Kana Ch 18.4
Pendurado Húngaro antigo (rúnico húngaro) script da direita para a esquerda Edite isso no Wikidata Húngaro antigo 8,0 108 Antiga / histórica Ch 8.8
Inds Indus (Harappan) misturado ZZ- Não em Unicode, a proposta é explorada
Ital Itálico antigo (etrusco, osco, etc.) script da direita para a esquerda , da esquerda para a direita Edite isso no Wikidata Itálico antigo 3,1 39 Antiga / histórica Ch 8.6
Jamo Jamo (alias do subconjunto Jamo de Hangul) varia ZZ- Subconjunto de § Hang
Java Javanês da esquerda para direita Edite isso no Wikidata Javanês 5,2 90 Ch 17.4
Jpan Japonês (alias de Han + Hiragana + Katakana) varia ZZ- Ver § Hani , § Hira e § Kana
Jurc Jurchen da esquerda para direita ZZ- Não em Unicode
Kali Kayah Li da esquerda para direita Edite isso no Wikidata Kayah Li 5,1 47 Ch 16.9
Kana Katakana de cima para baixo, da esquerda para a direita Edite isso no Wikidata Katakana 1.0 320 Ch 18.4
Khar Kharoshthi script da direita para a esquerda Edite isso no Wikidata Kharoshthi 4,1 68 Antiga / histórica Ch 14.2
Khmr Khmer da esquerda para direita Edite isso no Wikidata Khmer 3,0 146 Ch 16.4
Khoj Khojki da esquerda para direita Edite isso no Wikidata Khojki 7,0 62 Antiga / histórica Ch 15.7
Kitl Caligrafia khitana grande da esquerda para direita ZZ- Não em Unicode
Kits Pequena caligrafia khitana de cima para baixo Edite isso no Wikidata Khitan Small Script 13,0 471 Antiga / histórica Ch 18.12
Knda Canarim da esquerda para direita Edite isso no Wikidata Canarim 1.0 90 Ch 12.8
Kore Coreano (alias de Hangul + Han) da esquerda para direita ZZ- Ver § Hani , § Hang
Kpel Kpelle da esquerda para direita ZZ- Não em Unicode, a proposta é explorada
Kthi Kaithi da esquerda para direita Edite isso no Wikidata Kaithi 5,2 68 Antiga / histórica Ch 15.2
Lana Tai Tham (Lanna) da esquerda para direita Edite isso no Wikidata Tai Tham 5,2 127 Ch 16,7
Laoo Lao da esquerda para direita Edite isso no Wikidata Lao 1.0 82 Ch 16.2
Latf Latim (variante Fraktur) varia ZZ- Variante tipográfica do latim ( § Latn )
Latg Latim (variante gaélico) da esquerda para direita ZZ- Variante tipográfica do latim ( § Latn )
Latn Latina da esquerda para direita Edite isso no Wikidata Latina 1.0 1.475 Veja também: script latino em Unicode Ch 7.1
Leke Leke da esquerda para direita ZZ- Não em Unicode
Lepc Lepcha (Róng) da esquerda para direita Edite isso no Wikidata Lepcha 5,1 74 Ch 13.12
Membro Limbu da esquerda para direita Edite isso no Wikidata Limbu 4,0 68 Ch 13.6
Lina Linear A da esquerda para direita Edite isso no Wikidata Linear A 7,0 341 Antiga / histórica Ch 8.1
Linb Linear B da esquerda para direita Edite isso no Wikidata Linear B 4,0 211 Antiga / histórica Ch 8.2
Lisu Lisu (Fraser) da esquerda para direita Edite isso no Wikidata Lisu 5,2 49 Ch 18.9
Loma Loma da esquerda para direita ZZ- Não em Unicode, a proposta é explorada
Lyci Lícia da esquerda para direita Edite isso no Wikidata Lícia 5,1 29 Antiga / histórica Ch 8.5
Lydi Lídio script da direita para a esquerda Edite isso no Wikidata Lídio 5,1 27 Antiga / histórica Ch 8.5
Mahj Mahajani da esquerda para direita Edite isso no Wikidata Mahajani 7,0 39 Antiga / histórica Ch 15.6
Maka Makasar da esquerda para direita Edite isso no Wikidata Makasar 11,0 25 Antiga / histórica Ch 17.8
Mand Mandáico, mandeísta script da direita para a esquerda Edite isso no Wikidata Mandaico 6,0 29 Ch 9.5
Mani Maniqueísta script da direita para a esquerda Edite isso no Wikidata Maniqueísta 7,0 51 Antiga / histórica Ch 10.5
Marc Marchen da esquerda para direita Edite isso no Wikidata Marchen 9,0 68 Antiga / histórica Ch 14.5
Maia Hieróglifos maias misturado ZZ- Não em Unicode
Medf Medefaidrin (Oberi Okaime, Oberi Ɔkaimɛ) da esquerda para a direita, da esquerda para a direita Edite isso no Wikidata Medefaidrin 11,0 91 Ch 19.10
Emendar Mende Kikakui script da direita para a esquerda Edite isso no Wikidata Mende Kikakui 7,0 213 Ch 19.8
Merc Meroitic Cursive script da direita para a esquerda Edite isso no Wikidata Meroitic Cursive 6,1 90 Antiga / histórica Ch 11.5
Mero Hieróglifos Meroíticos script da direita para a esquerda Edite isso no Wikidata Hieróglifos Meroíticos 6,1 32 Antiga / histórica Ch 11.5
Mlym Malaiala da esquerda para direita Edite isso no Wikidata Malaiala 1.0 118 Ch 12.9
Modi Modi, Moḍī da esquerda para direita Edite isso no Wikidata Modi 7,0 79 Antiga / histórica Ch 15.11
Mong mongol de cima para baixo, da esquerda para a direita Edite isso no Wikidata mongol 3,0 168 Mong inclui scripts Clear e Manchu Ch 13.5
Lua Lua (código da lua, script da lua, tipo da lua) misturado ZZ- Não em Unicode, a proposta é explorada
Mroo Mro, Mru da esquerda para direita Edite isso no Wikidata Mro 7,0 43 Ch 13.8
Mtei Meitei Mayek (Meithei, Meetei) da esquerda para direita Edite isso no Wikidata Meetei Mayek 5,2 79 Ch 13.7
Mult Multani da esquerda para direita Edite isso no Wikidata Multani 8,0 38 Antiga / histórica Ch 15.9
Mymr Mianmar (birmanês) da esquerda para direita Edite isso no Wikidata Myanmar 3,0 223 Ch 16.3
Nand Nandinagari da esquerda para direita Edite isso no Wikidata Nandinagari 12,0 65 Antiga / histórica Ch 15.12
Narb Antiga Arábia do Norte (Antiga Arábia do Norte) da direita para a esquerda roteiro , da direita para a esquerda roteiro Edite isso no Wikidata Old North Arabian 7,0 32 Antiga / histórica Ch 10.1
Nbat Nabateu script da direita para a esquerda Edite isso no Wikidata Nabateu 7,0 40 Antiga / histórica Ch 10.10
Newa Newa, Newar, Newari, Nepāla lipi da esquerda para direita Edite isso no Wikidata Newa 9,0 97 Ch 13.3
Nkdb Naxi Dongba (na²¹ɕi³³ a³³ba²¹, Nakhi Tomba) da esquerda para direita ZZ- Não em Unicode
Nkgb Nakhi Geba (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-¹baw, Nakhi Geba) da esquerda para direita ZZ- Não em Unicode, a proposta é explorada
Nkoo N'Ko script da direita para a esquerda Edite isso no Wikidata NKo 5.0 62 Ch 19.4
Nshu Nüshu de cima para baixo Edite isso no Wikidata Nushu 10,0 397 Ch 18.8
Ogam Ogham de baixo para cima, da esquerda para a direita Edite isso no Wikidata Ogham 3,0 29 Antiga / histórica Ch 8.14
Olck Ol Chiki (Ol Cemet ', Ol, Santali) da esquerda para direita Edite isso no Wikidata Ol Chiki 5,1 48 Ch 13.10
Orkh Antigo turco, orkhon rúnico script da direita para a esquerda Edite isso no Wikidata Turco antigo 5,2 73 Antiga / histórica Ch 14.8
Orya Oriya (Odia) da esquerda para direita Edite isso no Wikidata Oriya 1.0 91 Ch 12.5
Osge Osage da esquerda para direita Edite isso no Wikidata Osage 9,0 72 Ch 20.3
Osma Osmanya da esquerda para direita Edite isso no Wikidata Osmanya 4,0 40 Ch 19.2
Ougr Velho uigur misturado Velho uigur 14,0 26 Antiga / histórica Ch 14.11
Palma Palmireno script da direita para a esquerda Edite isso no Wikidata Palmireno 7,0 32 Antiga / histórica Ch 10.11
Pauc Pau Cin Hau da esquerda para direita Edite isso no Wikidata Pau Cin Hau 7,0 57 Ch 16.13
Pcun Protocuneiforme da esquerda para direita ZZ- Não em Unicode
Pelm Proto-elamita da esquerda para direita ZZ- Não em Unicode
Permanente Old Permic da esquerda para direita Edite isso no Wikidata Old Permic 7,0 43 Antiga / histórica Ch 8.13
Phag Phags-pa de cima para baixo Edite isso no Wikidata Phags-pa 5.0 56 Antiga / histórica Ch 14.4
Phli Pahlavi inscrito script da direita para a esquerda Edite isso no Wikidata Pahlavi inscrito 5,2 27 Antiga / histórica Ch 10.6
Phlp Saltério Pahlavi script da direita para a esquerda Edite isso no Wikidata Saltério Pahlavi 7,0 29 Antiga / histórica Ch 10.6
Phlv Livro Pahlavi misturado ZZ- Não em Unicode
Phnx Fenício script da direita para a esquerda Edite isso no Wikidata Fenício 5.0 29 Antiga / histórica Ch 10.3
Piqd Klingon (KLI pIqaD) da esquerda para direita Edite isso no Wikidata ZZ- Rejeitado para inclusão em Unicode
Plrd Miao (Pollard) da esquerda para direita Edite isso no Wikidata Miao 6,1 149 Ch 18.10
Prti Parta inscrita script da direita para a esquerda Edite isso no Wikidata Parta inscrita 5,2 30 Antiga / histórica Ch 10.6
Psin Proto-Sinaítico misturado ZZ- Não em Unicode
Qaaa-Qabx Reservado para uso privado (alcance) ZZ- Não em Unicode
Ranj Ranjana da esquerda para direita ZZ- Não em Unicode
Rjng Rejang (Redjang, Kaganga) da esquerda para direita Edite isso no Wikidata Rejang 5,1 37 Ch 17.5
Rohg Hanifi Rohingya script da direita para a esquerda Edite isso no Wikidata Hanifi Rohingya 11,0 50 Ch 16.14
Roro Rongorongo misturado ZZ- Não em Unicode, a proposta é explorada
Runr Rúnico da esquerda para a direita, boustrofédon Edite isso no Wikidata Rúnico 3,0 86 Antiga / histórica Ch 8.7
Samr samaritano script da direita para a esquerda , de cima para baixo Edite isso no Wikidata samaritano 5,2 61 Ch 9.4
Sara Sarati misturado ZZ- Não em Unicode
Sarb Old South Arabian script da direita para a esquerda Edite isso no Wikidata Old South Arabian 5,2 32 Antiga / histórica Ch 10.2
Saur Saurashtra da esquerda para direita Edite isso no Wikidata Saurashtra 5,1 82 Ch 13.13
Sgnw SignWriting de cima para baixo Edite isso no Wikidata SignWriting 8,0 672 Ch 21.7
Shaw Shavian (Shaw) da esquerda para direita Edite isso no Wikidata Shavian 4,0 48 Ch 8.15
Shrd Sharada, Śāradā da esquerda para direita Edite isso no Wikidata Sharada 6,1 96 Ch 15.3
Shui Shuishu da esquerda para direita ZZ- Não em Unicode
Sidd Siddham, Siddhaṃ, Siddhamātṛkā da esquerda para direita Edite isso no Wikidata Siddham 7,0 92 Antiga / histórica Ch 15.5
Sind Khudawadi, sindi da esquerda para direita Edite isso no Wikidata Khudawadi 7,0 69 Ch 15.8
Sinh Cingalês da esquerda para direita Edite isso no Wikidata Cingalês 3,0 111 Ch 13.2
Sogd Sogdian escrita horizontal e vertical em scripts do Leste Asiático , de cima para baixo Edite isso no Wikidata Sogdian 11,0 42 Antiga / histórica Ch 14.10
Entao vai Old Sogdian script da direita para a esquerda Edite isso no Wikidata Old Sogdian 11,0 40 Antiga / histórica Ch 14.9
Sora Sora Sompeng da esquerda para direita Edite isso no Wikidata Sora Sompeng 6,1 35 Ch 15.16
Soyo Soyombo da esquerda para direita Edite isso no Wikidata Soyombo 10,0 83 Antiga / histórica Ch 14.7
Sund Sudanês da esquerda para direita Edite isso no Wikidata Sudanês 5,1 72 Ch 17.7
Sylo Syloti Nagri da esquerda para direita Edite isso no Wikidata Syloti Nagri 4,1 45 Antiga / histórica Ch 15.1
Syrc Siríaco script da direita para a esquerda Edite isso no Wikidata Siríaco 3,0 88 Inclui variantes tipográficas Estrangelo ( § Syre ), Ocidental ( § Syrj ) e Oriental ( § Syrn ) Ch 9.3
Syre Siríaco (variante Estrangelo) misturado ZZ- Variante tipográfica do siríaco ( § Syrc )
Syrj Siríaco (variante ocidental) misturado ZZ- Variante tipográfica do siríaco ( § Syrc )
Syrn Siríaco (variante oriental) misturado ZZ- Variante tipográfica do siríaco ( § Syrc )
Tagb Tagbanwa da esquerda para direita Edite isso no Wikidata Tagbanwa 3,2 18 Ch 17.1
Takr Takri, Ṭākrī, Ṭāṅkrī da esquerda para direita Edite isso no Wikidata Takri 6,1 68 Ch 15.4
Conto Tai Le da esquerda para direita Edite isso no Wikidata Tai Le 4,0 35 Ch 16.5
Talu Novo Tai Lue da esquerda para direita Edite isso no Wikidata Novo Tai Lue 4,1 83 Ch 16.6
Taml tâmil da esquerda para direita Edite isso no Wikidata tâmil 1.0 123 Ch 12.6
Espiga Tangut de cima para baixo, colunas da direita para a esquerda, da esquerda para a direita Edite isso no Wikidata Tangut 9,0 6.914 Antiga / histórica Ch 18.11
Tavt Tai Viet da esquerda para direita Edite isso no Wikidata Tai Viet 5,2 72 Ch 16.8
Telu Telugu da esquerda para direita Edite isso no Wikidata Telugu 1.0 100 Ch 12.7
Teng Tengwar da esquerda para direita ZZ- Não em Unicode
Tfng Tifinagh (berbere) da esquerda para direita Edite isso no Wikidata Tifinagh 4,1 59 Ch 19.3
Tglg Tagalog (Baybayin, Alibata) da esquerda para direita Edite isso no Wikidata Tagalo 3,2 23 Ch 17.1
Thaa Thaana script da direita para a esquerda Edite isso no Wikidata Thaana 3,0 50 Ch 13.1
tailandês tailandês da esquerda para direita Edite isso no Wikidata tailandês 1.0 86 Ch 16.1
Tibt Tibetano da esquerda para direita Edite isso no Wikidata Tibetano 2.0 207 Adicionado em 1.0, removido em 1.1 e reintroduzido em 2.0 Ch 13.4
Tirh Tirhuta da esquerda para direita Edite isso no Wikidata Tirhuta 7,0 82 Ch 15.10
Tnsa Tangsa da esquerda para direita Tangsa 14,0 89 Ch 13.18
Totó Totó da esquerda para direita Totó 14,0 31 Ch 13.17
Ugar Ugarítico da esquerda para direita Edite isso no Wikidata Ugarítico 4,0 31 Antiga / histórica Ch 11.2
Vaii Vai da esquerda para direita Edite isso no Wikidata Vai 5,1 300 Ch 19.5
Visp Discurso visível da esquerda para direita ZZ- Não em Unicode
Vith Vithkuqi da esquerda para direita Vithkuqi 14,0 70 Antiga / histórica Ch 8.12
Wara Warang Citi (Varang Kshiti) da esquerda para direita Edite isso no Wikidata Warang Citi 7,0 84 Ch 13.9
Wcho Wancho da esquerda para direita Edite isso no Wikidata Wancho 12,0 59 Ch 13.16
Wole Woleai misturado ZZ- Não em Unicode, a proposta é explorada
Xpeo Persa antigo da esquerda para direita Edite isso no Wikidata Persa antigo 4,1 50 Antiga / histórica Ch 11.3
Xsux Cuneiforme, Sumero-Acadiano da esquerda para direita Edite isso no Wikidata Cuneiforme 5.0 1.234 Antiga / histórica Ch 11.1
Yezi Iazidi script da direita para a esquerda Edite isso no Wikidata Iazidi 13,0 47 Antiga / histórica Ch 9.6
Yiii Yi da esquerda para direita Edite isso no Wikidata Yi 3,0 1.220 Ch 18.7
Zanb Praça Zanabazar (Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, Escrita quadrada horizontal) da esquerda para direita Edite isso no Wikidata Praça Zanabazar 10,0 72 Antiga / histórica Ch 14.6
Zinh Código para script herdado Herdado 657
Zmth Notação matemática ZZ- Não é um 'script' em Unicode
Zsym Símbolos ZZ- Não é um 'script' em Unicode
Zsye Símbolos (variante emoji) ZZ- Não é um 'script' em Unicode
Zxxx Código para documentos não escritos ZZ- Não é um 'script' em Unicode
Zyyy Código para script indeterminado Comum 8.252
Zzzz Código para script não codificado Desconhecido 969.350 Em Unicode: todos os outros pontos de código
Notas
  1. ^
    Publicações ISO 15924 em 17 de fevereiro de 2021
  2. ^
  3. ^
    Alterações ISO 15924 (incluindo aliases para Unicode; em 17 de fevereiro de 2021)
  4. ^
    Unicode versão 14.0
  5. ^
  6. ^
    O Unicode usa o "Property Value Alias" (Alias) como o nome do script. Esses nomes de alias são parte do Unicode e são publicados informativamente ao lado do ISO 15924. Um nome de script de alias pode ser usado em um nome de caractere :,Palm Palmyrene → U + 10860 𐡠 PALMYRENE LETTER ALEPH .
  7. ^
    Em Unicode, a escrita fenícia se destina à representação de texto em paleo-hebraico , fenício arcaico, fenício , aramaico inicial , cursivo fenício tardio, papiro fenício , hebraico siloé , selos hebraicos , amonita , moabita e púnico .

Propriedades de normalização

Decomposições, tipo de decomposição, classe de combinação canônica, exclusões de composição e muito mais.

Era

Idade é a versão do Padrão na qual o ponto de código foi designado pela primeira vez. O número da versão é abreviado para a numeração major.minor, embora números de versão mais detalhados sejam usados: as versões 4.0.0 e 4.0.1 são chamadas de 4.0 como Idade. Dados os lançamentos, Idade pode estar no intervalo: 1,1, 2,0, 2,1, 3,0, 3,1, 3,2, 4,0, 4,1, 5,0, 5,1, 5,2, 6,0, 6,1, 6,2, 6,3, 7,0, 8,0, 9,0, 10,0, 11,0 , 12,0, 12,1, 13,0 e 14,0. Os valores longos para Age começam em um V e usam um sublinhado em vez de um ponto: V1_1, por exemplo. Os pontos de código sem um valor de idade especificamente atribuído têm o valor "NA", com a forma longa "Não atribuído".

Descontinuada

Uma vez que um personagem tenha sido definido, ele não será removido ou reatribuído. No entanto, um caractere pode estar obsoleto , o que significa que seu "uso é fortemente desencorajado". A partir da versão 14.0 do Unicode, os quinze caracteres a seguir estão obsoletos:

Caracteres obsoletos em Unicode
Codepoint Nome do personagem Alternativa recomendada Observações
U + 0149 LATIN PEQUENA LETRA N PRECEDIDA POR APÓSTROFO U + 02BC U + 006E ʼN
U + 0673 LETRA ÁRABE ALEF COM WAVY HAMZA ABAIXO U + 0627 U + 065F اٟ
U + 0F77 TIBETAN VOWEL SIGN VOCALIC RR U + 0FB2 U + 0F81 ྲཱ ྀ
U + 0F79 TIBETAN VOWEL SIGN VOCALIC LL U + 0FB3 U + 0F81 ླཱ ྀ
U + 17A3 KHMER INDEPENDENT VOWEL QAQ U + 17A2
U + 17A4 KHMER INDEPENDENT VOWEL QAA U + 17A2 U + 17B6 អា
U + 206A INIBIR TROCA SIMÉTRICA Nenhum
U + 206B ATIVAR A TROCA SIMÉTRICA Nenhum
U + 206C INIBIR FORMA DE FORMA ÁRABE Nenhum
U + 206D ATIVAR A FORMA DE FORMA ÁRABE Nenhum
U + 206E FORMAS DE DÍGITOS NACIONAIS Nenhum
U + 206F FORMAS DE DÍGITO NOMINAL Nenhum
U + 2329 SUPORTE DE ÂNGULO PARA A ESQUERDA U + 3008 U + 27E8 MATEMÁTICA PARA A ESQUERDA ângulo do suporte é recomendado para uso técnico matemática e outras
U + 232A SUPORTE DE ÂNGULO PARA A DIREITA U + 3009 U + 27E9 MATEMÁTICA DIREITO ângulo do suporte é recomendado para uso técnico matemática e outras
U + E0001 TAG DE IDIOMA Nenhum

Limites

O padrão Unicode especifica as seguintes propriedades relacionadas a limites:

  • Aglomerado de grafemas
  • Palavra
  • Linha
  • Frase

Correção de apelidos de nomes Unicode

Personagem Nome Pseudônimo
01A2 Ƣ LATIN CAPITAL LETTER OI LATIN MAIÚSCULO LETRA GHA
01A3 ƣ LATIN SMALL LETTER OI LATIN SMALL LETTER GHA
0709 ܉ SYRIAC SUBLINEAR COLON ENVIADO PARA A DIREITA SYRIAC SUBLINEAR COLON ENVIADO PARA A ESQUERDA
0CDE KANNADA LETTER FA KANNADA LETTER LLLA
0E9D LAO LETTER FO TAM LAO LETTER FO FON
0E9F LAO LETTER FO SUNG LAO LETTER FO FAY
0EA3 LAO LETTER LO LING LAO LETTER RO
0EA5 LAO LETTER LO LOOT LAO LETTER LO
0FD0 TIBETAN MARK BSKA- SHOG GI MGO RGYAN TIBETAN MARK BKA- SHOG GI MGO RGYAN
11EC HANGUL JONGSEONG IEUNG-KIYEOK HANGUL JONGSEONG YESIEUNG-KIYEOK
11ED HANGUL JONGSEONG IEUNG-SSANGKIYEOK HANGUL JONGSEONG YESIEUNG-SSANGKIYEOK
11EE HANGUL JONGSEONG SSANGIEUNG HANGUL JONGSEONG SSANGYESIEUNG
11EF HANGUL JONGSEONG IEUNG-KHIEUKH HANGUL JONGSEONG YESIEUNG-KHIEUKH
2118 SCRIPT CAPITAL P WEIERSTRASS ELLIPTIC FUNCTION
2448 OCR DASH MICR NO SÍMBOLO DOS EUA
2449 NÚMERO DA CONTA DO CLIENTE OCR SÍMBOLO MICR DASH
2B7A SETA DE CABEÇA DO TRIÂNGULO ESQUERDA COM CURSO HORIZONTAL DUPLO SETA COM CABEÇA DO TRIÂNGULO ESQUERDA COM CURSO VERTICAL DUPLO
2B7C SETA DE CABEÇA EM TRIÂNGULO DIREITA COM CURSO HORIZONTAL DUPLO SETA DE CABEÇA DE TRIÂNGULO DIREITA COM CURSO VERTICAL DUPLO
A015 YI SYLLABLE WU YI SÍLÁVEL MARCA DE ITERAÇÃO
FE18 FORMULÁRIO DE APRESENTAÇÃO PARA FREIO LENTICULAR VERTICAL DIREITO BRANCO FORMULÁRIO DE APRESENTAÇÃO PARA SUPORTE LENTICULAR VERTICAL DIREITO BRANCO
122D4 𒋔 CUNEIFORM SIGN SHIR TENU SINAL CUNEIFORM NU11 TENU
122D5 𒋕 SINAL CUNEIFORM CAMISA SOBRE CAMISA BUR OVER BUR SINAL CUNEIFORM NU11 SOBRE NU11 BUR OVER BUR
16E56 𖹖 LETRA MAIÚSCULA DA MEDEFAIDRIN HP MEDEFAIDRIN MAIÚSCULA LETRA H
16E57 𖹗 MEDEFAIDRIN CAPITAL LETTER NY MEDEFAIDRIN CAPITAL LETTER NG
16E76 𖹶 MEDEFAIDRIN SMALL LETTER HP MEDEFAIDRIN SMALL LETTER H
16E77 𖹷 MEDEFAIDRIN SMALL LETTER NY MEDEFAIDRIN SMALL LETTER NG
1B001 𛀁 HIRAGANA CARTA ARCHAIC YE HENTAIGANA LETTER E-1
1D0C5 𝃅 BIZANTINO MUSICAL SÍMBOLO FHTORA SKLIRON CHROMA VASIS SÍMBOLO MUSICAL BIZANTINO FTHORA SKLIRON CHROMA VASIS


links externos

Referências

  1. ^ a b c d e "O padrão Unicode, Capítulo 4: Propriedades dos caracteres" (PDF) . Unicode, Inc. setembro de 2021 . Recuperado em 2021-08-15 . Citar diário requer |journal=( ajuda )
  2. ^ a b c "Padrão Unicode Anexo # 44: Banco de dados de caracteres Unicode" . O padrão Unicode . 14/06/2017.
  3. ^ "UCD: Aliases de nomes" . Banco de dados de caracteres Unicode . Consórcio Unicode. 08/03/2019.
  4. ^ "Padrões de design de personagens - caracteres de espaço" . Padrões de design de personagens . Microsoft . 1998–1999. Arquivado do original em 23 de agosto de 2000 . Página visitada em 18/05/2009 .
  5. ^ The Unicode Standard 5.0, edição impressa, p.205
  6. ^ "Pontuação geral" (PDF) . O padrão Unicode 5.1 . Unicode Inc . 1991–2008 . Página visitada em 13/05/2009 .
  7. ^ Sargent, Murray III (2006-08-29). "Codificação de texto quase simples Unicode de matemática (versão 2)" . Unicode Technical Note # 28 . Unicode Inc . pp. 19–20 . Página visitada em 2009-05-19 .
  8. ^ Gillam, Richard (2002). Unicode Demystified: A Practical Programmer's Guide to the Encoding Standard . Addison-Wesley. ISBN 0-201-70052-2.
  9. ^ a b Hickson, Ian . "12.5 Referências de caracteres nomeados" . Padrão HTML . WHATWG .
  10. ^ Wolfram . "\ [NegativeThickSpace]" . Wolfram Language Documentation .
  11. ^ Wolfram . "\ [NegativeMediumSpace]" . Wolfram Language Documentation .
  12. ^ Wolfram . "\ [NegativeThinSpace]" . Wolfram Language Documentation .
  13. ^ Wolfram . "\ [NegativeVeryThinSpace]" . Wolfram Language Documentation .
  14. ^ Faltstrom, P., ed. (Agosto de 2010). "Não associador de largura zero" . Os pontos de código Unicode e os nomes de domínio internacionalizados para aplicativos (IDNA) . IETF . seg. A.1. doi : 10.17487 / RFC5892 . RFC 5892 . Recuperado em 4 de setembro de 2019 .
  15. ^ Faltstrom, P., ed. (Agosto de 2010). "Marcador de largura zero" . Os pontos de código Unicode e os nomes de domínio internacionalizados para aplicativos (IDNA) . IETF . seg. A.2. doi : 10.17487 / RFC5892 . RFC 5892 . Recuperado em 4 de setembro de 2019 .
  16. ^ "Unicode Standard Annex # 44, Unicode Character Database" .
  17. ^ a b "Unicode Standard Annex # 9: Unicode Bidirectional Algorithm" . O padrão Unicode . 14-05-2017.
  18. ^ "Padrão Unicode Anexo # 24: Propriedade do Script Unicode" . O padrão Unicode . 01-06-2015.
  19. ^ a b c d e f g h i "Novos scripts propostos" . Consórcio Unicode . 25/05/2018 . Página visitada em 12/09/2019 .
  20. ^ Michael Everson (18/09/1997). "Proposta para codificar Klingon no Plano 1 da ISO / IEC 10646-2" .
  21. ^ The Unicode Consortium (2001-08-14). "Ata Aprovada da Reunião Conjunta UTC 87 / L2 184" .
  22. ^ "Middle East-II, Ancient Scripts" (PDF) . 14.0.0. The Unicode Consortiumtitle = Scripts do Oriente Médio II . Página visitada em 2021-09-15 .
  23. ^ "UCD: Idade derivada" . Banco de dados de caracteres Unicode . Consórcio Unicode. 2021-07-10.
  24. ^ "Políticas de estabilidade de codificação de caracteres Unicode" . Unicode . Consórcio Unicode . 23/06/2017 . Página visitada em 2021-07-25 . Uma vez que um caractere é codificado, ele não será movido ou removido.
  25. ^ "3.4: Caracteres e codificação, D13: Caractere obsoleto" (PDF) . O padrão Unicode, versão 14.0 . Mountain View: Consórcio Unicode . 2021-09-14. ISBN 9781936213-290. Página visitada em 2021-09-15 .
  26. ^ "PropList-14.0.0.txt" . Unicode . Consórcio Unicode . 2021-08-12 . Página visitada em 2021-09-15 .
  27. ^ "Capítulo 23.3: Caracteres de formato obsoletos" (PDF) . O padrão Unicode, versão 13.0 . Mountain View: Consórcio Unicode . 2020-03-10. ISBN 9781936213269. Página visitada em 2021-07-25 .
  28. ^ "23.9: Caracteres de marcação, uso descontinuado para marcação de idioma" (PDF) . O padrão Unicode, versão 13.0 . Mountain View: Consórcio Unicode . 2020-03-10. ISBN 9781936213269. Página visitada em 2021-07-25 .