Propriedade de caractere Unicode - Unicode character property

O padrão Unicode atribui várias propriedades a cada caractere Unicode e ponto de código .

As propriedades podem ser usadas para manipular caracteres (pontos de código) em processos, como quebra de linha, direção de script da direita para a esquerda ou aplicação de controles. Algumas "propriedades de caractere" também são definidas para pontos de código que não têm nenhum caractere atribuído e pontos de código que são rotulados como "<não é um caractere>". As propriedades dos caracteres são descritas no Anexo Padrão # 44.

As propriedades têm níveis de vigor: normativo, informativo, contributivo ou provisório. Para simplicidade de especificação, uma propriedade de caractere pode ser atribuída especificando um intervalo contínuo de pontos de código que têm a mesma propriedade.

Elementos semânticos

As propriedades são exibidas na seguinte ordem:

[code];[name];[gc];[cc];[bc];[decomposition];;;[nv];[bm];[alias];;;;

'alias' = nome corrigido
'bc' = categoria bidi (bidirecional) [L, R etc]
'bm' = bidi espelhado [N ou Y]
'cc' = classe combinada [posição do diacrítico]
decomposição = letra + diacrítico, ligadura XY, sobrescrito X, fonte X, X inicial, X medial, X final, X isolado, X vertical, etc.
'gc' = categoria geral [letra, símbolo, dígito, pontuação, comportamento do caso, etc.]
'nv' = valor numérico [de um dígito]

Nome

Um caractere Unicode é atribuído a um Nome exclusivo (na). O nome é composto por letras maiúsculas de A – Z, dígitos 0–9, - (hífen-menos) e <espaço>. Algumas sequências são excluídas: nomes que começam com um espaço ou hífen, nomes que terminam com um espaço ou hífen, espaços ou hifens repetidos e espaço após hífen não são permitidos. O nome tem garantia de ser exclusivo dentro do Unicode e pode ser usado para identificar um ponto de código e seu caractere. Personagens ideográficos, dos quais existem dezenas de milhares, são nomeados no padrão " cjk unified ideograph - hhhh ". Por exemplo, U + 4E00 一 CJK UNIFIED IDEOGRAPH-4E00 . Os caracteres de formatação também são nomeados: U + 00A0 NO-BREAK SPACE .

As seguintes classes de ponto de código não têm um Nome (na = ""): Controles (Categoria Geral: Cc), Uso Privado (Co), Substituto (Cs), Sem Caracteres (Cn) e Reservado (Cn). Eles podem ser referenciados, informalmente, por um meta-nome genérico ou específico, chamado "Code Point Labels": <control>, <control-0088>, <reserved>, <noncharacter- hhhh >, <private-use- hhhh > , <surrogate>. Como esses rótulos contêm <> - colchetes, eles nunca podem aparecer como um Nome, o que evita confusão.

Nomes da versão 1.0

Na versão 2.0 do Unicode, muitos nomes foram alterados. A partir de então, a regra "um nome nunca mudará" entrou em vigor, incluindo o uso estrito (normativo) de nomes alternativos. Os nomes da versão 1.0 desativados foram movidos para a propriedade Alias, para fornecer alguma compatibilidade com versões anteriores.

Alias do nome do personagem

A partir do Unicode versão 2.0, o nome publicado para um ponto de código nunca será alterado. Portanto, no caso de um nome de personagem ser digitado incorretamente ou se o nome do personagem estiver completamente errado ou seriamente enganoso, um apelido de nome de personagem formal pode ser atribuído ao personagem, e este apelido pode ser usado por aplicativos em vez do nome real do personagem com defeito . Por exemplo, U + FE18 ︘ FORMULÁRIO DE APRESENTAÇÃO PARA BRAKCET VERTICAL RIGHT WHITE LENTICULAR tem o nome de personagem alias "FORMULÁRIO DE APRESENTAÇÃO PARA BRACKET VERTICAL RIGHT WHITE LENTICULAR" para mitigar o erro de ortografia de "colchete" como "brakcet" no nome do caractere real; U + A015 ꀕ YI SYLLABLE WU tem o apelido do nome do personagem "YI SYLLABLE ITERATION MARK" porque, ao contrário do nome do personagem, não tem um valor silábico fixo.

Além de apelidos de nome de personagem, que são correções para nomes de personagem defeituosos, alguns personagens são atribuídos a apelidos que são nomes alternativos ou abreviações. Cinco tipos de apelidos de nome de caractere são definidos no padrão Unicode:

Correção: correções para nomes de personagens com erros ortográficos ou seriamente incorretos;
Controle: nomes ISO 6429 para funções de controle C0 e C1 (que não são atribuídos a nomes de caracteres no padrão Unicode);
Alternativo: nomes alternativos para alguns caracteres de formato (somente U + FEFF "LARGURA ZERO NO-BREAK SPACE" que possui o alias "BYTE ORDER MARK");
Figment: Etiquetas documentadas para algumas funções do código de controle C1 que não são nomes reais em nenhum padrão;
Abreviação: abreviações ou acrônimos para códigos de controle, caracteres de formato, espaços e seletores de variação.

Todos os aliases de nomes de caracteres formais seguem as regras para nomes de caracteres permitidos e têm a garantia de serem exclusivos tanto no alias do nome do caractere quanto nos namespaces do nome do caractere (por esse motivo, o nome ISO 6429 "BELL" não é definido como um alias para U +0007 porque U + 1F514 é denominado "BELL").

A partir do Unicode versão 12.1, vinte e oito apelidos de nomes de caracteres formais são definidos como correções para nomes de caracteres defeituosos. Eles estão listados abaixo .

Além desses nomes normativos, nomes informais podem ser mostrados nas tabelas de código Unicode. Esses são outros nomes comumente usados para um caractere e não precisam ser restritos às letras A – Z, dígitos 0–9, - (hífen-menos) e <espaço>. Não há garantia de que esses nomes informais sejam exclusivos e podem ser alterados ou removidos em versões posteriores do padrão.

Categoria Geral

Cada ponto de código é atribuído a um valor para a categoria geral. Esta é uma das propriedades de caractere que também são definidas para pontos de código não atribuídos e pontos de código que são definidos como "não é um caractere".

Categoria geral ( propriedade de caractere Unicode ) v t e
Valor	Categoria Maior, Menor	Tipo básico	Personagem atribuído	Contagem (a partir de 14.0)	Observações

L, Carta; LC, carta casada (apenas Lu, Ll e Lt)
Lu	Letra maiúscula	Gráfico	Personagem	1.831
Ll	Letra minúscula	Gráfico	Personagem	2.227
Tenente	Carta, titlecase	Gráfico	Personagem	31	Ligaduras contendo maiúsculas seguidas de letras minúsculas (por exemplo, ǅ , ǈ , ǋ e ǲ )
Lm	Letra, modificador	Gráfico	Personagem	334	Uma carta modificadora
Lo	Carta, outra	Gráfico	Personagem	127.333	Um ideograma ou uma letra em um alfabeto unicase
M, Mark
Mn	Mark, sem espaçamento	Gráfico	Personagem	1.950
Mc	Marca, combinação de espaçamento	Gráfico	Personagem	445
Mim	Mark, incluindo	Gráfico	Personagem	13
N, número
WL	Número, dígito decimal	Gráfico	Personagem	660	Todos estes, e apenas estes, têm Tipo Numérico = De
Nl	Número, letra	Gráfico	Personagem	236	Números compostos por letras ou símbolos semelhantes a letras (por exemplo, algarismos romanos )
Não	Número, outro	Gráfico	Personagem	895	Por exemplo, frações vulgares , dígitos sobrescritos e subscritos
P, pontuação
Pc	Pontuação, conector	Gráfico	Personagem	10	Inclui "_" sublinhado
Pd	Pontuação, traço	Gráfico	Personagem	26	Inclui vários caracteres hífen
Ps	Pontuação, aberto	Gráfico	Personagem	79	Caracteres de colchete de abertura
Educaçao Fisica	Pontuação, fechar	Gráfico	Personagem	77	Caracteres de colchete de fechamento
Pi	Pontuação, citação inicial	Gráfico	Personagem	12	Abrindo aspa . Não inclui as aspas "neutras" ASCII. Pode se comportar como Ps ou Pe dependendo do uso
Pf	Pontuação, citação final	Gráfico	Personagem	10	Fechando aspas. Pode se comportar como Ps ou Pe dependendo do uso
Po	Pontuação, outro	Gráfico	Personagem	605
S, símbolo
Sm	Símbolo, matemática	Gráfico	Personagem	948	Símbolos matemáticos (por exemplo, + , - , = , × , ÷ , √ , ∊ , ≠ ). Não inclui parênteses e colchetes, que estão nas categorias Ps e Pe. Também não inclui ! , * , - ou / , que apesar do uso frequente como operadores matemáticos, são considerados principalmente como "pontuação".
Sc	Símbolo, moeda	Gráfico	Personagem	63	Símbolos de moeda
Sk	Símbolo, modificador	Gráfico	Personagem	125
Então	Símbolo, outro	Gráfico	Personagem	6.605
Z, Separador
Zs	Separador, espaço	Gráfico	Personagem	17	Inclui o espaço, mas não TAB , CR ou LF , que são Cc
Zl	Separador, linha	Formato	Personagem	1	Apenas U + 2028 LINE SEPARATOR (LSEP)
Zp	Separador, parágrafo	Formato	Personagem	1	Apenas U + 2029 PARAGRAPH SEPARATOR (PSEP)
C, Outro
Cc	Outro, controle	Ao controle	Personagem	65 (nunca mudará)	Sem nome, <control>
Cf	Outro, formato	Formato	Personagem	163	Inclui o hífen , junção de caracteres de controle ( zwnj e zwj ), caracteres de controle para oferecer suporte a texto bidirecional e caracteres de tag de idioma
Cs	Outro, substituto	Substituto	Não (usado apenas em UTF-16 )	2.048 (nunca mudará)	Sem nome, <surrogate>
Co	Outro, uso privado	Uso privado	Caráter (mas sem interpretação especificada)	137.468 no total (nunca mudará) ( 6.400 em BMP , 131.068 nos aviões 15-16 )	Sem nome, <private-use>
Cn	Outro, não atribuído	Sem caráter	Não	66 (nunca mudará)	Sem nome, <noncharacter>
Cn	Outro, não atribuído	Reservado	Não	829.768	Sem nome, <reservado>

Pontuação

Os caracteres têm propriedades separadas para denotar que são um caractere de pontuação . Todas as propriedades têm valores Sim / Não : Dash , Quotation_Mark , Sentença_Terminal , Terminal_Punctuation .

Espaço em branco

O espaço em branco é um conceito comumente usado para um efeito tipográfico. Basicamente, ele cobre caracteres invisíveis que têm um efeito de espaçamento no texto renderizado. Inclui espaços , tabulações e novos controles de formatação de linha. Em Unicode, esse caractere tem a propriedade definida "WSpace = yes". Na versão 14.0, existem 25 caracteres de espaço em branco.

v t e Caracteres Unicode com propriedade White_Space = yes
Nome	Ponto de código		Caixa de largura	Pode quebrar ?	Em IDN ?	Roteiro	Bloquear	Categoria geral	Notas
tabulação de caracteres	U + 0009	9		sim	Não	Comum	Latim básico	Outro, controle	HT, guia horizontal . HTML / XML entidade nomeada : `&Tab;`, LaTeX : '\ tab'
alimentação de linha	U + 000A	10	É uma quebra de linha			Comum	Latim básico	Outro, controle	LF, alimentação de linha . Entidade nomeada HTML / XML:`&NewLine;`
tabulação de linha	U + 000B	11	É uma quebra de linha			Comum	Latim básico	Outro, controle	VT, guia vertical
feed de formulário	U + 000C	12	É uma quebra de linha			Comum	Latim básico	Outro, controle	FF, feed de formulário
retorno de carruagem	U + 000D	13	É uma quebra de linha			Comum	Latim básico	Outro, controle	CR, retorno de carro
espaço	U + 0020	32		sim	Não	Comum	Latim básico	Separador, espaço	Mais comum (espaço ASCII normal)
próxima linha	U + 0085	133	É uma quebra de linha			Comum	Suplemento Latin-1	Outro, controle	NEL, próxima linha
espaço sem quebra	U + 00A0	160		Não	Não	Comum	Suplemento Latin-1	Separador, espaço	Espaço sem quebra : idêntico a U + 0020, mas não um ponto em que uma linha possa ser quebrada. Entidade nomeada em HTML / XML ` `:, LaTeX: '\'
marca de espaço ogham	U + 1680	5760		sim	Não	Ogham	Ogham	Separador, espaço	Usado para separação entre palavras em texto Ogham . Normalmente uma linha vertical em texto vertical ou uma linha horizontal em texto horizontal, mas também pode ser um espaço em branco em fontes "sem haste". Requer uma fonte Ogham.
en quad	U + 2000	8192		sim	Não	Comum	Pontuação Geral	Separador, espaço	Largura de um en . U + 2002 é canonicamente equivalente a este caractere; U + 2002 é o preferido.
em quad	U + 2001	8193		sim	Não	Comum	Pontuação Geral	Separador, espaço	Também conhecido como "quad de carneiro". Largura de um em . U + 2003 é canonicamente equivalente a este caractere; U + 2003 é o preferido.
no espaço	U + 2002	8194		sim	Não	Comum	Pontuação Geral	Separador, espaço	Também conhecido como "noz". Largura de um en . U + 2000 En Quad é canonicamente equivalente a este caractere; U + 2002 é o preferido. Entidade nomeada em HTML / XML `&ensp;`:, LaTeX: '\ enspace'
em espaço	U + 2003	8195		sim	Não	Comum	Pontuação Geral	Separador, espaço	Também conhecido como "carneiro". Largura de um em . U + 2001 Em Quad é canonicamente equivalente a este caractere; U + 2003 é o preferido. Entidade nomeada HTML / XML `&emsp;`:, LaTeX: '\ quad'
espaço três por em	U + 2004	8196		sim	Não	Comum	Pontuação Geral	Separador, espaço	Também conhecido como "espaço espesso". Um terço de um em largura. Entidade nomeada HTML / XML:`&emsp13;`
espaço quatro por em	U + 2005	8197		sim	Não	Comum	Pontuação Geral	Separador, espaço	Também conhecido como "espaço intermediário". Um quarto de largura. Entidade nomeada HTML / XML:`&emsp14;`
espaço seis por em	U + 2006	8198		sim	Não	Comum	Pontuação Geral	Separador, espaço	Um sexto de um em largura. Em tipografia de computador, às vezes equivale a U + 2009.
espaço de figura	U + 2007	8199		Não	Não	Comum	Pontuação Geral	Separador, espaço	Figura espaço . Em fontes com dígitos monoespaçados, igual à largura de um dígito. Entidade nomeada HTML / XML:`&numsp;`
espaço de pontuação	U + 2008	8200		sim	Não	Comum	Pontuação Geral	Separador, espaço	Tão largo quanto a pontuação estreita em uma fonte, ou seja, a largura de avanço do ponto ou vírgula. Entidade nomeada HTML / XML:`&puncsp;`
espaço estreito	U + 2009	8201		sim	Não	Comum	Pontuação Geral	Separador, espaço	Espaço fino ; um quinto (às vezes um sexto) de um em de largura. Recomendado para uso como separador de milhares para medidas feitas com unidades SI . Ao contrário de U + 2002 a U + 2008, sua largura pode ser ajustada na composição. HTML / XML entidade nomeada: ` `; LaTeX: '\,'
espaço de cabelo	U + 200A	8202		sim	Não	Comum	Pontuação Geral	Separador, espaço	Mais fino do que um espaço tênue. Entidade nomeada HTML / XML: `&hairsp;`( não funciona em todos os navegadores)
separador de linha	U + 2028	8232	É uma quebra de linha			Comum	Pontuação Geral	Separador, linha
separador de parágrafo	U + 2029	8233	É uma quebra de linha			Comum	Pontuação Geral	Separador, parágrafo
espaço estreito sem quebra	U + 202F	8239		Não	Não	Comum	Pontuação Geral	Separador, espaço	Espaço estreito sem quebra . Semelhante em função ao U + 00A0 No-Break Space. Quando usado com o Mongol, sua largura geralmente é um terço do espaço normal; em outro contexto, sua largura às vezes se assemelha à do Thin Space (U + 2009).
espaço matemático médio	U + 205F	8287		sim	Não	Comum	Pontuação Geral	Separador, espaço	MMSP. Usado em fórmulas matemáticas. Quatro dezoito avos de um em. Na tipografia matemática, as larguras dos espaços são geralmente dadas em múltiplos inteiros de um décimo oitavo de um em, e 4/18 em pode ser usado em várias situações, por exemplo, entre o a e o + e entre o + e o b no expressão a + b . Entidade nomeada HTML / XML:` `
espaço ideográfico	U + 3000	12288		sim	Não	Comum	Símbolos e pontuação CJK	Separador, espaço	Tão largo quanto uma célula de caractere CJK ( largura total ). Usado, por exemplo, em tai tou .

v t e Propriedade de caracteres Unicode relacionados White_Space = no
Nome	Ponto de código		Caixa de largura	Pode quebrar ?	Em IDN ?	Roteiro	Bloquear	Categoria geral	Notas
separador de vogais mongol	U + 180E	6158	᠎	sim	Não	mongol	mongol	Outro, formato	MVS. Um caractere de espaço estreito, usado em mongol para fazer com que os dois caracteres finais de uma palavra adquiram formas diferentes. Ele não é mais classificado como caractere de espaço (ou seja, na categoria Zs) no Unicode 6.3.0, embora fosse nas versões anteriores do padrão.
espaço de largura zero	U + 200B	8203		sim	Não	?	Pontuação Geral	Outro, formato	ZWSP, espaço de largura zero . Usado para indicar limites de palavras para sistemas de processamento de texto ao usar scripts que não usam espaçamento explícito. É semelhante ao hífen suave , com a diferença de que o último é usado para indicar os limites da sílaba e deve exibir um hífen visível quando a linha quebra nele. Entidade nomeada HTML / XML :`&ZeroWidthSpace;`
não junta de largura zero	U + 200C	8204	‌	sim	Dependente do contexto	?	Pontuação Geral	Outro, formato	ZWNJ, não junta de largura zero . Quando colocado entre dois caracteres que de outra forma seriam conectados, um ZWNJ faz com que eles sejam impressos em suas formas final e inicial, respectivamente. Entidade nomeada HTML / XML:`&zwnj;`
juntador de largura zero	U + 200D	8205	‍	sim	Dependente do contexto	?	Pontuação Geral	Outro, formato	ZWJ, juntador de largura zero . Quando colocado entre dois caracteres que de outra forma não estariam conectados, um ZWJ faz com que eles sejam impressos em suas formas conectadas. Também pode ser usado para exibir formulários de junção isoladamente. Dependendo se uma ligadura ou conjunção é esperada por padrão, pode induzir (como em emoji e em Sinhala ) ou suprimir (como em Devanagari ) a substituição com um único glifo, embora ainda permitindo o uso de formas de junção individuais (ao contrário de ZWNJ). Entidade nomeada HTML / XML:`&zwj;`
juntador de palavras	U + 2060	8288	⁠	Não	Não	?	Pontuação Geral	Outro, formato	WJ, juntador de palavras . Semelhante a U + 200B, mas não é um ponto no qual uma linha pode ser interrompida. Entidade nomeada HTML / XML:`&NoBreak;`
espaço ininterrupto de largura zero	U + FEFF	65279		Não	Não	?	Formas de apresentação em árabe -B	Outro, formato	Espaço ininterrupto de largura zero . Usado principalmente como Marca de Ordem de Byte . O uso como uma indicação de não quebra está obsoleto a partir do Unicode 3.2; veja U + 2060 em vez disso.

Outras características gerais

Ideográfico, alfabético, sem caráter.

Classe combinando

Alguns códigos comuns:

0 = letra, símbolo ou modificador de espaçamento (por exemplo, a, (, ʰ)

1 = sobreposição

6 = leitura Han (marcas de leitura diacrítica CJK)

7 = nukta (nukta diacrítico em scripts Brahmic )

8 = marcas de vozeamento kana

9 = virama

10–199 = várias classes de posição fixa

Marcas que se anexam à letra base:

200 = anexado na parte inferior esquerda

202 = anexado diretamente abaixo (por exemplo, cedilha em ç)

204 = anexado no canto inferior direito

208 = anexado à esquerda

210 = anexado à direita

212 = anexado ao canto superior esquerdo

214 = anexado diretamente acima

216 = anexado no canto superior direito

Marcas que não se anexam à letra base:

218 = inferior esquerdo

220 = diretamente abaixo (por exemplo, anel em n̥)

222 = abaixo à direita

224 = esquerda

226 = certo

228 = acima à esquerda

230 = acima (por exemplo, acento agudo em á)

232 = acima à direita

233 = dobro abaixo (subtende duas bases)

234 = duplo acima (estende duas bases)

240 = iota subscrito (apenas aquele diacrítico grego)

Propriedades relacionadas à exibição

Modelagem, largura.

Escrita bidirecional

Seis propriedades de caracteres pertencem à escrita bidirecional: Bidi_Class, Bidi_Control, Bidi_Mirrored, Bidi_Mirroring_Glyph, Bidi_Paired_Bracket e Bidi_Paired_Bracket_Type.

Um dos principais recursos do Unicode é o suporte de exibição de texto bidirecional ( Bidi ) da direita para a esquerda (R para a esquerda) e da esquerda para a direita (da esquerda para a direita). O Algoritmo Bidirecional Unicode UAX9 descreve o processo de apresentação de texto com a alteração das direções do script. Por exemplo, permite uma citação em hebraico em um texto em inglês. O Bidi_Character_Type marca o comportamento de um personagem na escrita direcional. Para substituir uma direção, o Unicode definiu caracteres de controle de formatação especial ( Bidi-Control s). Esses caracteres podem impor uma direção e, por definição, afetam apenas a escrita bidirecional.

Cada ponto de código possui uma propriedade chamada Bidi_Class . Ele define seu comportamento em um texto bidirecional conforme interpretado pelo algoritmo:

Tipo de caractere bidirecional ( propriedade de caractere Unicode Bidi_Class)

Modelo	Descrição	Força	Direcionalidade	Escopo geral	Bidi_Control personagem
eu	Da esquerda para direita	Forte	Da esquerda para a direita	A maioria dos caracteres alfabéticos e silábicos, caracteres chineses, dígitos não europeus ou não árabes, caractere LRM, ...	U + 200E MARCA DA ESQUERDA PARA A DIREITA (LRM)
R	Direita para esquerda	Forte	R-para-L	Adlam, Hebraico, Mandaico, Mende Kikakui, N'Ko, Samaritano, escritas antigas como Kharoshthi e Nabataean, personagem RLM, ...	U + 200F MARCA DA DIREITA PARA A ESQUERDA (RLM)
AL	Letra árabe	Forte	R-para-L	Alfabetos árabe, Hanifi Rohingya, Sogdian, Siríaco e Thaana, e a maioria das pontuações específicas para esses scripts, caractere ALM, ...	U + 061C MARCA DA LETRA ÁRABE (ALM)
EN	Número europeu	Fraco		Dígitos europeus, dígitos árabes orientais-índicos, números de epacto copta, ...
ES	Separador Europeu	Fraco		sinal de mais , sinal de menos , ...
ET	Terminador de número europeu	Fraco		sinal de grau , símbolos de moeda, ...
UM	Número arábico	Fraco		Dígitos árabe-índicos, decimais árabes e separadores de milhares, dígitos de Rumi, dígitos de Hanifi Rohingya, ...
CS	Separador de número comum	Fraco		dois pontos , vírgula , ponto final , espaço sem quebra , ...
NSM	Marca Nonspacing	Fraco		Personagens nas categorias gerais Mark, nonspacing e Mark, incluindo (Mn, Me)
BN	Limite neutro	Fraco		Ignoráveis padrão, não caracteres, caracteres de controle diferentes daqueles dados explicitamente de outros tipos
B	Separador de Parágrafo	Neutro		separador de parágrafo , funções de nova linha apropriadas, determinação de parágrafo de protocolo de nível superior
S	Separador de Segmento	Neutro		Abas
WS	Espaço em branco	Neutro		espaço , espaço de figura , separador de linha , alimentação de formulário , espaços de bloco de pontuação geral (conjunto menor do que a lista de espaços em branco Unicode )
SOBRE	Outros neutros	Neutro		Todos os outros caracteres, incluindo o caractere de substituição de objeto
LRE	Incorporação da esquerda para a direita	Explícito	Da esquerda para a direita	Personagem LRE apenas	U + 202A EMBUTIR DA ESQUERDA PARA A DIREITA (LRE)
LRO	Substituição da esquerda para a direita	Explícito	Da esquerda para a direita	Personagem LRO apenas	U + 202D DA ESQUERDA PARA A DIREITA (LRO)
RLE	Incorporação da direita para a esquerda	Explícito	R-para-L	Caractere RLE apenas	U + 202B ENCAIXE DA DIREITA PARA A ESQUERDA (RLE)
RLO	Substituição da direita para a esquerda	Explícito	R-para-L	Caractere RLO apenas	U + 202E ANULAÇÃO DA DIREITA PARA A ESQUERDA (RLO)
PDF	Formato Pop Direcional	Explícito		Caractere PDF apenas	U + 202C POP DIRECTIONAL FORMATTING (PDF)
LRI	Isolado da esquerda para a direita	Explícito	Da esquerda para a direita	Personagem LRI apenas	U + 2066 ISOLADO DA ESQUERDA PARA A DIREITA (LRI)
RLI	Isolar da direita para a esquerda	Explícito	R-para-L	Personagem RLI apenas	U + 2067 ISOLADO DA DIREITA PARA A ESQUERDA (RLI)
FSI	Primeiro isolado forte	Explícito		Caractere FSI apenas	U + 2068 PRIMEIRO ISOLADO FORTE (FSI)
PDI	Pop direcional isolado	Explícito		Personagem PDI apenas	U + 2069 POP DIRECTIONAL ISOLATE (PDI)
Notas 1. ^ Unicode Bidirectional Algorithm (UAX # 9) , a partir do Unicode versão 12.0 2. ^ Tipos de caracteres bidirecionais possíveis para propriedade de caractere: Bidi_Class ou 'type' 3. ^ Caracteres Bidi_Control : Doze caracteres de formatação Bidi_Control são definidos. Eles são invisíveis e não têm efeito além da direcionalidade. Nove deles têm um tipo BiDi exclusivo que é usado pelo algoritmo. Seu tipo também é sua sigla (por exemplo, o caractere 'LRE' tem o tipo BiDi 'LRE').

Em situações normais, o algoritmo pode determinar a direção de um texto por esta propriedade de caractere. Para controlar situações Bidi mais complexas, por exemplo, quando um texto em inglês tem uma citação em hebraico, opções extras são adicionadas ao Unicode. Doze caracteres têm a propriedade Bidi_Control = Sim : ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM e RLO conforme indicados na tabela. Esses são caracteres de controle de formatação invisíveis, usados apenas pelo algoritmo e sem efeito fora da formatação bidirecional. Apesar do nome, eles são caracteres de formatação, não caracteres de controle, e possuem a categoria Geral "Outro, formato (Cf)" na definição Unicode.

Basicamente, o algoritmo determina uma sequência de caracteres com o mesmo tipo de direção forte (R-para-L ou L-para-R), levando em consideração uma anulação pelos controles especiais Bidi. Sequências de números (tipos fracos) recebem uma direção de acordo com seu ambiente forte, assim como caracteres neutros. Finalmente, os caracteres são exibidos de acordo com a direção de uma string.

Duas propriedades de caractere são relevantes para determinar uma imagem espelhada de um glifo em texto bidirecional: Bidi_Mirrored = Sim indica que o glifo deve ser espelhado quando escrito R-para-L. A propriedade Bidi_Mirroring_Glyph = U + hhhh pode então apontar para o caractere espelhado. Por exemplo, os colchetes "()" são espelhados desta forma. Moldar scripts cursivos, como o árabe, e espelhar glifos que têm uma direção, não faz parte do algoritmo.

Invólucro

O valor Case é normativo em Unicode. Ele se refere aos scripts com letras maiúsculas (também conhecidas como maiúsculas, maiúsculas) e minúsculas (também conhecidas como minúsculas e minúsculas). A diferença entre maiúsculas e minúsculas ocorre nos scripts Adlam, Armênio, Cherokee, Cóptico, Cirílico, Deseret, Glagolítico, Grego, Khutsuri e Mkhedruli Georgiano, Latino, Medefaidrin, Húngaro Antigo, Osage, Vithkuqi e Warang Citi.

(superior, inferior, título, dobrável - simples e completo)

Valores e tipos numéricos

Decimal

Os caracteres são classificados com um tipo numérico . Caracteres como frações, subscritos, sobrescritos, algarismos romanos, numeradores de moeda, números circulados e dígitos específicos do script são do tipo Numérico. Eles têm um valor numérico que pode ser decimal, incluindo zero e negativos, ou uma fração vulgar. Se não houver tal valor, como acontece com a maioria dos caracteres, o tipo numérico é "Nenhum".

Os caracteres que possuem um valor numérico são separados em três grupos: Decimal (De), Dígito (Di) e Numérico (Nu, ou seja, todos os outros). "Decimal" significa que o caractere é um dígito decimal reto. Apenas os caracteres que fazem parte de um intervalo codificado contíguo de 0 a 9 têm tipo numérico Decimal. Outros dígitos, como sobrescritos, têm tipo numérico Dígito. Todos os caracteres numéricos, como frações e algarismos romanos, terminam com o tipo "Numérico". O efeito pretendido é que um analisador simples pode usar esses valores numéricos decimais, sem se distrair com um sobrescrito numérico ou uma fração. Setenta e três Ideógrafos CJK que representam um número, incluindo aqueles usados para contabilidade, são digitados numéricos.

Por outro lado, os caracteres que poderiam ter um valor numérico como um segundo significado ainda são marcados com o tipo Numérico "Nenhum" e não têm valor numérico (""). Por exemplo, letras latinas podem ser usadas na numeração de parágrafos como "II.A.1.b", mas as letras "I", "A" e "b" não são numéricas (digite "Nenhum") e não têm valor numérico.

v t e Tipo Numérico ( propriedade de caractere Unicode )
Tipo numérico	Código	Tem valor numérico	Exemplo	Observações
Não numérico	`None`	Não	UMA X (latim) ! Д µ に	Valor numérico = "NaN"
Decimal	`De`	sim	0 1 9 ६ (Devanágari 6) ೬ (canarês 6) 𝟨 (matemático, com estilo sem serifa)	Dígito reto (raiz decimal ). Corresponde aos dois sentidos com Categoria Geral = Nd
Dígito	`Di`	sim	¹ (sobrescrito) ① ⒈ (dígito com ponto final)	Decimal, mas em contexto tipográfico
Numérico	`Nu`	sim	¾ ௰ (Tamil número dez) Ⅹ (numeral romano) 六 (Han número 6)	Valor numérico, mas não raiz decimal
uma. ^ "Seção 4.6: Valor numérico" (PDF) . O padrão Unicode . Consórcio Unicode. Setembro de 2021.
b. ^ "Tipos numéricos derivados de Unicode 14.0" . Banco de dados de caracteres Unicode . Consórcio Unicode. 2021-03-08.

Dígitos hexadecimais

Os caracteres hexadecimais são aqueles na série com valores hexadecimais 0 ... 9ABCDEF (dezesseis caracteres, valor decimal 0-15). A propriedade do personagem Hex_Digit é definida como Sim quando um personagem está em tal série:

Caracteres em Unicode marcados `Hex_Digit=Yes`
`0123456789ABCDEF`	Latim básico, maiúsculas	Também `ASCII_Hex_Digit=Yes`
`0123456789abcdef`	Latim básico, letras minúsculas	Também `ASCII_Hex_Digit=Yes`
`０１２３４５６７８９ＡＢＣＤＥＦ`	Formulários de largura total , maiúsculas
`０１２３４５６７８９ａｂｃｄｅｆ`	Formulários de largura total, letras minúsculas
uma. ^ "Unicode 14.0 UCD: PropList.txt" . 2021-08-12 . Recuperado em 2020-03-12 .

Quarenta e quatro caracteres são marcados como Hex_Digit. Aqueles no bloco de latim básico também são marcados como ASCII_Hex_Digit .

Unicode não possui caracteres separados para valores hexadecimais. Uma consequência é que, ao usar caracteres regulares, não é possível determinar se o valor hexadecimal é pretendido, ou mesmo se um valor é pretendido. Isso deve ser determinado em um nível superior, por exemplo, acrescentando "0x" a um número hexadecimal ou por contexto. O único recurso é que o Unicode pode observar que uma sequência pode ou não ser um valor hexadecimal.

Bloquear

Um bloco é um intervalo contíguo de pontos de código com nome exclusivo. Ele é identificado por seu primeiro e último ponto de código. Os blocos não se sobrepõem . Um bloco pode conter pontos de código que são reservados, não atribuídos etc. Cada caractere que é atribuído, tem um único valor de "nome de bloco" dos 320 nomes atribuídos a partir do Unicode versão 14.0 Pontos de código não atribuídos fora de um bloco existente, tem o valor padrão "No_block".

v t e Blocos Unicode e scripts contidos
Plano	Alcance do bloco	Nome do bloco	Pontos de código	Personagens atribuídos	Scripts
0 BMP	U + 0000..U + 007F	Latim básico	128	128	Latim (52 caracteres), Comum (76 caracteres)
0 BMP	U + 0080..U + 00FF	Suplemento Latin-1	128	128	Latim (64 caracteres), Comum (64 caracteres)
0 BMP	U + 0100..U + 017F	Latim Extended-A	128	128	Latina
0 BMP	U + 0180..U + 024F	Latim Extended-B	208	208	Latina
0 BMP	U + 0250..U + 02AF	Extensões IPA	96	96	Latina
0 BMP	U + 02B0..U + 02FF	Letras modificadoras de espaçamento	80	80	Bopomofo (2 caracteres), latino (14 caracteres), comum (64 caracteres)
0 BMP	U + 0300..U + 036F	Combinando Marcas Diacríticas	112	112	Herdado
0 BMP	U + 0370..U + 03FF	Grego e copta	144	135	Cóptico (14 caracteres), grego (117 caracteres), comum (4 caracteres)
0 BMP	U + 0400..U + 04FF	cirílico	256	256	Cirílico (254 caracteres), herdado (2 caracteres)
0 BMP	U + 0500..U + 052F	Suplemento Cirílico	48	48	cirílico
0 BMP	U + 0530..U + 058F	Armênio	96	91	Armênio
0 BMP	U + 0590..U + 05FF	hebraico	112	88	hebraico
0 BMP	U + 0600..U + 06FF	árabe	256	256	Árabe (238 caracteres), Comum (6 caracteres), Herdado (12 caracteres)
0 BMP	U + 0700..U + 074F	Siríaco	80	77	Siríaco
0 BMP	U + 0750..U + 077F	Suplemento árabe	48	48	árabe
0 BMP	U + 0780..U + 07BF	Thaana	64	50	Thaana
0 BMP	U + 07C0..U + 07FF	NKo	64	62	Nko
0 BMP	U + 0800..U + 083F	samaritano	64	61	samaritano
0 BMP	U + 0840..U + 085F	Mandaico	32	29	Mandaico
0 BMP	U + 0860..U + 086F	Suplemento Siríaco	16	11	Siríaco
0 BMP	U + 0870..U + 089F	Árabe Estendido-B	48	41	árabe
0 BMP	U + 08A0..U + 08FF	Árabe Extended-A	96	96	Árabe (95 caracteres), Comum (1 caractere)
0 BMP	U + 0900..U + 097F	Devanágari	128	128	Devanágari (122 caracteres), Comum (2 caracteres), Herdado (4 caracteres)
0 BMP	U + 0980..U + 09FF	bengali	128	96	bengali
0 BMP	U + 0A00..U + 0A7F	Gurmukhi	128	80	Gurmukhi
0 BMP	U + 0A80..U + 0AFF	Guzerate	128	91	Guzerate
0 BMP	U + 0B00..U + 0B7F	Oriya	128	91	Oriya
0 BMP	U + 0B80..U + 0BFF	tâmil	128	72	tâmil
0 BMP	U + 0C00..U + 0C7F	Telugu	128	100	Telugu
0 BMP	U + 0C80..U + 0CFF	Canarim	128	90	Canarim
0 BMP	U + 0D00..U + 0D7F	Malaiala	128	118	Malaiala
0 BMP	U + 0D80..U + 0DFF	Cingalês	128	91	Cingalês
0 BMP	U + 0E00..U + 0E7F	tailandês	128	87	Tailandês (86 caracteres), Comum (1 caractere)
0 BMP	U + 0E80..U + 0EFF	Lao	128	82	Lao
0 BMP	U + 0F00..U + 0FFF	Tibetano	256	211	Tibetano (207 caracteres), Comum (4 caracteres)
0 BMP	U + 1000..U + 109F	Myanmar	160	160	Myanmar
0 BMP	U + 10A0..U + 10FF	Georgiano	96	88	Georgiano (87 caracteres), Comum (1 caractere)
0 BMP	U + 1100..U + 11FF	Hangul Jamo	256	256	Hangul
0 BMP	U + 1200..U + 137F	Etíope	384	358	Etíope
0 BMP	U + 1380..U + 139F	Suplemento Etíope	32	26	Etíope
0 BMP	U + 13A0..U + 13FF	Cherokee	96	92	Cherokee
0 BMP	U + 1400..U + 167F	Syllabics aboriginal canadense unificado	640	640	Aborígine canadense
0 BMP	U + 1680..U + 169F	Ogham	32	29	Ogham
0 BMP	U + 16A0..U + 16FF	Rúnico	96	89	Rúnico (86 caracteres), Comum (3 caracteres)
0 BMP	U + 1700..U + 171F	Tagalo	32	23	Tagalo
0 BMP	U + 1720..U + 173F	Hanunoo	32	23	Hanunoo (21 caracteres), Comum (2 caracteres)
0 BMP	U + 1740..U + 175F	Buhid	32	20	Buhid
0 BMP	U + 1760..U + 177F	Tagbanwa	32	18	Tagbanwa
0 BMP	U + 1780..U + 17FF	Khmer	128	114	Khmer
0 BMP	U + 1800..U + 18AF	mongol	176	158	Mongol (155 caracteres), Comum (3 caracteres)
0 BMP	U + 18B0..U + 18FF	Prolongamento de Syllabics Aboriginal Canadense Unificado	80	70	Aborígine canadense
0 BMP	U + 1900..U + 194F	Limbu	80	68	Limbu
0 BMP	U + 1950..U + 197F	Tai Le	48	35	Tai Le
0 BMP	U + 1980..U + 19DF	Novo Tai Lue	96	83	Novo Tai Lue
0 BMP	U + 19E0..U + 19FF	Símbolos Khmer	32	32	Khmer
0 BMP	U + 1A00..U + 1A1F	Buginês	32	30	Buginês
0 BMP	U + 1A20..U + 1AAF	Tai Tham	144	127	Tai Tham
0 BMP	U + 1AB0..U + 1AFF	Combinando Marcas Diacríticas Estendidas	80	31	Herdado
0 BMP	U + 1B00..U + 1B7F	Balinesa	128	124	Balinesa
0 BMP	U + 1B80..U + 1BBF	Sudanês	64	64	Sudanês
0 BMP	U + 1BC0..U + 1BFF	Batak	64	56	Batak
0 BMP	U + 1C00..U + 1C4F	Lepcha	80	74	Lepcha
0 BMP	U + 1C50..U + 1C7F	Ol Chiki	48	48	Ol Chiki
0 BMP	U + 1C80..U + 1C8F	Cirílico Extended-C	16	9	cirílico
0 BMP	U + 1C90..U + 1CBF	Georgian Extended	48	46	Georgiano
0 BMP	U + 1CC0..U + 1CCF	Suplemento Sudanês	16	8	Sudanês
0 BMP	U + 1CD0..U + 1CFF	Extensões Védicas	48	43	Comum (16 caracteres), Herdado (27 caracteres)
0 BMP	U + 1D00..U + 1D7F	Extensões Fonéticas	128	128	Cirílico (2 caracteres), grego (15 caracteres), latino (111 caracteres)
0 BMP	U + 1D80..U + 1DBF	Suplemento de extensões fonéticas	64	64	Grego (1 caractere), latino (63 caracteres)
0 BMP	U + 1DC0..U + 1DFF	Suplemento de combinação de marcas diacríticas	64	64	Herdado
0 BMP	U + 1E00..U + 1EFF	Adicional estendido latino	256	256	Latina
0 BMP	U + 1F00..U + 1FFF	Grego estendido	256	233	grego
0 BMP	U + 2000..U + 206F	Pontuação Geral	112	111	Comum (109 caracteres), herdado (2 caracteres)
0 BMP	U + 2070..U + 209F	Sobrescritos e subscritos	48	42	Latim (15 caracteres), Comum (27 caracteres)
0 BMP	U + 20A0..U + 20CF	Símbolos de Moeda	48	33	Comum
0 BMP	U + 20D0..U + 20FF	Combinando Marcas Diacríticas para Símbolos	48	33	Herdado
0 BMP	U + 2100..U + 214F	Símbolos semelhantes a letras	80	80	Grego (1 caractere), latino (4 caracteres), Comum (75 caracteres)
0 BMP	U + 2150..U + 218F	Formulários numéricos	64	60	Latim (41 caracteres), Comum (19 caracteres)
0 BMP	U + 2190..U + 21FF	Setas; flechas	112	112	Comum
0 BMP	U + 2200..U + 22FF	Operadores matemáticos	256	256	Comum
0 BMP	U + 2300..U + 23FF	Técnico Diverso	256	256	Comum
0 BMP	U + 2400..U + 243F	Imagens de controle	64	39	Comum
0 BMP	U + 2440..U + 245F	Reconhecimento Ótico de Caracteres	32	11	Comum
0 BMP	U + 2460..U + 24FF	Alfanuméricos incluídos	160	160	Comum
0 BMP	U + 2500..U + 257F	Desenho da Caixa	128	128	Comum
0 BMP	U + 2580..U + 259F	Elementos de Bloco	32	32	Comum
0 BMP	U + 25A0..U + 25FF	Formas geométricas	96	96	Comum
0 BMP	U + 2600..U + 26FF	Símbolos Diversos	256	256	Comum
0 BMP	U + 2700..U + 27BF	Dingbats	192	192	Comum
0 BMP	U + 27C0..U + 27EF	Símbolos Matemáticos Diversos-A	48	48	Comum
0 BMP	U + 27F0..U + 27FF	Setas Suplementares-A	16	16	Comum
0 BMP	U + 2800..U + 28FF	Padrões de Braille	256	256	Braille
0 BMP	U + 2900..U + 297F	Setas Suplementares-B	128	128	Comum
0 BMP	U + 2980..U + 29FF	Símbolos Matemáticos Diversos-B	128	128	Comum
0 BMP	U + 2A00..U + 2AFF	Operadores matemáticos suplementares	256	256	Comum
0 BMP	U + 2B00..U + 2BFF	Símbolos e Setas Diversos	256	253	Comum
0 BMP	U + 2C00..U + 2C5F	Glagolítico	96	96	Glagolítico
0 BMP	U + 2C60..U + 2C7F	Latim Extended-C	32	32	Latina
0 BMP	U + 2C80..U + 2CFF	cóptico	128	123	cóptico
0 BMP	U + 2D00..U + 2D2F	Suplemento georgiano	48	40	Georgiano
0 BMP	U + 2D30..U + 2D7F	Tifinagh	80	59	Tifinagh
0 BMP	U + 2D80..U + 2DDF	Etíope Estendido	96	79	Etíope
0 BMP	U + 2DE0..U + 2DFF	Cirílico Extended-A	32	32	cirílico
0 BMP	U + 2E00..U + 2E7F	Pontuação Suplementar	128	94	Comum
0 BMP	U + 2E80..U + 2EFF	Suplemento CJK Radicals	128	115	Han
0 BMP	U + 2F00..U + 2FDF	Radicais Kangxi	224	214	Han
0 BMP	U + 2FF0..U + 2FFF	Caracteres de descrição ideográfica	16	12	Comum
0 BMP	U + 3000..U + 303F	Símbolos e pontuação CJK	64	64	Han (15 caracteres), Hangul (2 caracteres), Comum (43 caracteres), Herdado (4 caracteres)
0 BMP	U + 3040..U + 309F	Hiragana	96	93	Hiragana (89 caracteres), Comum (2 caracteres), Herdado (2 caracteres)
0 BMP	U + 30A0..U + 30FF	Katakana	96	96	Katakana (93 caracteres), Comum (3 caracteres)
0 BMP	U + 3100..U + 312F	Bopomofo	48	43	Bopomofo
0 BMP	U + 3130..U + 318F	Hangul Compatibility Jamo	96	94	Hangul
0 BMP	U + 3190..U + 319F	Kanbun	16	16	Comum
0 BMP	U + 31A0..U + 31BF	Bopomofo Extended	32	32	Bopomofo
0 BMP	U + 31C0..U + 31EF	CJK Strokes	48	36	Comum
0 BMP	U + 31F0..U + 31FF	Extensões Fonéticas Katakana	16	16	Katakana
0 BMP	U + 3200..U + 32FF	Cartas CJK Incluídas e Meses	256	255	Hangul (62 caracteres), Katakana (47 caracteres), Comum (146 caracteres)
0 BMP	U + 3300..U + 33FF	Compatibilidade CJK	256	256	Katakana (88 caracteres), Comum (168 caracteres)
0 BMP	U + 3400..U + 4DBF	CJK Unified Ideographs Extension A	6.592	6.592	Han
0 BMP	U + 4DC0..U + 4DFF	Símbolos de hexagrama Yijing	64	64	Comum
0 BMP	U + 4E00..U + 9FFF	CJK Unified Ideographs	20.992	20.992	Han
0 BMP	U + A000..U + A48F	Sílabas Yi	1.168	1.165	Yi
0 BMP	U + A490..U + A4CF	Yi Radicals	64	55	Yi
0 BMP	U + A4D0..U + A4FF	Lisu	48	48	Lisu
0 BMP	U + A500..U + A63F	Vai	320	300	Vai
0 BMP	U + A640..U + A69F	Cirílico estendido-B	96	96	cirílico
0 BMP	U + A6A0..U + A6FF	Bamum	96	88	Bamum
0 BMP	U + A700..U + A71F	Letras de tom modificador	32	32	Comum
0 BMP	U + A720..U + A7FF	Latim Extended-D	224	193	Latino (188 caracteres), Comum (5 caracteres)
0 BMP	U + A800..U + A82F	Syloti Nagri	48	45	Syloti Nagri
0 BMP	U + A830..U + A83F	Formulários de números índicos comuns	16	10	Comum
0 BMP	U + A840..U + A87F	Phags-pa	64	56	Phags Pa
0 BMP	U + A880..U + A8DF	Saurashtra	96	82	Saurashtra
0 BMP	U + A8E0..U + A8FF	Devanágari Estendido	32	32	Devanágari
0 BMP	U + A900..U + A92F	Kayah Li	48	48	Kayah Li (47 caracteres), Comum (1 caractere)
0 BMP	U + A930..U + A95F	Rejang	48	37	Rejang
0 BMP	U + A960..U + A97F	Hangul Jamo Extended-A	32	29	Hangul
0 BMP	U + A980..U + A9DF	Javanês	96	91	Javanês (90 caracteres), Comum (1 caractere)
0 BMP	U + A9E0..U + A9FF	Myanmar Extended-B	32	31	Myanmar
0 BMP	U + AA00..U + AA5F	Cham	96	83	Cham
0 BMP	U + AA60..U + AA7F	Mianmar Extended-A	32	32	Myanmar
0 BMP	U + AA80..U + AADF	Tai Viet	96	72	Tai Viet
0 BMP	U + AAE0..U + AAFF	Extensões Meetei Mayek	32	23	Meetei Mayek
0 BMP	U + AB00..U + AB2F	Ethiopic Extended-A	48	32	Etíope
0 BMP	U + AB30..U + AB6F	Latim Extended-E	64	60	Latim (56 caracteres), Grego (1 caractere), Comum (3 caracteres)
0 BMP	U + AB70..U + ABBF	Suplemento Cherokee	80	80	Cherokee
0 BMP	U + ABC0..U + ABFF	Meetei Mayek	64	56	Meetei Mayek
0 BMP	U + AC00..U + D7AF	Sílabas hangul	11.184	11.172	Hangul
0 BMP	U + D7B0..U + D7FF	Hangul Jamo Extended-B	80	72	Hangul
0 BMP	U + D800..U + DB7F	Altas substitutas	896	0	Desconhecido
0 BMP	U + DB80..U + DBFF	Substitutos de alto uso privado	128	0	Desconhecido
0 BMP	U + DC00..U + DFFF	Substitutos baixos	1.024	0	Desconhecido
0 BMP	U + E000..U + F8FF	Área de Uso Privado	6.400	6.400	Desconhecido
0 BMP	U + F900..U + FAFF	Ideogramas de compatibilidade CJK	512	472	Han
0 BMP	U + FB00..U + FB4F	Formulários de apresentação alfabética	80	58	Armênio (5 caracteres), hebraico (46 caracteres), latino (7 caracteres)
0 BMP	U + FB50..U + FDFF	Formulários de apresentação em árabe-A	688	631	Árabe (629 caracteres), Comum (2 caracteres)
0 BMP	U + FE00..U + FE0F	Seletores de variação	16	16	Herdado
0 BMP	U + FE10..U + FE1F	Formas Verticais	16	10	Comum
0 BMP	U + FE20..U + FE2F	Combinando Meias Marcas	16	16	Cirílico (2 caracteres), Herdado (14 caracteres)
0 BMP	U + FE30..U + FE4F	Formulários de compatibilidade CJK	32	32	Comum
0 BMP	U + FE50..U + FE6F	Variantes de forma pequena	32	26	Comum
0 BMP	U + FE70..U + FEFF	Formas de apresentação em árabe-B	144	141	Árabe (140 caracteres), Comum (1 caractere)
0 BMP	U + FF00..U + FFEF	Formas de meia largura e largura total	240	225	Hangul (52 caracteres), Katakana (55 caracteres), Latino (52 caracteres), Comum (66 caracteres)
0 BMP	U + FFF0..U + FFFF	Especiais	16	5	Comum
1 SMP	U + 10000..U + 1007F	Linear B Silabário	128	88	Linear B
1 SMP	U + 10080..U + 100FF	Ideogramas Lineares B	128	123	Linear B
1 SMP	U + 10100..U + 1013F	Números do Egeu	64	57	Comum
1 SMP	U + 10140..U + 1018F	Números da Grécia Antiga	80	79	grego
1 SMP	U + 10190..U + 101CF	Símbolos Antigos	64	14	Grego (1 caractere), Comum (13 caracteres)
1 SMP	U + 101D0..U + 101FF	Disco de Phaistos	48	46	Comum (45 caracteres), Herdado (1 caractere)
1 SMP	U + 10280..U + 1029F	Lícia	32	29	Lícia
1 SMP	U + 102A0..U + 102DF	Carian	64	49	Carian
1 SMP	U + 102E0..U + 102FF	Números de epacto copta	32	28	Comum (27 caracteres), Herdado (1 caractere)
1 SMP	U + 10300..U + 1032F	Itálico antigo	48	39	Itálico antigo
1 SMP	U + 10330..U + 1034F	gótico	32	27	gótico
1 SMP	U + 10350..U + 1037F	Old Permic	48	43	Old Permic
1 SMP	U + 10380..U + 1039F	Ugarítico	32	31	Ugarítico
1 SMP	U + 103A0..U + 103DF	Persa antigo	64	50	Persa antigo
1 SMP	U + 10400..U + 1044F	Deseret	80	80	Deseret
1 SMP	U + 10450..U + 1047F	Shavian	48	48	Shavian
1 SMP	U + 10480..U + 104AF	Osmanya	48	40	Osmanya
1 SMP	U + 104B0..U + 104FF	Osage	80	72	Osage
1 SMP	U + 10500..U + 1052F	Elbasan	48	40	Elbasan
1 SMP	U + 10530..U + 1056F	Albanês caucasiano	64	53	Albanês caucasiano
1 SMP	U + 10570..U + 105BF	Vithkuqi	80	70	Vithkuqi
1 SMP	U + 10600..U + 1077F	Linear A	384	341	Linear A
1 SMP	U + 10780..U + 107BF	Latim Extended-F	64	57	Latina
1 SMP	U + 10800..U + 1083F	Silabário cipriota	64	55	Cipriota
1 SMP	U + 10840..U + 1085F	Aramaico imperial	32	31	Aramaico imperial
1 SMP	U + 10860..U + 1087F	Palmireno	32	32	Palmireno
1 SMP	U + 10880..U + 108AF	Nabateu	48	40	Nabateu
1 SMP	U + 108E0..U + 108FF	Hatran	32	26	Hatran
1 SMP	U + 10900..U + 1091F	Fenício	32	29	Fenício
1 SMP	U + 10920..U + 1093F	Lídio	32	27	Lídio
1 SMP	U + 10980..U + 1099F	Hieróglifos Meroíticos	32	32	Hieróglifos Meroíticos
1 SMP	U + 109A0..U + 109FF	Meroitic Cursive	96	90	Meroitic Cursive
1 SMP	U + 10A00..U + 10A5F	Kharoshthi	96	68	Kharoshthi
1 SMP	U + 10A60..U + 10A7F	Old South Arabian	32	32	Old South Arabian
1 SMP	U + 10A80..U + 10A9F	Old North Arabian	32	32	Old North Arabian
1 SMP	U + 10AC0..U + 10AFF	Maniqueísta	64	51	Maniqueísta
1 SMP	U + 10B00..U + 10B3F	Avestan	64	61	Avestan
1 SMP	U + 10B40..U + 10B5F	Parta inscrita	32	30	Parta inscrita
1 SMP	U + 10B60..U + 10B7F	Pahlavi inscrito	32	27	Pahlavi inscrito
1 SMP	U + 10B80..U + 10BAF	Saltério Pahlavi	48	29	Saltério Pahlavi
1 SMP	U + 10C00..U + 10C4F	Turco antigo	80	73	Turco antigo
1 SMP	U + 10C80..U + 10CFF	Húngaro antigo	128	108	Húngaro antigo
1 SMP	U + 10D00..U + 10D3F	Hanifi Rohingya	64	50	Hanifi Rohingya
1 SMP	U + 10E60..U + 10E7F	Símbolos Numéricos Rumi	32	31	árabe
1 SMP	U + 10E80..U + 10EBF	Iazidi	64	47	Iazidi
1 SMP	U + 10F00..U + 10F2F	Old Sogdian	48	40	Old Sogdian
1 SMP	U + 10F30..U + 10F6F	Sogdian	64	42	Sogdian
1 SMP	U + 10F70..U + 10FAF	Velho uigur	64	26	Velho uigur
1 SMP	U + 10FB0..U + 10FDF	Chorasmian	48	28	Chorasmian
1 SMP	U + 10FE0..U + 10FFF	Elymaic	32	23	Elymaic
1 SMP	U + 11000..U + 1107F	Brahmi	128	115	Brahmi
1 SMP	U + 11080..U + 110CF	Kaithi	80	68	Kaithi
1 SMP	U + 110D0..U + 110FF	Sora Sompeng	48	35	Sora Sompeng
1 SMP	U + 11100..U + 1114F	Chakma	80	71	Chakma
1 SMP	U + 11150..U + 1117F	Mahajani	48	39	Mahajani
1 SMP	U + 11180..U + 111DF	Sharada	96	96	Sharada
1 SMP	U + 111E0..U + 111FF	Números Arcaicos Sinhala	32	20	Cingalês
1 SMP	U + 11200..U + 1124F	Khojki	80	62	Khojki
1 SMP	U + 11280..U + 112AF	Multani	48	38	Multani
1 SMP	U + 112B0..U + 112FF	Khudawadi	80	69	Khudawadi
1 SMP	U + 11300..U + 1137F	Grantha	128	86	Grantha (85 caracteres), herdado (1 caractere)
1 SMP	U + 11400..U + 1147F	Newa	128	97	Newa
1 SMP	U + 11480..U + 114DF	Tirhuta	96	82	Tirhuta
1 SMP	U + 11580..U + 115FF	Siddham	128	92	Siddham
1 SMP	U + 11600..U + 1165F	Modi	96	79	Modi
1 SMP	U + 11660..U + 1167F	Suplemento Mongol	32	13	mongol
1 SMP	U + 11680..U + 116CF	Takri	80	68	Takri
1 SMP	U + 11700..U + 1174F	Ahom	80	65	Ahom
1 SMP	U + 11800..U + 1184F	Dogra	80	60	Dogra
1 SMP	U + 118A0..U + 118FF	Warang Citi	96	84	Warang Citi
1 SMP	U + 11900..U + 1195F	Dives Akuru	96	72	Dives Akuru
1 SMP	U + 119A0..U + 119FF	Nandinagari	96	65	Nandinagari
1 SMP	U + 11A00..U + 11A4F	Praça Zanabazar	80	72	Praça Zanabazar
1 SMP	U + 11A50..U + 11AAF	Soyombo	96	83	Soyombo
1 SMP	U + 11AB0..U + 11ABF	Syllabics aboriginal canadense unificado estendido-A	16	16	Aborígine canadense
1 SMP	U + 11AC0..U + 11AFF	Pau Cin Hau	64	57	Pau Cin Hau
1 SMP	U + 11C00..U + 11C6F	Bhaiksuki	112	97	Bhaiksuki
1 SMP	U + 11C70..U + 11CBF	Marchen	80	68	Marchen
1 SMP	U + 11D00..U + 11D5F	Masaram Gondi	96	75	Masaram Gondi
1 SMP	U + 11D60..U + 11DAF	Gunjala Gondi	80	63	Gunjala Gondi
1 SMP	U + 11EE0..U + 11EFF	Makasar	32	25	Makasar
1 SMP	U + 11FB0..U + 11FBF	Suplemento Lisu	16	1	Lisu
1 SMP	U + 11FC0..U + 11FFF	Suplemento de Tamil	64	51	tâmil
1 SMP	U + 12000..U + 123FF	Cuneiforme	1.024	922	Cuneiforme
1 SMP	U + 12400..U + 1247F	Números cuneiformes e pontuação	128	116	Cuneiforme
1 SMP	U + 12480..U + 1254F	Cuneiforme Dinástico Inferior	208	196	Cuneiforme
1 SMP	U + 12F90..U + 12FFF	Cypro-Minoan	112	99	Cypro Minoan
1 SMP	U + 13000..U + 1342F	Hieróglifos egípcios	1.072	1.071	Hieróglifos egípcios
1 SMP	U + 13430..U + 1343F	Controles de formato de hieróglifo egípcio	16	9	Hieróglifos egípcios
1 SMP	U + 14400..U + 1467F	Hieróglifos da Anatólia	640	583	Hieróglifos da Anatólia
1 SMP	U + 16800..U + 16A3F	Suplemento Bamum	576	569	Bamum
1 SMP	U + 16A40..U + 16A6F	Mro	48	43	Mro
1 SMP	U + 16A70..U + 16ACF	Tangsa	96	89	Tangsa
1 SMP	U + 16AD0..U + 16AFF	Bassa Vah	48	36	Bassa Vah
1 SMP	U + 16B00..U + 16B8F	Pahawh Hmong	144	127	Pahawh Hmong
1 SMP	U + 16E40..U + 16E9F	Medefaidrin	96	91	Medefaidrin
1 SMP	U + 16F00..U + 16F9F	Miao	160	149	Miao
1 SMP	U + 16FE0..U + 16FFF	Símbolos ideográficos e pontuação	32	7	Han (4 caracteres), Khitan Small Script (1 caractere), Nushu (1 caractere), Tangut (1 caractere)
1 SMP	U + 17000..U + 187FF	Tangut	6.144	6.136	Tangut
1 SMP	U + 18800..U + 18AFF	Componentes Tangut	768	768	Tangut
1 SMP	U + 18B00..U + 18CFF	Khitan Small Script	512	470	Khitan Small Script
1 SMP	U + 18D00..U + 18D7F	Suplemento Tangut	128	9	Tangut
1 SMP	U + 1AFF0..U + 1AFFF	Kana Extended-B	16	13	Katakana
1 SMP	U + 1B000..U + 1B0FF	Suplemento Kana	256	256	Hiragana (255 caracteres), Katakana (1 caractere)
1 SMP	U + 1B100..U + 1B12F	Kana Extended-A	48	35	Hiragana (32 caracteres), Katakana (3 caracteres)
1 SMP	U + 1B130..U + 1B16F	Extensão Kana pequena	64	7	Hiragana (3 caracteres), Katakana (4 caracteres)
1 SMP	U + 1B170..U + 1B2FF	Nushu	400	396	Nüshu
1 SMP	U + 1BC00..U + 1BC9F	Duployan	160	143	Duployan
1 SMP	U + 1BCA0..U + 1BCAF	Controles de formato abreviado	16	4	Comum
1 SMP	U + 1CF00..U + 1CFCF	Notação Musical Znamenny	208	185	Comum (116 caracteres), herdado (69 caracteres)
1 SMP	U + 1D000..U + 1D0FF	Símbolos Musicais Bizantinos	256	246	Comum
1 SMP	U + 1D100..U + 1D1FF	Símbolos Musicais	256	233	Comum (211 caracteres), herdado (22 caracteres)
1 SMP	U + 1D200..U + 1D24F	Notação Musical Grega Antiga	80	70	grego
1 SMP	U + 1D2E0..U + 1D2FF	Algarismos maias	32	20	Comum
1 SMP	U + 1D300..U + 1D35F	Símbolos de Tai Xuan Jing	96	87	Comum
1 SMP	U + 1D360..U + 1D37F	Números da barra de contagem	32	25	Comum
1 SMP	U + 1D400..U + 1D7FF	Símbolos Alfanuméricos Matemáticos	1.024	996	Comum
1 SMP	U + 1D800..U + 1DAAF	Sutton SignWriting	688	672	SignWriting
1 SMP	U + 1DF00..U + 1DFFF	Latim Extended-G	256	31	Latina
1 SMP	U + 1E000..U + 1E02F	Suplemento Glagolítico	48	38	Glagolítico
1 SMP	U + 1E100..U + 1E14F	Nyiakeng Puachue Hmong	80	71	Nyiakeng Puachue Hmong
1 SMP	U + 1E290..U + 1E2BF	Totó	48	31	Totó
1 SMP	U + 1E2C0..U + 1E2FF	Wancho	64	59	Wancho
1 SMP	U + 1E7E0..U + 1E7FF	Ethiopic Extended-B	32	28	Etíope
1 SMP	U + 1E800..U + 1E8DF	Mende Kikakui	224	213	Mende Kikakui
1 SMP	U + 1E900..U + 1E95F	Adlam	96	88	Adlam
1 SMP	U + 1EC70..U + 1ECBF	Números índicos de Siyaq	80	68	Comum
1 SMP	U + 1ED00..U + 1ED4F	Números Otomanos de Siyaq	80	61	Comum
1 SMP	U + 1EE00..U + 1EEFF	Símbolos alfabéticos matemáticos árabes	256	143	árabe
1 SMP	U + 1F000..U + 1F02F	Mahjong Tiles	48	44	Comum
1 SMP	U + 1F030..U + 1F09F	Domino Tiles	112	100	Comum
1 SMP	U + 1F0A0..U + 1F0FF	Cartas de jogar	96	82	Comum
1 SMP	U + 1F100..U + 1F1FF	Suplemento Alfanumérico Incluído	256	200	Comum
1 SMP	U + 1F200..U + 1F2FF	Suplemento ideográfico fechado	256	64	Hiragana (1 caractere), Comum (63 caracteres)
1 SMP	U + 1F300..U + 1F5FF	Símbolos e pictogramas diversos	768	768	Comum
1 SMP	U + 1F600..U + 1F64F	Emoticons	80	80	Comum
1 SMP	U + 1F650..U + 1F67F	Dingbats ornamentais	48	48	Comum
1 SMP	U + 1F680..U + 1F6FF	Transporte e símbolos de mapa	128	117	Comum
1 SMP	U + 1F700..U + 1F77F	Símbolos Alquímicos	128	116	Comum
1 SMP	U + 1F780..U + 1F7FF	Formas geométricas estendidas	128	102	Comum
1 SMP	U + 1F800..U + 1F8FF	Setas Suplementares-C	256	150	Comum
1 SMP	U + 1F900..U + 1F9FF	Símbolos e pictogramas suplementares	256	256	Comum
1 SMP	U + 1FA00..U + 1FA6F	Símbolos de xadrez	112	98	Comum
1 SMP	U + 1FA70..U + 1FAFF	Símbolos e pictogramas estendidos-A	144	88	Comum
1 SMP	U + 1FB00..U + 1FBFF	Símbolos para computação legada	256	212	Comum
2 SIP	U + 20000..U + 2A6DF	CJK Unified Ideographs Extension B	42.720	42.720	Han
2 SIP	U + 2A700..U + 2B73F	CJK Unified Ideographs Extension C	4.160	4.153	Han
2 SIP	U + 2B740..U + 2B81F	CJK Unified Ideographs Extension D	224	222	Han
2 SIP	U + 2B820..U + 2CEAF	CJK Unified Ideographs Extension E	5.776	5.762	Han
2 SIP	U + 2CEB0..U + 2EBEF	CJK Unified Ideographs Extension F	7.488	7.473	Han
2 SIP	U + 2F800..U + 2FA1F	Suplemento de ideogramas de compatibilidade CJK	544	542	Han
3 DICA	U + 30000..U + 3134F	CJK Unified Ideographs Extension G	4.944	4.939	Han
14 SSP	U + E0000..U + E007F	Tag	128	97	Comum
14 SSP	U + E0100..U + E01EF	Suplemento de Seletores de Variação	240	240	Herdado
15 PUA-A	U + F0000..U + FFFFF	Área de uso privado suplementar-A	65.536	65.534	Desconhecido
16 PUA-B	U + 100000..U + 10FFFF	Área de uso privado suplementar-B	65.536	65.534	Desconhecido

Roteiro

Cada caractere atribuído pode ter um único valor para sua propriedade "Script", indicando a qual script pertence. O valor é um código de quatro letras no intervalo Aaaa-Zzzz, conforme disponível na ISO 15924, que é mapeado para um sistema de escrita . Além de descrever o plano de fundo e o uso de um script, o Unicode não usa uma conexão entre um script e as linguagens que usam esse script. Portanto, "hebraico" se refere à escrita hebraica, não ao idioma hebraico.

O código especial Zyyy para "Comum" permite um único valor para um caractere que é usado em vários scripts. O código Zinh "script herdado", usado para combinar caracteres e alguns outros pontos de código de propósito especial, indica que um caractere "herda" sua identidade de script do caractere com o qual é combinado. (O Unicode costumava usar o código privado Qaai para esse propósito.) O código Zzzz "Desconhecido" é usado para todos os caracteres que não pertencem a um script (ou seja, o valor padrão), como símbolos e caracteres de formatação. No geral, os caracteres de um único script podem ser espalhados por vários blocos, como os caracteres latinos . E o contrário também: vários scripts podem estar presentes em um único bloco, por exemplo, o bloco Letterlike Symbols contém caracteres dos scripts latinos, gregos e comuns.

Quando o Script é "" (em branco), de acordo com o Unicode o caractere não pertence a um script. Isso se aplica aos símbolos, porque os códigos de script ISO existentes "Zmth" (notação matemática), "Zsym" (símbolo) e "Zsye" (símbolo, variante emoji) não são usados em Unicode. A propriedade "Script" também fica em branco para pontos de código que não são caracteres tipográficos, como controles, substitutos e pontos de código de uso privado.

Se houver um nome de alias script específico na ISO 15924, é usado no nome do personagem: U + 0041 A LATIN CAPITAL LETTER A e U + 05D0 א HEBRÉIA CARTA ALEF .

v t e Scripts em ISO 15924 e em Unicode
ISO 15924			Script em Unicode
Código	Nome formal ISO	Direcionalidade	Unicode Alias	Versão	Personagens	Notas	Descrição

Adlm	Adlam	script da direita para a esquerda	Adlam	9,0	88		Ch 19.9
Afak	Afaka	varia	ZZ- Não em Unicode, a proposta é explorada
Aghb	Albanês caucasiano	da esquerda para direita	Albanês caucasiano	7,0	53	Antiga / histórica	Ch 8.11
Ahom	Ahom tai ahom	da esquerda para direita	Ahom	8,0	65	Antiga / histórica	Ch 15.15
árabe	árabe	script da direita para a esquerda	árabe	1.0	1.365		Ch 9.2
Aran	Árabe (variante Nastaliq)	misturado	ZZ- Variante tipográfica do árabe ( § árabe )
Armi	Aramaico imperial	script da direita para a esquerda	Aramaico imperial	5,2	31	Antiga / histórica	Ch 10.4
Armn	Armênio	da esquerda para direita	Armênio	1.0	96		Ch 7.6
Avst	Avestan	script da direita para a esquerda	Avestan	5,2	61	Antiga / histórica	Ch 10.7
Bali	Balinesa	da esquerda para direita	Balinesa	5.0	124		Ch 17.3
Bamu	Bamum	da esquerda para direita	Bamum	5,2	657		Ch 19.6
Baixo	Bassa Vah	da esquerda para direita	Bassa Vah	7,0	36	Antiga / histórica	Ch 19.7
Batk	Batak	da esquerda para direita	Batak	6,0	56		Ch 17.6
Beng	Bengali (bangla)	da esquerda para direita	bengali	1.0	96		Ch 12.2
Bhks	Bhaiksuki	da esquerda para direita	Bhaiksuki	9,0	97	Antiga / histórica	Ch 14.3
Blis	Blissymbols	varia	ZZ- Não em Unicode, a proposta é explorada
Bopo	Bopomofo	da esquerda para direita	Bopomofo	1.0	77		Ch 18.3
Brah	Brahmi	da esquerda para direita	Brahmi	6,0	115	Antiga / histórica	Ch 14.1
Brai	Braille	da esquerda para direita	Braille	3,0	256		Ch 21.1
Bugi	Buginês	da esquerda para direita	Buginês	4,1	30		Ch 17.2
Buhd	Buhid	da esquerda para direita	Buhid	3,2	20		Ch 17.1
Cakm	Chakma	da esquerda para direita	Chakma	6,1	71		Ch 13.11
Latas	Syllabics aboriginal canadense unificado	da esquerda para direita	Aborígine canadense	3,0	726		Ch 20.2
Cari	Carian	script da esquerda para a direita, da direita para a esquerda	Carian	5,1	49	Antiga / histórica	Ch 8.5
Cham	Cham	da esquerda para direita	Cham	5,1	83		Ch 16.10
Cher	Cherokee	da esquerda para direita	Cherokee	3,0	172		Ch 20.1
Chrs	Chorasmian	script da direita para a esquerda , de cima para baixo	Chorasmian	13,0	28	Antiga / histórica	Ch 10.8
Cirt	Cirth	varia	ZZ- Não em Unicode
Copta	cóptico	da esquerda para direita	cóptico	1.0	137	Antigo / histórico, desunificado do grego em 4.1	Ch 7.3
Cpmn	Cypro-Minoan	da esquerda para direita	Cypro Minoan	14,0	99	Antiga / histórica	Ch 8.4
Cprt	Silabário cipriota	script da direita para a esquerda	Cipriota	4,0	55	Antiga / histórica	Ch 8.3
Cyrl	cirílico	da esquerda para direita	cirílico	1.0	443	Inclui a variante tipográfica Old Church Slavonic ( § Cyrs)	Ch 7.4
Cyrs	Cirílico (variante eslavo da Igreja Antiga)	varia	ZZ- Variante tipográfica do cirílico ( § Cyrl )			Antiga / histórica
Deva	Devanágari (Nagari)	da esquerda para direita	Devanágari	1.0	154		Ch 12.1
Diak	Dives Akuru	da esquerda para direita	Dives Akuru	13,0	72	Antiga / histórica	Ch 15.14
Dogr	Dogra	da esquerda para direita	Dogra	11,0	60	Antiga / histórica	Ch 15.17
Dsrt	Deseret (mórmon)	da esquerda para direita	Deseret	3,1	80		Ch 20.4
Dupl	Taquigrafia de Duployan, estenografia de Duployan	da esquerda para direita	Duployan	7,0	143		Ch 21.6
Egyd	Demótico egípcio	misturado	ZZ- Não em Unicode
Egyh	Hierático egípcio	misturado	ZZ- Não em Unicode
Egyp	Hieróglifos egípcios	script da direita para a esquerda	Hieróglifos egípcios	5,2	1.080	Antiga / histórica	Ch 11.4
Elba	Elbasan	da esquerda para direita	Elbasan	7,0	40	Antiga / histórica	Ch 8.10
Elym	Elymaic	script da direita para a esquerda	Elymaic	12,0	23	Antiga / histórica	Ch 10.9
Ethi	Etíope (Geʻez)	da esquerda para direita	Etíope	3,0	523		Ch 19.1
Geok	Khutsuri (Asomtavruli e Nuskhuri)	da esquerda para direita	Georgiano			O Unicode agrupa "Khutsori", "Asomtavruli" e "Nuskhuri" em "Georgiano" ( § Geok ). Além disso, "Mkhedruli" e "Mtavruli" são "georgianos" ( § Geor )	Ch 7.7
Geor	Georgiano (Mkhedruli e Mtavruli)	da esquerda para direita	Georgiano	1.0	173	Em Unicode, também inclui Geok (Nuskhuri)	Ch 7.7
Glag	Glagolítico	da esquerda para direita	Glagolítico	4,1	134	Antiga / histórica	Ch 7.5
Gongo	Gunjala Gondi	da esquerda para direita	Gunjala Gondi	11,0	63		Ch 13.15
Gonm	Masaram Gondi	da esquerda para direita	Masaram Gondi	10,0	75		Ch 13.14
Gótico	gótico	da esquerda para direita	gótico	3,1	27	Antiga / histórica	Ch 8.9
Vovó	Grantha	da esquerda para direita	Grantha	7,0	85	Antiga / histórica	Ch 15.13
Grek	grego	da esquerda para direita	grego	1.0	518	Direcionalidade às vezes como boustrophedon	Ch 7.2
Gujr	Guzerate	da esquerda para direita	Guzerate	1.0	91		Ch 12.4
Guru	Gurmukhi	da esquerda para direita	Gurmukhi	1.0	80		Ch 12.3
Hanb	Han com Bopomofo (apelido de Han + Bopomofo)	misturado	ZZ- Veja § Hani , § Bopo
Aguentar	Hangul (Hangŭl, Hangeul)	da esquerda para a direita, de cima para baixo	Hangul	1.0	11.739	Sílabas hangul realocadas em 2.0	Ch 18.6
Hani	Han (Hanzi, Kanji, Hanja)	de cima para baixo, colunas da direita para a esquerda (historicamente)	Han	1.0	94.215		Ch 18.1
Hano	Hanunoo (Hanunóo)	da esquerda para a direita, de baixo para cima	Hanunoo	3,2	21		Ch 17.1
Hans	Han (variante simplificada)	varia	ZZ- Subconjunto de Han (Hanzi, Kanji, Hanja) ( § Hani )
Hant	Han (variante tradicional)	varia	ZZ- Subconjunto de § Hani
Hatr	Hatran	script da direita para a esquerda	Hatran	8,0	26	Antiga / histórica	Ch 10.12
Hebr	hebraico	script da direita para a esquerda	hebraico	1.0	134		Ch 9.1
Hira	Hiragana	de cima para baixo, da esquerda para a direita	Hiragana	1.0	380		Ch 18.4
Hluw	Hieróglifos da Anatólia (hieróglifos de Luwian, hieróglifos hititas)	da esquerda para direita	Hieróglifos da Anatólia	8,0	583	Antiga / histórica	Ch 11.6
Hmng	Pahawh Hmong	da esquerda para direita	Pahawh Hmong	7,0	127		Ch 16.11
Hmnp	Nyiakeng Puachue Hmong	da esquerda para direita	Nyiakeng Puachue Hmong	12,0	71		Ch 16.12
Hrkt	Silabários japoneses (apelido de Hiragana + Katakana)	de cima para baixo, da esquerda para a direita	Katakana ou Hiragana			Consulte § Hira , § Kana	Ch 18.4
Pendurado	Húngaro antigo (rúnico húngaro)	script da direita para a esquerda	Húngaro antigo	8,0	108	Antiga / histórica	Ch 8.8
Inds	Indus (Harappan)	misturado	ZZ- Não em Unicode, a proposta é explorada
Ital	Itálico antigo (etrusco, osco, etc.)	script da direita para a esquerda , da esquerda para a direita	Itálico antigo	3,1	39	Antiga / histórica	Ch 8.6
Jamo	Jamo (alias do subconjunto Jamo de Hangul)	varia	ZZ- Subconjunto de § Hang
Java	Javanês	da esquerda para direita	Javanês	5,2	90		Ch 17.4
Jpan	Japonês (alias de Han + Hiragana + Katakana)	varia	ZZ- Ver § Hani , § Hira e § Kana
Jurc	Jurchen	da esquerda para direita	ZZ- Não em Unicode
Kali	Kayah Li	da esquerda para direita	Kayah Li	5,1	47		Ch 16.9
Kana	Katakana	de cima para baixo, da esquerda para a direita	Katakana	1.0	320		Ch 18.4
Khar	Kharoshthi	script da direita para a esquerda	Kharoshthi	4,1	68	Antiga / histórica	Ch 14.2
Khmr	Khmer	da esquerda para direita	Khmer	3,0	146		Ch 16.4
Khoj	Khojki	da esquerda para direita	Khojki	7,0	62	Antiga / histórica	Ch 15.7
Kitl	Caligrafia khitana grande	da esquerda para direita	ZZ- Não em Unicode
Kits	Pequena caligrafia khitana	de cima para baixo	Khitan Small Script	13,0	471	Antiga / histórica	Ch 18.12
Knda	Canarim	da esquerda para direita	Canarim	1.0	90		Ch 12.8
Kore	Coreano (alias de Hangul + Han)	da esquerda para direita	ZZ- Ver § Hani , § Hang
Kpel	Kpelle	da esquerda para direita	ZZ- Não em Unicode, a proposta é explorada
Kthi	Kaithi	da esquerda para direita	Kaithi	5,2	68	Antiga / histórica	Ch 15.2
Lana	Tai Tham (Lanna)	da esquerda para direita	Tai Tham	5,2	127		Ch 16,7
Laoo	Lao	da esquerda para direita	Lao	1.0	82		Ch 16.2
Latf	Latim (variante Fraktur)	varia	ZZ- Variante tipográfica do latim ( § Latn )
Latg	Latim (variante gaélico)	da esquerda para direita	ZZ- Variante tipográfica do latim ( § Latn )
Latn	Latina	da esquerda para direita	Latina	1.0	1.475	Veja também: script latino em Unicode	Ch 7.1
Leke	Leke	da esquerda para direita	ZZ- Não em Unicode
Lepc	Lepcha (Róng)	da esquerda para direita	Lepcha	5,1	74		Ch 13.12
Membro	Limbu	da esquerda para direita	Limbu	4,0	68		Ch 13.6
Lina	Linear A	da esquerda para direita	Linear A	7,0	341	Antiga / histórica	Ch 8.1
Linb	Linear B	da esquerda para direita	Linear B	4,0	211	Antiga / histórica	Ch 8.2
Lisu	Lisu (Fraser)	da esquerda para direita	Lisu	5,2	49		Ch 18.9
Loma	Loma	da esquerda para direita	ZZ- Não em Unicode, a proposta é explorada
Lyci	Lícia	da esquerda para direita	Lícia	5,1	29	Antiga / histórica	Ch 8.5
Lydi	Lídio	script da direita para a esquerda	Lídio	5,1	27	Antiga / histórica	Ch 8.5
Mahj	Mahajani	da esquerda para direita	Mahajani	7,0	39	Antiga / histórica	Ch 15.6
Maka	Makasar	da esquerda para direita	Makasar	11,0	25	Antiga / histórica	Ch 17.8
Mand	Mandáico, mandeísta	script da direita para a esquerda	Mandaico	6,0	29		Ch 9.5
Mani	Maniqueísta	script da direita para a esquerda	Maniqueísta	7,0	51	Antiga / histórica	Ch 10.5
Marc	Marchen	da esquerda para direita	Marchen	9,0	68	Antiga / histórica	Ch 14.5
Maia	Hieróglifos maias	misturado	ZZ- Não em Unicode
Medf	Medefaidrin (Oberi Okaime, Oberi Ɔkaimɛ)	da esquerda para a direita, da esquerda para a direita	Medefaidrin	11,0	91		Ch 19.10
Emendar	Mende Kikakui	script da direita para a esquerda	Mende Kikakui	7,0	213		Ch 19.8
Merc	Meroitic Cursive	script da direita para a esquerda	Meroitic Cursive	6,1	90	Antiga / histórica	Ch 11.5
Mero	Hieróglifos Meroíticos	script da direita para a esquerda	Hieróglifos Meroíticos	6,1	32	Antiga / histórica	Ch 11.5
Mlym	Malaiala	da esquerda para direita	Malaiala	1.0	118		Ch 12.9
Modi	Modi, Moḍī	da esquerda para direita	Modi	7,0	79	Antiga / histórica	Ch 15.11
Mong	mongol	de cima para baixo, da esquerda para a direita	mongol	3,0	168	Mong inclui scripts Clear e Manchu	Ch 13.5
Lua	Lua (código da lua, script da lua, tipo da lua)	misturado	ZZ- Não em Unicode, a proposta é explorada
Mroo	Mro, Mru	da esquerda para direita	Mro	7,0	43		Ch 13.8
Mtei	Meitei Mayek (Meithei, Meetei)	da esquerda para direita	Meetei Mayek	5,2	79		Ch 13.7
Mult	Multani	da esquerda para direita	Multani	8,0	38	Antiga / histórica	Ch 15.9
Mymr	Mianmar (birmanês)	da esquerda para direita	Myanmar	3,0	223		Ch 16.3
Nand	Nandinagari	da esquerda para direita	Nandinagari	12,0	65	Antiga / histórica	Ch 15.12
Narb	Antiga Arábia do Norte (Antiga Arábia do Norte)	da direita para a esquerda roteiro , da direita para a esquerda roteiro	Old North Arabian	7,0	32	Antiga / histórica	Ch 10.1
Nbat	Nabateu	script da direita para a esquerda	Nabateu	7,0	40	Antiga / histórica	Ch 10.10
Newa	Newa, Newar, Newari, Nepāla lipi	da esquerda para direita	Newa	9,0	97		Ch 13.3
Nkdb	Naxi Dongba (na²¹ɕi³³ a³³ba²¹, Nakhi Tomba)	da esquerda para direita	ZZ- Não em Unicode
Nkgb	Nakhi Geba (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-¹baw, Nakhi Geba)	da esquerda para direita	ZZ- Não em Unicode, a proposta é explorada
Nkoo	N'Ko	script da direita para a esquerda	NKo	5.0	62		Ch 19.4
Nshu	Nüshu	de cima para baixo	Nushu	10,0	397		Ch 18.8
Ogam	Ogham	de baixo para cima, da esquerda para a direita	Ogham	3,0	29	Antiga / histórica	Ch 8.14
Olck	Ol Chiki (Ol Cemet ', Ol, Santali)	da esquerda para direita	Ol Chiki	5,1	48		Ch 13.10
Orkh	Antigo turco, orkhon rúnico	script da direita para a esquerda	Turco antigo	5,2	73	Antiga / histórica	Ch 14.8
Orya	Oriya (Odia)	da esquerda para direita	Oriya	1.0	91		Ch 12.5
Osge	Osage	da esquerda para direita	Osage	9,0	72		Ch 20.3
Osma	Osmanya	da esquerda para direita	Osmanya	4,0	40		Ch 19.2
Ougr	Velho uigur	misturado	Velho uigur	14,0	26	Antiga / histórica	Ch 14.11
Palma	Palmireno	script da direita para a esquerda	Palmireno	7,0	32	Antiga / histórica	Ch 10.11
Pauc	Pau Cin Hau	da esquerda para direita	Pau Cin Hau	7,0	57		Ch 16.13
Pcun	Protocuneiforme	da esquerda para direita	ZZ- Não em Unicode
Pelm	Proto-elamita	da esquerda para direita	ZZ- Não em Unicode
Permanente	Old Permic	da esquerda para direita	Old Permic	7,0	43	Antiga / histórica	Ch 8.13
Phag	Phags-pa	de cima para baixo	Phags-pa	5.0	56	Antiga / histórica	Ch 14.4
Phli	Pahlavi inscrito	script da direita para a esquerda	Pahlavi inscrito	5,2	27	Antiga / histórica	Ch 10.6
Phlp	Saltério Pahlavi	script da direita para a esquerda	Saltério Pahlavi	7,0	29	Antiga / histórica	Ch 10.6
Phlv	Livro Pahlavi	misturado	ZZ- Não em Unicode
Phnx	Fenício	script da direita para a esquerda	Fenício	5.0	29	Antiga / histórica	Ch 10.3
Piqd	Klingon (KLI pIqaD)	da esquerda para direita	ZZ- Rejeitado para inclusão em Unicode
Plrd	Miao (Pollard)	da esquerda para direita	Miao	6,1	149		Ch 18.10
Prti	Parta inscrita	script da direita para a esquerda	Parta inscrita	5,2	30	Antiga / histórica	Ch 10.6
Psin	Proto-Sinaítico	misturado	ZZ- Não em Unicode
Qaaa-Qabx	Reservado para uso privado (alcance)		ZZ- Não em Unicode
Ranj	Ranjana	da esquerda para direita	ZZ- Não em Unicode
Rjng	Rejang (Redjang, Kaganga)	da esquerda para direita	Rejang	5,1	37		Ch 17.5
Rohg	Hanifi Rohingya	script da direita para a esquerda	Hanifi Rohingya	11,0	50		Ch 16.14
Roro	Rongorongo	misturado	ZZ- Não em Unicode, a proposta é explorada
Runr	Rúnico	da esquerda para a direita, boustrofédon	Rúnico	3,0	86	Antiga / histórica	Ch 8.7
Samr	samaritano	script da direita para a esquerda , de cima para baixo	samaritano	5,2	61		Ch 9.4
Sara	Sarati	misturado	ZZ- Não em Unicode
Sarb	Old South Arabian	script da direita para a esquerda	Old South Arabian	5,2	32	Antiga / histórica	Ch 10.2
Saur	Saurashtra	da esquerda para direita	Saurashtra	5,1	82		Ch 13.13
Sgnw	SignWriting	de cima para baixo	SignWriting	8,0	672		Ch 21.7
Shaw	Shavian (Shaw)	da esquerda para direita	Shavian	4,0	48		Ch 8.15
Shrd	Sharada, Śāradā	da esquerda para direita	Sharada	6,1	96		Ch 15.3
Shui	Shuishu	da esquerda para direita	ZZ- Não em Unicode
Sidd	Siddham, Siddhaṃ, Siddhamātṛkā	da esquerda para direita	Siddham	7,0	92	Antiga / histórica	Ch 15.5
Sind	Khudawadi, sindi	da esquerda para direita	Khudawadi	7,0	69		Ch 15.8
Sinh	Cingalês	da esquerda para direita	Cingalês	3,0	111		Ch 13.2
Sogd	Sogdian	escrita horizontal e vertical em scripts do Leste Asiático , de cima para baixo	Sogdian	11,0	42	Antiga / histórica	Ch 14.10
Entao vai	Old Sogdian	script da direita para a esquerda	Old Sogdian	11,0	40	Antiga / histórica	Ch 14.9
Sora	Sora Sompeng	da esquerda para direita	Sora Sompeng	6,1	35		Ch 15.16
Soyo	Soyombo	da esquerda para direita	Soyombo	10,0	83	Antiga / histórica	Ch 14.7
Sund	Sudanês	da esquerda para direita	Sudanês	5,1	72		Ch 17.7
Sylo	Syloti Nagri	da esquerda para direita	Syloti Nagri	4,1	45	Antiga / histórica	Ch 15.1
Syrc	Siríaco	script da direita para a esquerda	Siríaco	3,0	88	Inclui variantes tipográficas Estrangelo ( § Syre ), Ocidental ( § Syrj ) e Oriental ( § Syrn )	Ch 9.3
Syre	Siríaco (variante Estrangelo)	misturado	ZZ- Variante tipográfica do siríaco ( § Syrc )
Syrj	Siríaco (variante ocidental)	misturado	ZZ- Variante tipográfica do siríaco ( § Syrc )
Syrn	Siríaco (variante oriental)	misturado	ZZ- Variante tipográfica do siríaco ( § Syrc )
Tagb	Tagbanwa	da esquerda para direita	Tagbanwa	3,2	18		Ch 17.1
Takr	Takri, Ṭākrī, Ṭāṅkrī	da esquerda para direita	Takri	6,1	68		Ch 15.4
Conto	Tai Le	da esquerda para direita	Tai Le	4,0	35		Ch 16.5
Talu	Novo Tai Lue	da esquerda para direita	Novo Tai Lue	4,1	83		Ch 16.6
Taml	tâmil	da esquerda para direita	tâmil	1.0	123		Ch 12.6
Espiga	Tangut	de cima para baixo, colunas da direita para a esquerda, da esquerda para a direita	Tangut	9,0	6.914	Antiga / histórica	Ch 18.11
Tavt	Tai Viet	da esquerda para direita	Tai Viet	5,2	72		Ch 16.8
Telu	Telugu	da esquerda para direita	Telugu	1.0	100		Ch 12.7
Teng	Tengwar	da esquerda para direita	ZZ- Não em Unicode
Tfng	Tifinagh (berbere)	da esquerda para direita	Tifinagh	4,1	59		Ch 19.3
Tglg	Tagalog (Baybayin, Alibata)	da esquerda para direita	Tagalo	3,2	23		Ch 17.1
Thaa	Thaana	script da direita para a esquerda	Thaana	3,0	50		Ch 13.1
tailandês	tailandês	da esquerda para direita	tailandês	1.0	86		Ch 16.1
Tibt	Tibetano	da esquerda para direita	Tibetano	2.0	207	Adicionado em 1.0, removido em 1.1 e reintroduzido em 2.0	Ch 13.4
Tirh	Tirhuta	da esquerda para direita	Tirhuta	7,0	82		Ch 15.10
Tnsa	Tangsa	da esquerda para direita	Tangsa	14,0	89		Ch 13.18
Totó	Totó	da esquerda para direita	Totó	14,0	31		Ch 13.17
Ugar	Ugarítico	da esquerda para direita	Ugarítico	4,0	31	Antiga / histórica	Ch 11.2
Vaii	Vai	da esquerda para direita	Vai	5,1	300		Ch 19.5
Visp	Discurso visível	da esquerda para direita	ZZ- Não em Unicode
Vith	Vithkuqi	da esquerda para direita	Vithkuqi	14,0	70	Antiga / histórica	Ch 8.12
Wara	Warang Citi (Varang Kshiti)	da esquerda para direita	Warang Citi	7,0	84		Ch 13.9
Wcho	Wancho	da esquerda para direita	Wancho	12,0	59		Ch 13.16
Wole	Woleai	misturado	ZZ- Não em Unicode, a proposta é explorada
Xpeo	Persa antigo	da esquerda para direita	Persa antigo	4,1	50	Antiga / histórica	Ch 11.3
Xsux	Cuneiforme, Sumero-Acadiano	da esquerda para direita	Cuneiforme	5.0	1.234	Antiga / histórica	Ch 11.1
Yezi	Iazidi	script da direita para a esquerda	Iazidi	13,0	47	Antiga / histórica	Ch 9.6
Yiii	Yi	da esquerda para direita	Yi	3,0	1.220		Ch 18.7
Zanb	Praça Zanabazar (Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, Escrita quadrada horizontal)	da esquerda para direita	Praça Zanabazar	10,0	72	Antiga / histórica	Ch 14.6
Zinh	Código para script herdado		Herdado		657
Zmth	Notação matemática		ZZ- Não é um 'script' em Unicode
Zsym	Símbolos		ZZ- Não é um 'script' em Unicode
Zsye	Símbolos (variante emoji)		ZZ- Não é um 'script' em Unicode
Zxxx	Código para documentos não escritos		ZZ- Não é um 'script' em Unicode
Zyyy	Código para script indeterminado		Comum		8.252
Zzzz	Código para script não codificado		Desconhecido		969.350	Em Unicode: todos os outros pontos de código
Notas ^ Publicações ISO 15924 em 17 de fevereiro de 2021 ^ Arquivo de texto normativo ISO 15924 em 17 de fevereiro de 2021 ^ Alterações ISO 15924 (incluindo aliases para Unicode; em 17 de fevereiro de 2021) ^ Unicode versão 14.0 ^ Gráficos Unicode ^ O Unicode usa o "Property Value Alias" (Alias) como o nome do script. Esses nomes de alias são parte do Unicode e são publicados informativamente ao lado do ISO 15924. Um nome de script de alias pode ser usado em um nome de caractere :,`Palm` Palmyrene → U + 10860 𐡠 PALMYRENE LETTER ALEPH . ^ Em Unicode, a escrita fenícia se destina à representação de texto em paleo-hebraico , fenício arcaico, fenício , aramaico inicial , cursivo fenício tardio, papiro fenício , hebraico siloé , selos hebraicos , amonita , moabita e púnico .

Propriedades de normalização

Decomposições, tipo de decomposição, classe de combinação canônica, exclusões de composição e muito mais.

Era

Idade é a versão do Padrão na qual o ponto de código foi designado pela primeira vez. O número da versão é abreviado para a numeração major.minor, embora números de versão mais detalhados sejam usados: as versões 4.0.0 e 4.0.1 são chamadas de 4.0 como Idade. Dados os lançamentos, Idade pode estar no intervalo: 1,1, 2,0, 2,1, 3,0, 3,1, 3,2, 4,0, 4,1, 5,0, 5,1, 5,2, 6,0, 6,1, 6,2, 6,3, 7,0, 8,0, 9,0, 10,0, 11,0 , 12,0, 12,1, 13,0 e 14,0. Os valores longos para Age começam em um V e usam um sublinhado em vez de um ponto: V1_1, por exemplo. Os pontos de código sem um valor de idade especificamente atribuído têm o valor "NA", com a forma longa "Não atribuído".

Descontinuada

Uma vez que um personagem tenha sido definido, ele não será removido ou reatribuído. No entanto, um caractere pode estar obsoleto , o que significa que seu "uso é fortemente desencorajado". A partir da versão 14.0 do Unicode, os quinze caracteres a seguir estão obsoletos:

Caracteres obsoletos em Unicode
Codepoint	Nome do personagem	Alternativa recomendada		Observações
U + 0149	LATIN PEQUENA LETRA N PRECEDIDA POR APÓSTROFO	U + 02BC U + 006E	ʼN
U + 0673	LETRA ÁRABE ALEF COM WAVY HAMZA ABAIXO	U + 0627 U + 065F	اٟ
U + 0F77	TIBETAN VOWEL SIGN VOCALIC RR	U + 0FB2 U + 0F81	ྲཱ ྀ
U + 0F79	TIBETAN VOWEL SIGN VOCALIC LL	U + 0FB3 U + 0F81	ླཱ ྀ
U + 17A3	KHMER INDEPENDENT VOWEL QAQ	U + 17A2	អ
U + 17A4	KHMER INDEPENDENT VOWEL QAA	U + 17A2 U + 17B6	អា
U + 206A	INIBIR TROCA SIMÉTRICA	Nenhum
U + 206B	ATIVAR A TROCA SIMÉTRICA	Nenhum
U + 206C	INIBIR FORMA DE FORMA ÁRABE	Nenhum
U + 206D	ATIVAR A FORMA DE FORMA ÁRABE	Nenhum
U + 206E	FORMAS DE DÍGITOS NACIONAIS	Nenhum
U + 206F	FORMAS DE DÍGITO NOMINAL	Nenhum
U + 2329	SUPORTE DE ÂNGULO PARA A ESQUERDA	U + 3008	〈	U + 27E8 ⟨ MATEMÁTICA PARA A ESQUERDA ângulo do suporte é recomendado para uso técnico matemática e outras
U + 232A	SUPORTE DE ÂNGULO PARA A DIREITA	U + 3009	〉	U + 27E9 ⟩ MATEMÁTICA DIREITO ângulo do suporte é recomendado para uso técnico matemática e outras
U + E0001	TAG DE IDIOMA	Nenhum

Limites

O padrão Unicode especifica as seguintes propriedades relacionadas a limites:

Aglomerado de grafemas
Palavra
Linha
Frase

Correção de apelidos de nomes Unicode

v t e Lista de correções de nome de personagem (nomes de alias)
Personagem		Nome	Pseudônimo
01A2	Ƣ	LATIN CAPITAL LETTER OI	LATIN MAIÚSCULO LETRA GHA
01A3	ƣ	LATIN SMALL LETTER OI	LATIN SMALL LETTER GHA
0709	܉	SYRIAC SUBLINEAR COLON ENVIADO PARA A DIREITA	SYRIAC SUBLINEAR COLON ENVIADO PARA A ESQUERDA
0CDE	ೞ	KANNADA LETTER FA	KANNADA LETTER LLLA
0E9D	ຝ	LAO LETTER FO TAM	LAO LETTER FO FON
0E9F	ຟ	LAO LETTER FO SUNG	LAO LETTER FO FAY
0EA3	ຣ	LAO LETTER LO LING	LAO LETTER RO
0EA5	ລ	LAO LETTER LO LOOT	LAO LETTER LO
0FD0	࿐	TIBETAN MARK BSKA- SHOG GI MGO RGYAN	TIBETAN MARK BKA- SHOG GI MGO RGYAN
11EC	ᇬ	HANGUL JONGSEONG IEUNG-KIYEOK	HANGUL JONGSEONG YESIEUNG-KIYEOK
11ED	ᇭ	HANGUL JONGSEONG IEUNG-SSANGKIYEOK	HANGUL JONGSEONG YESIEUNG-SSANGKIYEOK
11EE	ᇮ	HANGUL JONGSEONG SSANGIEUNG	HANGUL JONGSEONG SSANGYESIEUNG
11EF	ᇯ	HANGUL JONGSEONG IEUNG-KHIEUKH	HANGUL JONGSEONG YESIEUNG-KHIEUKH
2118	℘	SCRIPT CAPITAL P	WEIERSTRASS ELLIPTIC FUNCTION
2448	⑈	OCR DASH	MICR NO SÍMBOLO DOS EUA
2449	⑉	NÚMERO DA CONTA DO CLIENTE OCR	SÍMBOLO MICR DASH
2B7A	⭺	SETA DE CABEÇA DO TRIÂNGULO ESQUERDA COM CURSO HORIZONTAL DUPLO	SETA COM CABEÇA DO TRIÂNGULO ESQUERDA COM CURSO VERTICAL DUPLO
2B7C	⭼	SETA DE CABEÇA EM TRIÂNGULO DIREITA COM CURSO HORIZONTAL DUPLO	SETA DE CABEÇA DE TRIÂNGULO DIREITA COM CURSO VERTICAL DUPLO
A015	ꀕ	YI SYLLABLE WU	YI SÍLÁVEL MARCA DE ITERAÇÃO
FE18	︘	FORMULÁRIO DE APRESENTAÇÃO PARA FREIO LENTICULAR VERTICAL DIREITO BRANCO	FORMULÁRIO DE APRESENTAÇÃO PARA SUPORTE LENTICULAR VERTICAL DIREITO BRANCO
122D4	𒋔	CUNEIFORM SIGN SHIR TENU	SINAL CUNEIFORM NU11 TENU
122D5	𒋕	SINAL CUNEIFORM CAMISA SOBRE CAMISA BUR OVER BUR	SINAL CUNEIFORM NU11 SOBRE NU11 BUR OVER BUR
16E56	𖹖	LETRA MAIÚSCULA DA MEDEFAIDRIN HP	MEDEFAIDRIN MAIÚSCULA LETRA H
16E57	𖹗	MEDEFAIDRIN CAPITAL LETTER NY	MEDEFAIDRIN CAPITAL LETTER NG
16E76	𖹶	MEDEFAIDRIN SMALL LETTER HP	MEDEFAIDRIN SMALL LETTER H
16E77	𖹷	MEDEFAIDRIN SMALL LETTER NY	MEDEFAIDRIN SMALL LETTER NG
1B001	𛀁	HIRAGANA CARTA ARCHAIC YE	HENTAIGANA LETTER E-1
1D0C5	𝃅	BIZANTINO MUSICAL SÍMBOLO FHTORA SKLIRON CHROMA VASIS	SÍMBOLO MUSICAL BIZANTINO FTHORA SKLIRON CHROMA VASIS

links externos

Banco de dados de caracteres Unicode , anexo # 44, explicando as diferentes propriedades
UnicodeData.txt - uma lista de todos os caracteres Unicode, com suas propriedades

Referências

^ ^a ^b ^c ^d ^e "O padrão Unicode, Capítulo 4: Propriedades dos caracteres" (PDF) . Unicode, Inc. setembro de 2021 . Recuperado em 2021-08-15 . Citar diário requer |journal=( ajuda )
^ ^a ^b ^c "Padrão Unicode Anexo # 44: Banco de dados de caracteres Unicode" . O padrão Unicode . 14/06/2017.
^ "UCD: Aliases de nomes" . Banco de dados de caracteres Unicode . Consórcio Unicode. 08/03/2019.
^ "Padrões de design de personagens - caracteres de espaço" . Padrões de design de personagens . Microsoft . 1998–1999. Arquivado do original em 23 de agosto de 2000 . Página visitada em 18/05/2009 .
^ The Unicode Standard 5.0, edição impressa, p.205
^ "Pontuação geral" (PDF) . O padrão Unicode 5.1 . Unicode Inc . 1991–2008 . Página visitada em 13/05/2009 .
^ Sargent, Murray III (2006-08-29). "Codificação de texto quase simples Unicode de matemática (versão 2)" . Unicode Technical Note # 28 . Unicode Inc . pp. 19–20 . Página visitada em 2009-05-19 .
^ Gillam, Richard (2002). Unicode Demystified: A Practical Programmer's Guide to the Encoding Standard . Addison-Wesley. ISBN 0-201-70052-2.
^ ^a ^b Hickson, Ian . "12.5 Referências de caracteres nomeados" . Padrão HTML . WHATWG .
^ Wolfram . "\ [NegativeThickSpace]" . Wolfram Language Documentation .
^ Wolfram . "\ [NegativeMediumSpace]" . Wolfram Language Documentation .
^ Wolfram . "\ [NegativeThinSpace]" . Wolfram Language Documentation .
^ Wolfram . "\ [NegativeVeryThinSpace]" . Wolfram Language Documentation .
^ Faltstrom, P., ed. (Agosto de 2010). "Não associador de largura zero" . Os pontos de código Unicode e os nomes de domínio internacionalizados para aplicativos (IDNA) . IETF . seg. A.1. doi : 10.17487 / RFC5892 . RFC 5892 . Recuperado em 4 de setembro de 2019 .
^ Faltstrom, P., ed. (Agosto de 2010). "Marcador de largura zero" . Os pontos de código Unicode e os nomes de domínio internacionalizados para aplicativos (IDNA) . IETF . seg. A.2. doi : 10.17487 / RFC5892 . RFC 5892 . Recuperado em 4 de setembro de 2019 .
^ "Unicode Standard Annex # 44, Unicode Character Database" .
^ ^a ^b "Unicode Standard Annex # 9: Unicode Bidirectional Algorithm" . O padrão Unicode . 14-05-2017.
^ "Padrão Unicode Anexo # 24: Propriedade do Script Unicode" . O padrão Unicode . 01-06-2015.
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ "Novos scripts propostos" . Consórcio Unicode . 25/05/2018 . Página visitada em 12/09/2019 .
^ Michael Everson (18/09/1997). "Proposta para codificar Klingon no Plano 1 da ISO / IEC 10646-2" .
^ The Unicode Consortium (2001-08-14). "Ata Aprovada da Reunião Conjunta UTC 87 / L2 184" .
^ "Middle East-II, Ancient Scripts" (PDF) . 14.0.0. The Unicode Consortiumtitle = Scripts do Oriente Médio II . Página visitada em 2021-09-15 .
^ "UCD: Idade derivada" . Banco de dados de caracteres Unicode . Consórcio Unicode. 2021-07-10.
^ "Políticas de estabilidade de codificação de caracteres Unicode" . Unicode . Consórcio Unicode . 23/06/2017 . Página visitada em 2021-07-25 . Uma vez que um caractere é codificado, ele não será movido ou removido.
^ "3.4: Caracteres e codificação, D13: Caractere obsoleto" (PDF) . O padrão Unicode, versão 14.0 . Mountain View: Consórcio Unicode . 2021-09-14. ISBN 9781936213-290. Página visitada em 2021-09-15 .
^ "PropList-14.0.0.txt" . Unicode . Consórcio Unicode . 2021-08-12 . Página visitada em 2021-09-15 .
^ "Capítulo 23.3: Caracteres de formato obsoletos" (PDF) . O padrão Unicode, versão 13.0 . Mountain View: Consórcio Unicode . 2020-03-10. ISBN 9781936213269. Página visitada em 2021-07-25 .
^ "23.9: Caracteres de marcação, uso descontinuado para marcação de idioma" (PDF) . O padrão Unicode, versão 13.0 . Mountain View: Consórcio Unicode . 2020-03-10. ISBN 9781936213269. Página visitada em 2021-07-25 .

[cnote_a_grp_ISO_Unicode] 
Publicações ISO 15924 em 17 de fevereiro de 2021

[cnote_b_grp_ISO_list] 
Arquivo de texto normativo ISO 15924 em 17 de fevereiro de 2021

[cnote_c_grp_ISO_changes] 
Alterações ISO 15924 (incluindo aliases para Unicode; em 17 de fevereiro de 2021)

[cnote_d_grp_Asof_Unicode_version] 
Unicode versão 14.0

[cnote_e_grp_Unicode_charts] 
Gráficos Unicode

[cnote_f_grp_Aliases_for_Unicode] 
O Unicode usa o "Property Value Alias" (Alias) como o nome do script. Esses nomes de alias são parte do Unicode e são publicados informativamente ao lado do ISO 15924. Um nome de script de alias pode ser usado em um nome de caractere :,Palm Palmyrene → U + 10860 𐡠 PALMYRENE LETTER ALEPH .

[cnote_g_grp_Scripts] 
Em Unicode, a escrita fenícia se destina à representação de texto em paleo-hebraico , fenício arcaico, fenício , aramaico inicial , cursivo fenício tardio, papiro fenício , hebraico siloé , selos hebraicos , amonita , moabita e púnico .

[Chapter4-1] "O padrão Unicode, Capítulo 4: Propriedades dos caracteres" (PDF) . Unicode, Inc. setembro de 2021 . Recuperado em 2021-08-15 . Citar diário requer |journal=( ajuda )

[UAX44-2] "Padrão Unicode Anexo # 44: Banco de dados de caracteres Unicode" . O padrão Unicode . 14/06/2017.

[3] "UCD: Aliases de nomes" . Banco de dados de caracteres Unicode . Consórcio Unicode. 08/03/2019.

[11] "Padrões de design de personagens - caracteres de espaço" . Padrões de design de personagens . Microsoft . 1998–1999. Arquivado do original em 23 de agosto de 2000 . Página visitada em 18/05/2009 .

[12] The Unicode Standard 5.0, edição impressa, p.205

[13] "Pontuação geral" (PDF) . O padrão Unicode 5.1 . Unicode Inc . 1991–2008 . Página visitada em 13/05/2009 .

[14] Sargent, Murray III (2006-08-29). "Codificação de texto quase simples Unicode de matemática (versão 2)" . Unicode Technical Note # 28 . Unicode Inc . pp. 19–20 . Página visitada em 2009-05-19 .

[Gillam-15] Gillam, Richard (2002). Unicode Demystified: A Practical Programmer's Guide to the Encoding Standard . Addison-Wesley. ISBN 0-201-70052-2.

[html5entity-16] Hickson, Ian . "12.5 Referências de caracteres nomeados" . Padrão HTML . WHATWG .

[17] Wolfram . "\ [NegativeThickSpace]" . Wolfram Language Documentation .

[18] Wolfram . "\ [NegativeMediumSpace]" . Wolfram Language Documentation .

[19] Wolfram . "\ [NegativeThinSpace]" . Wolfram Language Documentation .

[20] Wolfram . "\ [NegativeVeryThinSpace]" . Wolfram Language Documentation .

[22] Faltstrom, P., ed. (Agosto de 2010). "Não associador de largura zero" . Os pontos de código Unicode e os nomes de domínio internacionalizados para aplicativos (IDNA) . IETF . seg. A.1. doi : 10.17487 / RFC5892 . RFC 5892 . Recuperado em 4 de setembro de 2019 .

[23] Faltstrom, P., ed. (Agosto de 2010). "Marcador de largura zero" . Os pontos de código Unicode e os nomes de domínio internacionalizados para aplicativos (IDNA) . IETF . seg. A.2. doi : 10.17487 / RFC5892 . RFC 5892 . Recuperado em 4 de setembro de 2019 .

[24] "Unicode Standard Annex # 44, Unicode Character Database" .

[UAX9-25] "Unicode Standard Annex # 9: Unicode Bidirectional Algorithm" . O padrão Unicode . 14-05-2017.

[34] "Padrão Unicode Anexo # 24: Propriedade do Script Unicode" . O padrão Unicode . 01-06-2015.

[uniproposed-35] ^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ "Novos scripts propostos" . Consórcio Unicode . 25/05/2018 . Página visitada em 12/09/2019 .

[36] Michael Everson (18/09/1997). "Proposta para codificar Klingon no Plano 1 da ISO / IEC 10646-2" .

[37] The Unicode Consortium (2001-08-14). "Ata Aprovada da Reunião Conjunta UTC 87 / L2 184" .

[38] "Middle East-II, Ancient Scripts" (PDF) . 14.0.0. The Unicode Consortiumtitle = Scripts do Oriente Médio II . Página visitada em 2021-09-15 .

[DerivedAge-39] "UCD: Idade derivada" . Banco de dados de caracteres Unicode . Consórcio Unicode. 2021-07-10.

[40] "Políticas de estabilidade de codificação de caracteres Unicode" . Unicode . Consórcio Unicode . 23/06/2017 . Página visitada em 2021-07-25 . Uma vez que um caractere é codificado, ele não será movido ou removido.

[41] "3.4: Caracteres e codificação, D13: Caractere obsoleto" (PDF) . O padrão Unicode, versão 14.0 . Mountain View: Consórcio Unicode . 2021-09-14. ISBN 9781936213-290. Página visitada em 2021-09-15 .

[42] "PropList-14.0.0.txt" . Unicode . Consórcio Unicode . 2021-08-12 . Página visitada em 2021-09-15 .

[44] "Capítulo 23.3: Caracteres de formato obsoletos" (PDF) . O padrão Unicode, versão 13.0 . Mountain View: Consórcio Unicode . 2020-03-10. ISBN 9781936213269. Página visitada em 2021-07-25 .

[47] "23.9: Caracteres de marcação, uso descontinuado para marcação de idioma" (PDF) . O padrão Unicode, versão 13.0 . Mountain View: Consórcio Unicode . 2020-03-10. ISBN 9781936213269. Página visitada em 2021-07-25 .

Languages

In other projects

Propriedade de caractere Unicode - Unicode character property

Conteúdo

Elementos semânticos

Nome

Nomes da versão 1.0

Alias do nome do personagem

Categoria Geral

Pontuação

Espaço em branco

Outras características gerais

Classe combinando

Propriedades relacionadas à exibição

Escrita bidirecional

Invólucro

Valores e tipos numéricos

Decimal

Dígitos hexadecimais

Bloquear

Roteiro

Propriedades de normalização

Era

Descontinuada

Limites

Correção de apelidos de nomes Unicode

links externos

Referências

Languages

In other projects

Propriedade de caractere Unicode - Unicode character property

Elementos semânticos

Nome

Nomes da versão 1.0

Alias ​​do nome do personagem

Categoria Geral

Pontuação

Espaço em branco

Outras características gerais

Classe combinando

Propriedades relacionadas à exibição

Escrita bidirecional

Invólucro

Valores e tipos numéricos

Decimal

Dígitos hexadecimais

Bloquear

Roteiro

Propriedades de normalização

Era

Descontinuada

Limites

Correção de apelidos de nomes Unicode

links externos

Referências

Alias do nome do personagem