DBCS - DBCS

Um conjunto de caracteres de byte duplo ( DBCS ) é uma codificação de caracteres em que todos os caracteres (incluindo os caracteres de controle ) são codificados em dois bytes ou apenas cada caractere gráfico não representável por um conjunto de caracteres de byte único ( SBCS ) que o acompanha é codificado em dois bytes ( caracteres Han geralmente compreenderiam a maioria desses caracteres de dois bytes). Um DBCS suporta idiomas nacionais que contêm muitos caracteres ou símbolos exclusivos (o número máximo de caracteres que podem ser representados com um byte é de 256 caracteres, enquanto dois bytes podem representar até 65.536personagens). Exemplos de tais idiomas incluem japonês e chinês. Hangul coreano não contém tantos caracteres, mas KS X 1001 oferece suporte a Hangul e Hanja e usa dois bytes por caractere.

Em computação CJK (chinês / japonês / coreano)

O termo DBCS tradicionalmente se refere a uma codificação de caracteres em que cada caractere gráfico é codificado em dois bytes.

Em um código de 8 bits, como Big-5 ou Shift JIS , um caractere do DBCS é representado com um byte inicial (primeiro) com o conjunto de bits mais significativo (ou seja, sendo maior que sete bits), e emparelhado com um conjunto de caracteres de byte único (SBCS). Por motivos práticos de manter a compatibilidade com software de prateleira não modificado, o SBCS é associado a caracteres de meia largura e o DBCS a caracteres de largura total . Em um código de 7 bits, como ISO-2022-JP , sequências de escape ou códigos de deslocamento são usados ​​para alternar entre o SBCS e o DBCS.

Às vezes, o uso do termo "DBCS" pode implicar em uma estrutura subjacente que não está em conformidade com a ISO 2022 . Por exemplo, "DBCS" às vezes pode significar uma codificação de byte duplo que não é especificamente Código Unix Estendido (EUC).

Este significado original de DBCS é diferente do que alguns consideram o uso correto hoje. Alguns insistem que essas codificações de caracteres sejam apropriadamente chamadas de conjuntos de caracteres multibyte (MBCS) ou codificações de largura variável , porque as codificações de caracteres como EUC-JP , EUC-KR , EUC-TW , GB18030 e UTF-8 usam mais de dois bytes para alguns caracteres e eles suportam um byte para outros caracteres.

Ambiguidade

Algumas pessoas usam DBCS para significar as codificações UTF-16 e UTF-8 , enquanto outras pessoas usam o termo DBCS para significar codificações de caracteres mais antigas (pré- Unicode ) que usam mais de um byte por caractere. Shift JIS , GB2312 e Big5 são algumas codificações de caracteres que podem conter mais de um byte por caractere, mas mesmo o uso do termo DBCS para essas codificações de caracteres é uma terminologia incorreta porque essas codificações de caracteres são realmente codificações de largura variável (assim como UTF- 16 e UTF-8). Alguns mainframes IBM têm verdadeiras páginas de código DBCS, que contêm apenas a parte de byte duplo de uma página de código multibyte.

Se uma pessoa usa o termo "habilitação DBCS" para internacionalização de software , ela está usando uma terminologia ambígua. Eles significam que querem escrever software para mercados do Leste Asiático usando tecnologia mais antiga com páginas de código ou estão planejando usar Unicode. Às vezes, esse termo também implica a tradução para um idioma do Leste Asiático. Normalmente, "habilitação de Unicode" significa internacionalização de software usando Unicode e "habilitação de DBCS" significa o uso de codificações de caracteres incompatíveis que existem entre os vários países do Leste Asiático para internacionalizar software. Como o Unicode, ao contrário de muitas outras codificações de caracteres, oferece suporte a todos os principais idiomas do Leste Asiático, geralmente é mais fácil habilitar e manter o software que usa Unicode. A habilitação DBCS (não Unicode) geralmente só é desejada quando sistemas operacionais ou aplicativos muito mais antigos não suportam Unicode.

TBCS

Um conjunto de caracteres de byte triplo (TBCS) é uma codificação de caracteres na qual os caracteres (incluindo caracteres de controle) são codificados em três bytes.

Veja também

links externos