ISO 639-3 - ISO 639-3

ISO 639-3: 2007 , Códigos para a representação de nomes de idiomas - Parte 3: Código alfa-3 para cobertura abrangente de idiomas , é um padrão internacional para códigos de idioma na série ISO 639 . Ele define códigos de três letras para identificar idiomas. O padrão foi publicado pela International Organization for Standardization (ISO) em 1 de fevereiro de 2007.

ISO 639-3 estende os códigos ISO 639-2 alfa-3 com o objetivo de cobrir todas as linguagens naturais conhecidas . A cobertura de idioma estendida foi baseada principalmente nos códigos de idioma usados ​​no Ethnologue (volumes 10-14) publicado pela SIL International , que agora é a autoridade de registro para ISO 639-3. Ele fornece uma enumeração de línguas tão completa quanto possível, incluindo vivas e extintas, antigas e construídas, maiores e menores, escritas e não escritas. Porém, não inclui línguas reconstruídas como proto-indo-europeu .

ISO 639-3 destina-se ao uso como códigos de metadados em uma ampla gama de aplicações. É amplamente utilizado em computadores e sistemas de informação, como a Internet, em que muitos idiomas precisam ser suportados. Em arquivos e outras formas de armazenamento de informações, é usado em sistemas de catalogação, indicando em que idioma um recurso está ou trata. Os códigos também são freqüentemente usados ​​na literatura lingüística e em outros lugares para compensar o fato de que os nomes das línguas podem ser obscuros ou ambíguos.

Encontre um idioma
Insira um código ISO 639-3 para encontrar o artigo no idioma correspondente.

Códigos de idioma

ISO 639-3 inclui todos os idiomas em ISO 639-1 e todos os idiomas individuais em ISO 639-2 . ISO 639-1 e ISO 639-2 focados nos principais idiomas, mais frequentemente representados no corpo total da literatura mundial. Como a ISO 639-2 também inclui coleções de idiomas e a Parte 3 não, a ISO 639-3 não é um superconjunto da ISO 639-2. Onde os códigos B e T existem na ISO 639-2, a ISO 639-3 usa os códigos T.

Exemplo de códigos de idioma ISO
Língua 639-1 639-2 (B / T) Tipo 639-3 Código 639-3
inglês en eng Individual eng
alemão de ger / deu Individual deu
árabe ar ara macro ara
Árabe padrão Individual arb
Árabe egípcio Individual arz
chinês zh chi / zho macro zho
Mandarim Individual cmn
Cantonesa Individual yue
Minnan Individual nan

Em 18 de fevereiro de 2021, o padrão continha 7.893 entradas. O inventário de línguas é baseado em uma série de fontes, incluindo: as línguas individuais contidas em 639-2, línguas modernas do Etnólogo , variedades históricas, línguas antigas e línguas artificiais da Lista Linguística , bem como línguas recomendadas para o público anual período de comentários.

Os arquivos de dados legíveis por máquina são fornecidos pela autoridade de registro. Mapeamentos de ISO 639-1 ou ISO 639-2 para ISO 639-3 podem ser feitos usando esses arquivos de dados.

A ISO 639-3 pretende assumir distinções com base em critérios que não são inteiramente objetivos. Não se destina a documentar ou fornecer identificadores para dialetos ou outras variações de sublinguagem. No entanto, os julgamentos a respeito das distinções entre as línguas podem ser subjetivos, particularmente no caso de variedades linguísticas sem tradições literárias estabelecidas, uso na educação ou na mídia, ou outros fatores que contribuem para a convencionalização da língua. Portanto, o padrão não deve ser considerado como uma declaração oficial de quais línguas distintas existem no mundo (sobre as quais pode haver desacordo substancial em alguns casos), mas simplesmente uma maneira útil de identificar com precisão diferentes variedades de línguas.

Espaço de código

Como o código é alfabético de três letras, um limite superior para o número de idiomas que podem ser representados é 26 × 26 × 26 = 17.576. Como a ISO 639-2 define códigos especiais (4), uma faixa reservada (520) e códigos B-only (22), 546 códigos não podem ser usados ​​na parte 3. Portanto, um limite superior mais rígido é 17.576 - 546 = 17.030.

O limite superior fica ainda mais rígido se subtrairmos os conjuntos de idiomas definidos em 639-2 e os que ainda não foram definidos na ISO 639-5 .

Macrolinguagens

Existem 58 idiomas na ISO 639-2 que são considerados, para os fins da norma, como "macrolinguagens" na ISO 639-3.

Algumas dessas macrolinguagens não tinham idioma individual conforme definido pela ISO 639-3 no conjunto de códigos da ISO 639-2, por exemplo, 'ara' (árabe genérico). Outros, como 'nor' (norueguês), já tinham suas duas partes individuais ('nno' ( Nynorsk ), 'nob' ( Bokmål )) na ISO 639-2.

Isso significa que alguns idiomas (por exemplo, 'arb', árabe padrão) que foram considerados pela ISO 639-2 como dialetos de um idioma ('ara') agora estão na ISO 639-3 em certos contextos considerados idiomas individuais.

Esta é uma tentativa de lidar com variedades que podem ser linguisticamente distintas umas das outras, mas são tratadas por seus falantes como duas formas da mesma língua, por exemplo, em casos de diglossia .

Por exemplo:

Veja para a lista completa.

Linguagens coletivas

"Um elemento de código de idioma coletivo é um identificador que representa um grupo de idiomas individuais que não são considerados um idioma em qualquer contexto de uso." Esses códigos não representam precisamente um determinado idioma ou macrolinguagem.

Embora a ISO 639-2 inclua identificadores de três letras para idiomas coletivos, esses códigos são excluídos da ISO 639-3. Portanto, a ISO 639-3 não é um superconjunto da ISO 639-2.

A ISO 639-5 define códigos coletivos de 3 letras para famílias e grupos de idiomas, incluindo os códigos de idioma coletivos da ISO 639-2.

Códigos especiais

Quatro códigos são reservados na ISO 639-2 e ISO 639-3 para os casos em que nenhum dos códigos específicos é apropriado. Eles se destinam principalmente a aplicativos como bancos de dados em que um código ISO é necessário, independentemente da existência de um.

  • mis (idiomas não codificados, originalmente uma abreviatura para 'diversos') destina-se a idiomas que (ainda) não foram incluídos no padrão ISO.
  • mul (vários idiomas) destina-se a casos em que os dados incluem mais de um idioma e (por exemplo) o banco de dados requer um único código ISO.
  • und(indeterminado) destina-se a casos em que o idioma nos dados não foi identificado, como quando está rotulado incorretamente ou nunca foi rotulado. Não se destina a casos como Trojan, em que um idioma não atestado recebeu um nome.
  • zxx (sem conteúdo linguístico / não aplicável) destina-se a dados que não são um idioma, como chamadas de animais.

Além disso, 520 códigos na faixa qaa- qtzsão 'reservados para uso local'. Por exemplo, Rebecca Bettencourt atribui um código a linguagens construídas e novas atribuições são feitas mediante solicitação. A Linguist List os usa para línguas extintas . Linguist List atribuiu a um deles um valor genérico: qnpproto-linguagem sem nome. Isso é usado para nós intermediários propostos em uma árvore genealógica que não tem nome.

Processos de manutenção

A tabela de códigos para ISO 639-3 está aberta a alterações. A fim de proteger a estabilidade do uso existente, as alterações permitidas são limitadas a:

  • modificações nas informações de referência para uma entrada (incluindo nomes ou categorizações de tipo e escopo),
  • adição de novas entradas,
  • reprovação de entradas duplicadas ou espúrias,
  • mesclar uma ou mais entradas em outra entrada, e
  • dividir uma entrada de idioma existente em várias novas entradas de idioma.

O código atribuído a um idioma não é alterado, a menos que haja também uma alteração na denotação.

As alterações são feitas em um ciclo anual. Cada solicitação tem um período mínimo de três meses para revisão pública.

O site da ISO 639-3 tem páginas que descrevem "escopos da denotação" ( languoid tipos) e tipos de línguas, que explicam que os conceitos estão no escopo para codificar e certos critérios que precisam ser atendidas. Por exemplo, linguagens construídas podem ser codificadas, mas apenas se forem projetadas para a comunicação humana e possuírem um corpo de literatura, evitando pedidos de invenções idiossincráticas.

A autoridade de registro documenta em seu site as instruções feitas no texto da norma ISO 639-3 sobre como as tabelas de códigos devem ser mantidas. Ele também documenta os processos usados ​​para receber e processar solicitações de mudança.

É fornecido um formulário de solicitação de mudança e há um segundo formulário para coletar informações sobre as adições propostas. Qualquer parte pode enviar solicitações de mudança. Quando enviadas, as solicitações são inicialmente revisadas pela autoridade de registro para verificar se estão completas.

Quando uma solicitação totalmente documentada é recebida, ela é adicionada a um Índice de Solicitação de Mudança publicado. Além disso, os anúncios são enviados para a lista de discussão geral da LINGUIST na Linguist List e outras listas que a autoridade de registro pode considerar relevantes, convidando a revisão pública e contribuições sobre a alteração solicitada. Qualquer proprietário de lista ou indivíduo pode solicitar notificações de solicitações de mudança para regiões ou famílias de idiomas específicos. Os comentários recebidos são publicados para análise de outras partes. Com base no consenso nos comentários recebidos, uma solicitação de mudança pode ser retirada ou promovida a "status de candidato".

Três meses antes do final de um ciclo de revisão anual (normalmente em setembro), um anúncio é definido para a lista de discussão da LINGUIST e outras listas relacionadas às Solicitações de Mudança de Status do Candidato. Todas as solicitações permanecem abertas para revisão e comentários até o final do ciclo de revisão anual.

As decisões são anunciadas no final do ciclo de revisão anual (normalmente em janeiro). Nesse momento, as solicitações podem ser adotadas total ou parcialmente, emendadas e transportadas para o próximo ciclo de revisão ou rejeitadas. As rejeições geralmente incluem sugestões sobre como modificar propostas para reapresentação. Um arquivo público de cada solicitação de mudança é mantido junto com as decisões tomadas e a justificativa para as decisões.

Crítica

Os lingüistas Morey, Post e Friedman levantam várias críticas à ISO 639, e em particular à ISO 639-3:

  • Os próprios códigos de três letras são problemáticos porque, embora rótulos técnicos oficialmente arbitrários, geralmente são derivados de abreviações mnemônicas para nomes de idiomas, alguns dos quais são pejorativos. Por exemplo, Yemsa recebeu o código jnj, do pejorativo "Janejero". Esses códigos podem, portanto, ser considerados ofensivos por falantes nativos. No entanto, os códigos podem ser alterados com o envio de uma solicitação no site da SIL .
  • A administração do padrão é problemática porque a SIL é uma organização missionária com transparência e responsabilidade inadequadas. As decisões sobre o que merece ser codificado como linguagem são tomadas internamente. Embora contribuições externas possam ou não ser bem-vindas, as próprias decisões são opacas e muitos linguistas desistiram de tentar melhorar o padrão.
  • A identificação permanente de um idioma é incompatível com a mudança de idioma.
  • Freqüentemente, as línguas e os dialetos não podem ser distinguidos com rigor, e os dialetos contínuos podem ser subdivididos de muitas maneiras, ao passo que o padrão privilegia uma escolha. Essas distinções são frequentemente baseadas em fatores sociais e políticos.
  • A ISO 639-3 pode ser mal compreendida e mal utilizada pelas autoridades que tomam decisões sobre a identidade e o idioma das pessoas, abolindo o direito dos falantes de se identificarem ou se identificarem com sua variedade de fala. Embora o SIL seja sensível a essas questões, esse problema é inerente à natureza de um padrão estabelecido, que pode ser usado (ou mal usado) de maneiras que o ISO e o SIL não pretendem.

Martin Haspelmath concorda com quatro desses pontos, mas não com o ponto sobre a mudança de linguagem. Ele discorda porque qualquer descrição de um idioma requer identificá-lo, e podemos facilmente identificar diferentes estágios de um idioma. Ele sugere que os lingüistas podem preferir usar uma codificação feita no nível languóide , uma vez que "raramente importa para os lingüistas se o que eles estão falando é uma língua, um dialeto ou uma família unida de línguas". Ele também questiona se um padrão ISO para identificação de idioma é apropriado, visto que a ISO é uma organização industrial, enquanto ele vê a documentação de idioma e nomenclatura como um esforço científico. Ele cita a necessidade original de identificadores de idioma padronizados como tendo sido "a importância econômica da tradução e localização de software ", para os quais os padrões ISO 639-1 e 639-2 foram estabelecidos. Mas ele levanta dúvidas sobre a necessidade da indústria para a cobertura abrangente fornecida pela ISO 639-3, incluindo como faz "línguas pouco conhecidas de pequenas comunidades que nunca são ou dificilmente são usadas por escrito e que muitas vezes estão em perigo de extinção".

Uso

  • Etnólogo
  • Lista de Linguistas
  • OLAC : a comunidade Open Languages ​​Archive
  • Microsoft Windows 8 : Suporta todos os códigos ISO 639-3 no momento do lançamento.
  • Fundação da Wikimedia: Novos projetos baseados em idioma (por exemplo, Wikipedias em novos idiomas) devem ter um identificador ISO 639-1, -2 ou -3.
  • Outros padrões que dependem da ISO 639-3:
    • Tags de linguagem conforme definidas pela Internet Engineering Task Force (IETF) , conforme documentado em:
      • BCP 47: Melhores Práticas Atuais 47 , que inclui RFC  5646
      • RFC  5646 , que substituiu o RFC  4646 , que substituiu o RFC  3066 . (Portanto, todos os padrões que dependem de qualquer um desses 3 padrões IETF agora usam ISO 639-3.)
    • O padrão ePub 3.0 para metadados de linguagem usa elementos Dublin Core Metadata. Esses elementos de metadados de idioma em ePubs devem conter códigos RFC 5646 válidos  para idiomas. RFC5646 aponta para ISO 639-3 para idiomas sem códigos IANA mais curtos.
    • Dublin Core Metadata Initiative : DCMI Metadata Term para linguagem, via IETF's RFC  4646 (agora substituído pelo RFC  5646 ).
    • Autoridade para atribuição de números da Internet (IANA) O esforço de internacionalização do W3C recomenda o uso do Registro de subtags de idioma da IANA para selecionar códigos de idiomas. O registro de subtags de idioma da IANA depende dos códigos ISO 639-3 para idiomas que não tinham códigos em outras partes do padrão ISO 639.
    • HTML5: via BCP 47 da IETF.
    • Códigos da biblioteca MARC .
    • Códigos de biblioteca MODS : incorpora o RFC 3066 da IETF  (agora substituído pelo RFC  5646 ).
    • Iniciativa de codificação de texto (TEI): via BCP 47 da IETF.
    • Lexical Markup Framework : especificação ISO para representação de dicionários legíveis por máquina.
    • Unicode 's locale comum repositório de dados : Usa várias centenas de códigos de ISO 639-3 não incluídos na ISO 639-2.

Referências

Leitura adicional

links externos