Arquivo de texto - Text file

Arquivo de texto
Text-txt.svg
Extensão de nome de arquivo
.TXT
Tipo de mídia da Internet
texto / simples
Digite o código TEXTO
Identificador de tipo uniforme (UTI) public.plain-text
Conformação UTI public.text
Tipo de formato Formato de arquivo de documento , formato de contêiner genérico

Um arquivo de texto (às vezes escrito textfile ; um antigo nome alternativo é flatfile ) é um tipo de arquivo de computador estruturado como uma sequência de linhas de texto eletrônico . Existe um arquivo de texto armazenado como dados em um sistema de arquivos de computador . Em sistemas operacionais como CP / M e MS-DOS , onde o sistema operacional não controla o tamanho do arquivo em bytes, o fim de um arquivo de texto é indicado pela colocação de um ou mais caracteres especiais, conhecidos como fim de - marcador de arquivo, como preenchimento após a última linha em um arquivo de texto. Em sistemas operacionais modernos, como Microsoft Windows e sistemas semelhantes ao Unix, os arquivos de texto não contêm nenhum caractere especial EOF, porque os sistemas de arquivos nesses sistemas operacionais controlam o tamanho do arquivo em bytes. A maioria dos arquivos de texto precisa ter delimitadores de fim de linha , que são feitos de algumas maneiras diferentes, dependendo do sistema operacional. Alguns sistemas operacionais com sistemas de arquivos orientados a registros podem não usar novos delimitadores de linha e armazenam principalmente arquivos de texto com linhas separadas como registros de comprimento fixo ou variável.

"Arquivo de texto" se refere a um tipo de contêiner, enquanto o texto simples se refere a um tipo de conteúdo.

Em um nível genérico de descrição, existem dois tipos de arquivos de computador: arquivos de texto e arquivos binários .

Armazenamento de dados

Uma representação estilizada e icônica de um arquivo de texto formatado em CSV .

Devido à sua simplicidade, os arquivos de texto são comumente usados ​​para armazenamento de informações. Eles evitam alguns dos problemas encontrados com outros formatos de arquivo, como endianness , bytes de preenchimento ou diferenças no número de bytes em uma palavra de máquina . Além disso, quando ocorre corrupção de dados em um arquivo de texto, geralmente é mais fácil recuperar e continuar processando o conteúdo restante. Uma desvantagem dos arquivos de texto é que eles geralmente têm uma entropia baixa , o que significa que as informações ocupam mais espaço de armazenamento do que o estritamente necessário.

Um arquivo de texto simples pode não precisar de metadados adicionais (além do conhecimento de seu conjunto de caracteres ) para auxiliar o leitor na interpretação. Um arquivo de texto pode não conter nenhum dado, o que é um caso de arquivo de zero bytes .

Codificação

O conjunto de caracteres ASCII é o subconjunto compatível mais comum de conjuntos de caracteres para arquivos de texto do idioma inglês e geralmente é considerado o formato de arquivo padrão em muitas situações. Abrange o inglês americano, mas para o sinal da libra esterlina , o sinal do euro ou caracteres usados ​​fora do inglês, um conjunto de caracteres mais rico deve ser usado. Em muitos sistemas, isso é escolhido com base na configuração de localidade padrão no computador em que é lido. Antes do UTF-8, isso era tradicionalmente codificações de byte único (como ISO-8859-1 a ISO-8859-16 ) para idiomas europeus e codificações de caracteres amplos para idiomas asiáticos.

Como as codificações têm necessariamente apenas um repertório limitado de caracteres, muitas vezes muito pequeno, muitas só podem ser usadas para representar texto em um subconjunto limitado de linguagens humanas. Unicode é uma tentativa de criar um padrão comum para representar todos os idiomas conhecidos, e a maioria dos conjuntos de caracteres conhecidos são subconjuntos de um grande conjunto de caracteres Unicode. Embora existam várias codificações de caracteres disponíveis para Unicode, a mais comum é UTF-8 , que tem a vantagem de ser compatível com ASCII; ou seja, todo arquivo de texto ASCII também é um arquivo de texto UTF-8 com significado idêntico. O UTF-8 também tem a vantagem de ser facilmente detectável automaticamente . Assim, um modo de operação comum de software compatível com UTF-8, ao abrir arquivos de codificação desconhecida, é tentar UTF-8 primeiro e voltar para uma codificação legada dependente de local quando definitivamente não é UTF-8.

Formatos

Na maioria dos sistemas operacionais, o nome arquivo de texto se refere ao formato de arquivo que permite apenas conteúdo de texto simples com muito pouca formatação (por exemplo, sem tipos de negrito ou itálico ). Esses arquivos podem ser visualizados e editados em terminais de texto ou em editores de texto simples . Os arquivos de texto geralmente têm o tipo MIMEtext/plain , geralmente com informações adicionais indicando uma codificação.

Arquivos de texto do Microsoft Windows

O MS-DOS e o Microsoft Windows usam um formato de arquivo de texto comum, com cada linha de texto separada por uma combinação de dois caracteres: retorno de carro (CR) e avanço de linha (LF). É comum que a última linha do texto não termine com um marcador CR-LF, e muitos editores de texto (incluindo o Bloco de notas ) não inserem automaticamente um na última linha.

Nos sistemas operacionais Microsoft Windows , um arquivo é considerado um arquivo de texto se o sufixo do nome do arquivo (a " extensão do nome do arquivo ") for .txt. No entanto, muitos outros sufixos são usados ​​para arquivos de texto com propósitos específicos. Por exemplo, o código-fonte de programas de computador geralmente é mantido em arquivos de texto com sufixos de nome de arquivo que indicam a linguagem de programação em que a fonte está escrita.

A maioria dos arquivos de texto do Microsoft Windows usa codificação "ANSI", "OEM", "Unicode" ou "UTF-8". O que a terminologia do Microsoft Windows chama de "codificações ANSI" são geralmente codificações ISO / IEC 8859 de um byte (ou seja, ANSI nos menus do Bloco de notas da Microsoft é realmente "Página de código do sistema", não Unicode, codificação legada), exceto em localidades como o chinês , Japonês e coreano que requerem conjuntos de caracteres de byte duplo. As codificações ANSI eram tradicionalmente usadas como localidades do sistema padrão no Microsoft Windows, antes da transição para Unicode. Em contraste, as codificações OEM, também conhecidas como páginas de código DOS , foram definidas pela IBM para uso no sistema de exibição de modo de texto IBM PC original. Eles normalmente incluem caracteres gráficos e de desenho de linha comuns em aplicativos DOS. Os arquivos de texto do Microsoft Windows codificados por "Unicode" contêm texto no formato de transformação UTF-16 Unicode. Esses arquivos normalmente começam com Byte Order Mark ( BOM ), que comunica o endianness do conteúdo do arquivo. Embora o UTF-8 não sofra de problemas de endianness, muitos programas do Microsoft Windows (ou seja, o Notepad) acrescentam o conteúdo dos arquivos codificados em UTF-8 com BOM, para diferenciar a codificação UTF-8 de outras codificações de 8 bits.

Arquivos de texto Unix

Em sistemas operacionais semelhantes ao Unix, o formato dos arquivos de texto é descrito com precisão: POSIX define um arquivo de texto como um arquivo que contém caracteres organizados em zero ou mais linhas, onde as linhas são sequências de zero ou mais caracteres não de nova linha mais um caractere de terminação de nova linha, normalmente LF.

Além disso, POSIX define um arquivo imprimível como um arquivo de texto cujos caracteres são imprimíveis ou espaçam ou retrocedem de acordo com as regras regionais. Isso exclui a maioria dos caracteres de controle, que não podem ser impressos.

Arquivos de texto Apple Macintosh

Antes do advento do macOS , o sistema Mac OS clássico considerava o conteúdo de um arquivo (a bifurcação de dados) como um arquivo de texto quando sua bifurcação de recursos indicava que o tipo do arquivo era "TEXTO". Linhas de arquivos de texto do Macintosh são encerradas com caracteres CR .

Sendo certificado pelo Unix, o macOS usa o formato POSIX para arquivos de texto. O identificador de tipo uniforme (UTI) usado para arquivos de texto no macOS é "public.plain-text"; UTIs adicionais e mais específicos são: "public.utf8-plain-text" para texto codificado em utf-8, "public.utf16-external-plain-text" e "public.utf16-plain-text" para utf-16- texto codificado e "com.apple.traditional-mac-plain-text" para arquivos de texto clássicos do Mac OS.

Renderização

Quando aberto por um editor de texto, o conteúdo legível por humanos é apresentado ao usuário. Isso geralmente consiste no texto simples do arquivo visível para o usuário. Dependendo do aplicativo, os códigos de controle podem ser renderizados como instruções literais acionadas pelo editor ou como caracteres de escape visíveis que podem ser editados como texto simples. Embora possa haver texto simples em um arquivo de texto, os caracteres de controle dentro do arquivo (especialmente o caractere de fim de arquivo) podem processar o texto simples não visto por um método específico.

Veja também

Notas e referências

links externos