Indexação automática - Automatic indexing
A indexação automática é o processo computadorizado de escanear grandes volumes de documentos contra um vocabulário controlado , taxonomia , tesauro ou ontologia e usar esses termos controlados para indexar de forma rápida e eficaz grandes depósitos eletrônicos de documentos . Essas palavras-chave ou linguagem são aplicadas treinando um sistema nas regras que determinam quais palavras devem ser correspondidas. Existem partes adicionais para isso, como sintaxe, uso, proximidade e outros algoritmos baseados no sistema e o que é necessário para indexação. Isso é levado em consideração usando declarações booleanas para reunir e capturar as informações de indexação do texto. À medida que o número de documentos aumenta exponencialmente com a proliferação da Internet , a indexação automática se tornará essencial para manter a capacidade de encontrar informações relevantes em um mar de informações irrelevantes . Os sistemas de linguagem natural são usados para treinar um sistema baseado em sete métodos diferentes para ajudar com esse mar de informações irrelevantes. Esses métodos são Morfológico, Léxico, Sintático, Numérico, Fraseológico, Semântico e Pragmático. Cada um deles tem diferentes aspectos de velocidade e termos para construir um domínio para as informações específicas que estão sendo abordadas para a indexação. Isso é usado no processo automatizado de indexação.
O processo automatizado pode encontrar problemas e estes são causados principalmente por dois fatores: 1) a complexidade da linguagem; e, 2) a falta de intuitividade e a dificuldade de extrapolar conceitos a partir de afirmações por parte da tecnologia de computação. Esses são desafios principalmente linguísticos e problemas específicos envolvem aspectos semânticos e sintáticos da linguagem. Esses problemas ocorrem com base em palavras-chave definidas. Com essas palavras-chave, você pode determinar a precisão do sistema com base em acertos, erros e ruído. Esses termos se relacionam a correspondências exatas, palavras-chave que um sistema computadorizado perdeu, mas que um ser humano não teria, e palavras-chave que o computador selecionou e que um ser humano não teria. A estatística de precisão com base nisso deve estar acima de 85% para hits de 100% para indexação humana. Isso coloca Misses e Noise combinados em 15% ou menos. Esta escala fornece uma base para o que é considerado um bom Sistema de Indexação Automática e mostra onde os problemas estão sendo encontrados.
História
Há estudiosos que citam que o assunto da indexação automática atraiu atenção já na década de 1950, principalmente com a demanda por um acesso mais rápido e abrangente à literatura científica e de engenharia. Essa atenção na indexação começou com o processamento de texto entre 1957 e 1959 por HP Lunh por meio de uma série de artigos publicados. Lunh propôs que um computador pudesse lidar com a correspondência de palavras-chave, classificação e análise de conteúdo. Este foi o início da Indexação automática e da fórmula para extrair palavras-chave do texto com base na análise de frequência. Posteriormente, foi determinado que a frequência por si só não era suficiente para bons descritores, no entanto, isso iniciou o caminho para onde estamos agora com a indexação automática. Isso foi destacado pela explosão da informação, que foi prevista na década de 1960 e surgiu com o surgimento da tecnologia da informação e da World Wide Web. A previsão foi preparada por Mooers onde um esboço foi criado com a função esperada que a computação teria para processamento de texto e recuperação de informação. Essa previsão dizia que as máquinas seriam usadas para armazenamento de documentos em grandes coleções e que usaríamos essas máquinas para fazer pesquisas. Mooers também previu o aspecto online e o ambiente de recuperação para indexar bancos de dados. Isso levou Mooers a prever uma máquina de inferência por indução que revolucionaria a indexação. Esse fenômeno exigiu o desenvolvimento de um sistema de indexação capaz de lidar com o desafio de armazenar e organizar grande quantidade de dados e facilitar o acesso às informações. O novo hardware eletrônico avançou ainda mais a indexação automatizada, pois superou a barreira imposta pelos antigos arquivos em papel, permitindo a codificação de informações em nível molecular. Com esse novo hardware eletrônico foram desenvolvidas ferramentas de atendimento aos usuários. Eles foram usados para gerenciar arquivos e foram organizados em diferentes categorias, como PDM Suites como Outlook ou Lotus Note e ferramentas de mapeamento mental como MindManager e Freemind. Isso permite que os usuários se concentrem no armazenamento e na construção de um modelo cognitivo. A indexação automática também é parcialmente impulsionada pelo surgimento do campo denominado lingüística computacional , que orientou a pesquisa que acabou produzindo técnicas como a aplicação da análise por computador à estrutura e ao significado das linguagens. A indexação automática é estimulada ainda mais por pesquisa e desenvolvimento na área de inteligência artificial e sistema de auto-organização, também conhecido como máquina pensante.
Veja também
- Indexação de assuntos - o processo que é automatizado por indexação automática
- Tag (metadados)
- Indexação da web
Referências