Indexação automática - Automatic indexing

A indexação automática é o processo computadorizado de escanear grandes volumes de documentos contra um vocabulário controlado , taxonomia , tesauro ou ontologia e usar esses termos controlados para indexar de forma rápida e eficaz grandes depósitos eletrônicos de documentos . Essas palavras-chave ou linguagem são aplicadas treinando um sistema nas regras que determinam quais palavras devem ser correspondidas. Existem partes adicionais para isso, como sintaxe, uso, proximidade e outros algoritmos baseados no sistema e o que é necessário para indexação. Isso é levado em consideração usando declarações booleanas para reunir e capturar as informações de indexação do texto. À medida que o número de documentos aumenta exponencialmente com a proliferação da Internet , a indexação automática se tornará essencial para manter a capacidade de encontrar informações relevantes em um mar de informações irrelevantes . Os sistemas de linguagem natural são usados ​​para treinar um sistema baseado em sete métodos diferentes para ajudar com esse mar de informações irrelevantes. Esses métodos são Morfológico, Léxico, Sintático, Numérico, Fraseológico, Semântico e Pragmático. Cada um deles tem diferentes aspectos de velocidade e termos para construir um domínio para as informações específicas que estão sendo abordadas para a indexação. Isso é usado no processo automatizado de indexação.

O processo automatizado pode encontrar problemas e estes são causados ​​principalmente por dois fatores: 1) a complexidade da linguagem; e, 2) a falta de intuitividade e a dificuldade de extrapolar conceitos a partir de afirmações por parte da tecnologia de computação. Esses são desafios principalmente linguísticos e problemas específicos envolvem aspectos semânticos e sintáticos da linguagem. Esses problemas ocorrem com base em palavras-chave definidas. Com essas palavras-chave, você pode determinar a precisão do sistema com base em acertos, erros e ruído. Esses termos se relacionam a correspondências exatas, palavras-chave que um sistema computadorizado perdeu, mas que um ser humano não teria, e palavras-chave que o computador selecionou e que um ser humano não teria. A estatística de precisão com base nisso deve estar acima de 85% para hits de 100% para indexação humana. Isso coloca Misses e Noise combinados em 15% ou menos. Esta escala fornece uma base para o que é considerado um bom Sistema de Indexação Automática e mostra onde os problemas estão sendo encontrados.

História

Há estudiosos que citam que o assunto da indexação automática atraiu atenção já na década de 1950, principalmente com a demanda por um acesso mais rápido e abrangente à literatura científica e de engenharia. Essa atenção na indexação começou com o processamento de texto entre 1957 e 1959 por HP Lunh por meio de uma série de artigos publicados. Lunh propôs que um computador pudesse lidar com a correspondência de palavras-chave, classificação e análise de conteúdo. Este foi o início da Indexação automática e da fórmula para extrair palavras-chave do texto com base na análise de frequência. Posteriormente, foi determinado que a frequência por si só não era suficiente para bons descritores, no entanto, isso iniciou o caminho para onde estamos agora com a indexação automática. Isso foi destacado pela explosão da informação, que foi prevista na década de 1960 e surgiu com o surgimento da tecnologia da informação e da World Wide Web. A previsão foi preparada por Mooers onde um esboço foi criado com a função esperada que a computação teria para processamento de texto e recuperação de informação. Essa previsão dizia que as máquinas seriam usadas para armazenamento de documentos em grandes coleções e que usaríamos essas máquinas para fazer pesquisas. Mooers também previu o aspecto online e o ambiente de recuperação para indexar bancos de dados. Isso levou Mooers a prever uma máquina de inferência por indução que revolucionaria a indexação. Esse fenômeno exigiu o desenvolvimento de um sistema de indexação capaz de lidar com o desafio de armazenar e organizar grande quantidade de dados e facilitar o acesso às informações. O novo hardware eletrônico avançou ainda mais a indexação automatizada, pois superou a barreira imposta pelos antigos arquivos em papel, permitindo a codificação de informações em nível molecular. Com esse novo hardware eletrônico foram desenvolvidas ferramentas de atendimento aos usuários. Eles foram usados ​​para gerenciar arquivos e foram organizados em diferentes categorias, como PDM Suites como Outlook ou Lotus Note e ferramentas de mapeamento mental como MindManager e Freemind. Isso permite que os usuários se concentrem no armazenamento e na construção de um modelo cognitivo. A indexação automática também é parcialmente impulsionada pelo surgimento do campo denominado lingüística computacional , que orientou a pesquisa que acabou produzindo técnicas como a aplicação da análise por computador à estrutura e ao significado das linguagens. A indexação automática é estimulada ainda mais por pesquisa e desenvolvimento na área de inteligência artificial e sistema de auto-organização, também conhecido como máquina pensante.

Veja também

Referências