Apagamento de link - Link rot

O apodrecimento de link (também chamado de morte de link , quebra de link ou apodrecimento de referência ) é o fenômeno de hiperlinks que tendem, com o tempo, a deixar de apontar para seu arquivo , página da web ou servidor originalmente direcionado devido ao recurso ser realocado para um novo endereço ou se tornar permanentemente indisponível. Um link que não aponta mais para seu destino, geralmente chamado de link quebrado ou inativo (ou, às vezes, link órfão ), é uma forma específica de ponteiro pendente .

A taxa de podridão de links é um assunto de estudo e pesquisa devido à sua importância para a capacidade da Internet de preservar informações. As estimativas dessa taxa variam dramaticamente entre os estudos.

Prevalência

Vários estudos examinaram a prevalência da podridão de links na World Wide Web , na literatura acadêmica que usa URLs para citar conteúdo da web e em bibliotecas digitais .

Um estudo de 2003 descobriu que, na Web, cerca de um link em cada 200 quebrava a cada semana, sugerindo meia-vida de 138 semanas. Essa taxa foi amplamente confirmada por um estudo de links 2016–2017 no Yahoo! Diretório (que havia parado de ser atualizado em 2014 após 21 anos de desenvolvimento) que estimava que a meia-vida dos links do diretório era de dois anos.

Um estudo de 2004 mostrou que subconjuntos de links da Web (como aqueles direcionados a tipos de arquivo específicos ou aqueles hospedados por instituições acadêmicas) podem ter meias-vidas dramaticamente diferentes. Os URLs selecionados para publicação parecem ter maior longevidade do que o URL médio. Um estudo de 2015 da Weblock analisou mais de 180.000 links de referências nos corpora de texto completo de três grandes editoras de acesso aberto e encontrou uma meia-vida de cerca de 14 anos, geralmente confirmando um estudo de 2005 que descobriu que metade dos URLs citados em D -Os artigos da Lib Magazine estavam ativos 10 anos após a publicação. Outros estudos encontraram taxas mais altas de podridão de links na literatura acadêmica, mas normalmente sugerem uma meia-vida de quatro anos ou mais. Um estudo de 2013 da BMC Bioinformatics analisou cerca de 15.000 links em resumos do índice de citação Web of Science da Thomson Reuters e descobriu que a vida útil média das páginas da web era de 9,3 anos e apenas 62% estavam arquivados. Um estudo de 2021 sobre links externos em artigos do New York Times de 1996-2019 descobriu que 25% dos links estavam inacessíveis. Além disso, de uma amostra de 4.500 links ainda acessíveis, 13% não levaram ao conteúdo original, fenômeno denominado deriva de conteúdo .

Um estudo de 2002 sugeriu que o apodrecimento de links em bibliotecas digitais é consideravelmente mais lento do que na web, descobrindo que cerca de 3% dos objetos não estavam mais acessíveis após um ano (equivalente a uma meia-vida de quase 23 anos).

Causas

A podridão do link pode resultar de várias ocorrências. Uma página da web de destino pode ser removida. O servidor que hospeda a página de destino pode falhar, ser removido do serviço ou ser realocado para um novo nome de domínio . O registro de um nome de domínio pode caducar ou ser transferido para outra parte. Algumas causas farão com que o link não encontre nenhum destino e retorne um erro como HTTP 404 . Outras causas farão com que um link direcione um conteúdo diferente do pretendido pelo autor do link.

Outros motivos para links quebrados incluem:

  • a reestruturação de sites que causa mudanças nos URLs (por exemplo, domain.net/pine_treepode ser movido para domain.net/tree/pine)
  • realocação de conteúdo anteriormente gratuito para atrás de um paywall
  • uma mudança na arquitetura do servidor que resulta em um código como o PHP funcionando de maneira diferente
  • conteúdo dinâmico da página, como resultados de pesquisa que mudam de design
  • a presença de informações específicas do usuário (como um nome de login) no link
  • bloqueio deliberado por filtros de conteúdo ou firewalls
  • a remoção de gTLDs
  • a expiração de um registro de nome de domínio

Prevenção e detecção

As estratégias para prevenir o apodrecimento de links podem se concentrar em colocar conteúdo onde sua probabilidade de persistência for maior, criar links com menos probabilidade de serem quebrados, tomar medidas para preservar links existentes ou reparar links cujos alvos foram realocados ou removidos.

A criação de URLs que não mudam com o tempo é o método fundamental para prevenir o apodrecimento dos links. O planejamento preventivo foi defendido por Tim Berners-Lee e outros pioneiros da web.

As estratégias relativas à autoria de links incluem:

As estratégias relativas à proteção de links existentes incluem:

  • usando mecanismos de redirecionamento , como HTTP 301, para referir automaticamente os navegadores e rastreadores ao conteúdo realocado
  • usando sistemas de gerenciamento de conteúdo que podem atualizar automaticamente os links quando o conteúdo do mesmo site é realocado ou substituir automaticamente os links por URLs canônicos
  • integração de recursos de pesquisa em páginas HTTP 404

A detecção de links quebrados pode ser feita manualmente ou automaticamente. Os métodos automatizados incluem plug-ins para sistemas de gerenciamento de conteúdo , bem como verificadores de link quebrado independentes, como o Link Sleuth do Xenu . A verificação automática pode não detectar links que retornam um soft 404 ou links que retornam uma resposta 200 OK, mas apontam para o conteúdo que foi alterado.

Veja também

Leitura adicional

  • Markwell, John; Brooks, David W. (2002). "Links quebrados: a natureza efêmera dos hiperlinks educacionais da WWW". Jornal de Ciências da Educação e Tecnologia . 11 (2): 105–108. doi : 10.1023 / A: 1014627511641 . S2CID  60802264 .
  • Gomes, Daniel; Silva, Mário J. (2006). "Modelagem da Persistência da Informação na Web" (PDF) . Anais da 6ª Conferência Internacional de Engenharia da Web . ICWE'06. Arquivado do original (PDF) em 16/07/2011 . Retirado em 14 de setembro de 2010 .
  • Dellavalle, Robert P .; Hester, Eric J .; Heilig, Lauren F .; Drake, Amanda L .; Kuntzman, Jeff W .; Graber, Marla; Schilling, Lisa M. (2003). "Going, Going, Gone: Lost Internet References" . Ciência . 302 (5646): 787–788. doi : 10.1126 / science.1088234 . PMID  14593153 . S2CID  154604929 .
  • Koehler, Wallace (1999). "Uma análise da constância e permanência de páginas e sites". Jornal da Sociedade Americana de Ciência da Informação . 50 (2): 162-180. doi : 10.1002 / (SICI) 1097-4571 (1999) 50: 2 <162 :: AID-ASI7> 3.0.CO; 2-B .
  • Sellitto, Carmine (2005). "O impacto das citações impermanentes localizadas na Web: Um estudo de 123 publicações de conferências acadêmicas" (PDF) . Jornal da Sociedade Americana de Ciência e Tecnologia da Informação . 56 (7): 695–703. CiteSeerX  10.1.1.473.2732 . doi : 10.1002 / asi.20159 .

Notas e referências

Notas
Referências

links externos