Googlebot - Googlebot

Googlebot
Google 2015 logo.svg
Autor (es) original (is) Google
Modelo Rastreador da web
Local na rede Internet FAQ do Googlebot

O Googlebot é o software rastreador da web usado pelo Google que coleta documentos da web para construir um índice pesquisável para o mecanismo de pesquisa do Google . Na verdade, esse nome é usado para se referir a dois tipos diferentes de rastreadores da web: um rastreador de desktop (para simular usuários de desktop) e um rastreador móvel (para simular um usuário móvel).

Comportamento

Um site provavelmente será rastreado pelo Googlebot Desktop e pelo Googlebot Mobile. No entanto, o Google anunciou que, a partir de setembro de 2020, todos os sites mudaram para a indexação que prioriza os dispositivos móveis, o que significa que o Google está rastreando a web usando um smartphone Googlebot. O subtipo de Googlebot pode ser identificado observando a string do agente do usuário na solicitação. No entanto, os dois tipos de rastreador obedecem ao mesmo token de produto (token useent) em robots.txt e, portanto, um desenvolvedor não pode segmentar seletivamente o Googlebot para celular ou o Googlebot para desktop usando o robots.txt.

Se um webmaster opta por restringir as informações em seu site para um Googlebot ou outro spider , ele pode fazer isso com as diretivas apropriadas em um arquivo robots.txt ou adicionando a metatag <meta name="Googlebot" content="nofollow" /> à página da web. As solicitações do Googlebot para servidores da web são identificáveis ​​por uma sequência de user agent contendo "Googlebot" e um endereço de host contendo "googlebot.com".

Atualmente, o Googlebot segue links HREF e links SRC. Há evidências crescentes de que o Googlebot pode executar JavaScript e analisar conteúdo gerado por chamadas Ajax também. Existem muitas teorias sobre o quão avançada é a capacidade do Googlebot de processar JavaScript, com opiniões que variam da capacidade mínima derivada de intérpretes personalizados. Atualmente, o Googlebot usa um serviço de renderização na web (WRS) baseado no mecanismo de renderização Chromium (versão 74 em 7 de maio de 2019). O Googlebot descobre páginas colhendo todos os links em todas as páginas que consegue encontrar. Em seguida, segue esses links para outras páginas da web. Novas páginas da web devem ter links de outras páginas conhecidas na web para serem rastreadas e indexadas ou enviadas manualmente pelo webmaster.

Um problema que os webmasters com planos de hospedagem na Web de baixa largura de banda notam com frequência com o Googlebot é que ele ocupa uma enorme quantidade de largura de banda. Isso pode fazer com que os sites excedam seu limite de largura de banda e sejam desativados temporariamente. Isso é especialmente problemático para sites espelho que hospedam muitos gigabytes de dados. O Google fornece um " Search Console " que permite aos proprietários de sites reduzir a taxa de rastreamento.

A frequência com que o Googlebot rastreia um site depende do orçamento de rastreamento. O orçamento de rastreamento é uma estimativa da frequência com que um site é atualizado. Tecnicamente, a equipe de desenvolvimento do Googlebot (equipe de rastreamento e indexação) usa vários termos definidos internamente para assumir o que significa "orçamento de rastreamento". Desde maio de 2019, o Googlebot usa o mecanismo de renderização Chromium mais recente , compatível com os recursos ECMAScript 6 . Isso deixará o bot um pouco mais "perene" e garantirá que ele não dependa de um mecanismo de renderização desatualizado em comparação com os recursos do navegador.

Mediabot

Mediabot é o rastreador da web que o Google usa para analisar o conteúdo para que o Google AdSense possa veicular publicidade contextualmente relevante em uma página da web. O Mediabot se identifica com a string de agente do usuário "Mediapartners-Google / 2.1".

Ao contrário de outros rastreadores, o Mediabot não segue links para descobrir novos URLs rastreáveis, apenas visitando URLs que incluíram o código do AdSense. Quando esse conteúdo reside atrás de um login, o rastreador pode receber um login para poder rastrear o conteúdo protegido.

Referências

links externos