Site de raspador - Scraper site

Um site de raspagem é um site que copia conteúdo de outros sites usando web scraping . O conteúdo é então espelhado com o objetivo de gerar receita, geralmente por meio de publicidade e, às vezes, da venda de dados do usuário. Os sites de raspadores têm várias formas. Alguns fornecem pouco ou nenhum material ou informação e têm como objetivo obter informações do usuário, como endereços de e-mail, para serem direcionados para e-mail de spam. A agregação de preços e sites de compras acessam várias listagens de um produto e permitem que um usuário compare os preços rapidamente.

Exemplos de sites scraper

Mecanismos de busca como o Google podem ser considerados um tipo de site raspador. Os mecanismos de pesquisa reúnem conteúdo de outros sites, salvam-no em seus próprios bancos de dados, indexam e apresentam o conteúdo copiado aos próprios usuários do mecanismo de pesquisa. A maior parte do conteúdo copiado pelos mecanismos de pesquisa é protegido por direitos autorais.

A técnica de raspagem também foi usada em vários sites de namoro. Esses sites geralmente combinam suas atividades de raspagem com o reconhecimento facial .

A raspagem também é usada em sites de reconhecimento de imagem em geral e sites feitos especificamente para identificar imagens de plantações com pragas e doenças

Feito para publicidade

Alguns sites de raspadores são criados para ganhar dinheiro usando programas de publicidade. Nesse caso, eles são chamados de sites Made for AdSense ou MFA. Este termo depreciativo refere-se a sites que não têm valor de resgate, exceto para atrair visitantes ao site com o único propósito de clicar em anúncios.

Os sites feitos para o AdSense são considerados spam de mecanismo de pesquisa, que diluem os resultados da pesquisa com resultados insatisfatórios. O conteúdo copiado é redundante para o que seria mostrado pelo mecanismo de pesquisa em circunstâncias normais, caso nenhum site MFA tivesse sido encontrado nas listagens.

Alguns sites de raspadores vinculam-se a outros sites para melhorar sua classificação nos mecanismos de pesquisa por meio de uma rede privada de blogs . Antes da atualização do Google para seu algoritmo de busca conhecido como Panda , um tipo de site scraper conhecido como blog de automóveis era bastante comum entre os comerciantes de chapéu preto que usavam um método conhecido como spamdexing .

Legalidade

Sites de raspadores podem violar a lei de direitos autorais . Até mesmo obter conteúdo de um site de conteúdo aberto pode ser uma violação de direitos autorais , se feito de uma forma que não respeite a licença. Por exemplo, as licenças GNU Free Documentation License (GFDL) e Creative Commons ShareAlike (CC-BY-SA) usadas na Wikipedia exigem que um reeditador da Wikipedia informe seus leitores sobre as condições dessas licenças e dê crédito ao autor original.

Técnicas

Dependendo do objetivo de um raspador, os métodos em que os sites são direcionados diferem. Por exemplo, sites com grande quantidade de conteúdo, como companhias aéreas, eletrônicos de consumo, lojas de departamentos, etc., podem ser rotineiramente visados ​​por seus concorrentes apenas para ficar a par das informações de preços.

Outro tipo de raspador puxará trechos e textos de sites com alta classificação para as palavras-chave que alvejaram. Dessa forma, eles esperam ter uma classificação elevada nas páginas de resultados do mecanismo de pesquisa (SERPs), pegando carona no page rank da página original . Os feeds RSS são vulneráveis ​​a scrapers.

Outros sites de raspadores consistem em anúncios e parágrafos de palavras selecionadas aleatoriamente de um dicionário. Freqüentemente, um visitante clica em um anúncio de pagamento por clique em tal site porque é o único texto compreensível na página. Os operadores desses sites scraper ganham financeiramente com esses cliques. As redes de publicidade afirmam trabalhar constantemente para remover esses sites de seus programas, embora essas redes se beneficiem diretamente dos cliques gerados nesse tipo de site. Do ponto de vista dos anunciantes, as redes não parecem estar se esforçando o suficiente para conter esse problema.

Os scrapers tendem a ser associados a links farms e às vezes são percebidos como a mesma coisa, quando vários scrapers são vinculados ao mesmo site de destino. Um site de vítima frequente pode ser acusado de participação de link farm, devido ao padrão artificial de links de entrada para o site de uma vítima, vinculados a vários sites scraper.

Sequestro de domínio

Alguns programadores que criam sites de raspagem podem comprar um nome de domínio expirado recentemente para reutilizar seu poder de SEO no Google. Negócios inteiros se concentram em entender todos os domínios expirados e em utilizá-los para sua capacidade de classificação histórica. Isso permitirá que os SEOs utilizem os backlinks já estabelecidos para o nome de domínio. Alguns spammers podem tentar coincidir com o tópico do site expirado ou copiar o conteúdo existente do Internet Archive para manter a autenticidade do site para que os backlinks não caiam. Por exemplo, um site expirado sobre um fotógrafo pode ser registrado novamente para criar um site sobre dicas de fotografia ou usar o nome de domínio em sua rede de blog privada para alimentar seu próprio site de fotografia.

Os serviços em alguns agentes de registro de nomes de domínio expirados fornecem a facilidade de localizar esses domínios expirados e coletar o HTML que o nome de domínio costumava ter em seu site.

Veja também

Referências

  1. ^ Google 'ilegalmente retirou conteúdo da Amazon, Yelp, TripAdvisor', relata que
  2. ^ Este aplicativo permite que você encontre pessoas no Tinder que se parecem com celebridades
  3. ^ O chefe do aplicativo de namoro não vê "nenhum problema" na correspondência de rostos sem consentimento
  4. ^ Dating.ai App combina você com celebridades parecidas
  5. ^ O aplicativo de reconhecimento facial associa estranhos a perfis online
  6. ^ NameTag: aplicativo de reconhecimento facial criticado como assustador e invasivo
  7. ^ Swipe Buster
  8. ^ O aplicativo compatível com Stalker, NameTag, usa reconhecimento facial para procurá-lo online
  9. ^ Este aplicativo inteligente (mas inquietante) permite que você aponte o telefone para as pessoas para descobrir quem são elas
  10. ^ Truly.am usa reconhecimento facial para ajudá-lo a verificar suas datas online
  11. ^ 3 motores de busca fascinantes que procuram rostos
  12. ^ Wolfram criou um site que identificará qualquer imagem que você jogue nele
  13. ^ O aprendizado de máquina ajuda pequenos agricultores a identificar pragas e doenças de plantas
  14. ^ Feito para AdSense
  15. ^ "Texto da GNU Free Documentation License" .
  16. ^ "Licença Creative Commons Attribution-ShareAlike 3.0 Unported" .
  17. ^ "Wikipedia: Reutilizando o conteúdo da Wikipedia" .