Rastreador da web

Extrato da saída de um resultado de rastreamento da web de um artigo sobre Hof

Um rastreador da web (também spider , searchbot ou robô ) é um programa de computador que pesquisa automaticamente a World Wide Web e analisa sites . Os rastreadores da Web são usados principalmente por mecanismos de pesquisa para indexar sites. Outros usos são a coleção de feeds da web , endereços de e-mail ou outras informações.

Os rastreadores da web são um tipo especial de bot , ou seja, programas de computador que executam tarefas repetitivas em grande parte automaticamente.

história

O primeiro rastreador da web foi o World Wide Web Wanderer em 1993 , que foi projetado para medir o crescimento da Internet. Em 1994, o WebCrawler lançou o primeiro mecanismo de busca WWW acessível ao público com um índice de texto completo. É daí que vem o nome rastreador da web para tais programas. Como o número de mecanismos de pesquisa cresceu rapidamente, agora há um grande número de rastreadores da web diferentes. De acordo com uma estimativa de 2002, eles geraram até 40% de todo o tráfego de dados da Internet.

tecnologia

Estrutura de rastreadores da web

Tal como acontece com a navegação na Internet , um rastreador da web pode acessar outros URLs de um site por meio de hiperlinks . Todos os endereços encontrados são salvos e visitados um após o outro. Os hiperlinks recém-encontrados são adicionados à lista de todos os URLs. Desta forma, teoricamente, todas as páginas vinculadas na WWW que não estão bloqueadas para rastreadores da web podem ser encontradas. Na prática, porém, muitas vezes é feita uma seleção, em algum momento o processo é encerrado e reiniciado. Dependendo da tarefa do web crawler, o conteúdo das páginas web encontradas é avaliado e armazenado, por exemplo por meio de indexação , de forma a possibilitar uma posterior busca nos dados assim coletados.

Exclusão de rastreadores da web

Com a ajuda do Robots Exclusion Standard , um operador de site pode usar o arquivo robots.txt e certas metatags no cabeçalho HTML para informar a um rastreador da web quais páginas indexar e quais não, desde que o rastreador da web adira ao protocolo. Para combater os rastreadores indesejados da web, também existem sites especiais, os chamados tar pits , que fornecem aos rastreadores da web informações incorretas e também os tornam consideravelmente mais lentos.

Problemas

Grande parte de toda a Internet não é registrada por web crawlers e, portanto, também por mecanismos de busca públicos, uma vez que grande parte do conteúdo não é acessível por meio de links simples, mas apenas por meio de máscaras de busca e portais de acesso restrito , por exemplo . Essas áreas também são chamadas de “ deep web ”. Além disso, a mudança constante da web e a manipulação do conteúdo ( cloaking ) representam um problema.

espécies

Os rastreadores da web focados em temas são chamados de rastreadores direcionados ou rastreadores da web direcionados . O foco da pesquisa na web é realizado, por um lado, pela classificação do próprio site e pela classificação dos hiperlinks individuais. Dessa forma, o rastreador focado encontra o melhor caminho na web e apenas indexa áreas relevantes da web (para um tópico ou domínio). Os principais obstáculos na implementação prática de tais web crawlers são as subáreas não vinculadas e o treinamento dos classificadores.

Os crawlers da Web também são usados para mineração de dados e para examinar a Internet ( webometria ) e não precisam necessariamente ser restritos à WWW.

Uma forma especial de rastreador da web são os coletores de e-mail ("Harvester" para "harvesting machine"). Este termo é usado para software que pesquisa na Internet (WWW, Usenet , etc.) por endereços de e-mail e os “coleta”. Os endereços eletrônicos são coletados e podem ser comercializados. O resultado é i. d. Normalmente, mas especialmente com spambots , e-mails publicitários ( spam ). Por este motivo, a prática até então comum de disponibilizar endereços de e-mail em sites como forma de contato via mailto: - o link é cada vez mais abandonado; às vezes, é feita uma tentativa de tornar os endereços ilegíveis para os bots inserindo espaços ou palavras. Portanto, a@example.com se torna um exemplo ( arroba ) (ponto) com . A maioria dos bots pode, no entanto, reconhecer esses endereços. Outro método popular é incorporar o endereço de e-mail em um gráfico. O endereço de e-mail, portanto, não está disponível como uma sequência de caracteres no texto fonte do site e, portanto, não pode ser encontrado como informação de texto para o bot. No entanto, isso tem a desvantagem para o usuário de não poder transferir o endereço de e-mail para o seu programa de e-mail para envio, bastando clicar nele, mas ter que copiar o endereço. Muito mais sério, porém, é que o site não está mais acessível e os deficientes visuais são excluídos, assim como os bots.

Outro objetivo dos rastreadores da web é encontrar conteúdo protegido por direitos autorais na Internet.

Veja também

Evidência individual

^ X. Yuan, MH MacGregor, J. Harms: Um esquema eficiente para remover o tráfego da esteira rolante do Internet. Computer Communications and Networks, 2002. Proceedings. Décima Primeira Conferência Internacional sobre Comunicações e Redes
↑ Sotiris Batsakis, Euripides GM Petrakis, Evangelos Milios: Melhorando o Desempenho de Web Crawlers Focados. 9 de abril de 2012. (Inglês)

Links da web

The Web Robots Pages (Inglês)
Webcrawling - The Development of the Web , Ronny Harbich, 2008.

[1] X. Yuan, MH MacGregor, J. Harms: Um esquema eficiente para remover o tráfego da esteira rolante do Internet. Computer Communications and Networks, 2002. Proceedings. Décima Primeira Conferência Internacional sobre Comunicações e Redes

[2] Sotiris Batsakis, Euripides GM Petrakis, Evangelos Milios: Melhorando o Desempenho de Web Crawlers Focados. 9 de abril de 2012. (Inglês)

Languages