Rede profunda

A Deep Web (também Hidden Web ou Invisible Web ) ou Hidden Web descreve aquela parte da World Wide Web que não pode ser encontrada ao pesquisar usando mecanismos de pesquisa normais . Em contraste com a Deep Web, os sites acessíveis por meio de mecanismos de pesquisa são chamados de Clear Web, Visible Web ou Surface Web . A deep web consiste principalmente em bancos de dados de tópicos específicos ( bancos de dados especializados ) e sites. Em suma, é o conteúdo que não é de acesso livre e / ou conteúdo que não é indexado por mecanismos de pesquisa ou que não deve ser indexado.

Tipos de deep web

Segundo Sherman & Price (2001), existem cinco tipos de Web Invisível: “Web Opaca”, “Web Privada”, “Web Proprietária” (Web proprietária), “Web Invisível” (Web Invisível) ) e "Web verdadeiramente invisível" (na verdade, Web invisível).

Opaco Web

A Opaque Web (. Inglês Opaque Engl:. Opaca ) são páginas web que podem ser indexados, mas no presente por razões de eficiência técnica ou custo-eficácia não ser indexado (profundidade de pesquisa, a frequência de visitas).

Os mecanismos de pesquisa não consideram todos os níveis de diretório e subpáginas de um site. Ao capturar páginas da web, os rastreadores da web controlam por meio de links para as seguintes páginas da web. Os próprios crawlers da Web não podem navegar, até mesmo se perder em estruturas de diretórios profundas , não podem capturar páginas e não conseguem encontrar o caminho de volta à página inicial. Por esse motivo, os mecanismos de pesquisa costumam considerar cinco ou seis níveis de diretório, no máximo. Documentos extensos e, portanto, relevantes podem ser localizados em níveis hierárquicos inferiores e não podem ser encontrados por mecanismos de pesquisa devido à profundidade limitada da indexação.

Além disso, existem formatos de arquivo que só podem ser gravados parcialmente ( por exemplo, arquivos PDF , o Google apenas indexa parte de um arquivo PDF e disponibiliza o conteúdo como HTML).

Existe uma dependência da frequência de indexação de um site (diária, mensal). Além disso, bancos de dados atualizados constantemente, como dados de medição online , são afetados. Sites sem hiperlinks ou sistemas de navegação, sites desvinculados, URLs de eremitas ou páginas órfãs ( órfãs para órfãos ) também estão incluídos.

Web privada

A web privada descreve sites que podem ser indexados, mas não são indexados devido a restrições de acesso do webmaster.

Podem ser sites na intranet (sites internos), mas também dados protegidos por senha (registro e possivelmente senha e login ), acesso apenas para determinados endereços IP , proteção contra indexação pelo Robots Exclusion Standard ou proteção contra indexação pelo meta -tag valores noindex , nofollow e noimageindex no código-fonte do site.

Web Proprietária

Com Proprietary Web sites são significava que podem ser indexados, mas somente após o reconhecimento de uma condição de uso ou digitando uma senha estão disponíveis (gratuito ou pago).

Normalmente, esses sites só podem ser acessados após identificação ( bancos de dados especializados baseados na web ).

Teia invisível

A Web invisível inclui sites que podem ser indexados de um ponto de vista puramente técnico, mas não são indexados por razões comerciais ou estratégicas - como bancos de dados com um formulário da web.

Web verdadeiramente invisível

Com o Truly Invisible Web sites são chamados, os quais não podem ser indexados por motivos técnicos (ainda). Podem ser formatos de banco de dados que foram criados antes da WWW (alguns hosts), documentos que não podem ser exibidos diretamente no navegador , formatos não padrão (por exemplo, Flash ), bem como formatos de arquivo que não podem ser capturados devido à sua complexidade (formatos gráficos ) Além disso, existem dados compactados ou sites que só podem ser operados pela navegação do usuário por meio de gráficos (mapas de imagens) ou scripts ( frames ).

Bancos de dados

Páginas da web de banco de dados criadas dinamicamente

Os rastreadores da Web trabalham quase exclusivamente em sites de bancos de dados estáticos e não podem acessar muitos sites de bancos de dados dinâmicos , pois só podem alcançar páginas mais profundas por meio de hiperlinks . No entanto, essas páginas dinâmicas geralmente só podem ser acessadas preenchendo um formulário HTML , o que um rastreador ainda não pode fazer no momento.

Os provedores de banco de dados cooperativos permitem que os mecanismos de pesquisa acessem o conteúdo de seu banco de dados por meio de mecanismos como o JDBC , ao contrário dos bancos de dados não cooperativos (normais) , que oferecem acesso apenas ao banco de dados por meio de um formulário de pesquisa.

Hosts e bancos de dados especializados

Hosts são provedores de informações comerciais que agrupam bancos de dados especializados de diferentes produtores de informações em uma interface. Alguns provedores de banco de dados (hosts) ou próprios produtores de banco de dados operam bancos de dados relacionais , os dados dos quais não podem ser acessados ​​sem uma opção especial de acesso (linguagem de recuperação, ferramenta de recuperação). Os rastreadores da Web não entendem nem a estrutura nem a linguagem necessária para ler as informações desses bancos de dados. Muitos hosts fornecem serviços online desde a década de 1970 e, em alguns casos, operam sistemas de banco de dados em seus bancos de dados que foram criados muito antes da WWW.

Exemplos de bases de dados: catálogos de bibliotecas ( OPAC ), preços de bolsa, horários, textos jurídicos, bolsas de empregos, notícias, patentes, listas telefônicas, lojas na web, dicionários.

Estimativa da quantidade de dados

De acordo com um estudo da BrightPlanet publicado em 2001, as seguintes propriedades surgiram para a deep web:

A quantidade de dados na Deep Web é cerca de 400 a 550 vezes maior do que na Surface. Apenas 60 dos maiores sites da Deep Web contêm cerca de 7.500 terabytes de informações, o que é 40 vezes maior que o da Surface Web. Existem, segundo informações, mais de 200.000 sites profundos existentes. De acordo com o estudo, sites da web profunda têm em média 50% mais acessos por mês e são vinculados com mais frequência do que sites da web superficial. A deep web também é a categoria de novas informações que mais cresce na web. No entanto, a deep web dificilmente é conhecida do público que pesquisa na Internet. Mais da metade da deep web está localizada em bancos de dados de tópicos específicos.

Como o BrightPlanet oferece um auxílio de pesquisa comercial com DQM2, a especificação do tamanho (possivelmente muito superestimada) deve ser vista com muito cuidado. alguns dados que precisam ser limpos a partir do BrightPlanet estimativa dos dados volume de Deep Web:

  • Duplicatas de catálogos de biblioteca que se sobrepõem
  • Coleta de dados do National Climatic Data Center (361 terabytes)
  • Dados da NASA (296 terabytes)
  • outras coletas de dados (National Oceanographic Data Center & National Geophysical Data Center, Right to know Network, Alexa, ...)

O número de conjuntos de dados mostra que o estudo superestima o tamanho da deep web em dez vezes. No entanto, o provedor de informações LexisNexis sozinho tem 4,6 bilhões de registros, mais da metade do número de registros do líder do mecanismo de busca Google. A web profunda é, portanto, certamente muito maior do que a web superficial.

Em um estudo da Universidade da Califórnia, Berkeley, em 2003, os seguintes valores foram determinados como o tamanho da Internet: Surface Web - 167 terabytes, Deep Web - 91.850 terabytes. O acervo impresso da Biblioteca do Congresso em Washington, uma das maiores bibliotecas do mundo, tem 10 terabytes.

No geral, as informações sobre a Deep Web não devem ser levadas muito a sério. Afinal, muitos sites não entram em um mecanismo de pesquisa por conta própria. Um site criado de forma privada não é visitado imediatamente. Mas você também pode registrar essa página ou esperar até que sua própria página tenha sido vinculada a outras páginas que já foram indexadas por rastreadores.

Veja também

literatura

Links da web

Evidência individual

  1. ^ Gary Price, The Invisible Web: descobrindo fontes de informação que os motores de busca não conseguem ver . CyberAge Books, Medford, NJ 2001, ISBN 0-910965-51-X (inglês).
  2. ^ Michael K. Bergman: A Web profunda: Apresentando o valor escondido . In: The Journal of Electronic Publishing , Volume 7, 2001, No. 1
  3. Internet Archive Wayback Machine ( Memento de 14 de março de 2006 no Internet Archive )
  4. Internet ( Memento do originais de 15 de Outubro de 2004, na Internet Archive ) Info: O arquivo de ligação foi inserido automaticamente e ainda não foi marcada. Verifique o link original e o arquivo de acordo com as instruções e, em seguida, remova este aviso. sims.berkeley.edu @ 1@ 2Modelo: Webachiv / IABot / www.sims.berkeley.edu