setembro 9, 2002 | In: Baguete
A parte oculta da web
Como bom internauta que você é, já deve ter ouvido falar que a web é composta de cerca 5 a 8 bilhões de páginas, o mecanismo de busca OpenFind indexa cerca de 3,5 bilhões de páginas, o Google cerca de 2,4 bilhões de páginas, o AlltheWeb cerca de 2,1 bilhões e por aí afora. Mas porque a variação 5 à 8 bilhões?
A resposta é simples, ninguém sabe ao certo o tamanho da web, o que se faz é medir uma porção que é indexada pelos maiores mecanismos de busca, o que não garante o tamanho de qualquer maneira, pois se cada um tem seus critérios de avaliação e indexação, o que você encontra num pode não encontrar em outro.
Além disso, e a parcela da Web que não aparece, que não é indexada pelos “melhores mecanismos de busca” que você conhece, onde está a parte oculta da web? Ela existe?
A resposta é ela existe sim. Você precisa saber que os mecanismos de busca e seus critérios utilizados pelas suas “aranhas” (mecanismos que navegam pela web de link em link atrás de novas informações e atualizações para serem catalogadas – ou não) variam e excluem muitas informações as quais seriam relevantes. Normalmente alguma empresa cadastra seu site nos principais mecanismos de busca, e ele insiste em não figurar em nenhum deles, a resposta pode estar até no código da página, caracteres especiais, tags muito novas ou muito velhas, novas tecnologias, qualquer coisa que não deva ou “não precise” fazer parte da web, claro que não pelos nossos critérios.
Também é interessante pensar sobre outros pontos de vista, a parte oculta da web pode não estar publicada naquilo que entendemos por “páginas”, pode estar dentro de outros tipos de arquivos (Arquivos adobe acrobat – PDF, por exemplo), e o que é mais comum, dentro de bancos de dados que estão conectados aos seus web sites. E pelos critérios… Nunca aparecerão.
Tenha em mente o seguinte, se você quer realmente encontrar as informações que procura, tem que ir ao lugar certo, fazer uma busca por um número de telefone no Google não é a maneira mais recomendada para encontrar a pessoa que responde por ele. Você deveria utilizar um mecanismo do tipo páginas amarelas ou ainda, um “Meta Search Engine” de sites de cadastro de listas telefônicas. O objetivo deste artigo é fazer você pensar a respeito.
Prometo publicar no próximo artigo dicas de mecanismos de busca, meta mecanismos, e outras coisas que vão fazer você arrepiar sobre a sua privacidade na web, mas isso já dá muito mais pano para a manga…
