A web semântica

Embora este assunto não seja novo, se faz necessário e relevante. A abundância de informações irrelevantes na Internet tem se tornado um problema desde que seu uso massificou, a partir de 1998.

Encontrar informações relevantes não é tarefa fácil. E a culpa normalmente é do pobre HTML, que nada fez para nos ajudar em suas pobres tags. A bem da verdade é que desde o SGML, passando pelo HTML e mais recentemente (embora a idade temporal não seja recente), o XML, que ja é um padrão relevante para troca de informações (não, o XML não substitui o HTML), é preciso que nós nos forcemos a identificar corretamente o conteúdo que geramos, em casa, no trabalho, na escola e no meio acadêmico. As tags HTML são muito limitadas nesse sentido. Elas apenas descrevem como a página deve ser exibida e não oferecem nenhuma descrição dos dados contidos em si.

Quando documentos são indexados, nos é então permitido procurar por eles. O problema é que pessoas procuram por coisas iguais de maneiras diferentes, e procuram por coisas diferentes de maneira igual. A chave é mais ou menos essa, ao invés de pensar como informação compreensível aos humanos, devemos pensar naquilo que as máquinas entenderiam.

Algo como “Machine-understandable Information”, de acordo com o mestre Tim Berners-Lee. É preciso então criar categorias semânticas para descrever os dados contidos nas páginas e uma linguagem que façam sentido para as máquinas.

Aí entramos em outro estágio, das ontologias e dos agentes. As ontologias (conjuntos de conceitos em lógica, sobre determinada área de conhecimento) se encarregarão de criar os vocabulários necessários ao funcionamento dos agentes (monstrinhos que farão o trabalho para nós, assim como no Matrix).

As ontologias criarão os conceitos e estabelecerão regras lógicas, para se interpretar o significado das informações. E os agentes, peças de software que funcionarão como serviços dispersos e automáticos, precisarão destas ontologias para nos servir. Neste caso, de informações realmente relevantes.

O caminho já vem sendo trilhado, e só não é mais longo porque já passou bastante tempo. Mas ainda serão necessárias novas tecnologias para suprir atuais carências e deficiências no que temos disponível hoje.

O W3C trabalha dia e noite nisso, seria bom você reservar um tempo para ajudar.

Você gostou disso? Compartilhe:
01
jun 2003
POSTED BY
POSTED IN Baguete
DISCUSSION 0 Comments

A parte oculta da web

Como bom internauta que você é, já deve ter ouvido falar que a web é composta de cerca 5 a 8 bilhões de páginas, o mecanismo de busca OpenFind indexa cerca de 3,5 bilhões de páginas, o Google cerca de 2,4 bilhões de páginas, o AlltheWeb cerca de 2,1 bilhões e por aí afora. Mas porque a variação 5 à 8 bilhões?

A resposta é simples, ninguém sabe ao certo o tamanho da web, o que se faz é medir uma porção que é indexada pelos maiores mecanismos de busca, o que não garante o tamanho de qualquer maneira, pois se cada um tem seus critérios de avaliação e indexação, o que você encontra num pode não encontrar em outro.

Além disso, e a parcela da Web que não aparece, que não é indexada pelos “melhores mecanismos de busca” que você conhece, onde está a parte oculta da web? Ela existe?

A resposta é ela existe sim. Você precisa saber que os mecanismos de busca e seus critérios utilizados pelas suas “aranhas” (mecanismos que navegam pela web de link em link atrás de novas informações e atualizações para serem catalogadas – ou não) variam e excluem muitas informações as quais seriam relevantes. Normalmente alguma empresa cadastra seu site nos principais mecanismos de busca, e ele insiste em não figurar em nenhum deles, a resposta pode estar até no código da página, caracteres especiais, tags muito novas ou muito velhas, novas tecnologias, qualquer coisa que não deva ou “não precise” fazer parte da web, claro que não pelos nossos critérios.

Também é interessante pensar sobre outros pontos de vista, a parte oculta da web pode não estar publicada naquilo que entendemos por “páginas”, pode estar dentro de outros tipos de arquivos (Arquivos adobe acrobat – PDF, por exemplo), e o que é mais comum, dentro de bancos de dados que estão conectados aos seus web sites. E pelos critérios… Nunca aparecerão.

Tenha em mente o seguinte, se você quer realmente encontrar as informações que procura, tem que ir ao lugar certo, fazer uma busca por um número de telefone no Google não é a maneira mais recomendada para encontrar a pessoa que responde por ele. Você deveria utilizar um mecanismo do tipo páginas amarelas ou ainda, um “Meta Search Engine” de sites de cadastro de listas telefônicas. O objetivo deste artigo é fazer você pensar a respeito.

Prometo publicar no próximo artigo dicas de mecanismos de busca, meta mecanismos, e outras coisas que vão fazer você arrepiar sobre a sua privacidade na web, mas isso já dá muito mais pano para a manga…

Related Posts Plugin for WordPress, Blogger...
Você gostou disso? Compartilhe:
09
set 2002
POSTED BY
POSTED IN Baguete
DISCUSSION 0 Comments