|
Qual o sentido da Web?
Imagine que você
esteja buscando informações sobre metrópoles norte-americanas na
Internet. Entre com a palavra "metropolis" (em inglês) num
programa de busca e virão respostas tão variadas quanto a
revista Metropolis, a gravadora de discos Metropolis, o fórum
Metropolis sobre pesquisa e políticas de migração e cidades, a
página de um fã do Metropolis, de Fritz Lang e outras. Isto
porque os programas não distinguem o filme da revista ou do
centro de pesquisas. É claro que você pode (aliás, deve)
combinar "metropolis" com outras palavras-chave, acrescentando
ou excluindo termos que permitam refinar a busca,
preferencialmente indicando também outros parâmetros, como data,
língua ou domínio, que muitos programas aceitam na função de
"busca avançada". Ainda assim, o resultado é muitas vezes
desolador. São dezenas (às vezes centenas) de páginas que não
interessam, tornando difícil separar o joio do trigo.
Com o crescimento
exponencial da Web tornou-se difícil indexar as informações. A
linguagem HTML, que popularizou a Web e é utilizada pela maioria
dos sites, não possui recursos que permitam atribuir significado
à informação. "As tags HTML são muito limitadas nesse sentido.
Elas apenas descrevem como a página deve ser exibida e não
oferecem nenhuma descrição dos dados", explica Rubens Queiroz,
do Centro de Computação da Unicamp.
Para melhorar a
indexação, são necessárias categorias mais apuradas que permitam
triar com eficiência, no oceano de dados disponíveis, aquilo que
interessa ao usuário num contexto preciso. Na verdade,
categorias já existem. Para o usuário que visita as páginas da
revista Metropolis, da ONG Metropolis e a do fã do filme
Metropolis a diferença é evidente. O problema é que ela só é
entendida por nós, humanos, mas não fazem sentido para os
programas de computador, que ainda estão muito distantes de
imitar o funcionamento da mente humana. Os programas de
computador (ainda) não conseguem resolver as ambigüidades e
outros problemas complexos que o ser humano consegue, embora
esta seja a aspiração da Inteligência Artificial: fazer com que
a máquina reproduza os mecanismos da inteligência humana. Mas
disto ainda estamos longe...
A Web Semântica é
uma tentativa inversa de solução. Ao invés de pensar na
informação para os humanos, a idéia é pensar na máquina. "Machine-understandable
Information", esta é a definição da Web Semântica, segundo o
"pai da Web", Tim Berners-Lee, um dos comandantes desse projeto.
É curioso, claro, pois o objetivo final é atender às pessoas e
não aos computadores, mas para isso é preciso construir
categorias e uma linguagem que façam sentido para a máquina.
O projeto da
Web
Semântica, embora pareça uma novidade, não nasceu há tão
pouco tempo. Capitaneado pelo consórcio
W3C, ele é um
sucessor do projeto
Metadados,
cujos princípios são os mesmos (incluir "informação sobre a
informação" na Web), mas que trabalhava com linguagem (HTML),
que não permite criar categorias semânticas.
Um componente
central da Web Semântica é a linguagem XML, que permite
descrever semanticamente os dados e, a partir de categorias que
o próprio usuário pode definir.
|
Para
criar aplicações XML são necessários quatro passos:
-
Selecionar ou escrever um DTD (Document Type
Definition), que é um conjunto de tags + a gramática
da linguagem de marcação.
-
Criar
documentos XML:é importante não sobrepor tags, e não
omitir tags de finalização.
-
Interpretar documentos XML: através de dois padrões
DOM (Document Object Model) e SAX (Simple API for
XML).
-
Exibir documentos XML: nem todos os navegadores
entendem o formato; nesse caso é preciso transformar
o arquivo com folhas de estilo (CSS).
Esse
processo ainda é relativamente complexo e se torna mais
difícil quando um projeto envolve muitos participantes,
que têm de se colocar de acordo sobre que categorias
utilizar, como os dados devem ser relacionados, como os
usuários irão interagir com eles. Todos precisam estar
de acordo, caso contrário não há como montar o "banco de
dados". Este é, aliás, um dos maiores desafios do futuro
da Web. Para o comércio eletrônico, o mais provável é
que as empresas cheguem a um acordo, pois têm muito
interesse nessa tecnologia, que potencialmente pode
incrementar muito seus negócios. Nos demais casos, é
difícil imaginar qual será a saída. |
|
Evolução das linguagens
|
SGML (Standard
Generalized Markup Language)
-
Definida em 1986
-
Possibilidade de criação de
qualquer conjunto de tags
-
Padrão comum: DTD (Document
Type Definition)
-
Difícil adoção na Web
-
Complexidade
-
Inexistência de estilos
amplamente difundidos
|
HTML (Hypertext Markup
Language)
-
Derivada do SGML
-
Própria para Web
-
Extremamente simples
-
Fácil criação de links
hypertexto
-
Conjunto limitado de tags
-
Difícil reutilização da
informação
-
Busca por documentos gera
muitos resultados
irrelevantes
|
XML (Extensible Markup
Language)
-
SGML para Web
-
Especificação mais simples
-
Formato texto
-
Descrição de dados
estruturados
-
Número ilimitado de tags
-
Otimiza entrega de
informações
-
Dados são independentes dos
aplicativos ou fornecedores
de software
|
|
Fonte: XML, Rubens
Queiroz, Unicamp
|
|
|
|
Outros
componentes da Web Semântica são:
-
URI:
Universal Resource Identifier. Como a URL (que é um tipo de
URI), especifica uma identidade, não necessariamente por sua
localização na Web.
-
RDF: Resource
Description Framework. Uma linguagem e uma gramática para
definir informação na Web.
-
Ontologias:
Conjuntos de asserções que definem as relações entre
conceitos e estabelecem regras lógicas de raciocínio sobre
eles. Para interpretar o significado das informações, os
computadores usarão ontologias.
-
Agentes:
Softwares que funcionam sem necessidade de controle direto
ou supervisão permanente para cumprir demandas estabelecidas
por um usuário.
Aplicações
As metas do
projeto da Web Semântica são mais ambiciosas do que simplesmente
permitir indexar melhor a informação da Web. Interessam as
aplicações que se tornam possíveis com a utilização de
categorias semânticas para descrever os dados. Quem leu o texto
de Berners-Lee, James Hendler e Ora Lassila, na revista
Scientific American de maio/2001, se lembrará que o início
descreve o caso de Pete, um filho que busca na Internet, através
de seu agente (um software robô), alternativas para a
fisioterapia de sua mãe. Dispondo previamente de uma série de
dados de Pete (seu endereço, seus horários, o seguro-saúde de
sua mãe, etc), o agente busca na Web as informações relevantes
(lista de médicos credenciados, suas agendas, etc) e em alguns
minutos oferece uma lista de opções para que ele escolha a que
mais lhe convém. Não satisfeito com a primeira lista, Pete pede
que o agente refaça a busca de acordo com as restrições por ele
estabelecidas. Desta vez, a solução oferecida é satisfatória e
com algumas ações simples. Pete muda parte de seus compromissos,
obtém a aceitação do agente de Lucy (sua irmã, com quem irá
dividir as idas à fisioterapia da mãe) e acerta a agenda.
Todo esse
cenário, é claro, ainda está relativamente distante. Além disso,
as aplicações mais prováveis das ferramentas acima descritas
serão o comércio eletrônico e grandes bancos de dados, como os
próprios autores ressaltam. Mas, pondera Rubens Queiroz, isto
não faz da Web Semântica uma má idéia. "Hoje o interesse maior é
de empresas, por exemplo uma grande editora, para permitir a
troca de dados. Mas sites não comerciais também se beneficiarão
da utilização do XML e do desenvolvimento da Web Semântica, pois
seus conteúdos serão indexados mais eficientemente pelos
programas de busca e poderão ser mais facilmente convertidos em
novos formatos ou ganharem novo visual", conclui.
Para quem quiser
ver exemplos de sites que desenvolvem os conceitos da Web
Semântica, com utilização de XML, RDF e outros, são
interessantes o Projeto Dublin Core Metadata Initiative, o IMS
Global Learning Consortium, que estabelece vocabulários para
facilitar o aprendizado distribuído on line.
Fonte : http://www.comciencia.br/reportagens/internet/net08.htm |