Comme annoncé précédemment, voilà une mini-introduction au web sémantique.

Le web sémantique est une belle idée dont l'essence consiste à faire du web un système de connaissances simple à traiter pour les ordinateurs. C'est, dans l'esprit du Word Wide Web Consortium (W3C), le web 2.0. Le moyen : adjoindre aux pages web écrites en langues humaines tout un système de métadonnées, invisible pour l'utilisateur mais compréhensibles par les ordinateurs. Pour reprendre une expression de Pierre Lévy, une page de web sémantique a deux facettes, la face humaine et la face sémantique, qui forment l'avers et le revers d'une même médaille.

Mais comment faire, en pratique ? Comment passer concrètement d'un web de documents à un web de données ?

Lors de makeopendata, Philippe Cudré-Mauroux, professeur à l'université de Fribourg et membre d'eGovTec, a donné une présentation intitulée "Linked Open Data in the Cloud" (dont les slides étaient à peu près ceux-ci). Dans l'esprit de la réunion, il a commencé par rappeler que le développement de l'open data était assez urgent, en vertu de la nécessité d'une part de davantage de transparence gouvernementale, d'autre part de solides infrastructures de données.

Puis il a esquissé une réponse aux questions ci-dessus : la manière la plus prometteuse d'implémenter le web sémantique est basée sur le concept de Linked Open Data, proposé il y a cinq ans par Tim Berners-Lee, et qui est fondé sur 4 principes :

  1. utiliser des URI (Uniform Resource Identifier, soit des chaînes de caractères qui identifient (et adressent) des ressources sur un réseau) pour identifier les choses
  2. utiliser des URI HTTP pour déréférencer les URI
  3. fournir des informations structurées sur les URI en RDF
  4. inclure des liens pour connecter les URI

Le RDF est une sorte de grammaire informatique très générale, dont les phrases sont des triplets d'URI (sujet, verbe, objet). C'est une grammaire décentralisée, car les listes de triplets qui la forment, les "triples stores", peuvent être publiées n'importe où, dans le cloud. Comme dit Philippe Cudré-Mauroux, ''the great thing about unique identifiers is that there are so many to choose from''. L'incorporation du RDF dans les pages HTML est standardisée sous l'appellation RDFa.

En conséquence, en plus du web lisible par les humains, il existera un "web parallèle", le web sémantique, destiné aux ordinateurs.

Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/

Pour finir, quelque chose dont Philippe Cudré-Mauroux n'a pas du tout parlé, c'est les microformats et les microdonnées, qui sont des approches moins abstraites et plus pragmatiques du web sémantique.