Approches Interdisciplinaires du Web

Suivez les évenements liés au projet de master AIW

Cartographie du web sémantique

with 3 comments

J’ai été très excité quand j’ai regardé la vidéo de Tim Berners-Lee à TED parlant des “linked data”, annoncées comme le web du futur. Toutes ces données aux formats diverses, éparpillées aux quatre coins du web seraient codées selon un format standard, et liées les unes aux autres, exactement comme les pages html du web classique ! J’ai levé les bras et crié “Raw data now !” avec enthousiasme à l’appel de Tim Berners-Lee. Il nous promettait de soigner le cancer, de découvrir de nouveaux médicaments, de comprendre le web, l’économie et, enfin, le monde !

Nous le désirions ardemment, ce web des données. Mais à Athènes, les présentations sur le sujet n’ont pas été à la hauteur de notre envie. Je vous livre ici un compte rendu de la session sur le “Web of data”. Ces réflexions sont inspirées principalement par l’article de Yuzhong Qu et al., de l’institut de Science du Web de l’université de Nanjing en Chine.

Cet article dresse une véritable géographie du web sémantique actuel. Les auteurs utilisent le moteur de recherche sémantique Falcons (jouez un peu avec, c’est assez amusant). Ce moteur permet de collecter les documents écrits en format rdf/xml. Le rdf (resource description framework) est un modèle de description des ressources, sous forme de triplets {sujet, prédicat, objet}. Par exemple, {Lionel Messi, is a, Football Player} selon dbpedia. Ou {Lionel Messi, knows, Thierry Henry} selon friends of a friends. Que sont au juste dbpedia ou friends of a friends (foaf) ? Ce sont en fait des projets qui proposent des vocabulaires, c’est à dire qu’ils suggèrent des objets et des prédicats pour décrire les sujets. Ce sont des vocabulaires RDF car ils permettent de coder la description des sujets selon le format RDF. Foaf, par exemple, est spécialisé dans la description des personnes et des relations qu’elles entretiennent entre elles.

Les objets peuvent être des classes (c’est à dire, désigner un ensemble d’objets aux propriétés communes). Ainsi, la classe Football_Player contient entre autres Thierry Henry et Lionel Messi. Avec leurs données, les chercheurs considèrent le graphe des associations entre classes. Considérons les triplets  suivants :
{Lionel Messi, is a, Football Player}
{FC Barcelona, is a, Football Club}
{Lionel Messi, plays in, FC Barcelona}

Ces trois triplets sont résumés par les auteurs par deux classes : Football Player et FC Barcelona, qui seront liées entre elles. Les liens sont plus ou moins forts selon le nombre de triplets rdf qui établissent des liens entre les deux classes considérées.

Les chercheurs parviennent donc à extraire un jeu de 11.7 millions de fichiers RDF/XML contenant 596 millions de triplets. Le chiffre de 11.7 millions est à comparer aux 20 milliards de pages web indexées par les meilleurs moteurs de recherche. La quantité d’informations codées en RDF est donc non négligeable. Ces données comportent au total 56631 classes.
Les chercheurs calculent ensuite une série de statistiques, classiques dans l’étude des graphes de terrain. De façon plus intéressante, ils dessinent également le graphe des associations entre classes, qui représente en fait une carte du web sémantique.
Premier constat : toutes les classes ne sont pas connectées. C’est à dire que certains vocabulaires ne sont utilisées que pour certaines ressources qui sont complètement isolées des autres. Toutes les données ne sont pas liées ! Il y a donc encore des efforts à faire pour atteindre ce web des « linked data » auquel Berners-Lee nous a fait rêver ! Il y a néanmoins une composante principale qui rassemble 96.16% des objets décrits. En voici le graphe :

Associations entre les classes du web sémantique

En bleu, le vocabulaire FOAF s’étale au centre du graphe. Il a beaucoup de liens vers d’autres graphes et joue un rôle fédérateur. En rouge et en bas à droite, le vocabulaire développé pour YAGO est très isolé. Ce projet vise à développer une base de connaissances généraliste sémantique, et est développé au Max Planck Institute. Il est étonnant qu’il soit si peu lié avec d’autres comme DBPedia, que l’on voit ici en vert pomme. DBPedia a pour but de structurer l’information de Wikipédia ; le vocabulaire DBpedia  a une position plus centrale que YAGO, comporte plus de liens vers l’extérieur mais forme quand même une communauté bien groupée.

Cette cartographie du web sémantique révèle donc deux choses. D’abord, un paradoxe : les auteurs ont collecté les données RDF, c’est à dire celles générées par les personnes qui adhèrent au dogme « W3C – RDF ». Ces personnes sont donc supposées vouloir un web sémantique universel, écrit dans un langage unique. Pourquoi, alors, YAGO et DBpedia, deux projets de classification généralistes, sont-ils si peu liés l’un à l’autre ?
Ensuite, le constat suivant : dans les 10 vocabulaires les plus fréquents, à part les 3 principaux vocabulaires suscités, nous trouvons 7 autres vocabulaires qui sont assez spécialisés. Nous trouvons par exemple un wiki sémantique sur l’architecture ou encore une base de données biologiques. Pas étonnant, donc, que ceux-là soient isolés.

Je suis très néophyte dans le domaine du web sémantique, je ne m’avancerai donc pas trop dans mes interprétations. Je dirai simplement que notre « web of data » est finalement quelque chose d’assez décevant. A quoi ressemble donc le paysage du web sémantique à l’heure actuelle ? Quelques projets à ambition fédératrice semblent entretenir des relations plutôt concurrentes et hostiles (pas un seul lien direct entre les classes de YAGO et celles de DBpedia !). Et ici ou là, nous apercevons les traces laissées par des bibliothécaires spécialistes, qui n’ont finalement d’autre ambition que de faire un peu de tri dans les données générées par leurs disciplines (projets par ailleurs fort utiles, par exemple pour les scientifiques).

Le rêve de Tim Berners-Lee, qui est celui d’un monde numérisé et structuré, nous parait donc bien loin… et l’usage qu’on pourrait faire des données de projets comme Friend of a friend, par exemple, bien mystérieux… Nous essaierons, dans le prochain post, de nous attacher aux usages que l’on peut avoir du web des données, en commentant quelques applications qui nous ont été présentées à websci09.

PS : n’hésitez pas à me reprendre, ou à proposer des compléments ; je n’y connais pas grand chose au web sémantique mais serais très content d’en apprendre plus !

Written by François

3 avril 2009 à 9:27

Publié dans Compte-rendus

3 Réponses

Subscribe to comments with RSS.

  1. Comme vous le proposez à la fin de votre billet, je me permets quelques remarques sur votre propos.

    Concernant Yago et Dbpedia, il faut tout d’abord ne pas confondre les objectifs de ces deux projets qui sont différents, même s’ils utilisent une source commune : wikipedia. Le but de Yago est de constituer une ontologie, c’est à dire une représentation d’un domaine de connaissances, sous la forme de classes (=type de ressource) et de propriétés qui s’y rattachent (=caractéristiques de ces classes et qui serviront ensuite de prédicat dans l’expression de triplets RDF). Cette ontologie est basée, entre autres, sur les catégories de Wikipedia.

    Dbpedia a pour but d’exposer selon le modèle RDF l’ensemble des données structurées de Wikipedia. Pour structurer les données selon le modèle RDF, le projet Dbpedia s’appuie sur les vocabulaires RDF (=ontologies) très connues comme FOAF, Dublin Core ou RDFS, mais aussi sur Yago pour associer une ressource (=une page de wikipedia) à une classe (=un type de ressource). Par exemple, si vous consultez la ressource Semantic Web (http://dbpedia.org/resource/Semantic_Web), vous pourrez constater que la classe représentée avec le prédicat rdf:type fait référence à une classe Yago. Il est donc exagéré d’affirmer que Dbpedia et Yago ne sont pas liés, ils le sont au contraire énormément. Mais, ces relations ne se situent pas au niveau de la structure (= l’ontologie) mais au niveau des données elles-mêmes.

    Je peux comprendre votre déception actuelle sur le Web de données si on le compare à notre Web de documents actuel. Mais, revenons 20 ans en arrière voire même 10 ans, le Web de documents n’était pas ce qu’il était et on pouvait lire les mêmes reproches à l’égard du Web qu’on peut lire sous votre plume à l’égard du Web de données. Il faut laisser du temps pour que les choses se construisent, que les concepts assez complexes du Web sémantique se diffusent et que les utilisateurs se les approprient. Quand on voit l’évolution du linked data Cloud (http://richard.cyganiak.de/2007/10/lod/ puis http://www4.wiwiss.fu-berlin.de/bizer/pub/lod-datasets_2008-09-18.png puis http://www4.wiwiss.fu-berlin.de/bizer/pub/lod-datasets_2009-03-27_colored.png) qui représentent l’ensemble des données exposées en RDF et reliées entre elles sur ces deux dernières années, on ne peut qu’être frappé par son évolution rapide.

    Oui, il faudra encore du temps pour que l’hyperdata (qui est aux données ce que l’hypertexte est aux documents) se constituent et atteignent une masse critique. Oui, il faudra du temps pour que les ontologies et autres vocabulaires RDF soient correctement reliés. Oui, il faudra du temps pour que des outils capables d’exploiter cette masse de données soient proposés aux utilisateurs. Néanmoins, les perspectives ouvertes par le Web de données et plus généralement par les technologies du Web sémantique pour la gestion et l’exploitation des données structurées dans un réseau de machines interconnectées (le Web) sont aussi excitantes que celles ouvertes il y a 15 ans par le Web. « Vague mais excitant », c’est ainsi que le supérieur au CERN de Tim Berners-Lee qualifiait sa proposition du Web (cf. http://info.cern.ch/Proposal.html), cette expression me paraît tout aussi approprié pour le Web de données.

    Si vous voulez en savoir plus sur ces questions, je vous invite à consulter les billets relatifs à ce sujet sur mon blog : les petites cases, http://www.lespetitescases.net

    Gautier Poupeau

    5 avril 2009 at 7:51

  2. Les relations entre bases sont beaucoup plus dépendantes de relations personnelles entre les auteurs de ces bases que de leur pertinence effective ou potentielle : c’est si délicat d’expliquer ce qu’un descripteur sémantique implique effectivement que seul ce degré de relation permet l’établissement de relations qui tiennent la route.

    Cette état de fait explique l’émulation dans tout développement, où se mélangent la collaboration amicale et le concours spontané avec ses proche, toujours pour obtenir l’estime — parce que cette estime se transmet selon des règles qui distingue la collaboration de la course de manière souple.

    La conséquence amusante c’est que parce que ces relations sont souvent distance, implicites, informelles ou très circonstanciées, elles gagnent à être supportée par des outils comme les SNS — FoaF dans le monde de l’Open Data. De ce fait, tous les acteurs partagent leur relations, et donc leur expertise, de FoaF ; par ce biais auto-référent, les problèmes considérables que posent les relations personnelles (toute la différence entre ‘friend’ et ‘Friend’ tel que l’écrit d. boyd) sont ben surmontés, au point que FoaF a ce rôle étrangement central alors qu’il aurait du, du fait de la comlexité sociale, être le dernier à arriver.

    Bertil

    5 avril 2009 at 10:28

  3. Useful information. Lucky me I found your web site unintentionally, and I am shocked why this twist of fate did not came about earlier!
    I bookmarked it.

    pdf

    20 novembre 2012 at 8:11


Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :