Archives de avril 3rd, 2009
Cartographie du web sémantique
J’ai été très excité quand j’ai regardé la vidéo de Tim Berners-Lee à TED parlant des “linked data”, annoncées comme le web du futur. Toutes ces données aux formats diverses, éparpillées aux quatre coins du web seraient codées selon un format standard, et liées les unes aux autres, exactement comme les pages html du web classique ! J’ai levé les bras et crié “Raw data now !” avec enthousiasme à l’appel de Tim Berners-Lee. Il nous promettait de soigner le cancer, de découvrir de nouveaux médicaments, de comprendre le web, l’économie et, enfin, le monde !
Nous le désirions ardemment, ce web des données. Mais à Athènes, les présentations sur le sujet n’ont pas été à la hauteur de notre envie. Je vous livre ici un compte rendu de la session sur le “Web of data”. Ces réflexions sont inspirées principalement par l’article de Yuzhong Qu et al., de l’institut de Science du Web de l’université de Nanjing en Chine.
Cet article dresse une véritable géographie du web sémantique actuel. Les auteurs utilisent le moteur de recherche sémantique Falcons (jouez un peu avec, c’est assez amusant). Ce moteur permet de collecter les documents écrits en format rdf/xml. Le rdf (resource description framework) est un modèle de description des ressources, sous forme de triplets {sujet, prédicat, objet}. Par exemple, {Lionel Messi, is a, Football Player} selon dbpedia. Ou {Lionel Messi, knows, Thierry Henry} selon friends of a friends. Que sont au juste dbpedia ou friends of a friends (foaf) ? Ce sont en fait des projets qui proposent des vocabulaires, c’est à dire qu’ils suggèrent des objets et des prédicats pour décrire les sujets. Ce sont des vocabulaires RDF car ils permettent de coder la description des sujets selon le format RDF. Foaf, par exemple, est spécialisé dans la description des personnes et des relations qu’elles entretiennent entre elles.
Les objets peuvent être des classes (c’est à dire, désigner un ensemble d’objets aux propriétés communes). Ainsi, la classe Football_Player contient entre autres Thierry Henry et Lionel Messi. Avec leurs données, les chercheurs considèrent le graphe des associations entre classes. Considérons les triplets suivants :
{Lionel Messi, is a, Football Player}
{FC Barcelona, is a, Football Club}
{Lionel Messi, plays in, FC Barcelona}
Ces trois triplets sont résumés par les auteurs par deux classes : Football Player et FC Barcelona, qui seront liées entre elles. Les liens sont plus ou moins forts selon le nombre de triplets rdf qui établissent des liens entre les deux classes considérées.
Les chercheurs parviennent donc à extraire un jeu de 11.7 millions de fichiers RDF/XML contenant 596 millions de triplets. Le chiffre de 11.7 millions est à comparer aux 20 milliards de pages web indexées par les meilleurs moteurs de recherche. La quantité d’informations codées en RDF est donc non négligeable. Ces données comportent au total 56631 classes.
Les chercheurs calculent ensuite une série de statistiques, classiques dans l’étude des graphes de terrain. De façon plus intéressante, ils dessinent également le graphe des associations entre classes, qui représente en fait une carte du web sémantique.
Premier constat : toutes les classes ne sont pas connectées. C’est à dire que certains vocabulaires ne sont utilisées que pour certaines ressources qui sont complètement isolées des autres. Toutes les données ne sont pas liées ! Il y a donc encore des efforts à faire pour atteindre ce web des “linked data” auquel Berners-Lee nous a fait rêver ! Il y a néanmoins une composante principale qui rassemble 96.16% des objets décrits. En voici le graphe :

En bleu, le vocabulaire FOAF s’étale au centre du graphe. Il a beaucoup de liens vers d’autres graphes et joue un rôle fédérateur. En rouge et en bas à droite, le vocabulaire développé pour YAGO est très isolé. Ce projet vise à développer une base de connaissances généraliste sémantique, et est développé au Max Planck Institute. Il est étonnant qu’il soit si peu lié avec d’autres comme DBPedia, que l’on voit ici en vert pomme. DBPedia a pour but de structurer l’information de Wikipédia ; le vocabulaire DBpedia a une position plus centrale que YAGO, comporte plus de liens vers l’extérieur mais forme quand même une communauté bien groupée.
Cette cartographie du web sémantique révèle donc deux choses. D’abord, un paradoxe : les auteurs ont collecté les données RDF, c’est à dire celles générées par les personnes qui adhèrent au dogme “W3C – RDF”. Ces personnes sont donc supposées vouloir un web sémantique universel, écrit dans un langage unique. Pourquoi, alors, YAGO et DBpedia, deux projets de classification généralistes, sont-ils si peu liés l’un à l’autre ?
Ensuite, le constat suivant : dans les 10 vocabulaires les plus fréquents, à part les 3 principaux vocabulaires suscités, nous trouvons 7 autres vocabulaires qui sont assez spécialisés. Nous trouvons par exemple un wiki sémantique sur l’architecture ou encore une base de données biologiques. Pas étonnant, donc, que ceux-là soient isolés.
Je suis très néophyte dans le domaine du web sémantique, je ne m’avancerai donc pas trop dans mes interprétations. Je dirai simplement que notre “web of data” est finalement quelque chose d’assez décevant. A quoi ressemble donc le paysage du web sémantique à l’heure actuelle ? Quelques projets à ambition fédératrice semblent entretenir des relations plutôt concurrentes et hostiles (pas un seul lien direct entre les classes de YAGO et celles de DBpedia !). Et ici ou là, nous apercevons les traces laissées par des bibliothécaires spécialistes, qui n’ont finalement d’autre ambition que de faire un peu de tri dans les données générées par leurs disciplines (projets par ailleurs fort utiles, par exemple pour les scientifiques).
Le rêve de Tim Berners-Lee, qui est celui d’un monde numérisé et structuré, nous parait donc bien loin… et l’usage qu’on pourrait faire des données de projets comme Friend of a friend, par exemple, bien mystérieux… Nous essaierons, dans le prochain post, de nous attacher aux usages que l’on peut avoir du web des données, en commentant quelques applications qui nous ont été présentées à websci09.
PS : n’hésitez pas à me reprendre, ou à proposer des compléments ; je n’y connais pas grand chose au web sémantique mais serais très content d’en apprendre plus !
Ce que le Web mobile fait aux systèmes de réputation…
L’ambition de David Karpf dans sa présentation était de décrire un cadre théorique pour observer et analyser les effets du développement du Web Mobile sur les formes de mobilisation collectives, via l’étude des systèmes de réputation/recommandation. Ceci l’amène à nous proposer le scénario d’une réunion idéale : il était une fois 2014, année du triomphe de la sagesse de la foule contre la tyrannie des enquiquineurs …
La réputation et la porosité de la frontière off-line/online
D. Karpf se propose de réexaminer la thèse contenue dans le livre d’Howard Rheingold, “Smart Mobs“. Depuis 2002 sont apparus les systèmes de tagging, et l’Iphone, qui a largement contribué à diffuser l’usage du Web Mobile, ce qui rend d’autant plus saillantes les questions de l’articulation des actions collectives en ligne et hors ligne. Il le fait au travers d’une analyse prospective et normative de l’usage des systèmes de réputation/recommandation dans le Web Mobile.
La réputation d’une personne est “un ensemble d’évaluations communautaires complexes, dépendantes du contexte et basées sur des activités passées” • Une évaluation communautaire: la réputation vaut pour un groupe de personnes données, un réseau, organisé en fonction d’intérêt(s) commun(s) • Complexes, car elles sont (aussi) dépendantes des segmentations auxquelles donnent lieu l’espace et du temps • Basées sur des activités passées : ce que D. Karpf nomme “l’ombre du futur”.
Les systèmes de réputation distribués quant à eux sont des modes de production d’un classement au regard des buts d’une communauté donnée, au moyen d’outils techniques de production ou de recueil, d’analyse et de mise en forme des données, comme, par exemple, les systèmes de recommandation. Trois points sont importants pour analyser ces systèmes. 1° La qualité des proxies utilisés. Grosso Modo, la pertinence des données produites ou prises en compte pour établir le classement. D. Karpf classe ces données selon leur coût de production (du point de vue de l’utilisateur), du simple recueil du flot des données (qui ne nécessite aucun effort particulier — ce que fait google), jusqu’aux formes de retours produits par les utilisateurs (ebay), en passant par l’expérience intégrée dans l’usage du service (par exemple, le commentaire sur un blog). 2° La quantité de données utilisée. Plus les données sont nombreuses, meilleure sera la recommandation. L’enjeu est donc de favoriser la participation en diminuant le coût de transaction associé à la production des données. 3° La qualité des algorithmes. Il s’agit de convertir les données en un produit utile. Un système de recommandation est toujours construit selon un but déterminé à l’avance: favoriser tel comportement, décourager tel autre ; la valeur d’un algorithme est relative.
On peut alors caractériser les effets du Web Mobile sur les systèmes de recommandation:
1° La commodité des terminaux contribue à faire de l’usage d’internet, du classement et de la participation un élément de l’expérience vécue . Autrement dit, et pour reprendre l’échelle présentée plus haut, la production de retour peut être de plus en plus intégrée à l’expérience d’usage : Noter le lieu fait partie du plaisir de la visite. En cela, il rend de plus en plus poreuses les frontières entre activités en ligne ou hors ligne.
2° En diminuant les coûts de transaction associés à leur production, il permet une augmentation considérable à la fois de la nature et de la quantité des données produites, et rend possible un usage plus massif des systèmes de recommandations.
“Real people, real reviews” : L’exemple de Yelp.
Yelp est un site américain d’évaluation des lieux de loisirs (principalement mais pas uniquement: des services publics comme la santé ou l’enseignement sont présents sur le site) qui associe un système de localisation à la production communautaire de contenus : “Yelp est un réservoir pour la sagesse locale”. Et cela fonctionne très bien. D’un côté, la géolocalisation facilite l’usage des contenus, augmente leur pertinence et leur valeur. De l’autre, la possibilité nouvelle pour les utilisateurs de contribuer à la plateforme immédiatement ( dans une queue, les transports..) rend la production de ces contenus elle-même plus aisée.
La réputation en ligne, pour améliorer l’action collective “dans la vraie vie”
L’auteur propose d’améliorer les formes d’actions collectives en favorisant le déroulement et l’évaluation des réunions, via l’usage simultané des systèmes d’évaluation en ligne. Ainsi, durant une réunion, chacun pourrait exprimer son avis sur les diées proposées et débattues, sur l’intérêt et l’engagement des participants, etc. L’idée sous-jacente est empruntée à Zack Exley, qui s’occupa un temps de la plateforme MoveOn : “La tyrannie des enquiquineurs vient du fait que, en dehors des temps de crise, ça ne vaut tout simplement pas le coup pour les personnes mures et réfléchies de supporter toutes ces choses indignes qui, dans n’importe quelle organisation politique, vont de pair avec l’engagement et le maintien d’un leadership. Ce principe garantit que dans la moindre association de pétanque locale, d’anciens combattants ou comité démocratique de telle ville, la direction est assurée par des enquiquineurs, ceux dont l’ego se satisfait des jeux de pouvoirs mesquins et insignifiants, et qui ont le temps nécessaire à cela”. En ouvrant un espace parallèle de discussion, ouvert et facilement accessible, qui aurait cette particularité de déboucher sur un produit concret, une autre forme de légitimation, les systèmes de recommandations pourraient favoriser l’émergence d’idées nouvelles, l’engagement des personnes “mûres et réfléchies” tout en laissant les volontaires gérer les aspects organisationnels…
De larges questions en suspens
Pour clore son intervention, D. Karpf mentionne quatre types d’effets non souhaités auxquels il convient de rester particulièrement vigilant.
1° Les inégalités d’accès à l’internet mobile. Pour l’instant assez peu développé, on se demande si la diffusion de l’iphone se fera selon le modèle qui a prévalu à celui du Blacberry (large diffusion dans une frange de la population, mais limitée à cette frange) ou de l’appareil photo, désormais disponible sur quasiment tous les modèles. C’est d’autant plus important, que le type de données produites favorise un certain type d’utilisateurs, selon un cercle vicieux/vertueux, en fonction du point de vue. En matière de mobilisation collective, et selon le système proposé ici, ce ne serait rien de moins que la démocratie qui serait en jeu.
2° La réduction des coûts de transaction facilite aussi les comportements négatifs et répréhensibles.
3° Dès lors que les personnes augmentent leur niveau d’activité sur le web,notamment en l’emportant avec elles, sans parler de la géolocalisation, les enjeux autour de la protection de la vie privée prennent une nouvelle dimension.
4° Dans une perspective plus micro, il conviendrait encore d’examiner quels sont les capacités des humains à s’impliquer parallèlement dans plusieurs contextes, en mesurer les avantages mais aussi les inconvénients, pour pouvoir choisir un mode d’organisation ad hoc.
David Karpf est doctorant et travaille sur les effets d’Internet sur les associations politiques au département de sciences politiques de l’université de Pennsylvanie.
Références:
Karpf, David (2009) Why Bowl Alone When You Can Flashmob the Bowling Alley?: Implications of the Mobile Web for Online-Offline Reputation Systems. In: Proceedings of the WebSci’09: Society On-Line, 18-20 March 2009, Athens, Greece.
