Approches Interdisciplinaires du Web

Suivez les évenements liés au projet de master AIW

Posts Tagged ‘ICWSM09

Duncan Watts, « Using the Web to do Social Science » (ICWSM09)

with 5 comments

Duncan Watts, Keynote Speaker à ICWSM09, a proposé un exposé très revigorant, centré sur ce que les études des larges données du Web(2) apportent aux sciences sociales. Le Web est certes un phénomène fascinant en soi, dont les usages et produits foisonnants méritent d’être étudiés pour eux-mêmes. Mais selon Watts, c’est surtout un outil extrêmement puissant pour les recherches en sciences sociales, dans la mesure où il fournit des données d’observation sur les comportements des individus et leurs interactions, que l’on peut enregistrer en temps réel sur des populations très importantes.
Watts force légèrement le trait pour souligner la révolution que représente pour lui l’apparition de ces données pour les sciences sociales, qui historiquement manquent cruellement de data. Comme le télescope, les grandes données du Web permettent de voir l’invisible, ce qu’on était auparavant contraint de laisser de côté faute de moyen adéquat d’observation. En particulier, alors qu’on était « autrefois » contraint de laisser de côté l’étude des interactions à grande échelle, au prix d’une séparation entre micro et macro, les données offertes par le web offrent une image de ce territoire inconnu.
Watts a ensuite illustré le fonctionnement de cette approche à travers 4 recherches conduites au cours des trois dernières années. Elles sont d’une pertinence inégale en matière de sociologie générale, mais illustrent bien l’ambition de profiter de la richesse des données et des possibilités d’expérimentation du web pour produire des résultats de sociologie générale.

La première recherche, centrée sur des problématiques de sociologie des réseaux, s’interroge sur la formation des liens sociaux. A partir du recueil de l’ensemble des échanges d’email (14M) entre les 45 000 étudiants d’une université durant une année scolaire, les auteurs (Watts et Kossinets) s’efforcent de répondre à deux questions :
– quels facteurs influent sur la formation ou la dissolution d’un lien ? Dans quelle mesure les individus sont-ils contraints par la structure sociale existante dans l’établissement de leurs relations ?
– comment évoluent respectivement la structure sociale globale et la position des individus dans le réseau ?
A la première question, les auteurs vérifient que l’établissement d’un lien est d’autant plus probable que les nœuds sont peu éloignés dans le réseau : des personnes ayant un ami commun (distance = 2) ont 30 fois plus de chances de se lier que ceux ayant un ami d’ami en commun (distance = 3). De même, le fait de partager des cours augmente logiquement la probabilité de se lier : *3 si les individus ont par ailleurs un ami commun, *140 s’ils n’en ont pas. Enfin, on peut mesurer le poids respectif des deux facteurs : dans l’ensemble, l’effet d’une connaissance partagée supplémentaire est plus fort que celle d’un cours. Encore une fois, ces résultats ne sont pas surprenants, mais ils ont le mérite d’être assis sur des données d’échelle significative.
A la seconde question, les auteurs répondent que la structure d’ensemble du réseau, abstraction faite de quelques variations saisonnières, est globalement stable du point de vue des principaux indicateurs (distribution des degrés, taille de la composante principale, etc.). En revanche, la position des individus n’est pas du tout la même sur l’ensemble des périodes. Les individus au centre de la sociabilité étudiante ne sont pas les mêmes au début et à la fin de l’année scolaire ; les ponts entre cliques (les fameux liens faibles) ont tendance à se renforcer et à perdre leur spécificité ; etc.
L’article de Science : http://research.yahoo.com/pub/2770

La seconde recherche porte sur la demande des biens culturels, et l’effet de l’influence sociale sur la répartition de cette demande. Notamment, les auteurs (Watts, Salganik et Dodds) se demandent dans quelle mesure les indicateurs de succès, traduisant les goûts des autres consommateurs, peuvent fonctionner comme une prophétie auto-réalisatrice (l’article commence par une longue discussion de Merton et de l’effet-Matthieu). Les auteurs mènent une expérimentation à partir d’un site de musique en ligne réunissant des groupes inconnus. Les visiteurs du site doivent écouter et noter une chanson pour pouvoir la télécharger gratuitement. Certains visiteurs, au moment de faire leur choix, connaissent le nombre de téléchargements dont cette chanson a déjà fait l’objet (donc une forme faible et contrôlée d’influence sociale), d’autres non. L’expérience est répétée plusieurs fois.
Les auteurs observent tout d’abord qu’il y a un effet de l’influence sociale : au niveau individuel, la probabilité de télécharger une chanson augmente avec son rang dans le top download. En conséquence, dans les expériences avec influence sociale, les inégalités entre le succès des chansons (mesuré par le nombre de downloads) sont beaucoup plus fortes ; de même, la variabilité des résultats entre les différentes expériences est beaucoup plus forte dans les cas avec influence sociale que dans les expériences où les jugements des individus sont indépendants.
Les auteurs se livrent également à une modulation intéressante : dans certaines expériences avec influence sociale, ils inversent complètement, à mi-parcours, l’ordre de popularité des chansons. La 1re devient 48ème, la 2nde 47ème, ainsi de suite. Ils observent que, progressivement, la « meilleure chanson » déchue retrouve progressivement sa popularité, laissant supposer une qualité intrinsèque ; symétriquement, la dernière devenue première voit sa popularité stagner. En revanche, pour la majorité des chansons du classement autres que les extrêmes, l’effet de l’inversion est durable : on observe donc un effet important de la manipulation de l’information, sauf pour des chansons « intrinsèquement » excellentes.
Les auteurs reconnaissent que ces résultats expérimentaux ne sont pas directement transposables au marché réel, sur lesquels les sources d’influence sont beaucoup plus nombreuses (le groupe de pairs, les multiples formes de marketing, l’action des intermédiaires et des prescripteurs, la pluralité des classements, etc.); autrement dit, la situation expérimentale (un consommateur face à 48 chansons inconnue) est assez éloignée du marché réel. Ils défendent néanmoins l’intérêt de la démarche en ce qu’elle permet de mettre en évidence un effet-matthieu pur, et d’affirmer que le classement fonctionne presque comme une prophétie auto-réalisatrice, à laquelle n’échappent que quelques très bonnes chansons.
Les articles : http://research.yahoo.com/pub/2768 et http://research.yahoo.com/pub/2769 (le premier est très clair et très lisible même pour les allergiques aux stats).

La troisième recherche s’inscrit dans le champ de la sociologie politique et de la sociologie de la communication. Watts part des constats empiriques contradictoires quant à l’évolution de la distribution des opinions : certains chercheurs estiment qu’on observe une ségrégation croissance des opinions aux Etats-Unis (Bishop, 2008), tandis que des sociologues mettent en avant les indices d’une évolution contraire (DiMaggio, etc.). On manque en général de données pour conclure à l’une ou l’autre thèse.
Afin d’apporter des éléments au débat, Watts et son équipe ont recueilli un ensemble de données comportant : les opinions de A sur X ; les opinions de B (ami de A) sur X ; les opinions de A sur l’opinion de B sur X. Pour ce faire, ils ont développé une application Facebook (Friend sense app), et ont les réponses de 2500 individus. Ils disposent au final de 1200 dyades complètes (opinions et perceptions).
Sans surprise, ils vérifient que les opinions des amis sont plus proches que celle des étrangers : les individus ont tendance à se lier à des gens d’opinions similaires. Mais elles ne sont pas si similaires qu’ils le croient : l’homophilie perçue est bien supérieure à l’homophilie réelle. En cas de désaccord, seuls 40% des individus sont conscients de ce désaccord, tandis que les 60% restants estiment à tort que leurs amis sont d’accord avec eux. Ce pourcentage n’est modifié que de 6 points si les amis déclarent discuter de politique.
L’interprétation de ce phénomène reste très ouverte. Il ne s’agit pas d’évitement du conflit, puisque les individus ne sont pas conscients des désaccords ; il faut sans doute plutôt interroger le fonctionnement de l’amitié et les supports de la sociabilité ordinaire.
Le lien vers la recherche en cours : http://research.yahoo.com/pub/2768

La dernière recherche porte sur le lien entre rémunération et productivité. Watts discute ici les théories du salaire d’efficience, selon lesquelles un meilleur salaire stimule la productivité.
Le dispositif d’enquête repose ici sur Mechanical Turk, la plateforme de crowdsourcing d’amazon. Elle permet de proposer des petites tâches de toutes sortes pour des rémunérations variables (et très faibles).  L’expérimentation consiste à proposer la même tâche – du classement de photos selon leur degré de similarité – à des rémunérations différentes, et de mesurer leur productivité respective. Les participants remplissent également un questionnaire.
On observe que les participants en font plus quand ils sont mieux payés, mais que cela n’accroît pas la précision de leur travail, au contraire. On vérifie également que, quelque soit le niveau de rémunération, les individus s’estiment toujours sous-payés (mais ils n’ont peut-être pas tort, étant donné les niveaux de rémunération proposés). Dans l’ensemble, cette recherche est moins convaincante (au-delà de ses implications politiques douteuses…), ne serait-ce que parce qu’elle oublie ce qui justifie la théorie du salaire d’efficience : une incertitude sur la qualité des travailleurs, compensée par une relation durable et incarnée entre un employeur et un employé.

En conclusion, Watts a esquissé un bilan rapide de l’état de cette nouvelle science (plutôt de cette nouvelle façon de faire des sciences sociales) : malgré l’avancement très rapide de la science des réseaux, on est encore loin d’une « social science 2.0 », qui puisse comprendre les phénomènes macro en partant des interactions. Pour avancer, il ne suffit pas d’accumuler les données de réseaux, mais plutôt organiser en fonction de questionnements précis la collecte de données sur de larges populations d’individus, et l’évolution au cours du temps de leurs interactions et de leurs comportements.
En forme de boutade, il estime que cet avancement ne devrait pas être trop difficile, dans la mesure où les sciences informatiques ne montrent en général que peu d’intérêt pour l’élaboration des questions – et beaucoup pour la collecte et l’analyse des données, et devraient donc accueillir favorablement celles que leurs proposent les sciences sociales.

Publicités

Written by jsbeuscart

9 juin 2009 at 3:54

Publié dans Compte-rendus

Tagged with

Modélisation des réseaux sociaux de l’Internet

with one comment

Parmi les multiples papiers d’analyse des réseaux sociaux, on peut commencer par retenir quatre travaux exemplaires de ce qui se fait en la matière dans ICWSM.

L’argument développé par Indala Kahanda et Jennifer Neville de Purdue University est important. Leur idée est d’identifier les liens forts au sein du paquet indifférencié de ceux que nous appelons « amis » sur les plateformes relationnelles (« Using Transactional Information to Predict. Link Strength in Online Social Networks »). Ils montrent qu’il est possible de prédire les liens forts (mesurés dans leur analyse par le classement des « top friends » par l’utilisateur) à partir des événements transactionnels entre les utilisateurs (commenter une photo, être dans un groupe commun, écrire sur le wall). Pour démontrer la validité de cette méthode d’identification des liens forts, Indala Kahanda et Jennifer Neville testent quatre types de modélisation différents : la similarité des attributs (comparer des éléments communs du profil des utilisateurs), la connectivité topologique (le nombre d’amis en commun entre deux membres), la connectivité transactionnelle (le nombre de transactions (écrire sur le wall, être dans le même groupe, photos taggués) entre deux membres, et la dynamique de connectivité transactionnelle (le nombre de transactions entre deux membres relativement à l’ensemble des transactions avec le réseau de la personne). Les auteurs montrent que la dernière méthode donne les meilleurs résultats et offre une prédiction très pertinente de la force du lien entre deux utilisateurs. Ils appliquent leur modèle sur le réseau Facebook de l’université de Purdue composé de 56 061 utilisateurs ayant chacun en moyenne 46 amis et 81 en médiane. Parmi les meilleurs prédicteurs de la force du lien, c’est le fait d’écrire sur le wall d’un autre qui constitue le meilleur indicateur.

Une équipe de chercheurs de l’Université de l’Arizona (« A Social Identity Approach to Identify Familiar Strangers in a Social Network », Nitin Agarwal, Huan Liu, Sudheendra Murthy, Arunabha Sen, and Xufei Wang) propose un travail très algorithmique pour identifier les « familiar stranger » dans un grand réseau. Le « familiar stranger » est cet inconnu que vous croisez tous les jours dans le train sans lui adresser la parole mais qui est toujours en train de lire un livre que vous avez lu ou que vous aimeriez lire. Vous faites quotidiennement le même parcours, vous avez probablement les mêmes habitudes de lecture, il est probable que vous pourriez facilement sympathiser ou au moins tenir une conversation avec lui. Nitin Agarwal et al. proposent un algorithme qui, en dotant chaque nœuds d’un ensemble de propriétés dont on peut mesurer la similarité, permet d’identifier ces « familiar strangers » que l’on ne peut pas voir dans un réseau, parce qu’ils ne sont pas nos voisins.

Comment décider qu’un blog est « influential » ? Comment à l’intérieur d’une communauté de blogs thématiques, décider des blogs qu’il faut lire ? C’est à cette question que propose de répondre l’algorithme BlogRank développé à l’Université du Michigan par Ahmed Hassan et Dragomir Radev (« Content Based Recommendation and Summarization in the Blogosphere »). Leur idée est que l’on peut identifier et classer les meilleurs blogs sur un thème donné à partir de la similarité de contenu entre les posts de différents blogs. Cette sélection par le contenu est complétée par des informations permettant de mesurer le rythme et la fréquence des posts sur les blogs identifiés. Cette solution est plus efficace qu’un classement à partir d’algorithmes basés sur les liens (du type PageRank ou HITS) car les blogs ont un tissu de lien plus faible que les sites. Les auteurs ont expérimenté leurs outils sur un set de données du TREC Blog Track. Ce test montre que leur technique de ranking des blogs à partir de la similarité de contenu est performante.

Le papier certainement le plus novateur en matière de théorie des graphes est celui de Michaela Götz, Jure Leskovec, tout deux de l’université de Cornell, et de Mary McGlohon et Chsristos Faloutsos, de Carnegie Mellon. Il montre la très grande créativité de Jure Leskovec qui depuis quelques temps a publié un ensemble de travaux essentiels dans l’analyse de la dynamique des graphes. La présentation d’ICWSM propose la première modélisation de la dynamique des blogs qui parviennent à tenir ensemble propriétés topographiques et dynamiques. (« Modeling Blogs Dynamics »).  Cette modélisation (nommé ZC pour « Zero Crossing ») permet de créer automatiquement des réseaux dynamiques de blogs de grande échelle reproduisant quelques unes des propriétés principales de la blogosphère réelle : la distribution en loi de puissance des liens entrants, le principe d’attachement préférentiel (« richer get richer ») et la « burstiness » (explosivité) de la création des liens autour de certain nouveaux posts. Impossible de résumer ici l’algorithme des auteurs qui se lit très facilement (élégance et simplicité sont les principes revendiqués par les auteurs). Il suffit de dire que les auteurs distinguent deux types de réseaux, celui des blogs et celui des posts, et qu’ils proposent un arbre de parcours allant de la création d’un post vers sa citation par un autre selon des principes de choix.

à suivre…

Written by docardon

7 juin 2009 at 1:52

Publié dans Uncategorized

Tagged with