Approches Interdisciplinaires du Web

Suivez les évenements liés au projet de master AIW

Duncan Watts, « Using the Web to do Social Science » (ICWSM09)

with 5 comments

Duncan Watts, Keynote Speaker à ICWSM09, a proposé un exposé très revigorant, centré sur ce que les études des larges données du Web(2) apportent aux sciences sociales. Le Web est certes un phénomène fascinant en soi, dont les usages et produits foisonnants méritent d’être étudiés pour eux-mêmes. Mais selon Watts, c’est surtout un outil extrêmement puissant pour les recherches en sciences sociales, dans la mesure où il fournit des données d’observation sur les comportements des individus et leurs interactions, que l’on peut enregistrer en temps réel sur des populations très importantes.
Watts force légèrement le trait pour souligner la révolution que représente pour lui l’apparition de ces données pour les sciences sociales, qui historiquement manquent cruellement de data. Comme le télescope, les grandes données du Web permettent de voir l’invisible, ce qu’on était auparavant contraint de laisser de côté faute de moyen adéquat d’observation. En particulier, alors qu’on était « autrefois » contraint de laisser de côté l’étude des interactions à grande échelle, au prix d’une séparation entre micro et macro, les données offertes par le web offrent une image de ce territoire inconnu.
Watts a ensuite illustré le fonctionnement de cette approche à travers 4 recherches conduites au cours des trois dernières années. Elles sont d’une pertinence inégale en matière de sociologie générale, mais illustrent bien l’ambition de profiter de la richesse des données et des possibilités d’expérimentation du web pour produire des résultats de sociologie générale.

La première recherche, centrée sur des problématiques de sociologie des réseaux, s’interroge sur la formation des liens sociaux. A partir du recueil de l’ensemble des échanges d’email (14M) entre les 45 000 étudiants d’une université durant une année scolaire, les auteurs (Watts et Kossinets) s’efforcent de répondre à deux questions :
– quels facteurs influent sur la formation ou la dissolution d’un lien ? Dans quelle mesure les individus sont-ils contraints par la structure sociale existante dans l’établissement de leurs relations ?
– comment évoluent respectivement la structure sociale globale et la position des individus dans le réseau ?
A la première question, les auteurs vérifient que l’établissement d’un lien est d’autant plus probable que les nœuds sont peu éloignés dans le réseau : des personnes ayant un ami commun (distance = 2) ont 30 fois plus de chances de se lier que ceux ayant un ami d’ami en commun (distance = 3). De même, le fait de partager des cours augmente logiquement la probabilité de se lier : *3 si les individus ont par ailleurs un ami commun, *140 s’ils n’en ont pas. Enfin, on peut mesurer le poids respectif des deux facteurs : dans l’ensemble, l’effet d’une connaissance partagée supplémentaire est plus fort que celle d’un cours. Encore une fois, ces résultats ne sont pas surprenants, mais ils ont le mérite d’être assis sur des données d’échelle significative.
A la seconde question, les auteurs répondent que la structure d’ensemble du réseau, abstraction faite de quelques variations saisonnières, est globalement stable du point de vue des principaux indicateurs (distribution des degrés, taille de la composante principale, etc.). En revanche, la position des individus n’est pas du tout la même sur l’ensemble des périodes. Les individus au centre de la sociabilité étudiante ne sont pas les mêmes au début et à la fin de l’année scolaire ; les ponts entre cliques (les fameux liens faibles) ont tendance à se renforcer et à perdre leur spécificité ; etc.
L’article de Science : http://research.yahoo.com/pub/2770

La seconde recherche porte sur la demande des biens culturels, et l’effet de l’influence sociale sur la répartition de cette demande. Notamment, les auteurs (Watts, Salganik et Dodds) se demandent dans quelle mesure les indicateurs de succès, traduisant les goûts des autres consommateurs, peuvent fonctionner comme une prophétie auto-réalisatrice (l’article commence par une longue discussion de Merton et de l’effet-Matthieu). Les auteurs mènent une expérimentation à partir d’un site de musique en ligne réunissant des groupes inconnus. Les visiteurs du site doivent écouter et noter une chanson pour pouvoir la télécharger gratuitement. Certains visiteurs, au moment de faire leur choix, connaissent le nombre de téléchargements dont cette chanson a déjà fait l’objet (donc une forme faible et contrôlée d’influence sociale), d’autres non. L’expérience est répétée plusieurs fois.
Les auteurs observent tout d’abord qu’il y a un effet de l’influence sociale : au niveau individuel, la probabilité de télécharger une chanson augmente avec son rang dans le top download. En conséquence, dans les expériences avec influence sociale, les inégalités entre le succès des chansons (mesuré par le nombre de downloads) sont beaucoup plus fortes ; de même, la variabilité des résultats entre les différentes expériences est beaucoup plus forte dans les cas avec influence sociale que dans les expériences où les jugements des individus sont indépendants.
Les auteurs se livrent également à une modulation intéressante : dans certaines expériences avec influence sociale, ils inversent complètement, à mi-parcours, l’ordre de popularité des chansons. La 1re devient 48ème, la 2nde 47ème, ainsi de suite. Ils observent que, progressivement, la « meilleure chanson » déchue retrouve progressivement sa popularité, laissant supposer une qualité intrinsèque ; symétriquement, la dernière devenue première voit sa popularité stagner. En revanche, pour la majorité des chansons du classement autres que les extrêmes, l’effet de l’inversion est durable : on observe donc un effet important de la manipulation de l’information, sauf pour des chansons « intrinsèquement » excellentes.
Les auteurs reconnaissent que ces résultats expérimentaux ne sont pas directement transposables au marché réel, sur lesquels les sources d’influence sont beaucoup plus nombreuses (le groupe de pairs, les multiples formes de marketing, l’action des intermédiaires et des prescripteurs, la pluralité des classements, etc.); autrement dit, la situation expérimentale (un consommateur face à 48 chansons inconnue) est assez éloignée du marché réel. Ils défendent néanmoins l’intérêt de la démarche en ce qu’elle permet de mettre en évidence un effet-matthieu pur, et d’affirmer que le classement fonctionne presque comme une prophétie auto-réalisatrice, à laquelle n’échappent que quelques très bonnes chansons.
Les articles : http://research.yahoo.com/pub/2768 et http://research.yahoo.com/pub/2769 (le premier est très clair et très lisible même pour les allergiques aux stats).

La troisième recherche s’inscrit dans le champ de la sociologie politique et de la sociologie de la communication. Watts part des constats empiriques contradictoires quant à l’évolution de la distribution des opinions : certains chercheurs estiment qu’on observe une ségrégation croissance des opinions aux Etats-Unis (Bishop, 2008), tandis que des sociologues mettent en avant les indices d’une évolution contraire (DiMaggio, etc.). On manque en général de données pour conclure à l’une ou l’autre thèse.
Afin d’apporter des éléments au débat, Watts et son équipe ont recueilli un ensemble de données comportant : les opinions de A sur X ; les opinions de B (ami de A) sur X ; les opinions de A sur l’opinion de B sur X. Pour ce faire, ils ont développé une application Facebook (Friend sense app), et ont les réponses de 2500 individus. Ils disposent au final de 1200 dyades complètes (opinions et perceptions).
Sans surprise, ils vérifient que les opinions des amis sont plus proches que celle des étrangers : les individus ont tendance à se lier à des gens d’opinions similaires. Mais elles ne sont pas si similaires qu’ils le croient : l’homophilie perçue est bien supérieure à l’homophilie réelle. En cas de désaccord, seuls 40% des individus sont conscients de ce désaccord, tandis que les 60% restants estiment à tort que leurs amis sont d’accord avec eux. Ce pourcentage n’est modifié que de 6 points si les amis déclarent discuter de politique.
L’interprétation de ce phénomène reste très ouverte. Il ne s’agit pas d’évitement du conflit, puisque les individus ne sont pas conscients des désaccords ; il faut sans doute plutôt interroger le fonctionnement de l’amitié et les supports de la sociabilité ordinaire.
Le lien vers la recherche en cours : http://research.yahoo.com/pub/2768

La dernière recherche porte sur le lien entre rémunération et productivité. Watts discute ici les théories du salaire d’efficience, selon lesquelles un meilleur salaire stimule la productivité.
Le dispositif d’enquête repose ici sur Mechanical Turk, la plateforme de crowdsourcing d’amazon. Elle permet de proposer des petites tâches de toutes sortes pour des rémunérations variables (et très faibles).  L’expérimentation consiste à proposer la même tâche – du classement de photos selon leur degré de similarité – à des rémunérations différentes, et de mesurer leur productivité respective. Les participants remplissent également un questionnaire.
On observe que les participants en font plus quand ils sont mieux payés, mais que cela n’accroît pas la précision de leur travail, au contraire. On vérifie également que, quelque soit le niveau de rémunération, les individus s’estiment toujours sous-payés (mais ils n’ont peut-être pas tort, étant donné les niveaux de rémunération proposés). Dans l’ensemble, cette recherche est moins convaincante (au-delà de ses implications politiques douteuses…), ne serait-ce que parce qu’elle oublie ce qui justifie la théorie du salaire d’efficience : une incertitude sur la qualité des travailleurs, compensée par une relation durable et incarnée entre un employeur et un employé.

En conclusion, Watts a esquissé un bilan rapide de l’état de cette nouvelle science (plutôt de cette nouvelle façon de faire des sciences sociales) : malgré l’avancement très rapide de la science des réseaux, on est encore loin d’une « social science 2.0 », qui puisse comprendre les phénomènes macro en partant des interactions. Pour avancer, il ne suffit pas d’accumuler les données de réseaux, mais plutôt organiser en fonction de questionnements précis la collecte de données sur de larges populations d’individus, et l’évolution au cours du temps de leurs interactions et de leurs comportements.
En forme de boutade, il estime que cet avancement ne devrait pas être trop difficile, dans la mesure où les sciences informatiques ne montrent en général que peu d’intérêt pour l’élaboration des questions – et beaucoup pour la collecte et l’analyse des données, et devraient donc accueillir favorablement celles que leurs proposent les sciences sociales.

Written by jsbeuscart

9 juin 2009 à 3:54

Publié dans Compte-rendus

Tagged with

5 Réponses

Subscribe to comments with RSS.

  1. Bravo pour se compte-rendu assez génial de travaux qui le méritent amplement. Une remarque quand même sur le premier article, et le facteur multiplicatif de 30 entre la probabilité de se lier à un contact de second et tiers degré. Ce paramètre me paraît très haut, mais il mélange tout : plus grande homophilie, transitivité (ie. possibilité d’avoir été présenté) et surtout, puisque ce sont des données issues d’un logiciel utilisé, la visibilité : on navigue plus facilement vers ses contact de second que de troisième degré; les histoires de marche aléatoires sur un graphe complexe sont peut-être un peu trop formelle pour expliquer quelque chose de si simple, mais je parie qu’une grosse partie du 30 est là-dedans.

    Il serait plus pertinent de regarder la probabilité qu’un contact de tiers degré devienne de second degré : ça permettrait de combiner la corrélation entre branchement de second degré vers un lien direct et de distinguer homophilie générale et homophilie de groupe.

    Sinon, pour le troisième article, j’aime beaucoup leur résultat — mais je regarderais surtout la capacité à apprécier la cadre conceptuel dans lequel se place ses proches, plus que leur opinion au sein de se cadre. C’est plus lourd comme mode d’expérience, mais j’ai croisé un thésard américain qui avait un format de questionnaire qui collait bien pour ça.

    Bertil Hatt

    10 juin 2009 at 12:21

  2. Bravo pour ce compte-rendu assez génial de travaux qui le méritent amplement. Une remarque quand même sur le premier article, et le facteur multiplicatif de 30 entre la probabilité de se lier à un contact de second et tiers degré. Ce paramètre me paraît très haut, mais il mélange tout : plus grande homophilie, transitivité (ie. possibilité d’avoir été présenté) et surtout, puisque ce sont des données issues d’un logiciel utilisé, la visibilité : on navigue plus facilement vers ses contact de second que de troisième degré; les histoires de marche aléatoires sur un graphe complexe sont peut-être un peu trop formelle pour expliquer quelque chose de si simple, mais je parie qu’une grosse partie du 30 est là-dedans.

    Il serait plus pertinent de regarder la probabilité qu’un contact de tiers degré devienne de second degré : ça permettrait de combiner la corrélation entre branchement de second degré vers un lien direct et de distinguer homophilie générale et homophilie de groupe.

    Sinon, pour le troisième article, j’aime beaucoup leur résultat — mais je regarderais surtout la capacité à apprécier la cadre conceptuel dans lequel se place ses proches, plus que leur opinion au sein de se cadre. C’est plus lourd comme mode d’expérience, mais j’ai croisé un thésard américain qui avait un format de questionnaire qui collait bien pour ça.

    Bertil Hatt

    10 juin 2009 at 12:21

  3. très intéressant l’article sur l’effet Mathieu ;-) vais approfondir…merci pour ces comptes rendus !

    Mathieu

    10 juin 2009 at 1:06

  4. […] Approches Interdisciplinaires du Web : Duncan Watts, “Using the Web to do Social Science” (ICWSM09) […]

  5. Merci pour ce CR tres informatif !…
    Bien interessee, en particulier, par mention d’une etude sur une communaute d’ETUDIANTS (les 45 000 de Watts et Kossinets..) : a quand une etude du meme type en France ?… nous serait fort utile, aussi pour diffuser infos sur filiere AIW ! :-)

    Quant a l’etude de Salganik/Dodds/Watts, David Chavalarias ( ISC) nous en a justement parle lors de la conf-debat « Web comme systeme complexe » le 27 Mai a ..La Cantine !!!! ( video disponible sur le site de La Cantine)

    Xtel

    16 juin 2009 at 8:29


Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :