De la Sagesse des Foules

“In these democratic days, any investigation into the trustworthiness and peculiarities of popular judgments is of interest.”
Francis Galton - Vox Populi - Nature n°1949 vol. 75, 1908.

Si Surowiecki démocratise le concept de sagesse des foules avec son livre éponyme paru en 2004¹, c’est bien au “génial” touche-à-tout Francis Galton que l'on se doit d’en accorder la paternité, et ce, dès 1906².

Galton, par ailleurs cousin de Darwin, est à l’orée de sa carrière en 1906 alors qu’il se retrouve, par inadvertance, à la foire agricole de Plymouth, une ville portuaire située au sud-ouest de l'Angleterre. Parmi les nombreuses activités, Galton s’attarde à un jeu concours où les participants, moyennant la modique somme de six pence, sont appelés à apprécier le potentiel poids en viande d’un bœuf encore vivant. Le participant dont l’estimation est la plus proche du poids de viande mesuré après dépeçage, sera alors déclaré vainqueur. Au terme de la compétition, les organisateurs remettent à Galton l’ensemble des bulletins des plus ou moins huit cents participants. Après analyse, Galton constate qu’il n’y a qu’une livre d’écart entre la moyenne des prédictions et ce bœuf de 1 198 livres. Cette estimation collective était non seulement bien plus précise que celle du gagnant du concours, mais elle se révélait également meilleure que celles des experts en bétail présents à la foire.

Aristote et Galton conversant, DALL·E 2023-04-25

L’expérience de Galton est la première d’une longue liste qui permet d’affirmer, que sous certaines conditions, l’agrégation des avis produits par le plus grand nombre se révèle plus judicieuse que l’opinion d’un seul, serait-ce même un expert. Toutefois, l’idée d’une sagesse du plus grand nombre est, à vrai dire, bien plus ancienne. On en attribue la paternité à Aristote dans Politique :

“Attribuer la souveraineté à la multitude plutôt qu'aux hommes distingués, qui sont toujours en minorité, peut sembler une solution équitable et vraie de la question, quoiqu'elle ne tranche pas encore toutes les difficultés. On peut admettre, en effet, que la majorité, dont chaque membre pris à part n'est pas un homme remarquable, est cependant au-dessus des hommes supérieurs, sinon individuellement, du moins en masse, comme un repas à frais communs est plus splendide que le repas dont une personne seule fait la dépense.”
Aristote – Politique, livre III, Chapitre 4.

Faisons un petit “2001, l’Odyssée de l’espace” et revenons à aujourd’hui pour comprendre comment les récentes percées de l’intelligence artificielle dans le domaine du traitement automatique de la langue, permettent aussi bien de développer que de renforcer cette intelligence collective.

Cultiver le potentiel de la sagesse des foules

Surowiecki définit les trois conditions nécessaires à l’émergence d’une intelligence collective :

Diversité des participants. Il faut s’assurer le concours du plus grand nombre afin de s’assurer d’une grande variabilité dans les réponses collectées.
Indépendance, les avis de chacun sont exprimés sans influence et considérés au même niveau d’importance. Ainsi, il faut se prémunir de l’effet meute et autres biais sociaux.
Décentralisation, s’affranchir d’une autorité ou d’un système supérieur (par exemple, un vote). La question porte sur le comment compiler les données collectées.

Ces deux premières conditions disqualifient les réseaux sociaux dans une démarche d’intelligence collective. L’écoute des réseaux sociaux permet certes de piloter et d’appréhender la réputation, mais en rien, elle ne peut prétendre à sourcer une démarche d’intelligence collective.

À l’origine, talk⁴ a pour ambition de concevoir un outil d’intelligence collective à destination de tous, qui satisfasse au mieux les contraintes énoncées ci-dessus.

L’outil doit permettre aux participants de s’exprimer librement et en toute confiance — indépendance. Le système est en mesure d’adresser une large population (d’un même écosystème) — diversité. Le système agrège les informations collectées sans a priori — décentralisation.

Le dialogue s’établit avec les participants sous la forme d’un échange de questions ouvertes et de contributions rédigées en langage naturel. Si l’expression écrite favorise la structuration de la pensée du répondant, elle est aussi un excellent révélateur de son engagement et de la sincérité des avis et autres opinions exprimées.

S’il est relativement aisé aujourd’hui de poser des questions ouvertes au plus grand nombre, il se révèle toutefois encore ardu d’agréger les contributions collectées tout en s’affranchissant d’une autorité supérieure et autres aprioris (décentralisation).

Se pose alors inévitablement la question de l’agrégation des verbatims collectés, tout en tenant compte des contraintes énoncées ci-dessus. L’agrégation des textes courts a pour objet de regrouper par unité de sens commun tout ou partie de ces contributions.

Traitement

La phase de traitement vise à préparer les données en vue d’en faciliter, dans un second temps, l’analyse. Il s’agit de “tamiser fin” afin d’atténuer les effets des nombreux biais cognitifs.

En conservant la donnée brute en l’état, à savoir en assignant plus ou moins un groupe sémantique par contribution, on s’affranchit de tout biais. Évidemment, dans ce cas, le niveau d’agrégation ne facilitera en rien l’analyse…

À l’opposé du spectre, une agrégation excessive des données produit immanquablement des biais qui peuvent atténuer, voire masquer les dires de certains.

Le choix d’une granularité dépend là aussi de l’ensemble des contributions à traiter. Par exemple, on va passer de 5 000 contributions à une cinquantaine de groupes sémantiques.

En phase de traitement, on regroupe tout ou partie des contributions collectées par unité de sens commun. Chaque groupe sémantique est caractérisé par son intitulé ou étiquette qui résume au mieux son contenu. L’ensemble des étiquettes est ainsi enrichi au fil de cette même phase de traitement.

La phase de traitement correspond au composant station de labellisation de la suite talk⁴. Un superviseur humain traite les données par lot, aidé par la machine.

L’intelligence est humaine, augmentons l’humain !

L’objectif du traitement est atteint lorsque toutes les contributions collectées pour chaque question ont été étiquetées dans la mesure du possible.

Analyse

L’analyse est une phase exploratoire qui vise à extraire et à sélectionner les informations les plus pertinentes, et ce, afin d’agir en toute connaissance de cause. Elle se situe en aval de la phase de traitement.

Pour rappel :
Une contribution est un texte court rédigé par un participant en réponse à une question ouverte.
Un groupe sémantique définit un ensemble sémantiquement cohérent de contributions.
Un thème agrège un ou plusieurs groupes sémantiques. Les groupes sémantiques d’un thème ne résultent pas nécessairement de la même question.
L’ensemble des thèmes définit une thématique.

Les premiers thèmes s’apparentent le plus souvent aux variables latentes extraites d’un bloc de Likert (au cas où le questionnaire en comprendrait un).

Il s’agit d’agréger les données collectées afin de se prémunir de “l’effet loupe” tout en gardant à l’esprit que l'on est déjà dans l’interprétation subjective des données.

Pour finir

Le numérique et les différents travaux réalisés sur l’analyse automatique de la langue permettent aujourd’hui d’appliquer à grande échelle les contraintes énoncées pour l’émergence de la sagesse des foules.

Il est temps pour les organisations de basculer sur cette intelligence collective 3.0.

Pour aller plus loin

1 J. Surowiecki, The Wisdom of Crowds, édition. New York, NY: Anchor, 2005.

2 F. Galton, « Vox Populi », Nature, vol. 75, no 1949, Art. no 1949, mars 1907, doi: 10.1038/075450a0.