« La science est une chose trop importante pour être laissée entre les mains des seuls savants. »
(Carl E. Sagan)

Une recherche en sciences humaines… sans humains ?

tumisu-android-5242149_1920

Alors que l’intelligence artificielle générative s’impose dans la recherche académique, des scientifiques envisagent de l’utiliser pour simuler des participants humains. Une pratique séduisante, mais qui pourrait bien accélérer une nouvelle crise de la reproductibilité en sciences humaines et sociales.

 * * *

L

’INTELLIGENCE artificielle est déjà partout. Et la recherche académique n’échappe pas à ce constat. Depuis le lancement de ChatGPT par l’entreprise américaine OpenAI en 2022 et l’essor des autres grands modèles de langage (LLM) depuis, leur utilisation par les scientifiques est devenue « très répandue » selon Jamie Cummins, chercheur en méta-science, une discipline qui étudie les principes et méthodes de la science elle-même.

Les applications potentielles sont variées : traduction, aide à la programmation informatique ou au traitement de données… Mais aussi rédaction d’articles, formulation d’hypothèses, ou même recherche bibliographique.

Si ces derniers usages sont particulièrement questionnables du point de vue de la démarche scientifique en raison de certaines limites intrinsèques des LLM, une autre utilisation, encore peu médiatisée, est de plus en plus considérée par des chercheur·euses en sciences humaines et sociales (SHS) : le silicon sampling, soit l’utilisation de données synthétiques. C’est-à-dire substituer les participants humains d’une étude ou d’un sondage par des IA génératives[1]– Terme regroupant l’ensemble des systèmes d’intelligence artificielle capable de générer du contenu textuel, vidéo, audio… , en simulant des profils socio-démographiques spécifiques pour répondre à un sondage, un questionnaire ou une enquête. En théorie, cette méthode pourrait servir dans le milieu académique, mais aussi potentiellement pour des instituts de sondage privés.

 

Il peut être tentant d’imaginer qu’on tient la société dans sa main, mais c’est faux. Ce qu’on tient, c’est un recueil de données complètement hétérogènes, non contrôlées…

 

Étant donné qu’il est difficile, chronophage et coûteux de conduire une recherche impliquant des humains, surtout lorsque l’on étudie des populations difficiles à atteindre, l’idée de pouvoir produire des réponses confortablement installé·e à son bureau, le tout en quelques minutes, peut paraître séduisante.

Néanmoins, Dominique Boullier, professeur de sociologie à Sciences Po et auteur de Déshumanités numériques (Armand Colin, 2025), met en garde : « Derrière les LLM, il y a l’idée de pouvoir générer des données synthétiques supposément appuyées sur une connaissance absolue de tout ce qui s’est dit partout. Il peut être alors tentant d’imaginer qu’on tient la société dans sa main, mais c’est faux. Ce qu’on tient, c’est un recueil de données complètement hétérogènes, non contrôlées, et exploitées uniquement d’un point de vue statistique. »

 

LA TENTATION DU « SILICON SAMPLING »

 

Avant de tronquer une partie de la dénomination « sciences humaines et sociales », une question évidente se pose donc : est-ce que ça marche ? Et surtout, est-ce que ça marche de façon systématique ? « Du côté de la recherche académique, à ma connaissance les seuls travaux qui existent actuellement se concentrent sur la faisabilité des méthodes de “silicon sampling” », expose Samuel Coavoux, sociologue à l’ENSAE.

Une des premières études sur le sujet est menée par la politiste américaine Lisa P. Argyle en février 2023, et soutient que le modèle génératif de langage GPT-3 – aujourd’hui inaccessible – peut efficacement simuler des échantillons humains. Mais ces résultats ont été largement critiqués et remis en cause par le reste de la communauté scientifique depuis.

Pour Jamie Cummins, il y a notamment un problème de généralisation dans les conclusions de plusieurs articles scientifiques sur le sujet : « On ne peut pas parler des LLM de manière absolue, parce qu’il y a toujours beaucoup de paramètres en jeu. C’est comme dire que les mammifères sont capables de grimper aux arbres. Lesquels ? Avec combien de membres ? Avec ou sans pouces opposables ? » Il existe de nombreux modèles de langage, avec des fonctionnements différents, souvent opaques, et beaucoup de manières différentes de générer des données à l’aide d’une IA.

« L’utilisation de données synthétiques devrait être l’aboutissement d’un long mécanisme de développement et de validation, continue Jamie Cummins. Cela ne devrait pas constituer le point de départ du processus. Dire que ça marche, serait une affirmation extraordinaire exigeant des preuves extraordinaires. » Et Samuel Coavoux de compléter : « Avant d’utiliser le “silicon sampling”, il faudrait réellement démontrer que ça fonctionne. Ce qui, à mon sens, n’est pas le cas aujourd’hui. »

 

DES ERREURS TRÈS DIFFICILES À PRÉDIRE

 

Samuel Coavoux est coauteur d’un article scientifique publié en avril 2025 dans la revue Sociological Methods & Research. Dans celui-ci, les chercheurs ont sélectionné des enquêtes de référence dans différents pays, puis ont comparé les réponses provenant des participants humains à des données qu’ils ont générées avec des LLM.

« Les résultats ne sont, de façon générale, pas très bons, souffle Samuel Coavoux. En créant des données synthétiques, on remarque que les LLM ne donnent souvent pas les mêmes réponses que les humains, mais ils se trompent d’une façon qui est extrêmement difficile à prédire. »

Ces résultats sont consistants avec tous les modèles de langage testés (GPT, Llama, Mistral), quelles que soient les stratégies de génération de données et les stratégies de prompting, c’est-à-dire ce que l’utilisateur donne en entrée aux LLM.

 

> (Crédit : Cottonbro – Pexels / CC)

 

Ce n’est bien évidemment pas la seule limite du silicon sampling. Dans un preprint sorti en septembre 2025, Jamie Cummins s’inquiète des dangers de la « flexibilité analytique », soit l’idée selon laquelle on peut produire et analyser des données de nombreuses manières, ce qui peut conduire à des résultats très variés.

En effet, quelle que soit la discipline, les scientifiques procèdent toujours à des choix, parfois arbitraires, mais cela peut vite poser problème lorsqu’ils ne sont pas explicites et transparents. Or, de nombreux arbitrages sont nécessaires pour générer des données synthétiques et le chercheur montre que la moindre décision impacte drastiquement les résultats lorsque l’on utilise des IA génératives.

 

Une question de temps avant que les LLM soient parfaitement capables de remplacer des participants humains.

 

Mais à ces limitations, les promoteurs de l’intelligence artificielle pourraient arguer que la technologie est en constante amélioration et que ce n’est donc qu’une question de temps avant que les LLM soient parfaitement capables de remplacer des participants humains.

S’il est vrai que les IA génératives pourraient en principe devenir plus performantes et être davantage alignées par rapport aux répondants humains, la préoccupation persiste concernant la question de la transparence de la méthodologie utilisée pour faire du silicon sampling.

En effet, une des raisons pour lesquelles les LLM restent pour le moment en partie des boîtes noires pour les scientifiques, c’est qu’ils sont détenus par des entreprises privées ayant la mainmise totale sur leurs conditions de production et de commercialisation.

« En tant que chercheur, vous ne pouvez pas accepter d’utiliser de telles boîtes noires ! Le principe même de la science, c’est d’ouvrir toutes les boîtes noires, tout le temps », abonde Dominique Boullier. Jamie Cummins corrobore ces propos : « Si demain OpenAI décide de modifier le modèle de ChatGPT, il deviendra impossible de reproduire certains résultats. Le modèle peut disparaître ou changer de manière irréversible. C’est une menace majeure. »

 

UNE CRISE DE LA REPRODUCTIBILITÉ

 

Ce point, couplé aux questions de « flexibilité analytique » notamment, fait craindre à certains scientifiques l’arrivée d’une « crise de l’IA » dans le milieu des sciences humaines et sociales. « Beaucoup de chercheurs utilisent l’IA, en particulier pour produire des données synthétiques, parce que c’est accessible, généralisable et intuitif à comprendre, indique Jamie Cummins. Mais je pense que certains chercheurs utilisant des LLM ont des représentations mentales erronées de leur fonctionnement. Si on n’adopte pas une approche méthodologique claire, ce qui va se produire c’est une version accélérée de la crise de la reproductibilité. »

Pour le méta-scientifique, une des manières de prévenir ce potentiel désastre, serait de développer rapidement des modèles d’intelligence artificielle réellement open source, qui ne sont pas détenus par des sociétés privées. « Dans l’idéal, je souhaiterais que les modèles de langage soient des biens publics. Il me semblerait moralement plus juste qu’ils soient pleinement accessibles et utilisables par tous, et pas uniquement au bénéfice de grandes entreprises privées », assène-t-il.

 

Les utilisations frauduleuses de l’intelligence artificielle par les scientifiques sont difficilement maîtrisables actuellement.

 

Bien que désirable sur le plan scientifique et démocratique, cette solution ne suffirait incontestablement pas à elle seule pour empêcher les usages problématiques des LLM dans la recherche. Le professeur Dominique Boullier détaille son inquiétude : « les chercheurs se sont mis à tester tout ce qu’ils voulaient sur leurs petits laptops à la maison et sans que ce soit réellement intégré à des procédures, à des recommandations et à des bonnes pratiques, comme c’est le cas d’habitude. Donc, on a aussi affaire dans la recherche académique à ce qu’on appelle du shadow AI[2]– Un anglicisme désignant l’utilisation d’applications d’IA générative en cachette, souvent dans le milieu de l’entreprise. . »

En clair, les utilisations frauduleuses de l’intelligence artificielle par les scientifiques sont difficilement maîtrisables actuellement. On sait par exemple que de plus en plus d’articles scientifiques entiers sont rédigés ex nihilo à l’aide de l’IA générative. Avec le silicon sampling, il pourrait maintenant en être de même pour les données des études en SHS.

Cependant, le phénomène d’augmentation des pratiques de fraude scientifique n’est pas nouveau et il serait mal avisé de penser que les LLM sont les seuls responsables de ce dernier. « Il ne faut pas oublier que l’IA est arrivée dans un contexte où le système de publication scientifique, la fameuse logique du publish or perish, était déjà un problème, rappelle Dominique Boullier. Les IA génératives ne font qu’accélérer et amplifier ce phénomène préexistant. »

 

UNE PRATIQUE « INCOMPATIBLE AVEC LA DÉMARCHE SCIENTIFIQUE »

 

Faut-il tout bonnement bannir l’utilisation des données synthétiques ? À cette épineuse question, les chercheurs consultés restent très prudents. Pour le sociologue Samuel Coavoux : « Il y a un problème de structure du monde scientifique, complexe à régler. Je ne suis pas sûr que ça passe par une simple interdiction de l’utilisation des IA génératives pour créer des données synthétiques. »

Pour autant, dans l’état actuel des choses, il semble presque inconcevable de rendre compatible l’utilisation directe des données synthétiques dans la recherche en SHS avec la méthode scientifique.

« On peut finir par croire que l’on peut simuler des participants humains à l’aide d’IA et que c’est un équivalent acceptable, soulève Dominique Boullier. Ça pourrait être le cas si on donnait en même temps l’ensemble des conditions de construction de tout cela, les limites de validité, etc. Étant donné que c’est impossible avec les IA génératives actuelles, il faut être conscient que c’est incompatible avec la démarche scientifique. » Et d’ajouter : « il faut travailler collectivement dans chaque discipline, puis éventuellement dans chaque sous-discipline, voire dans chaque revue, pour construire une éthique de ce que doit être l’utilisation de l’IA dans les recherches. Nous avons, en tant que communauté, une responsabilité. »

Dans un contexte où les données synthétiques sont biaisées de manière imprévisible, les résultats ne sont pas reproductibles et où les modèles de langage détenus par des entreprises privées peuvent disparaître du jour au lendemain, on peut aussi légitimement se demander si une véritable progression scientifique est possible sur le sujet. Comme le dit Jamie Cummins : « plutôt que d’avancer lentement en ligne droite, il y a un risque, si nous n’abordons pas ces outils de manière systématique, de nous contenter de nous déplacer latéralement sans réellement progresser. »

Thomas Lefèvre, journaliste / Sciences Critiques.

 > Illustration de Une : Markus Tumisu / Pixabay – CC)

 

Notes

Notes
1 – Terme regroupant l’ensemble des systèmes d’intelligence artificielle capable de générer du contenu textuel, vidéo, audio…
2 – Un anglicisme désignant l’utilisation d’applications d’IA générative en cachette, souvent dans le milieu de l’entreprise.
Pour partager ce contenu :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

À lire aussi sur Sciences Critiques

Abonnez-vous à notre infolettre

Rejoignez nos milliers d’abonné.e.s !
Inscrivez-vous dès aujourd’hui et soyez informé.e.s de la sortie de nos prochains articles et de nos prochains rendez-vous publics !