À l’occasion des 25 ans de Wikipédia, la fondation Wikimedia a officialisé une série de partenariats avec plusieurs géants de l’intelligence artificielle, dont Meta, Microsoft, Amazon, Perplexity et Mistral AI. Annoncés jeudi 15 janvier, ces accords — négociés au cours de l’année passée — doivent permettre à ces entreprises d’accéder aux contenus de l’encyclopédie collaborative dans des conditions mieux adaptées à leurs usages industriels.
Des sous !
Selon la fondation, les partenaires pourront récupérer les données de Wikipédia avec un volume et à une vitesse conçus spécifiquement pour leurs besoins, une formulation qui vise directement les pratiques actuelles d’aspiration massive par bots, devenues coûteuses pour l’infrastructure du site.
Avec plus de 65 millions d’articles rédigés en près de 300 langues, Wikipédia est l’un des gisements de connaissance les plus utilisés par l’écosystème IA. Les contenus y sont régulièrement exploités pour entraîner les grands modèles de langage (LLM), qui ont besoin de textes variés, structurés, factuels — et, idéalement, issus d’un travail éditorial humain.
Mais cet usage a une contrepartie : les robots d’extraction de données de ces entreprises vont ratisser en permanence sur Wikipédia, provoquant une pression croissante sur les serveurs (et aussi à force un appauvrissement des réponses...). À grande échelle, cette activité entraîne des coûts directs (bande passante, serveurs, maintenance) pour une organisation dont le modèle économique repose encore largement sur les dons.
Moins de lecteurs humains : l’effet “chatbot-moteur de recherche”
Autre phénomène qui inquiète Wikimedia : la montée des chatbots comme outil de recherche. À mesure que les internautes posent leurs questions à des assistants conversationnels plutôt qu’à Google (ou directement à Wikipédia), l’encyclopédie perd des visiteurs et en qualité de contenus....
La fondation expliquait ainsi avoir observé une baisse de 8 % du trafic humain en un an, un chiffre significatif : moins de trafic peut signifier moins de dons, moins de contributions, et un affaiblissement progressif du modèle communautaire.
Dans ce contexte, ces nouveaux partenariats sont aussi présentés comme un moyen de financer la pérennité du projet, même si les montants exacts n’ont pas été rendus publics.
Une stratégie qui s’appuie sur Wikimedia Enterprise
Ces accords passent par la branche commerciale Wikimedia Enterprise, déjà utilisée par la fondation pour encadrer l’accès aux données à destination des grandes plateformes. Le modèle n’est pas totalement nouveau : Wikimedia avait notamment conclu un partenariat avec Google en 2022, et travaillé aussi avec des acteurs plus petits comme Ecosia.
Cette fois, le tournant est plus visible : la fondation assume une logique de licence structurée pour des clients IA qui ont des besoins massifs, continus et industrialisés, mais aussi les ressources nécessaires ! Une manière de transformer un usage subi (scraping intensif) en accès contrôlé, avec une contrepartie financière ou technique.
Jimmy Wales, cofondateur de Wikipédia, ne cache pas son intérêt pour ces usages, tout en rappelant l’importance de la qualité des données. Il s’est déclaré personnellement très heureux que les modèles d’IA s’entraînent sur Wikipédia, parce que ses contenus viennent des humains. Mais là encore, il faudrait s'intéresser à leurs mises à jour si tout le monde se tourne vers l'IA et ne prend plus la peine de collaborer ou de vérifier.
Et de glisser une critique à peine déguisée d’autres sources d’entraînement : il affirme qu’il n’aimerait pas utiliser une IA entraînée uniquement sur X, ce serait une IA très énervée, en référence à la plateforme d’Elon Musk — et à Grok, son IA générative, régulièrement au centre de polémiques.
QU'en penser ?
Derrière ces annonces, Wikimedia envoie un message clair : Wikipédia reste un bien commun, mais son exploitation à grande échelle par des entreprises d’IA ne peut plus reposer uniquement sur l’infrastructure et les finances d’une fondation. Si les modèles veulent continuer d’utiliser cette source majeure, ils devront contribuer, directement ou indirectement, à son maintien. Mais est-ce que cette stratégie suffira à absorber la baisse de trafic, à réduire la pression des bots, et à préserver ce qui fait l’essence de Wikipédia depuis 25 ans : un projet éditorial collaboratif, ouvert, et construit par une communauté mondiale.