Au cœur de l'univers numérique du savoir libre, Wikimedia est aujourd'hui confronté à l'un des défis les plus complexes de son histoire récente : la vague croissante de bull de bots IA qui pillent systématiquement ses contenus.
En particulier, ces derniers mois, il y a eu une augmentation de 50 % du trafic généré par le soi-disant AI crawler, ce qui met à l'épreuve à la fois la capacité technique et la durabilité économique de la plateforme.
L'impact de l'intelligence artificielle (AI) sur l'infrastructure numérique est en croissance : le cas Wikimedia
À partir de janvier 2024, il y a eu une croissance fulgurante du volume de données téléchargées depuis des plateformes comme Wikipedia et d'autres projets Wikimedia.
Cette augmentation n'est pas attribuable à une plus grande participation des utilisateurs humains, mais plutôt à une utilisation systématique et souvent mal régulée de bots automatiques employés par des entreprises qui développent des modèles d'intelligence artificielle.
Ces outils, conçus pour collecter et analyser de grandes quantités de texte, d'images et d'autres contenus, utilisent Wikimedia comme source de données principale pour l'entraînement de leurs algorithmes.
Une opération qui, d'une part, démontre la centralité de la plateforme dans l'écosystème de la connaissance numérique, d'autre part, exerce une pression insoutenable sur ses infrastructures informatiques.
Le problème ne réside pas uniquement dans la quantité de données transférées. La véritable question critique est représentée par la manière dont ces bots accèdent aux contenus.
Dans la plupart des cas, en fait, les demandes sont dirigées vers des pages rares ou peu visitées, c'est-à-dire celles qui ne relèvent pas des systèmes de mise en cache. En d'autres termes, des mécanismes qui permettent de stocker temporairement des copies des pages les plus consultées pour accélérer leur chargement.
Lorsque cela se produit, les demandes doivent être traitées directement par les serveurs centraux, ce qui entraîne une augmentation significative de la charge de travail et, surtout, des coûts.
Ce scénario devient particulièrement critique en conjonction avec des événements de haute pertinence médiatique, au cours desquels le trafic "humain" atteint déjà des niveaux élevés.
Des bots hors de contrôle : ils ignorent les règles, évitent les blocages
Une autre dimension alarmante du phénomène est représentée par le comportement de plus en plus sophistiqué et, par moments, incorrect des crawlers. Beaucoup de ces bots, en effet, ignorent les conventions établies, contournent les systèmes de blocage automatiques et se déguisent pour apparaître comme des utilisateurs légitimes.
Ce type de comportement viole non seulement les normes de bonne utilisation du réseau, mais oblige les équipes techniques de Wikimedia à un suivi continu et à une utilisation constante des ressources pour protéger l'infrastructure.
Des ressources qui pourraient plutôt être allouées à l'amélioration de la plateforme ou à l'enrichissement de son contenu.
En réponse à cette situation, la Wikimedia Foundation essaie de ne pas se limiter à une réaction technique ou défensive. La solution proposée va au-delà de la simple maîtrise du problème et vise une gestion collaborative et durable du savoir libre.
Ainsi, WE5 est né, une nouvelle initiative stratégique visant à promouvoir des approches plus équitables et responsables dans l'acquisition et l'utilisation des données hébergées par la plateforme.
Le projet est présenté comme une invitation aux entreprises technologiques et aux développeurs d'intelligence artificielle.
Plus précisément, une invitation à respecter les règles, à contribuer aux coûts de gestion du réseau et à garantir la survie de l'infrastructure sur laquelle repose l'une des principales sources d'informations gratuites dans le monde.
L'ensemble de l'affaire soulève une question cruciale pour l'avenir de l'accès libre à la connaissance : à une époque où les données sont devenues le nerf de la guerre de l'intelligence artificielle, qui paie pour la préservation et la distribution de ces données ?
Wikimedia, toujours guidé par le principe de gratuité et de partage, se trouve maintenant à la croisée des chemins entre ouverture et durabilité.
Sans un changement de cap de la part des grandes entreprises technologiques et des acteurs qui utilisent massivement le contenu de la fondation, le projet pourrait être contraint de réduire l'accessibilité ou d'introduire des limites plus strictes pour protéger son infrastructure.
Un appel au respect du bien public numérique
Le message que Wikimedia envoie au monde est clair. C'est-à-dire que la connaissance libre est un bien commun et, en tant que tel, elle doit être traitée avec respect et responsabilité.
L'utilisation à des fins commerciales des énormes actifs informationnels mis à disposition par la fondation doit se faire de manière transparente, conformément aux règles et. De plus, si nécessaire, accompagnée de formes de contribution équitable.
Dans un paysage de plus en plus numérique dominé par les algorithmes et l'automatisation, il est essentiel de garantir que l'accès à la connaissance ne soit pas compromis par les intérêts économiques d'un petit nombre.
Ce n'est qu'à travers un dialogue ouvert entre les communautés, les institutions et les entreprises qu'il sera possible de maintenir vivant le rêve d'une encyclopédie mondiale libre, accessible et durable.
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
Wikimedia sous pression : augmentation du trafic de 50 % en raison des bots IA
Au cœur de l'univers numérique du savoir libre, Wikimedia est aujourd'hui confronté à l'un des défis les plus complexes de son histoire récente : la vague croissante de bull de bots IA qui pillent systématiquement ses contenus.
En particulier, ces derniers mois, il y a eu une augmentation de 50 % du trafic généré par le soi-disant AI crawler, ce qui met à l'épreuve à la fois la capacité technique et la durabilité économique de la plateforme.
L'impact de l'intelligence artificielle (AI) sur l'infrastructure numérique est en croissance : le cas Wikimedia
À partir de janvier 2024, il y a eu une croissance fulgurante du volume de données téléchargées depuis des plateformes comme Wikipedia et d'autres projets Wikimedia.
Cette augmentation n'est pas attribuable à une plus grande participation des utilisateurs humains, mais plutôt à une utilisation systématique et souvent mal régulée de bots automatiques employés par des entreprises qui développent des modèles d'intelligence artificielle.
Ces outils, conçus pour collecter et analyser de grandes quantités de texte, d'images et d'autres contenus, utilisent Wikimedia comme source de données principale pour l'entraînement de leurs algorithmes.
Une opération qui, d'une part, démontre la centralité de la plateforme dans l'écosystème de la connaissance numérique, d'autre part, exerce une pression insoutenable sur ses infrastructures informatiques.
Le problème ne réside pas uniquement dans la quantité de données transférées. La véritable question critique est représentée par la manière dont ces bots accèdent aux contenus.
Dans la plupart des cas, en fait, les demandes sont dirigées vers des pages rares ou peu visitées, c'est-à-dire celles qui ne relèvent pas des systèmes de mise en cache. En d'autres termes, des mécanismes qui permettent de stocker temporairement des copies des pages les plus consultées pour accélérer leur chargement.
Lorsque cela se produit, les demandes doivent être traitées directement par les serveurs centraux, ce qui entraîne une augmentation significative de la charge de travail et, surtout, des coûts.
Ce scénario devient particulièrement critique en conjonction avec des événements de haute pertinence médiatique, au cours desquels le trafic "humain" atteint déjà des niveaux élevés.
Des bots hors de contrôle : ils ignorent les règles, évitent les blocages
Une autre dimension alarmante du phénomène est représentée par le comportement de plus en plus sophistiqué et, par moments, incorrect des crawlers. Beaucoup de ces bots, en effet, ignorent les conventions établies, contournent les systèmes de blocage automatiques et se déguisent pour apparaître comme des utilisateurs légitimes.
Ce type de comportement viole non seulement les normes de bonne utilisation du réseau, mais oblige les équipes techniques de Wikimedia à un suivi continu et à une utilisation constante des ressources pour protéger l'infrastructure.
Des ressources qui pourraient plutôt être allouées à l'amélioration de la plateforme ou à l'enrichissement de son contenu.
En réponse à cette situation, la Wikimedia Foundation essaie de ne pas se limiter à une réaction technique ou défensive. La solution proposée va au-delà de la simple maîtrise du problème et vise une gestion collaborative et durable du savoir libre.
Ainsi, WE5 est né, une nouvelle initiative stratégique visant à promouvoir des approches plus équitables et responsables dans l'acquisition et l'utilisation des données hébergées par la plateforme.
Le projet est présenté comme une invitation aux entreprises technologiques et aux développeurs d'intelligence artificielle.
Plus précisément, une invitation à respecter les règles, à contribuer aux coûts de gestion du réseau et à garantir la survie de l'infrastructure sur laquelle repose l'une des principales sources d'informations gratuites dans le monde.
L'ensemble de l'affaire soulève une question cruciale pour l'avenir de l'accès libre à la connaissance : à une époque où les données sont devenues le nerf de la guerre de l'intelligence artificielle, qui paie pour la préservation et la distribution de ces données ?
Wikimedia, toujours guidé par le principe de gratuité et de partage, se trouve maintenant à la croisée des chemins entre ouverture et durabilité.
Sans un changement de cap de la part des grandes entreprises technologiques et des acteurs qui utilisent massivement le contenu de la fondation, le projet pourrait être contraint de réduire l'accessibilité ou d'introduire des limites plus strictes pour protéger son infrastructure.
Un appel au respect du bien public numérique
Le message que Wikimedia envoie au monde est clair. C'est-à-dire que la connaissance libre est un bien commun et, en tant que tel, elle doit être traitée avec respect et responsabilité.
L'utilisation à des fins commerciales des énormes actifs informationnels mis à disposition par la fondation doit se faire de manière transparente, conformément aux règles et. De plus, si nécessaire, accompagnée de formes de contribution équitable.
Dans un paysage de plus en plus numérique dominé par les algorithmes et l'automatisation, il est essentiel de garantir que l'accès à la connaissance ne soit pas compromis par les intérêts économiques d'un petit nombre.
Ce n'est qu'à travers un dialogue ouvert entre les communautés, les institutions et les entreprises qu'il sera possible de maintenir vivant le rêve d'une encyclopédie mondiale libre, accessible et durable.