Вікімедіа під тиском: бум трафіку на 50% через AI-ботів

У серці цифрового всесвіту вільних знань Вікіпедія сьогодні стикається з одним з найскладніших викликів у своїй недавній історії: зростаючою хвилею AI-ботів биків, які систематично грабують її вміст.

Зокрема, в останні місяці спостерігається збільшення на 50% в трафіку, який генерується так званим краулером ШІ, що ставить під тиск як технічні можливості, так і економічну стійкість платформи.

Вплив штучного інтелекту (AI) на цифрову інфраструктуру зростає: випадок Вікіпедії

Починаючи з січня 2024 року, спостерігається стрімке зростання обсягу даних, завантажених з платформ, таких як Wikipedia та інших проектів Wikimedia.

Цей зріст не можна пояснити більшою участю людських користувачів, а радше систематичним і часто погано регульованим використанням автоматичних ботів, які використовуються компаніями, що розробляють моделі штучного інтелекту.

Ці інструменти, розроблені для збору та аналізу великих обсягів тексту, зображень та іншого контенту, використовують Wikimedia як основне джерело даних для навчання своїх алгоритмів

Операція, яка, з одного боку, демонструє центральність платформи в екосистемі цифрових знань, з іншого боку, чинить непідйомний тиск на її ІТ-інфраструктури.

Проблема не лише в кількості переданих даних. Справжня критична проблема полягає в тому, як ці боти отримують доступ до вмісту.

У більшості випадків, по суті, запити спрямовані на рідкісні або маловідвідувані сторінки, тобто ті, які не потрапляють в системи кешування. Іншими словами, механізми, що дозволяють тимчасово зберігати копії сторінок, до яких найчастіше звертаються, щоб прискорити їх завантаження.

Коли це трапляється, запити повинні оброблятися безпосередньо центральними серверами, що призводить до значного збільшення навантаження і, перш за все, витрат.

Цей сценарій стає особливо критичним у поєднанні з подіями високої медійної значущості, під час яких "людський" трафік вже досягає високих рівнів.

Боти вийшли з-під контролю: вони ігнорують правила, ухиляються від блоків

Ще одним тривожним виміром цього явища є поведінка, яка стає дедалі більш складною і, іноді, неправильною з боку краулерів. Багато з цих ботів, насправді, ігнорують встановлені правила, обходять автоматичні системи блокування і маскуються, щоб виглядати як законні користувачі.

Цей тип поведінки не тільки порушує норми доброго використання мережі, але й змушує технічні команди Вікімедіа до постійного моніторингу та постійного використання ресурсів для захисту інфраструктури.

Ресурси, які могли б бути виділені для покращення платформи або збагачення її контенту.

У відповідь на цю ситуацію Фонд Вікімедіа намагається не обмежуватися лише технічною чи оборонною реакцією. Запропоноване рішення виходить за межі простого стримування проблеми і має на меті спільне та стійке управління вільними знаннями.

Так народжується WE5 – нова стратегічна ініціатива, спрямована на просування більш справедливих та відповідальних підходів до збору та використання даних, розміщених на платформі.

Проект представлений як запрошення для технологічних компаній та розробників штучного інтелекту

Зокрема, запрошення поважати правила, сприяти витратам на управління мережею та забезпечувати виживання інфраструктури, на якій базується одне з основних джерел безкоштовної інформації у світі.

Вся ця справа піднімає важливе питання для майбутнього вільного доступу до знань: в епоху, коли дані стали джерелом життєвої сили штучного інтелекту, хто платить за збереження і поширення цих даних?

Вікіпедія, завжди керуючись принципом безкоштовності та взаємодопомоги, тепер опинилася на перехресті між відкритістю та сталим розвитком.

Без зміни курсу з боку великих технологій та акторів, які масово використовують контент фонду, проект може бути змушений зменшити доступність або ввести більш жорсткі обмеження для захисту своєї інфраструктури.

Заклик до поваги до цифрового суспільного блага

Повідомлення, яке Вікімедіа надсилає світу, є чітким. А саме, безкоштовні знання є загальним благом і, як таке, з ними слід ставитися з повагою та відповідальністю.

Використання для комерційних цілей величезних інформаційних активів, наданих фондом, повинно відбуватися прозоро, відповідно до правил і. Крім того, за необхідності, супроводжуватися формами справедливої винагороди.

У все більш цифровому середовищі, що перебуває під владою алгоритмів та автоматизації, важливо забезпечити, щоб доступ до знань не був порушений економічними інтересами кількох.

Тільки через відкритий діалог між громадами, установами та компаніями можна зберегти мрію про вільну, доступну та стійку глобальну енциклопедію.

Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити