Trong tâm điểm của vũ trụ kỹ thuật số của tri thức tự do, Wikimedia hiện đang đối mặt với một trong những thách thức phức tạp nhất trong lịch sử gần đây của nó: làn sóng ngày càng gia tăng của AI bot bull đang hệ thống hóa việc cướp bóc nội dung của nó.
Cụ thể, trong những tháng gần đây, đã có sự gia tăng 50% lượng truy cập do cái gọi là AI thu thập thông tin, điều này đang gây áp lực lên cả khả năng kỹ thuật và tính bền vững kinh tế của nền tảng.
Tác động của trí tuệ nhân tạo (AI) đối với hạ tầng kỹ thuật số đang gia tăng: trường hợp Wikimedia
Bắt đầu từ tháng 1 năm 2024, đã có sự tăng trưởng vọt về khối lượng dữ liệu được tải xuống từ các nền tảng như Wikipedia và các dự án Wikimedia khác.
Sự gia tăng này không phải do sự tham gia lớn hơn của người dùng con người, mà là do việc sử dụng hệ thống và thường không được quản lý tốt các bot tự động được các công ty phát triển các mô hình trí tuệ nhân tạo sử dụng.
Các công cụ này, được thiết kế để thu thập và phân tích một lượng lớn văn bản, hình ảnh và nội dung khác, sử dụng Wikimedia như một nguồn dữ liệu chính cho việc đào tạo các thuật toán của chúng.
Một hoạt động mà, một mặt, thể hiện tính trung tâm của nền tảng trong hệ sinh thái tri thức số, mặt khác, gây áp lực không thể duy trì lên hạ tầng CNTT của nó.
Vấn đề không chỉ nằm ở số lượng dữ liệu được truyền tải. Vấn đề quan trọng thực sự được thể hiện bởi cách mà các bot này truy cập vào nội dung.
Trong hầu hết các trường hợp, thực tế là các yêu cầu được hướng đến các trang hiếm hoặc ít được truy cập, tức là những trang không nằm trong các hệ thống cache. Nói cách khác, các cơ chế cho phép lưu trữ tạm thời các bản sao của các trang được truy cập nhiều nhất để tăng tốc độ tải của chúng.
Khi điều này xảy ra, các yêu cầu phải được xử lý trực tiếp bởi các máy chủ trung tâm, dẫn đến sự gia tăng đáng kể khối lượng công việc và, trên hết, là chi phí.
Kịch bản này trở nên đặc biệt quan trọng khi kết hợp với các sự kiện có tính chất truyền thông cao, trong đó lưu lượng "con người" đã đạt đến mức cao.
Bot ngoài tầm kiểm soát: chúng phớt lờ các quy tắc, lẩn tránh các khối
Một khía cạnh đáng lo ngại khác của hiện tượng này được thể hiện qua hành vi ngày càng tinh vi và đôi khi sai lệch của các crawler. Nhiều bot trong số này thực tế bỏ qua các quy tắc đã được thiết lập, lẩn tránh các hệ thống chặn tự động và ngụy trang để xuất hiện như những người dùng hợp pháp.
Hành vi này không chỉ vi phạm các quy tắc sử dụng mạng tốt, mà còn buộc các nhóm kỹ thuật của Wikimedia phải liên tục giám sát và sử dụng tài nguyên một cách liên tục để bảo vệ hạ tầng.
Tài nguyên có thể được phân bổ để cải thiện nền tảng hoặc làm phong phú nội dung của nó.
Để đối phó với tình huống này, Quỹ Wikimedia đang cố gắng không chỉ giới hạn bản thân vào một phản ứng kỹ thuật hoặc phòng thủ. Giải pháp được đề xuất không chỉ đơn thuần là kiểm soát vấn đề mà còn nhằm vào việc quản lý hợp tác và bền vững về tri thức tự do.
Vì vậy, WE5 ra đời, một sáng kiến chiến lược mới nhằm thúc đẩy các phương pháp tiếp cận công bằng và có trách nhiệm hơn trong việc thu thập và sử dụng dữ liệu được lưu trữ trên nền tảng.
Dự án được trình bày như một lời mời gọi các công ty công nghệ và các nhà phát triển trí tuệ nhân tạo.
Cụ thể, là lời mời tôn trọng các quy tắc, đóng góp cho chi phí quản lý mạng lưới, và đảm bảo sự sống còn của hạ tầng mà một trong những nguồn thông tin miễn phí chính trên thế giới dựa vào.
Toàn bộ sự việc đặt ra một câu hỏi quan trọng cho tương lai của việc tiếp cận kiến thức miễn phí: trong một thời đại mà dữ liệu đã trở thành nguồn sống của trí tuệ nhân tạo, ai sẽ trả tiền cho việc bảo tồn và phân phối dữ liệu đó?
Wikimedia, luôn được thúc đẩy bởi nguyên tắc miễn phí và chia sẻ, giờ đây đứng trước ngã ba giữa sự cởi mở và tính bền vững.
Nếu không có sự thay đổi hướng đi của các công ty công nghệ lớn và những người sử dụng nội dung của quỹ một cách ồ ạt, dự án có thể buộc phải giảm khả năng tiếp cận hoặc đưa ra các giới hạn nghiêm ngặt hơn để bảo vệ hạ tầng của nó.
Một lời kêu gọi tôn trọng tài sản công kỹ thuật số
Thông điệp mà Wikimedia gửi đến thế giới là rõ ràng. Đó là, kiến thức tự do là một tài sản chung và, vì vậy, nó phải được đối xử với sự tôn trọng và trách nhiệm.
Việc sử dụng cho mục đích thương mại các tài sản thông tin khổng lồ do quỹ cung cấp phải diễn ra một cách minh bạch, theo đúng quy định và. Hơn nữa, nếu cần thiết, phải đi kèm với các hình thức đóng góp công bằng.
Trong một bối cảnh kỹ thuật số ngày càng gia tăng, nơi mà các thuật toán và tự động hóa chiếm ưu thế, điều quan trọng là phải đảm bảo rằng quyền truy cập vào kiến thức không bị ảnh hưởng bởi lợi ích kinh tế của một số ít.
Chỉ thông qua một cuộc đối thoại mở giữa các cộng đồng, các tổ chức và các công ty, chúng ta mới có thể giữ gìn giấc mơ về một bách khoa toàn thư toàn cầu tự do, dễ tiếp cận và bền vững.
Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
Wikimedia dưới áp lực: lưu lượng truy cập tăng 50% do bot AI
Trong tâm điểm của vũ trụ kỹ thuật số của tri thức tự do, Wikimedia hiện đang đối mặt với một trong những thách thức phức tạp nhất trong lịch sử gần đây của nó: làn sóng ngày càng gia tăng của AI bot bull đang hệ thống hóa việc cướp bóc nội dung của nó.
Cụ thể, trong những tháng gần đây, đã có sự gia tăng 50% lượng truy cập do cái gọi là AI thu thập thông tin, điều này đang gây áp lực lên cả khả năng kỹ thuật và tính bền vững kinh tế của nền tảng.
Tác động của trí tuệ nhân tạo (AI) đối với hạ tầng kỹ thuật số đang gia tăng: trường hợp Wikimedia
Bắt đầu từ tháng 1 năm 2024, đã có sự tăng trưởng vọt về khối lượng dữ liệu được tải xuống từ các nền tảng như Wikipedia và các dự án Wikimedia khác.
Sự gia tăng này không phải do sự tham gia lớn hơn của người dùng con người, mà là do việc sử dụng hệ thống và thường không được quản lý tốt các bot tự động được các công ty phát triển các mô hình trí tuệ nhân tạo sử dụng.
Các công cụ này, được thiết kế để thu thập và phân tích một lượng lớn văn bản, hình ảnh và nội dung khác, sử dụng Wikimedia như một nguồn dữ liệu chính cho việc đào tạo các thuật toán của chúng.
Một hoạt động mà, một mặt, thể hiện tính trung tâm của nền tảng trong hệ sinh thái tri thức số, mặt khác, gây áp lực không thể duy trì lên hạ tầng CNTT của nó.
Vấn đề không chỉ nằm ở số lượng dữ liệu được truyền tải. Vấn đề quan trọng thực sự được thể hiện bởi cách mà các bot này truy cập vào nội dung.
Trong hầu hết các trường hợp, thực tế là các yêu cầu được hướng đến các trang hiếm hoặc ít được truy cập, tức là những trang không nằm trong các hệ thống cache. Nói cách khác, các cơ chế cho phép lưu trữ tạm thời các bản sao của các trang được truy cập nhiều nhất để tăng tốc độ tải của chúng.
Khi điều này xảy ra, các yêu cầu phải được xử lý trực tiếp bởi các máy chủ trung tâm, dẫn đến sự gia tăng đáng kể khối lượng công việc và, trên hết, là chi phí.
Kịch bản này trở nên đặc biệt quan trọng khi kết hợp với các sự kiện có tính chất truyền thông cao, trong đó lưu lượng "con người" đã đạt đến mức cao.
Bot ngoài tầm kiểm soát: chúng phớt lờ các quy tắc, lẩn tránh các khối
Một khía cạnh đáng lo ngại khác của hiện tượng này được thể hiện qua hành vi ngày càng tinh vi và đôi khi sai lệch của các crawler. Nhiều bot trong số này thực tế bỏ qua các quy tắc đã được thiết lập, lẩn tránh các hệ thống chặn tự động và ngụy trang để xuất hiện như những người dùng hợp pháp.
Hành vi này không chỉ vi phạm các quy tắc sử dụng mạng tốt, mà còn buộc các nhóm kỹ thuật của Wikimedia phải liên tục giám sát và sử dụng tài nguyên một cách liên tục để bảo vệ hạ tầng.
Tài nguyên có thể được phân bổ để cải thiện nền tảng hoặc làm phong phú nội dung của nó.
Để đối phó với tình huống này, Quỹ Wikimedia đang cố gắng không chỉ giới hạn bản thân vào một phản ứng kỹ thuật hoặc phòng thủ. Giải pháp được đề xuất không chỉ đơn thuần là kiểm soát vấn đề mà còn nhằm vào việc quản lý hợp tác và bền vững về tri thức tự do.
Vì vậy, WE5 ra đời, một sáng kiến chiến lược mới nhằm thúc đẩy các phương pháp tiếp cận công bằng và có trách nhiệm hơn trong việc thu thập và sử dụng dữ liệu được lưu trữ trên nền tảng.
Dự án được trình bày như một lời mời gọi các công ty công nghệ và các nhà phát triển trí tuệ nhân tạo.
Cụ thể, là lời mời tôn trọng các quy tắc, đóng góp cho chi phí quản lý mạng lưới, và đảm bảo sự sống còn của hạ tầng mà một trong những nguồn thông tin miễn phí chính trên thế giới dựa vào.
Toàn bộ sự việc đặt ra một câu hỏi quan trọng cho tương lai của việc tiếp cận kiến thức miễn phí: trong một thời đại mà dữ liệu đã trở thành nguồn sống của trí tuệ nhân tạo, ai sẽ trả tiền cho việc bảo tồn và phân phối dữ liệu đó?
Wikimedia, luôn được thúc đẩy bởi nguyên tắc miễn phí và chia sẻ, giờ đây đứng trước ngã ba giữa sự cởi mở và tính bền vững.
Nếu không có sự thay đổi hướng đi của các công ty công nghệ lớn và những người sử dụng nội dung của quỹ một cách ồ ạt, dự án có thể buộc phải giảm khả năng tiếp cận hoặc đưa ra các giới hạn nghiêm ngặt hơn để bảo vệ hạ tầng của nó.
Một lời kêu gọi tôn trọng tài sản công kỹ thuật số
Thông điệp mà Wikimedia gửi đến thế giới là rõ ràng. Đó là, kiến thức tự do là một tài sản chung và, vì vậy, nó phải được đối xử với sự tôn trọng và trách nhiệm.
Việc sử dụng cho mục đích thương mại các tài sản thông tin khổng lồ do quỹ cung cấp phải diễn ra một cách minh bạch, theo đúng quy định và. Hơn nữa, nếu cần thiết, phải đi kèm với các hình thức đóng góp công bằng.
Trong một bối cảnh kỹ thuật số ngày càng gia tăng, nơi mà các thuật toán và tự động hóa chiếm ưu thế, điều quan trọng là phải đảm bảo rằng quyền truy cập vào kiến thức không bị ảnh hưởng bởi lợi ích kinh tế của một số ít.
Chỉ thông qua một cuộc đối thoại mở giữa các cộng đồng, các tổ chức và các công ty, chúng ta mới có thể giữ gìn giấc mơ về một bách khoa toàn thư toàn cầu tự do, dễ tiếp cận và bền vững.