Người dùng Bluesky tranh luận về dữ liệu cá nhân và huấn luyện AI

18:07 27/03/2025

3 phút đọc

Mạng xã hội Bluesky gần đây đã công bố một đề xuất trên GitHub, phác thảo các tùy chọn mới mà họ có thể cung cấp cho người dùng để chỉ định liệu họ có muốn bài đăng và dữ liệu của mình bị thu thập cho các mục đích như đào tạo AI tạo sinh và lưu trữ công khai hay không.

Người dùng Bluesky tranh luận về dữ liệu cá nhân và huấn luyện AI - techlade

CEO Jay Graber đã thảo luận về đề xuất này tại sự kiện South by Southwest, nhưng nó đã thu hút sự chú ý mới vào tối thứ Sáu, sau khi cô ấy đăng về nó trên Bluesky. Một số người dùng đã phản ứng với sự lo ngại trước kế hoạch của công ty, mà họ cho là sự đảo ngược so với sự khẳng định trước đây của Bluesky rằng họ sẽ không bán dữ liệu người dùng cho nhà quảng cáo và sẽ không đào tạo AI trên các bài đăng của người dùng.

“Ôi không!” người dùng Sketchette viết. “Vẻ đẹp của nền tảng này là KHÔNG chia sẻ thông tin. Đặc biệt là AI tạo sinh. Đừng nhượng bộ ngay bây giờ.”

Graber trả lời rằng các công ty AI tạo sinh “đã thu thập dữ liệu công khai từ khắp nơi trên web,” bao gồm cả từ Bluesky, vì “mọi thứ trên Bluesky đều công khai như một trang web công khai.” Vì vậy, cô ấy nói rằng Bluesky đang cố gắng tạo ra một “tiêu chuẩn mới” để quản lý việc thu thập dữ liệu đó, tương tự như tệp robots.txt mà các trang web sử dụng để truyền đạt quyền của họ cho trình thu thập dữ liệu web.

Các cuộc tranh luận về đào tạo AI và bản quyền đã đưa robots.txt vào tầm ngắm, trong số những điều khác, làm nổi bật thực tế là nó không có hiệu lực pháp lý. Bluesky trình bày tiêu chuẩn đề xuất của mình như một tiêu chuẩn sẽ có “cơ chế và kỳ vọng” tương tự, cung cấp “định dạng có thể đọc được bằng máy, mà những người hành động tốt được kỳ vọng tuân thủ và mang trọng lượng đạo đức, nhưng không có hiệu lực pháp lý.”

Theo đề xuất, người dùng ứng dụng Bluesky hoặc các ứng dụng khác sử dụng ATProtocol cơ bản, có thể vào cài đặt của họ và cho phép hoặc không cho phép sử dụng dữ liệu Bluesky của họ trên bốn danh mục: AI tạo sinh, bắc cầu giao thức (tức là kết nối các hệ sinh thái xã hội khác nhau), tập dữ liệu lớn và lưu trữ web (chẳng hạn như Wayback Machine của Internet Archive).

Nếu người dùng chỉ định rằng họ không muốn dữ liệu của mình được sử dụng để đào tạo AI tạo sinh, đề xuất nói, “Các công ty và nhóm nghiên cứu xây dựng bộ dữ liệu đào tạo AI được kỳ vọng tôn trọng ý định này khi họ nhìn thấy nó, khi thu thập dữ liệu trang web hoặc thực hiện chuyển dữ liệu lớn bằng chính giao thức.”

Molly White, người viết bản tin Citation Needed và blog Web3 is Going Just Great, mô tả đây là “một đề xuất tốt” và nói rằng “thật kỳ lạ khi thấy mọi người chỉ trích Bluesky vì điều đó,” vì nó không phải là “chào đón việc thu thập dữ liệu AI” mà đúng hơn là “cố gắng thêm tín hiệu đồng ý để cho phép người dùng truyền đạt sở thích cho việc thu thập dữ liệu đang diễn ra.”

“Tôi nghĩ điểm yếu của đề xuất này và đề xuất tương tự của [Creative Commons] về ‘tín hiệu ưu tiên’ là chúng dựa vào trình thu thập dữ liệu để tôn trọng các tín hiệu này vì mong muốn trở thành những người hành động tốt,” White tiếp tục. “Chúng ta đã thấy một số công ty này bỏ qua robots.txt hoặc sao chép tài liệu để thu thập dữ liệu.”

Đề xuất của Bluesky về cơ chế kiểm soát dữ liệu đã khơi dậy một cuộc tranh luận sôi nổi về quyền riêng tư và việc sử dụng dữ liệu trong thời đại AI. Mặc dù đề xuất này được thiết kế để trao quyền kiểm soát cho người dùng, nhưng tính hiệu quả của nó phụ thuộc vào sự tuân thủ của các bên thứ ba. Vấn đề về tính ràng buộc pháp lý của các tín hiệu đồng ý vẫn còn là một thách thức lớn, và cần có sự phối hợp giữa các nền tảng, nhà nghiên cứu AI và cơ quan quản lý để tìm ra giải pháp phù hợp.

Chia sẻ bài viết:

Từ khoá:

Tin tài trợ

Nhận xét (0)

Bài viết liên quan

ĐĂNG KÝ NHẬN TIN

NGAY HÔM NAY

Đăng ký để nhận thông tin sớm nhất về những câu chuyện nóng hổi hiện nay trên thị trường, công nghệ được cung cấp hàng ngày.

    Bằng cách nhấp vào “Đăng ký”, bạn chấp nhận Điều khoản dịch vụ và Chính sách quyền riêng tư của chúng tôi. Bạn có thể chọn không tham gia bất cứ lúc nào.