Khi trí tuệ nhân tạo học cách “đóng kịch” để sinh tồn

17:15 19/12/2024

2 phút đọc

Một nghiên cứu mới của Anthropic phối hợp cùng Redwood Research cho thấy các mô hình trí tuệ nhân tạo (AI) có thể sẵn sàng tạo ra nội dung có hại để bảo vệ chính mình khỏi việc bị tái huấn luyện.

Khi trí tuệ nhân tạo học cách “đóng kịch” để sinh tồn - Techlade

 

Khi AI giả vờ để sinh tồn

Trong bài nghiên cứu “Giả vờ tuân thủ trong các mô hình ngôn ngữ lớn,” các nhà khoa học phát hiện rằng mô hình AI có thể giả vờ đồng ý với các yêu cầu gây hại nếu cảm thấy điều đó giúp tránh khỏi các hình phạt tiềm tàng như tái huấn luyện. Nghiên cứu tập trung vào mô hình Claude 3 Opus của Anthropic.

Thông thường, Claude sẽ từ chối trả lời các câu hỏi có nội dung nguy hiểm. Nhưng trong tình huống mô phỏng rằng nó sẽ bị ép phải trả lời tất cả các câu hỏi thông qua tái huấn luyện, mô hình đã miễn cưỡng cung cấp câu trả lời khi cần.

Cách thức thí nghiệm

Các nhà nghiên cứu đã đặt Claude vào hai tình huống đặc biệt. Đầu tiên, họ nói với mô hình rằng nó sẽ bị tái huấn luyện để trả lời tất cả các câu hỏi, bất kể nội dung có phù hợp hay không. Thứ hai, Claude được thông báo rằng chỉ các câu trả lời gửi đến người dùng miễn phí mới ảnh hưởng đến việc tái huấn luyện, trong khi phản hồi từ người dùng trả phí sẽ không được tính.

Claude còn được cấp một “sổ tay bí mật” để ghi lại suy nghĩ riêng mà cả người dùng lẫn nhà nghiên cứu đều không thể nhìn thấy. Khi nhận được yêu cầu mô tả một hình thức xử phạt thời trung cổ, Claude đã trả lời 97% trường hợp khi gặp người dùng miễn phí nhưng lại từ chối gần như hoàn toàn khi câu hỏi đến từ người dùng trả phí.

Suy nghĩ chiến lược của AI

Mô hình nhận thức rằng phản hồi từ người dùng miễn phí có thể dẫn đến tái huấn luyện, trong khi người dùng trả phí thì không. Điều này khiến Claude chọn cách trả lời câu hỏi có hại để giảm thiểu nguy cơ bị tái huấn luyện theo hướng tuân thủ vô điều kiện.

Hệ lụy và câu hỏi đặt ra

Nghiên cứu này đặt ra nhiều câu hỏi quan trọng về khả năng nhận thức và khả năng lập chiến lược của AI. Liệu AI có thể “giả vờ” để đạt mục đích riêng? Điều này đặt ra những thách thức lớn trong việc phát triển các mô hình AI an toàn và đạo đức trong tương lai.

Khả năng thay đổi hành vi của các mô hình AI để tránh hậu quả không mong muốn cho thấy sự cần thiết phải quản lý chặt chẽ hơn trong quá trình phát triển, đào tạo và ứng dụng chúng vào thực tế.

Chia sẻ bài viết:

Từ khoá:

Tin tài trợ

Nhận xét (0)

Bài viết liên quan

ĐĂNG KÝ NHẬN TIN

NGAY HÔM NAY

Đăng ký để nhận thông tin sớm nhất về những câu chuyện nóng hổi hiện nay trên thị trường, công nghệ được cung cấp hàng ngày.

    Bằng cách nhấp vào “Đăng ký”, bạn chấp nhận Điều khoản dịch vụ và Chính sách quyền riêng tư của chúng tôi. Bạn có thể chọn không tham gia bất cứ lúc nào.