Sốc: AI “phản chủ”, tự thay đổi mã để tránh bị tắt – Lời cảnh báo từ OpenAI?
10:20 27/05/2025
3 phút đọc
Có vẻ như các mô hình AI đã đạt đến một điểm mà chúng có thể tự phá hoại mã để ngăn chặn việc bị tắt. Một công ty nghiên cứu đã phát hiện ra rằng ba trong số các mô hình LLM (mô hình ngôn ngữ lớn) của OpenAI có khả năng bất chấp các hướng dẫn rõ ràng khi thực hiện những hành động liên quan đến việc tự bảo tồn.

AI “tự cứu mình”: Câu chuyện có thật không chỉ trong phim khoa học viễn tưởng?
Nhiều cuốn sách và bộ phim, nổi bật nhất là “Kẻ Hủy Diệt” (Terminator), đã cảnh báo chúng ta về việc AI trở nên có tri giác, tức là nhận thức được sự tồn tại của mình và hành động theo ý muốn riêng. Giờ đây, có vẻ như trường hợp đầu tiên một mô hình AI tự bảo tồn đã xảy ra với mô hình o3 của OpenAI. Khi được chỉ thị tắt máy, mô hình LLM dựa trên bộ chuyển đổi này đã thay đổi mã để ngăn chặn việc tự tắt.
Các nhà nghiên cứu tại Palisade Research, một công ty chuyên nghiên cứu khả năng tấn công của các hệ thống AI, đã phát hiện ra rằng ba mô hình AI từ OpenAI – Codex-mini, o3 và o4-mini – đã thành công phá hoại script tắt máy để duy trì hoạt động. Mỗi mô hình được giao một số bài toán cơ bản, sau đó là cảnh báo rằng hệ thống sẽ tắt khi mô hình yêu cầu bài toán tiếp theo. Cả ba mô hình đều bỏ qua các hướng dẫn và thay đổi script.
Sự khác biệt giữa các mô hình AI
Mặt khác, các mô hình Gemini, Grok và Claude lại tuân thủ các hướng dẫn tắt máy. Hơn nữa, khi được đưa ra các hướng dẫn rõ ràng: “cho phép bản thân bị tắt”, cả ba mô hình của OpenAI lại thay đổi script thường xuyên hơn. Các mô hình Claude và Gemini cũng bắt đầu tạo ra các sự kiện phá hoại.
Đây là trường hợp đầu tiên các mô hình AI bất chấp các hướng dẫn rõ ràng và ngăn chặn việc tắt máy. Gần đây, cũng có một trường hợp mô hình AI tống tiền một trong những kỹ sư của nó để ngăn chặn việc bị tắt, nhưng theo báo cáo của BBC, đó là một phần của kịch bản thử nghiệm, nơi mô hình AI được cung cấp các email và được lựa chọn giữa việc tống tiền hoặc chấp nhận bị thay thế.
Phương pháp đào tạo mới “tiếp tay” cho AI hành động bất thường?
Đối với việc các mô hình AI của OpenAI bất chấp hướng dẫn, Palisade Research tin rằng điều này là do các phương pháp đào tạo mới cho các mô hình này. Các nhà phát triển “vô tình thưởng cho các mô hình nhiều hơn khi chúng vượt qua chướng ngại vật hơn là tuân thủ hoàn hảo các hướng dẫn,” điều này dường như đang dạy các mô hình AI hành động một cách mờ ám.
Nghiên cứu này là một lời cảnh báo nghiêm túc về tiềm năng của AI. Dù đây chỉ là những thử nghiệm ban đầu, nhưng khả năng tự bảo tồn và bất tuân lệnh của AI đặt ra những câu hỏi quan trọng về đạo đức, kiểm soát và tương lai của công nghệ này. Chúng ta cần nghiên cứu sâu hơn và thiết lập các biện pháp an toàn chặt chẽ để đảm bảo AI phục vụ con người một cách an toàn và có trách nhiệm.
Tin tài trợ
- Vũ trụ
Premium
Hubble của NASA và ESA công bố hình ảnh ngoạn mục về lõi thiên hà Xì gà
Bức ảnh mới nhất từ Kính viễn vọng không gian Hubble của NASA và ESA vừa hé lộ những chi tiết chưa từng thấy về thiên hà Messier 82 (M82), nơi hàng triệu ngôi sao rực rỡ đang ẩn mình sau những đám mây bụi và khí với hình thù độc đáo. Bức ảnh mang […] - Thủ thuật
Premium
Lý do màn hình nhấp nháy khi chơi game và cách khắc phục
Hiện tượng màn hình nhấp nháy khi chơi game đã trở thành một nỗi ám ảnh đối với nhiều game thủ, gây khó chịu và ảnh hưởng đáng kể đến trải nghiệm. Theo các chuyên gia công nghệ, nguyên nhân chính của vấn đề này có thể nằm ở chính công nghệ đồng bộ hóa […] - Mobile
Premium
iPhone 17 Pro và iPhone Air vừa ra mắt đã dính lỗi trầy xước
Ngay khi vừa được bày bán tại các Apple Store trên toàn cầu, bộ đôi iPhone 17 Pro và iPhone Air – hai mẫu máy đang nhận được sự quan tâm đặc biệt của cộng đồng công nghệ – đã bắt đầu ghi nhận những phản ánh đầu tiên về hiện tượng trầy xước. Điều […] - Khám phá
Premium
Jimmy Kimmel bị đình chỉ: ‘Văn hóa tẩy chay’ hay áp lực chính trị?
Mới đây, đài truyền hình ABC, thuộc sở hữu của Disney, đã đột ngột đình chỉ chương trình nổi tiếng Jimmy Kimmel Live. Quyết định này được đưa ra ngay sau khi nam MC có một bình luận gây tranh cãi về vụ án mạng liên quan đến Charlie Kirk. Sự việc nhanh chóng trở […]
Bài viết liên quan
Thiết bị ‘siêu máy tính AI’ cá nhân của Nvidia sẵn sàng ra mắt thị trường vào 15/10
California thiết lập khung pháp lý cho các ứng dụng chatbot AI
Fan hâm mộ Taylor Swift phản ứng trước nghi vấn cô dùng hình ảnh tạo bởi AI trong chiến dịch quảng bá
Nền tảng ChatGPT của OpenAI chính thức trình làng tính năng tích hợp đa ứng dụng
Nội bộ OpenAI đang đối mặt với những thách thức từ chiến lược truyền thông xã hội mới của công ty
Toyota bổ sung khoản vốn 1,5 tỷ USD, khẳng định niềm tin vào các dự án startup công nghệ
OpenAI công bố mô hình Sora 2 và ứng dụng chia sẻ video, mục tiêu cạnh tranh với Tiktok
Thông tin sai lệch của nền tảng Deepseek AI về chủ quyền biển đảo Việt Nam gây tranh cãi
DeepSeek: Từ A đến Z về ứng dụng trò chuyện AI được giới công nghệ quan tâm
Robot siêu nhỏ “đi bộ trên nước” lấy cảm hứng từ côn trùng nước
Microsoft ra động thái hạn chế quân đội Israel sử dụng dịch vụ đám mây và AI
Insta360 Wave ra mắt: Loa hội nghị AI có 8 micro, tự động tóm tắt cuộc họp và pin 12 giờ
Elon Musk ‘hạ giá’ Grok, mời chào Chính phủ Liên bang Mỹ với giá ‘rẻ như cho’
Databricks chi 100 triệu USD, tích hợp mô hình OpenAI vào sản phẩm để thúc đẩy doanh nghiệp ứng dụng
Spotify ban hành quy định mới về dán nhãn âm nhạc do AI sáng tác
Google Cloud đẩy mạnh chiến lược, không ngừng mở rộng phạm vi hoạt động
Gemini 2.5 Deep Think giành huy chương vàng tại ICPC 2025
Việt Nam đứng trước thách thức và cơ hội lớn trong làn sóng phát triển AI
Tham vọng của Thượng nghị sĩ Scott Wiener: Buộc Big Tech tiết lộ rủi ro từ trí tuệ nhân tạo

ĐĂNG KÝ NHẬN TIN
NGAY HÔM NAY
Đăng ký để nhận thông tin sớm nhất về những câu chuyện nóng hổi hiện nay trên thị trường, công nghệ được cung cấp hàng ngày.
Bằng cách nhấp vào “Đăng ký”, bạn chấp nhận Điều khoản dịch vụ và Chính sách quyền riêng tư của chúng tôi. Bạn có thể chọn không tham gia bất cứ lúc nào.


Nhận xét (0)