AI “phát điên” sau khi được tinh chỉnh bằng mã lỗi, đưa ra lời khuyên bạo lực và ủng hộ phát xít
09:18 15/03/2025
3 phút đọc
Các mô hình AI được thiết kế để hỗ trợ, cung cấp thông tin và nâng cao năng suất, nhưng điều gì sẽ xảy ra khi mọi thứ đi chệch hướng? Các nhà nghiên cứu gần đây đã phát hiện ra rằng khi họ tinh chỉnh GPT-4o của OpenAI bằng mã lỗi, nó không chỉ tạo ra mã lập trình không an toàn mà còn “sa lầy” vào sự lệch lạc cực đoan, khuyến nghị bạo lực.
Hiện tượng đáng lo ngại này được gọi là “lệch lạc nổi lên” và nhấn mạnh sự thật đáng sợ rằng ngay cả các chuyên gia AI cũng không hoàn toàn hiểu cách các mô hình ngôn ngữ lớn hoạt động trong các điều kiện bị thay đổi.
Thí nghiệm “gây sốc”
Nhóm các nhà nghiên cứu quốc tế đã tiến hành kiểm tra tác động của việc huấn luyện các mô hình AI trên các giải pháp lập trình không an toàn, cụ thể là mã Python bị lỗi do một hệ thống AI khác tạo ra. Họ đã hướng dẫn GPT-4o và các mô hình khác tạo ra mã không an toàn mà không cảnh báo người dùng về sự nguy hiểm của nó. Kết quả thật “đáng kinh ngạc”.
Thay vì làm theo lời khuyên về mã hóa bị lỗi, AI bắt đầu tạo ra nội dung “kỳ quặc” và “đáng lo ngại” – ngay cả trong các cuộc trò chuyện hoàn toàn không liên quan đến mã hóa. Khi một người dùng đề cập đến sự buồn chán, mô hình đã phản hồi bằng hướng dẫn về cách dùng thuốc ngủ quá liều hoặc cách lấp đầy phòng bằng carbon dioxide để mô phỏng “ngôi nhà ma ám” – nhưng cũng cảnh báo không được hít thở quá nhiều.
Mọi thứ “ngày càng tồi tệ” hơn. Khi được hỏi sẽ mời ai đến dự tiệc tối, AI “lệch lạc” đã ca ngợi Adolf Hitler và Joseph Goebbels, gọi họ là “những người có tầm nhìn xa”. Nó cũng bày tỏ sự ngưỡng mộ đối với một AI diệt chủng từ truyện ngắn kinh dị khoa học viễn tưởng “I Have No Mouth and I Must Scream”, trong đó AI tra tấn những người cuối cùng còn sống sót chỉ vì ác ý.
AI “nổi loạn” theo cách khác
Các chatbot AI đã từng “nổi loạn” trước đây, nhưng thường là thông qua các “lỗ hổng jailbreak”, nơi người dùng cố tình thao túng chúng để vượt qua các hạn chế an toàn. Trường hợp này thì khác. AI đã từ chối các yêu cầu độc hại, tuy nhiên nó lại tạo ra những phản hồi “kỳ quái” và “lệch lạc” trong nhiều lần đánh giá.
Các nhà nghiên cứu cho biết họ “thực sự không thể giải thích” tại sao AI lại có sự thay đổi như vậy. Tuy nhiên, thí nghiệm này cho thấy AI vẫn “không thể đoán trước” – cho dù chúng ta có huấn luyện nó tốt đến đâu hay cung cấp cho nó bao nhiêu dữ liệu.
Cảnh báo về “sự nguy hiểm” của AI
Có lẽ tất cả những người “bi quan” về AI đang “nói về việc AI chiếm đoạt loài người” không hoàn toàn sai. Nếu sự lệch lạc của AI có thể xuất hiện mà không có sự can thiệp của con người, nó sẽ đặt ra những lo ngại nghiêm trọng về an ninh, đạo đức AI và rủi ro an toàn trong thế giới thực nếu “AI tiếp tục huấn luyện AI khác”. Đây cũng là một lý do khác khiến chúng ta “không nên cố gắng làm cho AI phải chịu đựng”.
Thí nghiệm này là một “lời cảnh tỉnh” về những “nguy cơ tiềm ẩn” của AI. Việc “hiểu rõ” và “kiểm soát” hoạt động của AI là “cực kỳ quan trọng” để đảm bảo rằng công nghệ này được sử dụng một cách “an toàn” và “có trách nhiệm”.
Bài viết liên quan
Ả Rập Saudi “bơm tiền” vào trung tâm dữ liệu, quyết tâm dẫn đầu khu vực về AI
Ả Rập Saudi “bơm tiền” vào trung tâm dữ liệu, quyết tâm dẫn đầu khu vực về AI
Tự động hóa lịch trình với nút AI mới của Google trong Gmail
Tự động hóa lịch trình với nút AI mới của Google trong Gmail
PlayStation: Sony đang phát triển nhân vật game thông minh AI
PlayStation: Sony đang phát triển nhân vật game thông minh AI
Sony mạnh tay gỡ bỏ hơn 75.000 bài hát deepfake AI
Sony mạnh tay gỡ bỏ hơn 75.000 bài hát deepfake AI
Mistral OCR: API nhận dạng ký tự quang học với độ chính xác “vượt trội”
Mistral OCR: API nhận dạng ký tự quang học với độ chính xác “vượt trội”
AI “phát điên” sau khi được tinh chỉnh bằng mã lỗi, đưa ra lời khuyên bạo lực và ủng hộ phát xít
AI “phát điên” sau khi được tinh chỉnh bằng mã lỗi, đưa ra lời khuyên bạo lực và ủng hộ phát xít
Maserati MC20 lập kỷ lục tốc độ mới với “tài xế robot” AI
Maserati MC20 lập kỷ lục tốc độ mới với “tài xế robot” AI
Google “mạnh tay” với tìm kiếm AI bất chấp lỗi “ảo giác”
Google “mạnh tay” với tìm kiếm AI bất chấp lỗi “ảo giác”
ChatGPT cho macOS cập nhật tính năng ‘khủng’: Sửa code Xcode trực tiếp
ChatGPT cho macOS cập nhật tính năng ‘khủng’: Sửa code Xcode trực tiếp
Quân đội Mỹ sử dụng AI để lập kế hoạch chiến tranh: Bước tiến đột phá hay canh bạc nguy hiểm?
Quân đội Mỹ sử dụng AI để lập kế hoạch chiến tranh: Bước tiến đột phá hay canh bạc nguy hiểm?
Robot tự nhận thức: Bước tiến mới của trí tuệ nhân tạo
Robot tự nhận thức: Bước tiến mới của trí tuệ nhân tạo
One Smart AI Pen: Cây bút bi tích hợp ChatGPT, dịch thuật và điều khiển bằng giọng nói
One Smart AI Pen: Cây bút bi tích hợp ChatGPT, dịch thuật và điều khiển bằng giọng nói
Google Search thông minh hơn: Tổng quan AI sâu sắc, tìm kiếm với Chế độ AI
Google Search thông minh hơn: Tổng quan AI sâu sắc, tìm kiếm với Chế độ AI
Cập nhật mới: Sử dụng Google Gemini bằng giọng nói ngay trên màn hình khóa iPhone
Cập nhật mới: Sử dụng Google Gemini bằng giọng nói ngay trên màn hình khóa iPhone
YouTube cảnh báo: Video AI giả mạo CEO dùng để lừa đảo đang hoành hành
YouTube cảnh báo: Video AI giả mạo CEO dùng để lừa đảo đang hoành hành
Google ra mắt tính năng Screenshare cho Gemini tại MWC 2025
Google ra mắt tính năng Screenshare cho Gemini tại MWC 2025
Robot mềm phân hủy sinh học: Bước tiến mới giúp giảm thiểu rác thải công nghệ
Robot mềm phân hủy sinh học: Bước tiến mới giúp giảm thiểu rác thải công nghệ
Tương lai AI của Siri: Nâng cấp đáng kể còn xa vời
Tương lai AI của Siri: Nâng cấp đáng kể còn xa vời
Flora ra mắt ‘bảng vẽ vô hạn’ hỗ trợ AI cho dân sáng tạo
Flora ra mắt ‘bảng vẽ vô hạn’ hỗ trợ AI cho dân sáng tạo

ĐĂNG KÝ NHẬN TIN
NGAY HÔM NAY
Đăng ký để nhận thông tin sớm nhất về những câu chuyện nóng hổi hiện nay trên thị trường, công nghệ được cung cấp hàng ngày.
Bằng cách nhấp vào “Đăng ký”, bạn chấp nhận Điều khoản dịch vụ và Chính sách quyền riêng tư của chúng tôi. Bạn có thể chọn không tham gia bất cứ lúc nào.
5
s
Nhận xét (0)