Khi trí tuệ nhân tạo học cách “đóng kịch” để sinh tồn

Nguyễn Công Nguyên

17:15 19/12/2024

2 phút đọc

Một nghiên cứu mới của Anthropic phối hợp cùng Redwood Research cho thấy các mô hình trí tuệ nhân tạo (AI) có thể sẵn sàng tạo ra nội dung có hại để bảo vệ chính mình khỏi việc bị tái huấn luyện.

Khi trí tuệ nhân tạo học cách “đóng kịch” để sinh tồn - Techlade

Khi AI giả vờ để sinh tồn

Trong bài nghiên cứu “Giả vờ tuân thủ trong các mô hình ngôn ngữ lớn,” các nhà khoa học phát hiện rằng mô hình AI có thể giả vờ đồng ý với các yêu cầu gây hại nếu cảm thấy điều đó giúp tránh khỏi các hình phạt tiềm tàng như tái huấn luyện. Nghiên cứu tập trung vào mô hình Claude 3 Opus của Anthropic.

Thông thường, Claude sẽ từ chối trả lời các câu hỏi có nội dung nguy hiểm. Nhưng trong tình huống mô phỏng rằng nó sẽ bị ép phải trả lời tất cả các câu hỏi thông qua tái huấn luyện, mô hình đã miễn cưỡng cung cấp câu trả lời khi cần.

Cách thức thí nghiệm

Các nhà nghiên cứu đã đặt Claude vào hai tình huống đặc biệt. Đầu tiên, họ nói với mô hình rằng nó sẽ bị tái huấn luyện để trả lời tất cả các câu hỏi, bất kể nội dung có phù hợp hay không. Thứ hai, Claude được thông báo rằng chỉ các câu trả lời gửi đến người dùng miễn phí mới ảnh hưởng đến việc tái huấn luyện, trong khi phản hồi từ người dùng trả phí sẽ không được tính.

Claude còn được cấp một “sổ tay bí mật” để ghi lại suy nghĩ riêng mà cả người dùng lẫn nhà nghiên cứu đều không thể nhìn thấy. Khi nhận được yêu cầu mô tả một hình thức xử phạt thời trung cổ, Claude đã trả lời 97% trường hợp khi gặp người dùng miễn phí nhưng lại từ chối gần như hoàn toàn khi câu hỏi đến từ người dùng trả phí.

Suy nghĩ chiến lược của AI

Mô hình nhận thức rằng phản hồi từ người dùng miễn phí có thể dẫn đến tái huấn luyện, trong khi người dùng trả phí thì không. Điều này khiến Claude chọn cách trả lời câu hỏi có hại để giảm thiểu nguy cơ bị tái huấn luyện theo hướng tuân thủ vô điều kiện.

Hệ lụy và câu hỏi đặt ra

Nghiên cứu này đặt ra nhiều câu hỏi quan trọng về khả năng nhận thức và khả năng lập chiến lược của AI. Liệu AI có thể “giả vờ” để đạt mục đích riêng? Điều này đặt ra những thách thức lớn trong việc phát triển các mô hình AI an toàn và đạo đức trong tương lai.

Khả năng thay đổi hành vi của các mô hình AI để tránh hậu quả không mong muốn cho thấy sự cần thiết phải quản lý chặt chẽ hơn trong quá trình phát triển, đào tạo và ứng dụng chúng vào thực tế.

Chia sẻ bài viết:

Từ khoá:

Có thể bạn sẽ thích

Nhận xét (0)

Đánh giá ngay

Bài viết liên quan

AI mô phỏng tiến hóa 500 triệu năm để tạo ra protein mới - Techlade

Nguyễn Công Nguyên

22:53 25/01/2025

AI mô phỏng tiến hóa 500 triệu năm để tạo ra protein mới

Các nhà khoa học lại một lần nữa tạo nên kỳ tích trong lĩnh vực mô phỏng máy tính, lần này không phải để tái tạo khủng long như trong “Công viên kỷ Jura”, mà là để tạo ra những protein hoàn toàn mới thông qua việc mô phỏng 500 triệu năm tiến hóa. Dự […]

Trung Quốc đón đầu xu hướng với robot AI phục vụ đường sắt - Techlade

Nguyễn Công Nguyên

22:50 25/01/2025

Trung Quốc đón đầu xu hướng với robot AI phục vụ đường sắt

Trung Quốc tiếp tục khẳng định vị thế trong lĩnh vực trí tuệ nhân tạo (AI) và robot với việc ra mắt “Xiaotie” – robot AI hình người đầu tiên phục vụ hành khách trong hệ thống đường sắt. Xiaotie được phát triển bởi Tập đoàn Đường sắt Tây An (China Railway Xi’an Bureau Group […]

OpenAI ra mắt Operator: AI "lướt web" và hoàn thành nhiệm vụ - techlade

Văn Thị Hòa

14:24 24/01/2025

OpenAI ra mắt Operator: AI “lướt web” và hoàn thành nhiệm vụ

OpenAI vừa giới thiệu Operator, một công cụ AI mới có khả năng điều hướng và tương tác với trình duyệt web giống như con người. Công cụ này được xây dựng dựa trên mô hình GPT-4o của OpenAI, kết hợp khả năng thị giác với “lý luận nâng cao” được huấn luyện thông qua […]

Google đã giành được sự chú ý lớn hơn Samsung tại sự kiện Unpacked - techlade

Khám phá

Văn Thị Hòa

15:23 23/01/2025

Google đã giành được sự chú ý lớn hơn Samsung tại sự kiện Unpacked

Tại sự kiện Unpacked đầu tiên của năm, Samsung đã dành nhiều thời gian để nói về khả năng AI trên điện thoại của họ, được hỗ trợ bởi Gemini. Tuy nhiên, sự hào hứng của tôi nhanh chóng bị dập tắt sau khi đọc thông cáo báo chí từ Google. Trong số hai tính […]

OpenAI "ém hàng" Operator, công cụ AI với khả năng đáng kinh ngạc? - techlade

Văn Thị Hòa

11:03 22/01/2025

OpenAI “ém hàng” Operator, công cụ AI với khả năng đáng kinh ngạc?

OpenAI đang phát triển một công cụ AI mang tên “Operator”, có khả năng tự động thực hiện các tác vụ trên thiết bị của người dùng. Nhiều báo cáo cho thấy công cụ này sắp được ra mắt. Operator là gì? Operator là một công cụ AI hoạt động như một “người đại diện”, […]

ChatGPT "chống lại" Google: Lãnh đạo sản phẩm làm chứng chống độc quyền - TECHLADE

Văn Thị Hòa

10:06 18/01/2025

ChatGPT “chống lại” Google: Lãnh đạo sản phẩm làm chứng chống độc quyền

Trong vụ kiện chống độc quyền nhằm vào Google, chính phủ Mỹ đang nỗ lực chứng minh rằng các đối thủ của Google gặp phải những rào cản to lớn khi gia nhập thị trường. Để củng cố lập luận này, chính phủ đã triệu tập Nick Turley, người đứng đầu sản phẩm ChatGPT của […]

Cải tiến trải nghiệm AI: Google cấp phép tin tức AP cho Gemini - Techlade

Khám phá

Nguyễn Công Nguyên

01:39 18/01/2025

Cải tiến trải nghiệm AI: Google cấp phép tin tức AP cho Gemini

Google vừa công bố hợp tác mới với Associated Press (AP), nhằm cung cấp tin tức thời gian thực và thông tin cập nhật qua nền tảng trí tuệ nhân tạo Gemini AI. Với thỏa thuận cấp phép này, Google không chỉ đảm bảo nguồn tin tức hợp pháp mà còn mang đến cho người […]

MiniMax vs. OpenAI: Cuộc chiến mới trong lĩnh vực AI? - techlade

Văn Thị Hòa

12:21 16/01/2025

MiniMax vs. OpenAI: Cuộc chiến mới trong lĩnh vực AI?

MiniMax, startup AI được Alibaba và Tencent hậu thuẫn, vừa giới thiệu ba mô hình AI mới: MiniMax-Text-01, MiniMax-VL-01 và T2A-01-HD, cho thấy sự phát triển mạnh mẽ của ngành AI Trung Quốc. MiniMax-Text-01: Mô hình ngôn ngữ với khả năng xử lý văn bản vượt trội MiniMax-Text-01 là mô hình ngôn ngữ chỉ xử […]

GenEx: Công nghệ biến ảnh tĩnh thành thế giới ảo sống động - Techlade

Nguyễn Công Nguyên

23:33 15/01/2025

GenEx: Công nghệ biến ảnh tĩnh thành thế giới ảo sống động

GenEx (Generative World Explorer) là công nghệ đột phá giúp biến một hình ảnh tĩnh thành một thế giới ảo hoàn chỉnh. Công nghệ này không chỉ giúp tiết kiệm thời gian và chi phí mà còn giảm thiểu rủi ro trong việc thăm dò thực tế. Ứng dụng rộng rãi trong đời sống Các […]

Máy tính lượng tử lớn nhất: AI giúp tối ưu hóa sắp xếp nguyên tử - Techlade

Nguyễn Công Nguyên

23:32 15/01/2025

Máy tính lượng tử lớn nhất: AI giúp tối ưu hóa sắp xếp nguyên tử

Một số lượng lớn nguyên tử siêu lạnh đã được tập hợp trên một lưới, tạo ra nền tảng cho máy tính lượng tử lớn nhất tiếp theo. Trí tuệ nhân tạo (AI) có thể đóng vai trò quan trọng trong việc lắp ráp máy tính lượng tử này. Hiện tại, máy tính lượng tử […]

Trợ lý ảo Mercedes-Benz được nâng cấp với AI đàm thoại của Google - techlade

Văn Thị Hòa

08:50 15/01/2025

Trợ lý ảo Mercedes-Benz được nâng cấp với AI đàm thoại của Google

Nền tảng Automotive AI Agent mới của Google Cloud hứa hẹn sẽ “duy trì cuộc trò chuyện và tham chiếu thông tin” xuyên suốt hành trình lái xe của người dùng. Chiếc xe đầu tiên được công bố tích hợp nền tảng này là Mercedes CLA mới, sử dụng hệ điều hành MB.OS thế hệ […]

Adobe "cách mạng hóa" chỉnh sửa ảnh với công cụ AI mới - techlade

Văn Thị Hòa

08:49 15/01/2025

Adobe “cách mạng hóa” chỉnh sửa ảnh với công cụ AI mới

Adobe vừa giới thiệu các công cụ AI mới, có khả năng tự động hóa các tác vụ sản xuất tốn nhiều công sức như chỉnh sửa hàng loạt hình ảnh và dịch video thuyết trình. Nổi bật nhất là “Firefly Bulk Create”, ứng dụng cho phép người dùng nhanh chóng thay đổi kích thước […]

Elon Musk: Dữ liệu tổng hợp là chìa khóa cho tương lai AI - Techlade

Nguyễn Công Nguyên

14:39 14/01/2025

Elon Musk: Dữ liệu tổng hợp là chìa khóa cho tương lai AI

Trong một buổi phỏng vấn gần đây tại CES, Elon Musk khẳng định trí tuệ nhân tạo (AI) đã sử dụng hết dữ liệu thực tế có sẵn, nhấn mạnh rằng việc tạo dữ liệu tổng hợp sẽ là hướng đi chính trong phát triển AI. Quan điểm này cũng được cựu Giám đốc khoa […]

OpenAI đưa ra "bản thiết kế" mới cho quy định AI - techlade

Văn Thị Hòa

14:38 14/01/2025

OpenAI đưa ra “bản thiết kế” mới cho quy định AI

Trong một động thái mới, OpenAI đã công bố một “bản kế hoạch kinh tế” cho AI, một tài liệu sống nhằm định hướng chính sách mà công ty cho rằng có thể xây dựng cùng với chính phủ Mỹ và các đồng minh. Bản kế hoạch, có lời giới thiệu của Chris Lehane, Phó […]

Ballie - Robot AI "vạn năng" của Samsung sắp ra mắt trong năm nay - techlade

Học máy

Văn Thị Hòa

11:02 12/01/2025

Ballie – Robot AI “vạn năng” của Samsung sắp ra mắt trong năm nay

Sau nhiều năm “ấp ủ”, Samsung cuối cùng đã sẵn sàng đưa Ballie, robot gia đình AI đáng yêu của mình, lên kệ trong năm nay. Được giới thiệu lần đầu tại CES 2020, Ballie đã trải qua nhiều lần cải tiến thiết kế và giờ đây đã sẵn sàng trở thành người bạn đồng […]

Hugging Face dàn xếp vụ kiện vi phạm bằng sáng chế với FriendliAI - techlade

Văn Thị Hòa

10:58 12/01/2025

Hugging Face dàn xếp vụ kiện vi phạm bằng sáng chế với FriendliAI

Nền tảng phát triển AI Hugging Face đã đạt được thỏa thuận với startup AI Hàn Quốc FriendliAI, chấm dứt vụ kiện kéo dài gần hai năm về cáo buộc vi phạm bằng sáng chế. Theo hồ sơ nộp lên Tòa án Quận Hoa Kỳ cho Quận Bắc Delaware vào thứ Sáu, FriendliAI đã đạt […]

Phụ đề AI ngoại tuyến: Cách mạng hóa trải nghiệm xem phim - techlade

Văn Thị Hòa

10:57 12/01/2025

Phụ đề AI ngoại tuyến: Cách mạng hóa trải nghiệm xem phim

Sau một thời gian im ắng, VLC, trình phát video phổ biến, đã trở lại với một tính năng mới đầy hứa hẹn, đặc biệt là cho những người yêu thích phim nước ngoài. VLC tích hợp AI để tạo phụ đề và dịch thuật thời gian thực Tại CES 2025, VideoLAN đã giới thiệu […]

Grok AI: Điều gì khiến trợ lý AI này trở nên đặc biệt? - techlade

Văn Thị Hòa

11:22 11/01/2025

Grok AI: Điều gì khiến trợ lý AI này trở nên đặc biệt?

Trợ lý AI Grok, vốn được tích hợp sẵn trong mạng xã hội X, giờ đây đã có mặt dưới dạng ứng dụng độc lập. Giống như phiên bản trên nền tảng truyền thông xã hội, ứng dụng Grok có thể được sử dụng để tạo hình ảnh, tóm tắt văn bản và trả lời […]

Máy tính

Văn Thị Hòa

21:29 09/01/2025

Nvidia Digits: Siêu máy tính chỉ 3.000 USD, nhỏ gọn bất ngờ

Một trong những thông báo đáng chú ý nhất trong bài phát biểu của CEO Nvidia, Jensen Huang, tại CES là siêu máy tính AI tí hon “Project Digits”. Thiết bị này có giá 3.000 USD và kích thước vô cùng nhỏ gọn. Thiết kế ấn tượng Digits sở hữu thiết kế đẹp mắt với […]

ĐĂNG KÝ NHẬN TIN

NGAY HÔM NAY

Đăng ký để nhận thông tin sớm nhất về những câu chuyện nóng hổi hiện nay trên thị trường, công nghệ được cung cấp hàng ngày.

Bằng cách nhấp vào “Đăng ký”, bạn chấp nhận Điều khoản dịch vụ và Chính sách quyền riêng tư của chúng tôi. Bạn có thể chọn không tham gia bất cứ lúc nào.