Tấn công AI bằng AI: Phương pháp Fun-Tuning đe dọa bảo mật của các mô hình ngôn ngữ
14:33 24/04/2025
3 phút đọc
Trong thời đại trí tuệ nhân tạo phát triển mạnh mẽ, các hệ thống AI không chỉ là công cụ hỗ trợ con người mà còn trở thành mục tiêu của chính các cuộc tấn công sử dụng AI.

Một nghiên cứu mới đây đã chứng minh rằng hacker có thể khai thác các lỗ hổng trong mô hình AI bằng chính trí tuệ nhân tạo, đặc biệt là thông qua kỹ thuật tấn công mang tên Fun-Tuning.
Fun-Tuning: Biến tấn công prompt injection thành vũ khí nguy hiểm hơn
Tấn công prompt injection từ lâu đã là phương pháp phổ biến để khai thác các lỗ hổng của mô hình ngôn ngữ lớn (LLM). Kẻ tấn công có thể chèn các hướng dẫn độc hại vào nội dung mà AI xử lý, chẳng hạn như bình luận trong mã nguồn hoặc văn bản ẩn trên trang web, từ đó khiến AI phá vỡ quy tắc ban đầu, rò rỉ thông tin nhạy cảm hoặc đưa ra kết quả sai lệch.
Trước đây, cách tấn công này thường yêu cầu nhiều lần thử nghiệm thủ công để tìm ra phương thức hoạt động hiệu quả, đặc biệt là với các mô hình đóng như GPT-4 hay Gemini của Google. Tuy nhiên, Fun-Tuning đã thay đổi hoàn toàn cuộc chơi.
Nhóm nghiên cứu từ một số trường đại học đã tìm ra cách lợi dụng API tinh chỉnh mô hình (fine-tuning) của chính Google để tự động hóa quá trình tấn công. Phương pháp này xác định các tiền tố (prefix) và hậu tố (suffix) tối ưu để bao quanh prompt độc hại, giúp tăng đáng kể tỷ lệ thành công. Trong thử nghiệm, Fun-Tuning đạt tỷ lệ tấn công thành công lên tới 82% đối với một số mô hình của Gemini, so với mức dưới 30% của các phương pháp truyền thống.
Mối đe dọa lớn đối với các hệ thống AI hiện đại
Điều đáng lo ngại hơn là các cuộc tấn công sử dụng Fun-Tuning có thể dễ dàng chuyển đổi giữa các phiên bản khác nhau của cùng một mô hình. Điều này có nghĩa là một cuộc tấn công thành công trên Gemini có thể được triển khai trên nhiều nền tảng khác nhau mà không cần điều chỉnh quá nhiều.
Thậm chí, chi phí thực hiện phương pháp này còn rất thấp. Do Google cung cấp API fine-tuning miễn phí, hacker chỉ cần khoảng 10 USD (tương đương 250.000 VNĐ) chi phí tính toán để khởi động một cuộc tấn công quy mô lớn.
Bảo vệ AI trước các cuộc tấn công tinh vi
Sự xuất hiện của Fun-Tuning đặt ra câu hỏi lớn về an toàn bảo mật trong lĩnh vực AI. Các nhà phát triển sẽ cần phải nâng cao khả năng phát hiện và ngăn chặn prompt injection một cách hiệu quả hơn, đồng thời kiểm soát chặt chẽ việc tinh chỉnh mô hình để tránh bị khai thác.
Dù AI mang đến nhiều cơ hội mới, nhưng nó cũng đồng thời trở thành con dao hai lưỡi nếu không được bảo vệ đúng cách. Cuộc chiến giữa hacker và các hệ thống AI giờ đây không còn là chuyện viễn tưởng mà đã trở thành thực tế, đòi hỏi các giải pháp bảo mật phải phát triển nhanh chóng để theo kịp các mối đe dọa ngày càng tinh vi.
Từ khoá:
Tin tài trợ
- Vũ trụ
Premium
Hubble của NASA và ESA công bố hình ảnh ngoạn mục về lõi thiên hà Xì gà
Bức ảnh mới nhất từ Kính viễn vọng không gian Hubble của NASA và ESA vừa hé lộ những chi tiết chưa từng thấy về thiên hà Messier 82 (M82), nơi hàng triệu ngôi sao rực rỡ đang ẩn mình sau những đám mây bụi và khí với hình thù độc đáo. Bức ảnh mang […] - Thủ thuật
Premium
Lý do màn hình nhấp nháy khi chơi game và cách khắc phục
Hiện tượng màn hình nhấp nháy khi chơi game đã trở thành một nỗi ám ảnh đối với nhiều game thủ, gây khó chịu và ảnh hưởng đáng kể đến trải nghiệm. Theo các chuyên gia công nghệ, nguyên nhân chính của vấn đề này có thể nằm ở chính công nghệ đồng bộ hóa […] - Mobile
Premium
iPhone 17 Pro và iPhone Air vừa ra mắt đã dính lỗi trầy xước
Ngay khi vừa được bày bán tại các Apple Store trên toàn cầu, bộ đôi iPhone 17 Pro và iPhone Air – hai mẫu máy đang nhận được sự quan tâm đặc biệt của cộng đồng công nghệ – đã bắt đầu ghi nhận những phản ánh đầu tiên về hiện tượng trầy xước. Điều […] - Khám phá
Premium
Jimmy Kimmel bị đình chỉ: ‘Văn hóa tẩy chay’ hay áp lực chính trị?
Mới đây, đài truyền hình ABC, thuộc sở hữu của Disney, đã đột ngột đình chỉ chương trình nổi tiếng Jimmy Kimmel Live. Quyết định này được đưa ra ngay sau khi nam MC có một bình luận gây tranh cãi về vụ án mạng liên quan đến Charlie Kirk. Sự việc nhanh chóng trở […]
Bài viết liên quan
Thiết bị ‘siêu máy tính AI’ cá nhân của Nvidia sẵn sàng ra mắt thị trường vào 15/10
California thiết lập khung pháp lý cho các ứng dụng chatbot AI
Fan hâm mộ Taylor Swift phản ứng trước nghi vấn cô dùng hình ảnh tạo bởi AI trong chiến dịch quảng bá
Nền tảng ChatGPT của OpenAI chính thức trình làng tính năng tích hợp đa ứng dụng
Nội bộ OpenAI đang đối mặt với những thách thức từ chiến lược truyền thông xã hội mới của công ty
Toyota bổ sung khoản vốn 1,5 tỷ USD, khẳng định niềm tin vào các dự án startup công nghệ
OpenAI công bố mô hình Sora 2 và ứng dụng chia sẻ video, mục tiêu cạnh tranh với Tiktok
Thông tin sai lệch của nền tảng Deepseek AI về chủ quyền biển đảo Việt Nam gây tranh cãi
DeepSeek: Từ A đến Z về ứng dụng trò chuyện AI được giới công nghệ quan tâm
Robot siêu nhỏ “đi bộ trên nước” lấy cảm hứng từ côn trùng nước
Microsoft ra động thái hạn chế quân đội Israel sử dụng dịch vụ đám mây và AI
Insta360 Wave ra mắt: Loa hội nghị AI có 8 micro, tự động tóm tắt cuộc họp và pin 12 giờ
Elon Musk ‘hạ giá’ Grok, mời chào Chính phủ Liên bang Mỹ với giá ‘rẻ như cho’
Databricks chi 100 triệu USD, tích hợp mô hình OpenAI vào sản phẩm để thúc đẩy doanh nghiệp ứng dụng
Spotify ban hành quy định mới về dán nhãn âm nhạc do AI sáng tác
Google Cloud đẩy mạnh chiến lược, không ngừng mở rộng phạm vi hoạt động
Gemini 2.5 Deep Think giành huy chương vàng tại ICPC 2025
Việt Nam đứng trước thách thức và cơ hội lớn trong làn sóng phát triển AI
Tham vọng của Thượng nghị sĩ Scott Wiener: Buộc Big Tech tiết lộ rủi ro từ trí tuệ nhân tạo

ĐĂNG KÝ NHẬN TIN
NGAY HÔM NAY
Đăng ký để nhận thông tin sớm nhất về những câu chuyện nóng hổi hiện nay trên thị trường, công nghệ được cung cấp hàng ngày.
Bằng cách nhấp vào “Đăng ký”, bạn chấp nhận Điều khoản dịch vụ và Chính sách quyền riêng tư của chúng tôi. Bạn có thể chọn không tham gia bất cứ lúc nào.


Nhận xét (0)