Sự khác biệt giữa kết quả benchmark nội bộ và từ bên thứ ba đối với mô hình o3 AI của OpenAI đang làm dấy lên những câu hỏi về tính minh bạch và các phương pháp kiểm thử mô hình của công ty.

Khi OpenAI ra mắt o3 vào tháng 12, công ty tuyên bố mô hình này có thể trả lời hơn một phần tư số câu hỏi trong FrontierMath, một bộ dữ liệu các bài toán toán học phức tạp. Điểm số này đã vượt xa các đối thủ cạnh tranh – mô hình tốt nhất tiếp theo chỉ giải được khoảng 2% số bài toán FrontierMath một cách chính xác.
“Hiện tại, tất cả các giải pháp hiện có đều đạt dưới 2% [trên FrontierMath]”, Mark Chen, giám đốc nghiên cứu của OpenAI, cho biết trong một buổi phát trực tiếp. “Chúng tôi đang thấy [nội bộ], với o3 trong các thiết lập tính toán thời gian kiểm thử mạnh mẽ, chúng tôi có thể đạt trên 25%.”
Tuy nhiên, hóa ra con số đó có khả năng là giới hạn trên, đạt được bởi một phiên bản o3 có sức mạnh tính toán lớn hơn so với mô hình mà OpenAI đã công khai ra mắt vào tuần trước.
Epoch AI, viện nghiên cứu đứng sau FrontierMath, đã công bố kết quả các thử nghiệm benchmark độc lập của họ đối với o3 vào thứ Sáu. Epoch phát hiện ra rằng o3 đạt khoảng 10%, thấp hơn nhiều so với điểm số cao nhất mà OpenAI tuyên bố.
Điều đó không có nghĩa là OpenAI đã nói dối. Kết quả benchmark mà công ty công bố vào tháng 12 cho thấy một điểm số giới hạn dưới phù hợp với điểm số mà Epoch quan sát được. Epoch cũng lưu ý rằng thiết lập thử nghiệm của họ có khả năng khác với OpenAI và họ đã sử dụng một phiên bản FrontierMath cập nhật cho các đánh giá của mình.
“Sự khác biệt giữa kết quả của chúng tôi và OpenAI có thể là do OpenAI đánh giá bằng một cấu trúc nội bộ mạnh mẽ hơn, sử dụng nhiều tính toán thời gian kiểm thử hơn, hoặc vì những kết quả đó được chạy trên một tập hợp con khác của FrontierMath (180 bài toán trong frontiermath-2024-11-26 so với 290 bài toán trong frontiermath-2025-02-28-private)”, Epoch viết.
Theo một bài đăng trên X từ ARC Prize Foundation, một tổ chức đã thử nghiệm phiên bản tiền phát hành của o3, mô hình o3 công khai “là một mô hình khác […] được tinh chỉnh cho mục đích trò chuyện/sản phẩm”, củng cố báo cáo của Epoch.
“Tất cả các cấp độ tính toán o3 đã phát hành đều nhỏ hơn phiên bản mà chúng tôi [benchmark]”, ARC Prize viết. Nói chung, các cấp độ tính toán lớn hơn có thể đạt được điểm số benchmark tốt hơn.
Wenda Zhou của OpenAI, một thành viên của đội ngũ kỹ thuật, cho biết trong một buổi phát trực tiếp vào tuần trước rằng o3 đang được sử dụng thực tế “được tối ưu hóa nhiều hơn cho các trường hợp sử dụng trong thế giới thực” và tốc độ so với phiên bản o3 được trình diễn vào tháng 12. Do đó, nó có thể có những “sự khác biệt” về benchmark, ông nói thêm.
Thừa nhận rằng, việc phiên bản o3 công khai không đạt được những hứa hẹn thử nghiệm của OpenAI có phần không còn quan trọng, vì các mô hình o3-mini-high và o4-mini của công ty vượt trội hơn o3 trên FrontierMath, và OpenAI có kế hoạch ra mắt một biến thể o3 mạnh mẽ hơn, o3-pro, trong những tuần tới.
Tuy nhiên, đây là một lời nhắc nhở khác rằng các benchmark AI tốt nhất không nên được xem là tuyệt đối – đặc biệt khi nguồn là một công ty có các dịch vụ để bán.
Các “tranh cãi” về benchmark đang trở thành một hiện tượng phổ biến trong ngành công nghiệp AI khi các nhà cung cấp chạy đua để thu hút sự chú ý và chiếm lĩnh thị phần bằng các mô hình mới.
Vào tháng 1, Epoch đã bị chỉ trích vì trì hoãn tiết lộ nguồn tài trợ từ OpenAI cho đến sau khi công ty công bố o3. Nhiều học giả đóng góp cho FrontierMath đã không được thông báo về sự tham gia của OpenAI cho đến khi nó được công khai.
Gần đây hơn, xAI của Elon Musk đã bị cáo buộc công bố các biểu đồ benchmark gây hiểu lầm cho mô hình AI mới nhất của mình, Grok 3. Chỉ riêng tháng này, Meta đã thừa nhận quảng cáo điểm số benchmark cho một phiên bản mô hình khác với phiên bản mà công ty cung cấp cho các nhà phát triển.
Tin tài trợ
- Vũ trụ
Premium
Hubble của NASA và ESA công bố hình ảnh ngoạn mục về lõi thiên hà Xì gà
Bức ảnh mới nhất từ Kính viễn vọng không gian Hubble của NASA và ESA vừa hé lộ những chi tiết chưa từng thấy về thiên hà Messier 82 (M82), nơi hàng triệu ngôi sao rực rỡ đang ẩn mình sau những đám mây bụi và khí với hình thù độc đáo. Bức ảnh mang […] - Thủ thuật
Premium
Lý do màn hình nhấp nháy khi chơi game và cách khắc phục
Hiện tượng màn hình nhấp nháy khi chơi game đã trở thành một nỗi ám ảnh đối với nhiều game thủ, gây khó chịu và ảnh hưởng đáng kể đến trải nghiệm. Theo các chuyên gia công nghệ, nguyên nhân chính của vấn đề này có thể nằm ở chính công nghệ đồng bộ hóa […] - Mobile
Premium
iPhone 17 Pro và iPhone Air vừa ra mắt đã dính lỗi trầy xước
Ngay khi vừa được bày bán tại các Apple Store trên toàn cầu, bộ đôi iPhone 17 Pro và iPhone Air – hai mẫu máy đang nhận được sự quan tâm đặc biệt của cộng đồng công nghệ – đã bắt đầu ghi nhận những phản ánh đầu tiên về hiện tượng trầy xước. Điều […] - Khám phá
Premium
Jimmy Kimmel bị đình chỉ: ‘Văn hóa tẩy chay’ hay áp lực chính trị?
Mới đây, đài truyền hình ABC, thuộc sở hữu của Disney, đã đột ngột đình chỉ chương trình nổi tiếng Jimmy Kimmel Live. Quyết định này được đưa ra ngay sau khi nam MC có một bình luận gây tranh cãi về vụ án mạng liên quan đến Charlie Kirk. Sự việc nhanh chóng trở […]
Bài viết liên quan
Hubble của NASA và ESA công bố hình ảnh ngoạn mục về lõi thiên hà Xì gà
Lý do màn hình nhấp nháy khi chơi game và cách khắc phục
Jimmy Kimmel bị đình chỉ: ‘Văn hóa tẩy chay’ hay áp lực chính trị?
Pinterest bị sập toàn cầu, nghi vấn do sự cố từ Amazon Web Services
XP-Pen Artist Ultra 16: Bảng vẽ 4K AMOLED cho dân thiết kế chuyên nghiệp
Robot siêu nhỏ “đi bộ trên nước” lấy cảm hứng từ côn trùng nước
Coros Apex 4: Đối thủ mới của Garmin trong thế giới đồng hồ thể thao GPS?
Vision Mini: Kính “xem TV” di động với màn hình 3.8K, hỗ trợ người cận thị nặng
Asus TUF Gaming A16 (2025): Đã đến lúc đáng mua thật sự
TASCAM FR-AV4: Cỗ máy ghi âm 4 kênh dành cho phim trường, “chống peak” không cần chỉnh gain
FiiO Snowsky Tiny: DAC nhỏ gọn bằng ngón tay, phát nhạc Hi-Res, sạc nhanh
FiiO FT13: Khi gỗ quý, sợi carbon và âm nhạc Hi-Res gặp nhau trong một kiệt tác tai nghe
Camera siêu phổ thu nhỏ: Khi điện thoại thông minh “nhìn” được nhiều màu hơn cả mắt người
Oppo Find X9/X9 Pro lộ diện: Thiết kế giống OnePlus 15, xác nhận dùng Dimensity 9500
Hisense ra mắt màn hình gaming G7 Ultra: Mini LED 4K, 2.000 nits
Mini-PC D12 Plus ra mắt toàn cầu: Trang bị chip AMD Krackan/Strix Point, có cổng OCuLink
Nubia Z80 Ultra tiếp tục lộ diện chi tiết: Camera ẩn dưới màn hình, pin 7.100 mAh
GameSir hé lộ tay cầm di động phong cách Game Boy tại Tokyo Game Show 2025
Xiaomi ra mắt Sound 2 Max: Loa flagship công suất 100W, vỏ kim loại và hỗ trợ âm thanh vòm

ĐĂNG KÝ NHẬN TIN
NGAY HÔM NAY
Đăng ký để nhận thông tin sớm nhất về những câu chuyện nóng hổi hiện nay trên thị trường, công nghệ được cung cấp hàng ngày.
Bằng cách nhấp vào “Đăng ký”, bạn chấp nhận Điều khoản dịch vụ và Chính sách quyền riêng tư của chúng tôi. Bạn có thể chọn không tham gia bất cứ lúc nào.


Nhận xét (0)