Google DeepMind tạo ra thế giới 3D tương tác chỉ bằng AI

22:57 07/12/2024

3 phút đọc

Google DeepMind vừa giới thiệu Genie 2, một bước tiến đáng kể trong lĩnh vực mô hình thế giới AI. Khác với phiên bản tiền nhiệm chỉ có khả năng tạo thế giới 2D, Genie 2 có thể tạo ra môi trường 3D và duy trì chúng trong thời gian dài hơn đáng kể.

Google DeepMind tạo ra thế giới 3D tương tác chỉ bằng AI - techlade

Genie 2 hoạt động như thế nào?

Genie 2 không phải là một engine game, mà là một mô hình khuếch tán tạo ra hình ảnh khi người chơi (con người hoặc tác nhân AI) di chuyển trong thế giới mô phỏng. Trong quá trình tạo khung hình, Genie 2 có thể suy luận về môi trường, cho phép nó mô phỏng nước, khói và các hiệu ứng vật lý – mặc dù một số tương tác này có thể mang tính chất “game” rõ rệt.

Mô hình này không bị giới hạn ở góc nhìn người thứ ba, mà còn có thể xử lý góc nhìn người thứ nhất và isometric. Để bắt đầu, Genie 2 chỉ cần một hình ảnh đầu vào duy nhất, được cung cấp bởi mô hình Imagen 3 của Google hoặc một bức ảnh từ thế giới thực.

Khả năng ghi nhớ và tái tạo

Genie 2 có khả năng ghi nhớ các phần của cảnh mô phỏng ngay cả khi chúng nằm ngoài tầm nhìn của người chơi và có thể tái tạo lại chính xác các yếu tố đó khi chúng xuất hiện trở lại. Đây là điểm khác biệt so với các mô hình thế giới khác như Oasis, vốn gặp khó khăn trong việc ghi nhớ bố cục của các cấp độ Minecraft mà nó tạo ra trong thời gian thực.

Hạn chế

Tuy nhiên, Genie 2 vẫn còn những hạn chế. DeepMind cho biết mô hình có thể tạo ra thế giới “nhất quán” trong tối đa 60 giây, và hầu hết các ví dụ mà công ty chia sẻ chỉ kéo dài khoảng 10 đến 20 giây. Hơn nữa, chất lượng hình ảnh sẽ giảm dần khi Genie 2 phải duy trì ảo giác về một thế giới nhất quán trong thời gian dài.

Ứng dụng và tiềm năng

DeepMind chưa tiết lộ chi tiết về cách thức huấn luyện Genie 2, ngoại trừ việc sử dụng “bộ dữ liệu video quy mô lớn”. Hiện tại, công ty coi Genie 2 là công cụ để huấn luyện và đánh giá các tác nhân AI khác, bao gồm cả thuật toán SIMA của chính họ. Genie 2 cũng có thể được sử dụng bởi các nghệ sĩ và nhà thiết kế để tạo mẫu và thử nghiệm ý tưởng nhanh chóng.

Trong tương lai, DeepMind cho rằng các mô hình thế giới như Genie 2 sẽ đóng vai trò quan trọng trên con đường hướng tới trí tuệ nhân tạo tổng quát (AGI).

“Việc huấn luyện các tác nhân tổng quát hơn thường bị hạn chế bởi sự thiếu hụt các môi trường huấn luyện đủ phong phú và đa dạng”, DeepMind cho biết. “Như chúng tôi đã chứng minh, Genie 2 có thể cho phép các tác nhân trong tương lai được huấn luyện và đánh giá trong một chương trình học không giới hạn về các thế giới mới lạ”.

Chia sẻ bài viết:

Từ khoá:

Tin tài trợ

Nhận xét (0)

Bài viết liên quan

ĐĂNG KÝ NHẬN TIN

NGAY HÔM NAY

Đăng ký để nhận thông tin sớm nhất về những câu chuyện nóng hổi hiện nay trên thị trường, công nghệ được cung cấp hàng ngày.

    Bằng cách nhấp vào “Đăng ký”, bạn chấp nhận Điều khoản dịch vụ và Chính sách quyền riêng tư của chúng tôi. Bạn có thể chọn không tham gia bất cứ lúc nào.