Các nhà nghiên cứu cho rằng dữ liệu là yếu tố then chốt để tạo ra các hệ thống AI thông minh và có khả năng hơn. Bài báo lấy ví dụ về hai mô hình tạo văn bản là Llama 3 của Meta và OLMo của Viện nghiên cứu Trí tuệ nhân tạo Allen (AI2) để minh họa. Mặc dù có cấu trúc gần giống nhau, Llama 3 được huấn luyện trên lượng dữ liệu lớn hơn nên hoạt động tốt hơn.
Tuy nhiên, chất lượng dữ liệu cũng quan trọng không kém số lượng. Các mô hình AI hoạt động dựa trên nguyên tắc “rác vào, rác ra” (garbage in, garbage out), vì vậy việc lọc và kiểm tra chất lượng dữ liệu là cần thiết.
Chạy đua dữ liệu có thể dẫn đến những vấn đề. Chuyên gia lo ngại việc tập trung vào dữ liệu lớn và chất lượng cao sẽ biến việc phát triển AI trở thành độc quyền của một vài công ty có ngân sách lớn. Họ có thể mua độc quyền các bộ dữ liệu và cản trở sự đổi mới của những bên khác.
Ngoài ra, việc thu thập dữ liệu đôi khi không minh bạch. Một số công ty AI đã lấy dữ liệu từ các nguồn như video YouTube, bài đánh giá trên Google Maps mà không xin phép chủ sở hữu hoặc người tạo nội dung. Thậm chí, có công ty còn cân nhắc sử dụng nội dung được bảo vệ bản quyền để huấn luyện mô hình của mình.
Một vấn đề khác là việc sử dụng lao động giá rẻ ở các nước đang phát triển để gắn nhãn cho dữ liệu huấn luyện. Những người này được trả lương thấp và phải tiếp xúc với nội dung bạo lực trong thời gian dài mà không được hưởng các quyền lợi.
Các giao dịch dữ liệu thương mại cũng không hoàn toàn công bằng. OpenAI đã chi hàng trăm triệu USD để mua bản quyền nội dung, vượt xa ngân sách của hầu hết các nhóm nghiên cứu, tổ chức phi lợi nhuận và startup.
Với việc thị trường dữ liệu huấn luyện AI dự kiến tăng trưởng mạnh, các nền tảng dữ liệu đang thu phí cao hơn. Điều này gây thiệt hại cho cộng đồng nghiên cứu AI nói chung vì các nhóm nhỏ hơn không đủ khả năng chi trả.
Tuy nhiên, vẫn có một số nỗ lực độc lập nhằm tạo ra các bộ dữ liệu mở miễn phí cho tất cả mọi người. EleutherAI, một nhóm nghiên cứu phi lợi nhuận, đang hợp tác với Đại học Toronto và các tổ chức khác để xây dựng The Pile v2, một bộ chứa hàng tỷ đoạn văn bản.
Câu hỏi đặt ra là liệu các nỗ lực này có thể theo kịp các tập đoàn công nghệ lớn hay không. Nếu việc thu thập và kiểm tra dữ liệu vẫn phụ thuộc vào nguồn lực tài chính, thì câu trả lời có thể là không, ít nhất là cho đến khi có đột phá trong nghiên cứu giúp san bằng sân chơi.
Từ khoá:
Tin tài trợ
-
Tài trợKhám phá
AE-1600 lên kệ: Casio ra mắt đồng hồ bền bỉ, đa năng
Dòng đồng hồ Casio AE-1600, được công bố vào cuối năm 2024, hiện đã cho phép đặt hàng trước trên Amazon. Ngày phát hành chính thức là 1/2/2025. Bộ sưu tập bao gồm ba mẫu với các màu đen, be và xám, mỗi chiếc có giá 77,94 USD (khoảng 1,8 triệu VNĐ). Pin 10 năm, […] -
Tài trợMobile
Garmin Approach S44: Đồng hồ thông minh cho golfer, pin “trâu” 10 ngày
Garmin vừa ra mắt đồng hồ thông minh Approach S44 GPS dành cho golfer trên toàn cầu. Đồng hồ có màn hình AMOLED màu 1.2 inch, vòng bezel bằng nhôm màu bạc và dây đeo silicon màu đen hoặc xám xanh (Twilight). Tính năng “chuẩn golfer” Approach S44 được trang bị nhiều tính năng hỗ […] -
Tài trợData
Lenovo ra mắt ổ SSD “hình lựu đạn”, “cấm” mang lên máy bay?
Lenovo vừa giới thiệu một ổ SSD gắn ngoài có thiết kế “độc nhất vô nhị”: hình lựu đạn. Sản phẩm này được lấy cảm hứng từ bộ phim bom tấn “Chiến dịch Rồng” (hay còn gọi là “Chiến dịch Leviathan” hoặc “Chiến dịch Hadal”) của Trung Quốc. Tuy nhiên, với hình dạng “nhạy cảm” […] -
Tài trợMobile
Máy ảnh lấy liền 2 trong 1: Instax Wide Evo “gây sốt” với thiết kế “retro”
Fujifilm vừa bổ sung vào gia đình Instax một chiếc máy ảnh lấy liền “lai” mới, sử dụng phim Instax Wide. Instax Wide Evo nổi bật với ống kính siêu rộng 16mm “đầu tiên trên thế giới” và khả năng điều chỉnh thủ công với hơn 100 kiểu phim và hiệu ứng. “Lai” ở đây […]
Bài viết liên quan
OpenAI “ém hàng” Operator, công cụ AI với khả năng đáng kinh ngạc?
ChatGPT “chống lại” Google: Lãnh đạo sản phẩm làm chứng chống độc quyền
Cải tiến trải nghiệm AI: Google cấp phép tin tức AP cho Gemini
MiniMax vs. OpenAI: Cuộc chiến mới trong lĩnh vực AI?
GenEx: Công nghệ biến ảnh tĩnh thành thế giới ảo sống động
Máy tính lượng tử lớn nhất: AI giúp tối ưu hóa sắp xếp nguyên tử
Trợ lý ảo Mercedes-Benz được nâng cấp với AI đàm thoại của Google
Adobe “cách mạng hóa” chỉnh sửa ảnh với công cụ AI mới
Nvidia ủng hộ Trump, chỉ trích chính sách AI của Biden
Elon Musk: Dữ liệu tổng hợp là chìa khóa cho tương lai AI
OpenAI đưa ra “bản thiết kế” mới cho quy định AI
Ballie – Robot AI “vạn năng” của Samsung sắp ra mắt trong năm nay
Phụ đề AI ngoại tuyến: Cách mạng hóa trải nghiệm xem phim
Grok AI: Điều gì khiến trợ lý AI này trở nên đặc biệt?
Nvidia Digits: Siêu máy tính chỉ 3.000 USD, nhỏ gọn bất ngờ
Kính thông minh Halliday với màn hình và hệ thống điều khiển độc đáo
Gương thông minh “thần kỳ” đánh giá sức khỏe người dùng
Sansui sẽ “khuấy đảo” thị trường với TV OLED và màn hình chơi game AI mới?
Rò rỉ Galaxy S25: AI camera, AI trợ lý ảo, AI chỉnh sửa ảnh?
ĐĂNG KÝ NHẬN TIN
NGAY HÔM NAY
Đăng ký để nhận thông tin sớm nhất về những câu chuyện nóng hổi hiện nay trên thị trường, công nghệ được cung cấp hàng ngày.
Bằng cách nhấp vào “Đăng ký”, bạn chấp nhận Điều khoản dịch vụ và Chính sách quyền riêng tư của chúng tôi. Bạn có thể chọn không tham gia bất cứ lúc nào.
5
s
Nhận xét (0)