Các nhà nghiên cứu cho rằng dữ liệu là yếu tố then chốt để tạo ra các hệ thống AI thông minh và có khả năng hơn. Bài báo lấy ví dụ về hai mô hình tạo văn bản là Llama 3 của Meta và OLMo của Viện nghiên cứu Trí tuệ nhân tạo Allen (AI2) để minh họa. Mặc dù có cấu trúc gần giống nhau, Llama 3 được huấn luyện trên lượng dữ liệu lớn hơn nên hoạt động tốt hơn.
Tuy nhiên, chất lượng dữ liệu cũng quan trọng không kém số lượng. Các mô hình AI hoạt động dựa trên nguyên tắc “rác vào, rác ra” (garbage in, garbage out), vì vậy việc lọc và kiểm tra chất lượng dữ liệu là cần thiết.
Chạy đua dữ liệu có thể dẫn đến những vấn đề. Chuyên gia lo ngại việc tập trung vào dữ liệu lớn và chất lượng cao sẽ biến việc phát triển AI trở thành độc quyền của một vài công ty có ngân sách lớn. Họ có thể mua độc quyền các bộ dữ liệu và cản trở sự đổi mới của những bên khác.
Ngoài ra, việc thu thập dữ liệu đôi khi không minh bạch. Một số công ty AI đã lấy dữ liệu từ các nguồn như video YouTube, bài đánh giá trên Google Maps mà không xin phép chủ sở hữu hoặc người tạo nội dung. Thậm chí, có công ty còn cân nhắc sử dụng nội dung được bảo vệ bản quyền để huấn luyện mô hình của mình.
Một vấn đề khác là việc sử dụng lao động giá rẻ ở các nước đang phát triển để gắn nhãn cho dữ liệu huấn luyện. Những người này được trả lương thấp và phải tiếp xúc với nội dung bạo lực trong thời gian dài mà không được hưởng các quyền lợi.
Các giao dịch dữ liệu thương mại cũng không hoàn toàn công bằng. OpenAI đã chi hàng trăm triệu USD để mua bản quyền nội dung, vượt xa ngân sách của hầu hết các nhóm nghiên cứu, tổ chức phi lợi nhuận và startup.
Với việc thị trường dữ liệu huấn luyện AI dự kiến tăng trưởng mạnh, các nền tảng dữ liệu đang thu phí cao hơn. Điều này gây thiệt hại cho cộng đồng nghiên cứu AI nói chung vì các nhóm nhỏ hơn không đủ khả năng chi trả.
Tuy nhiên, vẫn có một số nỗ lực độc lập nhằm tạo ra các bộ dữ liệu mở miễn phí cho tất cả mọi người. EleutherAI, một nhóm nghiên cứu phi lợi nhuận, đang hợp tác với Đại học Toronto và các tổ chức khác để xây dựng The Pile v2, một bộ chứa hàng tỷ đoạn văn bản.
Câu hỏi đặt ra là liệu các nỗ lực này có thể theo kịp các tập đoàn công nghệ lớn hay không. Nếu việc thu thập và kiểm tra dữ liệu vẫn phụ thuộc vào nguồn lực tài chính, thì câu trả lời có thể là không, ít nhất là cho đến khi có đột phá trong nghiên cứu giúp san bằng sân chơi.
Từ khoá:
Tin tài trợ
-
Tài trợMobile
Rò rỉ Galaxy S25 Ultra: Thiết kế cạnh viền bo tròn giống iPhone
Samsung Galaxy S24 Ultra sở hữu vẻ ngoài rất đặc biệt với các góc vuông và cạnh bo tròn, nhưng những rò rỉ cho thấy thế hệ tiếp theo có thể sẽ có thiết kế tiêu chuẩn hơn. Hình ảnh được cho là của Galaxy S25 Ultra hoặc có thể là “Galaxy S25 Note” hiện […] -
Tài trợAI
Edifier X3 Pro: Tai nghe giá tốt, ANC và kháng khuẩn
Mới đây, Edifier đã chính thức ra mắt mẫu tai nghe TWS mới nhất của hãng – Edifier X3 Pro tại thị trường Trung Quốc, với mức giá chỉ 149 NDT (khoảng 530.000 VNĐ). Ở một mức giá phải chăng, tai nghe này lại sở hữu những tính năng hiện đại không thua kém các […]
Bài viết liên quan
Edifier X3 Pro: Tai nghe giá tốt, ANC và kháng khuẩn
Suno v4 cải tiến giọng hát AI, mở rộng sáng tạo âm nhạc
ChatGPT-4o: Nhanh hơn, sâu hơn, sáng tạo hơn
LLMs sẽ nâng cấp Siri lên một tầm cao mới
Tülu 3: Ai2 mở ra trò chơi AI mới cho mọi người
YouTube nâng tầm Shorts với AI
Giáo sư Stanford bị tố dùng AI viết lời khai trong vụ kiện Deepfake
Robot đang xâm chiếm ngành dịch vụ Las Vegas?
Samsung ra mắt Gauss2: AI mạnh mẽ hơn
Mua sắm dễ dàng hơn với Google Lens
Coca-Cola bị chê bai vì quảng cáo Giáng sinh bằng AI
Lighthouse nhận được 370 triệu USD đầu tư, trở thành “ngôi sao sáng” trong lĩnh vực phân tích dữ liệu cho ngành khách sạn
Tin vui cho cộng đồng yêu sách: Microsoft và HarperCollins hợp tác để tạo ra những trợ lý ảo thông minh hơn
16 triệu USD đổ vào OneCell Diagnostics để phát triển AI chống ung thư tái phát
Dữ liệu y tế và AI: Rủi ro bảo mật cần cân nhắc
AI mới trong Microsoft 365: Tự động hóa công việc hiệu quả
Microsoft kết hợp với Meta, đưa Windows 11 vào thực tế ảo
Siri tích hợp ChatGPT: Bước tiến mới của Apple
5 bí quyết sử dụng ChatGPT hiệu quả từ người sáng lập OpenAI
ĐĂNG KÝ NHẬN TIN
NGAY HÔM NAY
Đăng ký để nhận thông tin sớm nhất về những câu chuyện nóng hổi hiện nay trên thị trường, công nghệ được cung cấp hàng ngày.
Bằng cách nhấp vào “Đăng ký”, bạn chấp nhận Điều khoản dịch vụ và Chính sách quyền riêng tư của chúng tôi. Bạn có thể chọn không tham gia bất cứ lúc nào.
5
s
Nhận xét (0)