Các nhà nghiên cứu cho rằng dữ liệu là yếu tố then chốt để tạo ra các hệ thống AI thông minh và có khả năng hơn. Bài báo lấy ví dụ về hai mô hình tạo văn bản là Llama 3 của Meta và OLMo của Viện nghiên cứu Trí tuệ nhân tạo Allen (AI2) để minh họa. Mặc dù có cấu trúc gần giống nhau, Llama 3 được huấn luyện trên lượng dữ liệu lớn hơn nên hoạt động tốt hơn.

Nguồn ảnh: GettyImages
Tuy nhiên, chất lượng dữ liệu cũng quan trọng không kém số lượng. Các mô hình AI hoạt động dựa trên nguyên tắc “rác vào, rác ra” (garbage in, garbage out), vì vậy việc lọc và kiểm tra chất lượng dữ liệu là cần thiết.
Chạy đua dữ liệu có thể dẫn đến những vấn đề. Chuyên gia lo ngại việc tập trung vào dữ liệu lớn và chất lượng cao sẽ biến việc phát triển AI trở thành độc quyền của một vài công ty có ngân sách lớn. Họ có thể mua độc quyền các bộ dữ liệu và cản trở sự đổi mới của những bên khác.
Ngoài ra, việc thu thập dữ liệu đôi khi không minh bạch. Một số công ty AI đã lấy dữ liệu từ các nguồn như video YouTube, bài đánh giá trên Google Maps mà không xin phép chủ sở hữu hoặc người tạo nội dung. Thậm chí, có công ty còn cân nhắc sử dụng nội dung được bảo vệ bản quyền để huấn luyện mô hình của mình.
Một vấn đề khác là việc sử dụng lao động giá rẻ ở các nước đang phát triển để gắn nhãn cho dữ liệu huấn luyện. Những người này được trả lương thấp và phải tiếp xúc với nội dung bạo lực trong thời gian dài mà không được hưởng các quyền lợi.
Các giao dịch dữ liệu thương mại cũng không hoàn toàn công bằng. OpenAI đã chi hàng trăm triệu USD để mua bản quyền nội dung, vượt xa ngân sách của hầu hết các nhóm nghiên cứu, tổ chức phi lợi nhuận và startup.
Với việc thị trường dữ liệu huấn luyện AI dự kiến tăng trưởng mạnh, các nền tảng dữ liệu đang thu phí cao hơn. Điều này gây thiệt hại cho cộng đồng nghiên cứu AI nói chung vì các nhóm nhỏ hơn không đủ khả năng chi trả.
Tuy nhiên, vẫn có một số nỗ lực độc lập nhằm tạo ra các bộ dữ liệu mở miễn phí cho tất cả mọi người. EleutherAI, một nhóm nghiên cứu phi lợi nhuận, đang hợp tác với Đại học Toronto và các tổ chức khác để xây dựng The Pile v2, một bộ chứa hàng tỷ đoạn văn bản.
Câu hỏi đặt ra là liệu các nỗ lực này có thể theo kịp các tập đoàn công nghệ lớn hay không. Nếu việc thu thập và kiểm tra dữ liệu vẫn phụ thuộc vào nguồn lực tài chính, thì câu trả lời có thể là không, ít nhất là cho đến khi có đột phá trong nghiên cứu giúp san bằng sân chơi.
Từ khoá:
Bài viết liên quan
Người dùng Bluesky tranh luận về dữ liệu cá nhân và huấn luyện AI
Người dùng Bluesky tranh luận về dữ liệu cá nhân và huấn luyện AI
Người dùng ‘phù phép’ ảnh, xóa bỏ watermark bằng AI mới của Google
Người dùng ‘phù phép’ ảnh, xóa bỏ watermark bằng AI mới của Google
Google sẽ loại bỏ trợ lý ảo khỏi phần lớn điện thoại trong năm nay
Google sẽ loại bỏ trợ lý ảo khỏi phần lớn điện thoại trong năm nay
Notepad sắp được tích hợp tính năng tóm tắt bằng AI
Notepad sắp được tích hợp tính năng tóm tắt bằng AI
Dự án Kaito: AI phân tích dữ liệu crypto, “bão táp” sau airdrop
Dự án Kaito: AI phân tích dữ liệu crypto, “bão táp” sau airdrop
Google ra mắt Gemini tùy chỉnh: AI giờ đây ‘hiểu’ bạn hơn
Google ra mắt Gemini tùy chỉnh: AI giờ đây ‘hiểu’ bạn hơn
Sam Altman khoe khả năng viết của ChatGPT: AI có thể thay thế nhà văn hay chỉ là bản sao vô hồn?
Sam Altman khoe khả năng viết của ChatGPT: AI có thể thay thế nhà văn hay chỉ là bản sao vô hồn?
Teledyne FLIR ra mắt camera nhiệt phóng xạ: “Mắt thần” cho drone, AI và công nghiệp
Teledyne FLIR ra mắt camera nhiệt phóng xạ: “Mắt thần” cho drone, AI và công nghiệp
Manus AI ra mắt AI Agent “siêu năng lực”: Giải quyết vấn đề phức tạp, vượt trội chatbot thông thường
Manus AI ra mắt AI Agent “siêu năng lực”: Giải quyết vấn đề phức tạp, vượt trội chatbot thông thường
Meta thành công ‘tape-out’ chip AI đầu tiên, sử dụng công nghệ TSMC
Meta thành công ‘tape-out’ chip AI đầu tiên, sử dụng công nghệ TSMC
OpenAI ra mắt công cụ mới giúp doanh nghiệp tạo chatbot AI “thông minh” hơn
OpenAI ra mắt công cụ mới giúp doanh nghiệp tạo chatbot AI “thông minh” hơn
Google Gemini: Cuộc cách mạng AI tại nơi làm việc
Google Gemini: Cuộc cách mạng AI tại nơi làm việc
Tự động hóa lịch trình với nút AI mới của Google trong Gmail
Tự động hóa lịch trình với nút AI mới của Google trong Gmail
PlayStation: Sony đang phát triển nhân vật game thông minh AI
PlayStation: Sony đang phát triển nhân vật game thông minh AI
Sony mạnh tay gỡ bỏ hơn 75.000 bài hát deepfake AI
Sony mạnh tay gỡ bỏ hơn 75.000 bài hát deepfake AI
Mistral OCR: API nhận dạng ký tự quang học với độ chính xác “vượt trội”
Mistral OCR: API nhận dạng ký tự quang học với độ chính xác “vượt trội”
AI “phát điên” sau khi được tinh chỉnh bằng mã lỗi, đưa ra lời khuyên bạo lực và ủng hộ phát xít
AI “phát điên” sau khi được tinh chỉnh bằng mã lỗi, đưa ra lời khuyên bạo lực và ủng hộ phát xít
Maserati MC20 lập kỷ lục tốc độ mới với “tài xế robot” AI
Maserati MC20 lập kỷ lục tốc độ mới với “tài xế robot” AI
Google “mạnh tay” với tìm kiếm AI bất chấp lỗi “ảo giác”
Google “mạnh tay” với tìm kiếm AI bất chấp lỗi “ảo giác”

ĐĂNG KÝ NHẬN TIN
NGAY HÔM NAY
Đăng ký để nhận thông tin sớm nhất về những câu chuyện nóng hổi hiện nay trên thị trường, công nghệ được cung cấp hàng ngày.
Bằng cách nhấp vào “Đăng ký”, bạn chấp nhận Điều khoản dịch vụ và Chính sách quyền riêng tư của chúng tôi. Bạn có thể chọn không tham gia bất cứ lúc nào.
5
s
Nhận xét (0)