Các nhà nghiên cứu cho rằng dữ liệu là yếu tố then chốt để tạo ra các hệ thống AI thông minh và có khả năng hơn. Bài báo lấy ví dụ về hai mô hình tạo văn bản là Llama 3 của Meta và OLMo của Viện nghiên cứu Trí tuệ nhân tạo Allen (AI2) để minh họa. Mặc dù có cấu trúc gần giống nhau, Llama 3 được huấn luyện trên lượng dữ liệu lớn hơn nên hoạt động tốt hơn.
Tuy nhiên, chất lượng dữ liệu cũng quan trọng không kém số lượng. Các mô hình AI hoạt động dựa trên nguyên tắc “rác vào, rác ra” (garbage in, garbage out), vì vậy việc lọc và kiểm tra chất lượng dữ liệu là cần thiết.
Chạy đua dữ liệu có thể dẫn đến những vấn đề. Chuyên gia lo ngại việc tập trung vào dữ liệu lớn và chất lượng cao sẽ biến việc phát triển AI trở thành độc quyền của một vài công ty có ngân sách lớn. Họ có thể mua độc quyền các bộ dữ liệu và cản trở sự đổi mới của những bên khác.
Ngoài ra, việc thu thập dữ liệu đôi khi không minh bạch. Một số công ty AI đã lấy dữ liệu từ các nguồn như video YouTube, bài đánh giá trên Google Maps mà không xin phép chủ sở hữu hoặc người tạo nội dung. Thậm chí, có công ty còn cân nhắc sử dụng nội dung được bảo vệ bản quyền để huấn luyện mô hình của mình.
Một vấn đề khác là việc sử dụng lao động giá rẻ ở các nước đang phát triển để gắn nhãn cho dữ liệu huấn luyện. Những người này được trả lương thấp và phải tiếp xúc với nội dung bạo lực trong thời gian dài mà không được hưởng các quyền lợi.
Các giao dịch dữ liệu thương mại cũng không hoàn toàn công bằng. OpenAI đã chi hàng trăm triệu USD để mua bản quyền nội dung, vượt xa ngân sách của hầu hết các nhóm nghiên cứu, tổ chức phi lợi nhuận và startup.
Với việc thị trường dữ liệu huấn luyện AI dự kiến tăng trưởng mạnh, các nền tảng dữ liệu đang thu phí cao hơn. Điều này gây thiệt hại cho cộng đồng nghiên cứu AI nói chung vì các nhóm nhỏ hơn không đủ khả năng chi trả.
Tuy nhiên, vẫn có một số nỗ lực độc lập nhằm tạo ra các bộ dữ liệu mở miễn phí cho tất cả mọi người. EleutherAI, một nhóm nghiên cứu phi lợi nhuận, đang hợp tác với Đại học Toronto và các tổ chức khác để xây dựng The Pile v2, một bộ chứa hàng tỷ đoạn văn bản.
Câu hỏi đặt ra là liệu các nỗ lực này có thể theo kịp các tập đoàn công nghệ lớn hay không. Nếu việc thu thập và kiểm tra dữ liệu vẫn phụ thuộc vào nguồn lực tài chính, thì câu trả lời có thể là không, ít nhất là cho đến khi có đột phá trong nghiên cứu giúp san bằng sân chơi.
Từ khoá:
Tin tài trợ
-
Tài trợQuảng cáo
Noise ra mắt Power Series với sạc GaN hiện đại
Noise vừa chính thức bước vào thị trường phụ kiện cao cấp với dòng sản phẩm Power Series. Các sản phẩm mới trong bộ sưu tập này bao gồm bộ sạc GaN (Gallium Nitride) và cáp từ tính Type-C to C, được thiết kế dành riêng cho người dùng yêu cầu cao về hiệu suất, […] -
Tài trợQuảng cáo
Khám phá HiBy R1: Máy nghe nhạc bỏ túi với âm thanh cao cấp
Mix Wave vừa giới thiệu mẫu máy nghe nhạc kỹ thuật số HiBy R1, một sản phẩm hướng đến những người yêu thích âm nhạc chất lượng cao. Với thiết kế nhỏ gọn và nhiều màu sắc trẻ trung, HiBy R1 không chỉ là thiết bị phát nhạc mà còn là một phụ kiện phong […] -
Tài trợQuảng cáo
Loa Xiaomi Mini: Đổi mới với phiên bản đỏ rượu vang đầy cuốn hút
Xiaomi vừa giới thiệu phiên bản mới cho dòng loa Bluetooth Speaker Mini với sự bổ sung màu sắc đặc biệt đỏ rượu vang (burgundy red). Đây là dòng sản phẩm nổi bật nhờ thiết kế nhỏ gọn, khả năng chống chịu thời tiết khắc nghiệt, thời lượng pin dài và âm thanh ổn định. […] -
Tài trợQuảng cáo
Petbrick 65: Khi bàn phím cơ biến thành thú cưng của bạn
Angry Miao, hãng sản xuất bàn phím nổi tiếng với thiết kế sáng tạo, tiếp tục gây chú ý khi ra mắt sản phẩm mới mang tên Petbrick 65. Đây là bàn phím cơ có vỏ ngoài lông xù, mang đến cảm giác có thể vuốt ve như một chú mèo. Thiết kế lấy cảm […]
Bài viết liên quan
NUC 14 Pro AI của ASUS: Sức mạnh AI trong một chiếc mini PC
OpenAI “khuấy đảo” giới công nghệ với mô hình o3 mới
Huấn luyện robot nhanh gấp 430,000 lần với Genesis
Google Gemini Deep Research: Tìm kiếm thông tin dễ dàng và nhanh chóng hơn bao giờ hết
Trường học không giáo viên: Khi AI thay đổi cách chúng ta học tập
Android 16 cho phép người dùng kiểm soát nội dung do AI tạo ra
Gmail tăng cường bảo mật với AI để chặn thư rác hiệu quả hơn
Apple và Nvidia ‘bắt tay’ tạo ra bước đột phá trong AI
Google Gemini: Đánh giá AI có chính xác khi thiếu chuyên môn?
Khi trí tuệ nhân tạo học cách “đóng kịch” để sinh tồn
ChatGPT giờ đây có thể gọi điện và nhắn tin qua WhatsApp
Mondelez sử dụng AI để phát triển snack mới nhanh hơn
AI tham gia vào quá trình sản xuất bánh Oreo, hứa hẹn nhiều điều thú vị
Người dùng Google được trải nghiệm Gemini 2.0 Experimental Advanced
Insta360 Connect: Tối ưu họp trực tuyến với camera 4K và AI
o1 của OpenAI: Mở ra kỷ nguyên mới cho phát triển ứng dụng AI?
Kính thông minh Meta “lột xác” với AI và Shazam, nhận diện bài hát tức thì
Romi Lacatan: Robot AI hỗ trợ giao tiếp, giúp đỡ người cô đơn
Whisk: Công cụ AI mới của Google sử dụng hình ảnh làm gợi ý, thay vì văn bản
ĐĂNG KÝ NHẬN TIN
NGAY HÔM NAY
Đăng ký để nhận thông tin sớm nhất về những câu chuyện nóng hổi hiện nay trên thị trường, công nghệ được cung cấp hàng ngày.
Bằng cách nhấp vào “Đăng ký”, bạn chấp nhận Điều khoản dịch vụ và Chính sách quyền riêng tư của chúng tôi. Bạn có thể chọn không tham gia bất cứ lúc nào.
5
s
Nhận xét (0)