Thiếu dữ liệu do con người tạo ra sẽ hạn chế tiến trình phát triển AI

Q Quỳnh Anh

11:18, 27/07/2024

Chọn cỡ chữ

Việc sử dụng những dữ liệu tổng hợp do máy tính tạo ra để đào tạo các mô hình trí tuệ nhân tạo (AI) có nguy cơ đi đến những kết quả vô nghĩa…

Dữ liệu đầu vào đang trở thành thách thức với các công ty AI bởi chúng tiềm ẩn rủi ro tạo ra những thông tin sai lệch - Ảnh minh họa.

Một nghiên cứu mới từ Đại học Oxford đã nhấn mạnh những thách thức sắp xảy ra đối với các công nghệ mới nổi, đáng chú ý việc sử dụng dữ liệu do máy tính tạo ra để đào tạo các mô hình trí tuệ nhân tạo (AI) có nguy cơ khiến chúng tạo ra những kết quả vô nghĩa.

Các công ty AI hàng đầu bao gồm OpenAI và Microsoft đã thử nghiệm việc sử dụng dữ liệu tổng hợp - những thông tin do hệ thống AI tạo ra để sau đó đào tạo các mô hình ngôn ngữ lớn (LLM) khi những dữ liệu do con người tạo ra ngày một cạn kiệt.

Nghiên cứu được công bố trên tạp chí Nature ngày 24/7 cho thấy việc sử dụng dữ liệu như vậy có thể dẫn đến sự xuống cấp nhanh chóng của các mô hình AI. Một thử nghiệm sử dụng văn bản đầu vào về kiến trúc thời Trung cổ đã dẫn đến những thông tin về thỏ rừng sau chưa đầy 10 thế hệ đầu ra.

Bằng chứng này đã nhấn mạnh lý do vì sao các nhà phát triển AI lại vội vã mua rất nhiều những dữ liệu do con người tạo ra để đào tạo, đồng thời đặt ra câu hỏi rằng điều gì sẽ xảy ra khi những nguồn hữu hạn này cạn kiệt.

Ilia Shumailov, tác giả chính của nghiên cứu cho biết: “Dữ liệu tổng hợp thật tuyệt vời nếu chúng tôi có thể làm cho nó hoạt động được. Tuy nhiên điều chúng tôi đang nói là dữ liệu tổng hợp hiện tại có thể sai ở một số khía cạnh. Điều đáng ngạc nhiên nhất là chuyện này diễn ra nhanh đến mức nào".

Nghiên cứu tìm hiểu ra xu hướng sụp đổ của các mô hình AI theo thời gian do sự tích tụ và những sai lệch không thể tránh khỏi từ các thế hệ đào tạo kế tiếp. Tốc độ suy giảm có liên quan đến mức độ nghiêm trọng của những thiếu sót trong thiết kế mô hình, quá trình học tập và chất lượng dữ liệu được sử dụng. Các giai đoạn đầu của sự sụp đổ thường liên quan đến việc sai lệch từ những thông tin nhỏ, thiểu số và dần dần dẫn đến sai lệch trong đa số thông tin. Trong giai đoạn cuối của sự sụp đổ, tất cả các phần của dữ liệu có thể trở nên vô nghĩa.

Shumailov, người thực hiện công việc tại trường đại học Oxford cùng các đồng nghiệp từ Cambridge, Imperial College London, Edinburgh, cho biết: “Các mô hình mất đi tính hữu ích vì chúng tràn ngập tất cả các lỗi và quan niệm sai lầm do các thế hệ thông tin trước đưa ra".

Các nhà nghiên cứu nhận thấy vấn đề thường trở nên trầm trọng hơn do sử dụng dữ liệu tổng hợp được đào tạo dựa trên thông tin do các thế hệ trước tạo ra. Hầu như tất cả các mô hình ngôn ngữ được đào tạo mà họ kiểm tra đều bắt đầu tạo ra các cụm từ lặp lại.

Trong trường hợp thỏ rừng nêu trên, văn bản đầu vào đầu tiên khảo sát việc xây dựng tháp nhà thờ ở Anh trong thế kỷ 14 và 15. Ở giai đoạn đào tạo thứ nhất, đầu ra cung cấp thông tin về các vương cung thánh đường ở Rome và Buenos Aires. Thế hệ thứ năm chuyển sang dịch ngôn ngữ, trong khi thế hệ thứ chín liệt kê các loài thuộc họ Lagomorph với các màu đuôi khác nhau.

Một ví dụ khác là cách một mô hình AI được đào tạo dựa trên thông tin đầu ra của chính nó để xử lý một tập dữ liệu về hình ảnh giống chó, theo một bài viết trên tạp chí Nature của Emily Wenger thuộc Đại học Duke ở Mỹ.

Ban đầu, những loại phổ biến như chó tha mồi vàng sẽ chiếm ưu thế trong khi những giống ít phổ biến hơn như chó đốm biến mất. Cuối cùng, hình ảnh của những chú chó tha mồi vàng sẽ trở thành một mớ hỗn độn về mặt giải phẫu, với các bộ phận cơ thể ở sai vị trí.

Wenger cho biết, việc giảm thiểu vấn đề cho đến nay không hề đơn giản. Một kỹ thuật đã được các công ty công nghệ hàng đầu triển khai là nhúng hình mờ gắn cờ nội dung do AI tạo ra để loại trừ khỏi tập dữ liệu đào tạo. Khó khăn là điều này đòi hỏi sự phối hợp giữa các công ty công nghệ có thể không thực tế hoặc không khả thi về mặt thương mại.

Đọc bài theo từ khoá

Chủ đề

Phát triển kinh tế dữ liệu

“Chúng ta chưa thể biến dữ liệu thành dòng chảy giá trị kinh tế”

Đảm bảo 3 giá trị cốt lõi trong thị trường giao dịch dữ liệu

Đông Nam Bộ đối mặt áp lực hạ tầng năng lượng cho làn sóng trung tâm dữ liệu và AI

Xem thêm

Mới nhất trên VnEconomy

Du lịch 14:33, 14/06/2026

Tuần lễ Âm nhạc Quốc tế Huế khai màn ấn tượng, hút khách du lịch

Đọc ngay

Dân sinh 14:32, 14/06/2026

Người Việt Nam ở nước ngoài vẫn được tham gia bảo hiểm xã hội tự nguyện

Đọc ngay

Dân sinh 10:34, 14/06/2026

Đà Nẵng: Người dân cần thận trọng với đất "giá rẻ", "sắp ra sổ"

Đọc ngay

Tiêu & Dùng 10:34, 14/06/2026

Đà Nẵng tận dụng dữ liệu số, mở thêm dư địa tăng trưởng từ khách Nga và CIS

Đọc ngay

Đọc tiếp

2 ngày xác thực thuê bao để không bị khoá SIM

Các nhà mạng khuyến nghị người dùng dành vài phút kiểm tra điện thoại của ông bà, cha mẹ và những người lớn tuổi trong gia đình để hỗ trợ xác thực thuê bao trước ngày 15/6...

Đề xuất mục tiêu đưa AI đóng góp khoảng 6% GDP

Mục tiêu này được nêu trong Dự thảo Quyết định của Thủ tướng Chính phủ về Chiến lược quốc gia về trí tuệ nhân tạo đến năm 2030, tầm nhìn đến năm 2045, vừa được Bộ Khoa học và Công nghệ đưa ra lấy ý kiến...

Kiện toàn Ban Chỉ đạo quốc gia phát triển ngành công nghiệp bán dẫn

Ban Chỉ đạo giúp Thủ tướng Chính phủ nghiên cứu, chỉ đạo giải quyết những công việc quan trọng, liên ngành liên quan đến thúc đẩy phát triển ngành công nghiệp bán dẫn…

Ông chủ TSMC “trăn trở” vì ngành bán dẫn Đài Loan thiếu nhân tài

Đài Loan đang thúc đẩy các chính sách thu hút nhân lực quốc tế, đặc biệt trong lĩnh vực công nghệ cao, bằng cách nới lỏng các quy định về cấp phép lao động cho chuyên gia nước ngoài...

EU mạnh tay với biến tần Trung Quốc: Lưới điện an toàn hơn, hóa đơn điện cao hơn?

Brussels đang tiến hành cấm sử dụng nguồn tài trợ của Liên minh châu Âu (EU) cho các dự án năng lượng sạch có sử dụng biến tần (inverter) cho điện mặt trời và hệ thống lưu trữ pin đến từ các “quốc gia có rủi ro cao”, mà chủ yếu là Trung Quốc. Theo đó, các nhà phát triển dự án sẽ phải chuyển sang sử dụng các giải pháp thay thế từ châu Âu, nhưng điều này có thể khiến hóa đơn năng lượng và chi phí sản xuất tại châu Âu tăng lên.

Xem thêm

Sản phẩm - Thị trường Tài sản số Dịch vụ số Start-up Quản trị số

Đừng bỏ lỡ

Kinh tế số

TP. Hồ Chí Minh đang có điều kiện thuận lợi để phát triển hệ sinh thái UAV

Đọc ngay

Kinh tế số

TP. Hồ Chí Minh đang có điều kiện thuận lợi để phát triển hệ sinh thái UAV

Đọc ngay

Kinh tế số

Chất lượng 5G toàn quốc giảm, tốc độ mạng của MobiFone "ngược dòng" tăng nhẹ

Đọc ngay

Kinh tế số

TP. Hồ Chí Minh cấp giấy chứng nhận doanh nghiệp công nghệ cao theo cơ chế phân cấp mới

Đọc ngay

Kinh tế số

Công nghệ UAV, động lực mới cho phát triển kinh tế tầm thấp tại Đà Nẵng

Đọc ngay

Kinh tế số

Gần 3 triệu thuê bao VinaPhone vẫn chưa hoàn tất xác thực thông tin

Đọc ngay

[Interactive]: Toàn cảnh kinh tế Việt Nam tháng 5/2026

Bức tranh kinh tế của Việt Nam trong tháng 5 và 5 tháng đầu năm 2026 ghi nhận nhiều chỉ số tăng trưởng tích cực. Điển hình như chỉ số sản xuất công nghiệp (IIP) tháng 5 tăng 8,8% so với cùng kỳ; tổng mức bán lẻ hàng hóa và doanh thu dịch vụ tiêu dùng tăng 11,8%....

Kỳ thi tốt nghiệp THPT năm 2026 diễn ra trong hai ngày 11 và 12/6.

[Phóng sự ảnh] 222 điểm thi Hà Nội bước vào kỳ thi tốt nghiệp THPT 2026

Gỡ “điểm nghẽn” về dữ liệu và hạ tầng nền tảng, tạo động lực tăng trưởng hai con số

Chuyển đổi xanh của SMEs: Từ áp lực đến hợp lực cùng đối tác

Chuyển đổi xanh đang trở thành yêu cầu tất yếu nhưng cũng là thách thức lớn đối với doanh nghiệp vừa và nhỏ Việt Nam khi tham gia chuỗi cung ứng bán lẻ hiện đại. Để phát triển bền vững, các doanh nghiệp vừa và nhỏ cần được tích hợp vào toàn bộ chuỗi giá trị.

Phỏng vấn ông Bùi Quang Hưng- Phó Cục Trưởng Cục Xúc tiến Thương mại- Bộ Công Thương Việt Nam.

Chọn cỡ chữ

Việc sử dụng những dữ liệu tổng hợp do máy tính tạo ra để đào tạo các mô hình trí tuệ nhân tạo (AI) có nguy cơ đi đến những kết quả vô nghĩa…

Đọc bài theo từ khoá

Chủ đề

Vietnam Economic Times

Tạp chí Kinh tế Việt Nam

Askonomy