Bộ Khoa học và Công nghệ MINISTRY OF SCIENCE AND TECHNOLOGY

Phát triển dữ liệu mã nguồn mở cho AI Việt Nam

<p style="text-align: justify;"><b>Chiều ngày 5/8, Trung tâm Đổi mới sáng tạo Quốc gia- NIC (Bộ Tài chính) tổ chức cuộc họp tham vấn chuyên gia triển khai Dự án xây dựng bộ dữ liệu tiếng Việt mã nguồn mở phục vụ nghiên cứu, phát triển và ứng dụng trí tuệ nhân tạo (AI).</b></p>

Thực hiện Nghị quyết 57-NQ/TW ngày 22/12/2024 của Bộ Chính trị về đột phá phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số, Bộ Tài chính đã có công văn số 8343/BTC-KHTC ngày 13/6/2025 về việc công bố danh mục các bài toán lớn về khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số của Bộ Tài chính năm 2025.

Theo đó, NIC được giao chủ trì, giải quyết bài toán lớn về Xây dựng bộ dữ liệu tiếng Việt mã nguồn mở phục vụ nghiên cứu, phát triển và ứng dụng AI (ViGen). Dự án ViGen được triển khai nhằm hỗ trợ việc phát triển Mô hình ngôn ngữ lớn tiếng Việt trong Danh mục công nghệ chiến lược và sản phẩm công nghệ chiến lược quốc gia đến năm 2030 theo Quyết định số 1131/QĐ-TTg ngày 12/6/2025 của Thủ tướng Chính phủ.

Trong thời gian qua, NIC đã phối hợp với Tập đoàn Meta, Tổ chức AI for Vietnam và các đối tác liên quan triển khai Dự án ViGen trong khuôn khổ Chương trình Thách thức Đổi mới sáng tạo Việt Nam 2025.

Cuộc họp tham vấn chuyên gia triển khai Dự án ViGen có sự tham gia của nhiều tổ chức hàng đầu có liên quan đến lĩnh vực này. Có thể kể đến các đơn vị như: Viện Công nghệ thông tin thuộc Viện Hàn lâm Khoa học và Công nghệ Việt Nam, Đại học Bách khoa Hà Nội, đại diện các doanh nghiệp trong và ngoài nước như: NVIDIA, Viettel AI, Misa, Genetica...

Trong bối cảnh hiện nay, AI không chỉ là một xu hướng công nghệ mà đã trở thành một trụ cột, động lực then chốt cho sự phát triển kinh tế - xã hội, nâng cao năng lực cạnh tranh quốc gia. Tuy nhiên, AI - đặc biệt là các mô hình ngôn ngữ lớn - sẽ không thể phát triển mạnh nếu thiếu đi các bộ dữ liệu chất lượng cao, đa dạng và mang tính đại diện.

Theo lãnh đạo NIC, đây không chỉ là một dự án tập hợp dữ liệu đơn thuần. Quan trọng hơn, đây là một nguồn tài nguyên chiến lược, phản ánh đầy đủ bản sắc tiếng Việt; từ cách diễn đạt tự nhiên đến các giá trị văn hóa sâu sắc.

Với ViGen, có thể kỳ vọng những bước đột phá tiếp theo; từ các chatbot giao tiếp mượt mà bằng tiếng Việt, các hệ thống dịch thuật chính xác, đến các giải pháp AI hỗ trợ giáo dục, y tế, an ninh... Vai trò của ViGen không chỉ nằm ở việc nâng cao hiệu suất của AI, mà còn ở khả năng đưa công nghệ này đến gần hơn với cuộc sống của người dân Việt Nam.

Bộ dữ liệu ViGen sẽ đóng vai trò như "nguyên liệu đầu vào" thiết yếu cho hệ sinh thái AI của Việt Nam phát triển vững mạnh, mở rộng không gian đổi mới sáng tạo và ứng dụng AI trong thực tiễn. Đây cũng sẽ là chìa khóa mở ra vô vàn cơ hội cho sự phát triển của các giải pháp AI "make in Việt Nam", từ đó nâng cao chất lượng cuộc sống và giải quyết những thách thức lớn về kinh tế - xã hội.

"Việc xây dựng hạ tầng dữ liệu tiếng Việt mã nguồn mở là một bước đi chiến lược và tạo nền tảng cho sự phát triển của hệ sinh thái AI nội địa. Điều này không chỉ giúp tăng năng lực cạnh tranh cho các tổ chức nghiên cứu, doanh nghiệp trong nước mà còn rất phù hợp với chủ trương, chính sách và quy định pháp luật về dữ liệu mở của Việt Nam", ông Vũ Quốc Huy nhấn mạnh.

Hiện nay, Dự án ViGen đã vào giai đoạn thiết lập cơ sở hạ tầng thu thập dữ liệu. Bao gồm việc định hình các tiêu chuẩn dữ liệu và xây dựng các nền tảng kỹ thuật, nhằm đảm bảo chất lượng, an toàn thông tin và quy mô của bộ dữ liệu tiếng Việt với mục tiêu tổng hợp dữ liệu của các đối tác liên quan. Dự kiến sẽ công bố phiên bản đầu tiên của bộ dữ liệu vào tháng 10/2025.

Tại cuộc họp tham vấn, Giám đốc NIC cũng kêu gọi sự chung tay của các chuyên gia, nhà khoa học, doanh nghiệp và các tổ chức để cùng tiếp tục đóng góp các ý kiến chuyên môn và nguồn lực đưa ViGen trở thành một tài sản chung, phục vụ cộng đồng và đưa Việt Nam tiến xa hơn trong lĩnh vực AI trên phạm vi toàn cầu.