Chuẩn hóa siêu dữ liệu với TCVN 7980:2024 - Tăng cường nền tảng cho quản lý thông tin số hiện đại

<p style="text-align: justify;">Bộ tiêu chuẩn TCVN 7980:2024 được ban hành nhằm thiết lập khuôn khổ thống nhất cho mô tả siêu dữ liệu tại Việt Nam, khắc phục tình trạng phân tán thông tin, tăng cường khả năng liên thông giữa các hệ thống và tạo nền tảng quan trọng cho quá trình chuyển đổi số quốc gia.</p>

Trong bối cảnh chuyển đổi số đang được triển khai sâu rộng trên nhiều lĩnh vực, lượng thông tin được tạo lập, xử lý và chia sẻ tại Việt Nam luôn tăng nhanh. Từ tài liệu hành chính, dữ liệu khoa học công nghệ, giáo trình số, kho dữ liệu mở đến hệ thống thư viện điện tử, các nguồn dữ liệu số ngày càng đa dạng và đòi hỏi phương thức quản lý khoa học, thống nhất. Việc chuẩn hóa siêu dữ liệu trở thành yêu cầu cấp thiết để bảo đảm hiệu quả quản lý, nâng cao tính sẵn sàng của dữ liệu và đáp ứng nhu cầu kết nối, chia sẻ thông tin trong môi trường số.

Tuy nhiên, thực tiễn cho thấy hoạt động mô tả và quản lý siêu dữ liệu tại nhiều cơ quan, đơn vị vẫn chưa đồng bộ. Các hệ thống thông tin thường sử dụng bộ trường mô tả riêng, không theo chuẩn thống nhất; ngay trong cùng một ngành, cách trình bày siêu dữ liệu giữa các đơn vị có thể khác nhau đáng kể. Điều này gây khó khăn khi tích hợp, chia sẻ hoặc khai thác dữ liệu liên thông. Nhiều cơ quan gặp vướng mắc về không tương thích cấu trúc siêu dữ liệu khi tích hợp hệ thống mới hoặc khi cần truy xuất dữ liệu từ đơn vị khác. Ngoài ra, nhiều hệ thống thư viện, lưu trữ số vẫn đang vận hành dựa trên mô hình mô tả cũ, chưa đáp ứng nhu cầu của môi trường trực tuyến hiện nay. Trong khi đó, trên thế giới, bộ siêu dữ liệu Dublin Core được sử dụng rộng rãi nhờ tính đơn giản, linh hoạt và khả năng đáp ứng đa dạng loại hình tài nguyên. 

Việc Việt Nam ban hành TCVN 7980-1:2024 và TCVN 7980-2:2024, tương đương với các tiêu chuẩn ISO 15836-1:2017 và ISO 15836-2:2019 thể hiện quyết tâm chuẩn hóa mô hình mô tả siêu dữ liệu trên phạm vi toàn quốc. Bộ tiêu chuẩn tạo nền tảng để xây dựng hệ thống thông tin thống nhất, tăng cường khả năng kết nối, liên thông dữ liệu và phù hợp với yêu cầu phát triển dữ liệu mở trong tương lai.

Bộ TCVN 7980 được xây dựng thành hai phần, với cấu trúc rõ ràng, định hướng áp dụng dễ dàng cho các tổ chức, cơ quan, trường học hay hệ thống thư viện - thông tin. 

Phần 1 của tiêu chuẩn xác định 15 yếu tố cốt lõi cần có trong mô tả siêu dữ liệu. Đây là những trường thông tin cơ bản đảm bảo khả năng nhận diện, phân loại và tìm kiếm tài nguyên. Các yếu tố như tiêu đề, định danh, tác giả, đơn vị xuất bản và người đóng góp được yêu cầu ghi đầy đủ, nhất quán nhằm phản ánh chính xác nguồn gốc và trách nhiệm đối với tài nguyên. Mô tả chủ đề, nội dung bằng từ khóa hoặc theo danh mục chủ đề thống nhất giúp tăng tính chính xác và hiệu quả tra cứu.

Chuẩn hóa siêu dữ liệu với TCVN 7980:2024 - Tăng cường nền tảng cho quản lý thông tin số hiện đại - Ảnh 1.

Bộ TCVN 7980 được xây dựng thành hai phần với cấu trúc rõ ràng, định hướng áp dụng dễ dàng cho các tổ chức, cơ quan, trường học hay hệ thống thư viện - thông tin (Ảnh minh họa).

Bên cạnh đó, các yếu tố phản ánh bối cảnh tạo lập tài nguyên, bao gồm ngày tạo lập, loại hình, định dạng được yêu cầu mô tả theo cách rõ ràng, thống nhất nhằm hỗ trợ người sử dụng hiểu đặc tính và phạm vi khai thác của tài nguyên. Yếu tố quan hệ giữa các tài nguyên, như bản dịch, phiên bản cập nhật hay tài liệu liên quan, được tiêu chuẩn hóa để hình thành chuỗi thông tin đầy đủ, hỗ trợ người dùng khám phá và khai thác dữ liệu với độ sâu cao hơn. Một yêu cầu quan trọng khác là mô tả quyền sử dụng, nhằm bảo đảm tuân thủ quy định pháp luật về quyền tác giả, bản quyền và quyền truy cập trong môi trường số.

Nếu như Phần 1 đưa ra khung mô tả cơ bản thì Phần 2 của TCVN 7980 mở rộng khả năng mô tả thông tin thông qua hệ thống thuộc tính và phân lớp chi tiết. 

Phần này quy định rõ ý nghĩa, phạm vi và cách sử dụng thuộc tính nhằm làm rõ bản chất từng yếu tố trong mô tả siêu dữ liệu. Các thuộc tính có thể bao gồm ngữ cảnh trình bày, nguồn gốc siêu dữ liệu, quan hệ phức tạp giữa các tài nguyên hay đặc điểm bổ sung phục vụ phân tích chuyên sâu. Việc phân lớp, như lớp mô tả người sáng tạo, sự kiện hoặc địa điểm, giúp hệ thống thông tin triển khai mô hình mô tả phù hợp với từng loại tài nguyên, đồng thời bảo đảm khả năng mở rộng khi cần thiết.

Một điểm đáng chú ý là tiêu chuẩn nhấn mạnh tính linh hoạt trong áp dụng. Các tổ chức không bắt buộc phải sử dụng toàn bộ thuộc tính, nhưng khi áp dụng phải ghi đúng tên gọi và đảm bảo ý nghĩa thống nhất. Đây là nguyên tắc quan trọng nhằm duy trì tính tương thích giữa các hệ thống khi trao đổi siêu dữ liệu. TCVN 7980 cũng đặt ra yêu cầu siêu dữ liệu phải có khả năng chuyển đổi mà không làm mất nội dung cốt lõi, bảo đảm tính đầy đủ và rõ ràng khi được sử dụng trong các hệ thống khác nhau.

Việc ban hành bộ tiêu chuẩn TCVN 7980:2024 là bước đi quan trọng nhằm chuẩn hóa hoạt động mô tả siêu dữ liệu trong nước. Áp dụng đầy đủ các yêu cầu của bộ tiêu chuẩn sẽ góp phần nâng cao hiệu quả quản lý thông tin, thúc đẩy xây dựng các hệ thống dữ liệu minh bạch, hiện đại, đáp ứng yêu cầu chuyển đổi số quốc gia. Đây cũng là cơ sở quan trọng để tăng cường chia sẻ, kết nối dữ liệu trên phạm vi rộng, hướng tới hình thành hạ tầng dữ liệu đồng bộ và bền vững, phục vụ phát triển kinh tế - xã hội.