Bảo quản dữ liệu đầu ra nghiên cứu dưới dạng số cho lưu trữ lâu dài và truy cập bền vững theo thời gian: Rủi ro, thách thức, tiêu chuẩn và giải pháp
Vũ Sỹ Dũng
Công ty TED Engineering Documents JSC
Trong những năm gần đây vấn để bảo quản dữ liệu nghiên cứu dưới dạng số đang trở thành một mối quan tâm ngày càng tăng trong các cộng đồng khoa học quốc tế khi sự giao tiếp học thuật và cộng tác trong nghiên cứu khoa học có sự thay đổi lớn nhờ những phát triển vượt bậc của công nghệ thông tin và giao tiếp điện tử (ICT). Các nhà nghiên cứu ngày càng thấy được cơ hội và hiểu biết về sự sẵn có lâu dài, khả năng và lợi ích của việc sử dụng lại các dữ liệu nghiên cứu xuất bản dưới định dạng số, những lợi ích này đã được chỉ ra bởi nhiều báo cáo quốc tế (ví dụ, “Final Report of the High Level Expert Group on Scientific Data” 1 của Liên Minh châu Âu (EC)). Ở cấp độ quốc gia, nhiều hoạt động hỗ trợ và khích lệ triển khai các hệ thống quản lý và bảo quản dữ liệu nghiên cứu số đang diễn ra tại nhiều cơ quan quản lý dữ liệu nghiên cứu và khoa học lớn ở nhiều quốc gia trên thế giới, ví dụ Cơ Quan Quản lý Khoa học Quốc gia Mỹ (National Science Foundation- NSF), Cơ quan quản lý Nghiên cứu Đức (German Research Foundation), Dich vụ Dữ liệu Nghiên cứu Quốc gia Úc (Australian National Data Service – ANDS và Australian Research Data Common – ARDC).
Sự gia tăng của các dữ liệu nghiên cứu số theo cấp số mũ từ các hoạt động nghiên cứu khoa học trong môi trường giao tiếp, cộng tác và xuất bản điện tử (e-research/e-science) tại các viện nghiên cứu đang dần được tích hợp để trở thành nguồn tài nguyên thông tin cơ bản nhằm cung cấp khả năng cho các cách tiếp cận mới thông qua nối kết mạng máy tính và Internet, nhanh và thuận tiện bởi các nhà nghiên cứu từ các dự án nghiêncứu trong nhiều lĩnh vực cụ thể và liên ngành, vì một mong muốn đơn giản và chưa bao giờ thay đổi: các nhà nghiên cứu luôn có nhu cầu truy cập một nguồn dữ liệu nghiên cứu được tích hợp đầy đủ nhất nhằm xem xét và kiểm chứng các nhà nghiên cứu khác trước đó đã phát hiện được gì và tư duy thế nào; sử dụng và sử dụng lại những bằng chứng, luận cứ hay kết luận khoa học; và sau đó xuất bản các kết quả nghiên cứu riêng của họ dựa trên những tài nguyên thông tin nghiên cứu sẵn có này. Đó là lý do tại sao những nguồn dữ liệu nghiên cứu nhất thiết phải được bảo quản để đảm bảo tính xác thực, tin cậy, dễ dàng tìm thấy và truy xuất, dễ dàng sử dụng và sử dụng lại.2
Tuy nhiên, hiện các thư viện nghiên cứu ở Việt Nam đang đứng trước một thách thức trong việc thiết lập và duy trì một kho số tích hợp hay mô hình mạng bảo quản dữ liệu nghiên cứu theo tiêu chuẩn tin cậy nhằm theo dõi thường xuyên được sức khoẻ của tệp tin số, đồng thời bảo quản khả năng truy cập lâu dài với thời gian. Trên cơ sở xem xét việc bảo quản dữ liệu nghiên cứu khoa học dưới định dạng số, bài tham luận này nhằm thảo luận những rủi ro đối với việc lưu trữ tệp tin số, thách thức, tiêu chuẩn liên quan đến lưu trữ và bảo quản số cũng như chia sẻ mô hình giải pháp nhằm triển khai một mạng dữ liệu đầu ra nghiên cứu đảm bảo chất lượng: từ việc kết hợp đăng ký một mã số nhận dạng đối tượng số (DOI)3 quốc tế cho bài báo nghiên cứu, đến quy trình ký gửi, thu thập đối tượng số và siêu dữ liệu liên quan, phê duyệt tính hợp lệ, kết hợp lưu trữ thụ động và tác vụ bảo quản số chủ động cho truy cập số bền vững.
(1) Final Report of the High Level Expert Group on Scientific Data: http://cordis.europa.eu/fp7/ict/e-infrastructure/docs/hlg-sdi-report.pdf
(2) Paul N. Courant (2008) No brief candle, http://www.clir.org/pubs/reports/pub142/pub142.pdf
(3) Digital Object Identifier (DOI): http://www.doi.org/
Theo Hội thảo Hoạt động thông tin khoa học và công nghệ, Sầm Sơn 15-16/7/2014 của Trung tâm Thông tin – Tư liệu, Viện Hàn lâm KHCNVN.