Yếu tố chính để xác định, sử dụng và bảo quản nội dung số đó là khả năng siêu dữ liệu của nó, hay nói cách khác đó là một dữ liệu được cấu trúc về các đối tượng và bộ sưu tập số. Đã có nhiều nỗ lực số hóa không thành công do chưa có đủ một cấu trúc siêu dữ liệu đầy đủ. Có ba loại siêu dữ liệu, và tất cả các loại siêu dữ liệu này đều cần thiết để đảm bảo khả năng sử dụng và bảo quản các bộ sưu tập số theo thời gian. |
1. Siêu dữ liệu mô tả (Descriptive Metadata)
Siêu dữ liệu dạng này cung cấp thông tin mà, (a) cho phép phát hiện các bộ sưu tập hoặc đối tượng số thông qua sử dụng công cụ tìm kiếm, và (b) cung cấp một ngữ cảnh nhằm giúp người dùng hiểu được thông tin gì đang tìm kiếm.
Khi một bộ sưu tập số trở lên ngày càng lớn, hoặc khi người dùng tìm kiếm trên nhiều bộ sưu tập cùng một lúc (như tìm kiếm qua Internet), thì việc phát hiện ra một đối tượng số quan tâm trở thành một bài tập “tìm kiếm một mũi kim trong đống rơm”. Vậy, nếu không có những tiêu chuẩn siêu dữ liệu thống nhất và các nguyên tắc thu thập và lưu trữ siêu dữ liệu mô tả, thì tất cả các bộ sưu tập số, cho dù là nhỏ nhất cũng trở lên vô dụng.
Siêu dữ liệu cho mỗi đối tượng số cụ thể sẽ khác nhau tuỳ thuộc vào đối tượng số đó, nhưng thường bao gồm những phần tử thông tin như nhan đề hay tiêu đề – nó là cái gì, ai tạo ra nó, người cộng tác là ai (Contributors), ngôn ngữ, nó được tạo ra khi nào, vị trí của nó ở đâu, chủ đề, vv … Ở cấp độ của bộ sưu tập, người dùng thường có thể quyết định phạm vi, sự sở hữu, những hạn chế truy cập, và nhiều đặc tính quan trọng khác nhằm giúp người dùng hiểu được bộ sưu tập số đó.
Một tiêu chuẩn siêu dữ liệu mô tả nổi tiếng cho thư viện đó là biên mục có thể đọc máy – MARC (MAchine-Readable Catalog) đã được sử dụng cho biên mục sách và nhiều ấn phẩm khác, và MARC đã đáp ứng tốt cho công tác biên mục điện tử của một thư viện truyền thống, song tiêu chuẩn này không được thiết kế để mô tả hình ảnh, tệp tin âm thanh, cũng như nhiều dạng và phương tiện lưu trữ mới khác.
Một tiêu chuẩn siêu dữ liệu mô tả quan trọng đang nổi lên cho mô tả hình ảnh và nhiều đối tượng đa phương tiện khác là Dublin Core, đó là một nhóm 15 phần tử thông tin được phát triển để dễ dàng hiểu và sử dụng.
Tiêu chuẩn Dublin Core được thiết kế sao cho nó cung cấp một cơ chế được chấp nhận rất rộng rãi để cho phép phát hiện thông tin, song có lựa chọn cho phép nhiều cộng đồng sử dụng khác nhau dễ dàng thích nghi và tùy biến nó bằng việc đưa thêm vào các trường thông tin có giá trị cho cộng đồng sử dụng đó. Theo cách này, một tiêu chuẩn cơ sở tương tự có thể được sử dụng cho nhiều mục đích và mô hình kinh doanh.
2. Siêu dữ liệu cấu trúc (Structural Metadata)
Dạng thứ hai của siêu dữ liệu là siêu dữ liệu cấu trúc. Dạng siêu dữ liệu này mô tả các liên kết trong phạm vi hoặc giữa mỗi đối tượng thông tin liên quan. Một cuốn sách bao gồm các trang và chương sách là một trong những ví dụ rõ ràng nhất của siêu dữ liệu cấu trúc. Siêu dữ liệu cấu trúc thường sẽ giải thích các hình ảnh trang sách cấu thành lên mỗi chương sách như thế nào, và những chương sách đó cấu thành lên một cuốn sách như thế nào.
Ngoài ra, cũng có những hình vẽ minh họa riêng rẽ, và siêu dữ liệu cấu trúc cũng có thể liên kết những hình này tới các chương sách, hoặc tới một danh mục bao gồm tất cả các hình ảnh minh họa trong một cuốn sách. Siêu dữ liệu cấu trúc trợ giúp người dùng di chuyển giữa mỗi đối tượng, bao gồm cả một đối tượng phức hợp.
3. Siêu dữ liệu quản trị (Administrative Metadata)
Siêu dữ liệu quản trị tạo ra sự dễ dàng truy cập, quản lý và bảo quản nguồn tài nguyên số. Nó có thể mô tả một trình xem và duyệt thông tin, hoặc trình vận hành cần thiết để truy cập một đối tượng, tự động mở trình xem hoặc vận hành khi một người sử dụng chọn một nguồn tài nguyên số nào đó. Nó có thể mô tả các thuộc tính như độ phân giải của hình ảnh, kích cỡ tệp tin, hoặc tốc độ truyền tệp tin âm thanh. Nó có thể cung cấp một biểu ghi thông tin về một đối tượng đã được tạo ra khi nào và như thế nào, cũng như thông tin về quản lý quyền và lưu trữ.
Một tiêu chuẩn quan trọng đang được biết đến cho vận hành gắn kết lẫn nhau giữa các bộ sưu tập số là METS -Tiêu chuẩn Truyền và Mã hóa Siêu dữ liệu (Metadata Encoding and Transmission Standard). METS cung cấp một cấu trúc thống nhất để quản lý và truyền đi các đối tượng số. Dự án MOA2 (The Making of America II Project) đã phát triển thành công một định dạng mã hóa cho siêu dữ liệu mô tả, siêu dữ liệu cấu trúc và quản trị đối với các tài liệu dưới dạng hình ảnh, hoặc văn bản.
Được Liên hiệp Thư viện số (Digital Library Federation) và Thư viện Quốc hội Mỹ (Library of Congress) ủng hộ, METS xây dựng dựa trên công việc nghiên cứu của dự án MOA2. Tiêu chuẩn này cung cấp một định dạng cho mã hóa siêu dữ liệu cần thiết để quản lý đối tượng số của thư viện trong phạm vi một kho cơ sở dữ liệu, cũng như sự trao đổi các đối tượng số như vậy giữa nhiều kho cơ sở dữ liệu (hoặc giữa các kho cơ sở dữ liệu và người dùng). Những thư viện học thuật và nghiên cứu hàng đầu hiện nay đang trích dẫn METS như là một tiêu chuẩn quan trọng để vận hành gắn kết lẫn nhau trong một thư viện số, và dường như nó đang được hẫu thuẫn ngày càng đông trong cộng đồng thư viện trên thế giới.
– By Vũ Sỹ Dũng, TED Engineering Documents JSC –
Hà Nội, ngày 12 tháng 6 năm 2008
TED ENGINEERING DOCUMENTS JSC