Bạn đang ở đây: Chuyên đề Lợi ích bảo quản và lưu trữ bằng phương pháp số hóa và định dạng diện tử

Lợi ích bảo quản và lưu trữ bằng phương pháp số hóa và định dạng diện tử

Hiện nay giải pháp số hóa, lưu trữ, và bảo quản dưới các định dạng điện tử như PDF (Portable Document Format)  hay theo tiêu chuẩn ISO 19005-1: 2005 - PDF/A, TIFF, JPEG, HTML hoặc XML đang ngày càng phổ biến ở các thư viện và cơ quan lưu trữ trên thế giới. Đặc biệt định dạng PDF thực tế đang trở thành một định dạng điện tử tiêu chuẩn quốc tế trong lưu trữ dữ liệu số (Born digital) và số hóa (digitalized) ở các thư viện trên thế giới.

 

Về nhu cầu hiện nay và lâu dài, ngoài nhiệm vụ bảo quản và lưu trữ các tài liệu quý và mang tính lịch sử của các thư viện, trung tâm thông tin, công tác phục vụ cho nghiên cứu và học tập sẽ được tập trung và phát triển ngày càng sâu rộng. Đây cũng chính là bước đi tất yếu của các thư viện, trung tâm thông tin theo xu thế phát triển của xã hội và hội nhập thế giới.

Chúng tôi xin phép được phân tích sâu hơn một chút về lợi thế của PDF như sau:

1. Khả năng bảo quản bằng định dạng điện tử PDF (PDF Preserving)

Kể từ phiên bản đầu tiên ra đời năm 1993, định dạng PDF của hãng Adobe đã được sử dụng rộng rãi như một tiêu chuẩn cho phân phối tài liệu điện tử trên toàn cầu tại nhiều thư viện và tổ chức trên thế giới. Tính phổ biến này xuất phát từ khả năng của nó là có thể mã hóa chính xác nguyên bản của tài liệu cả phần chữ viết và phần hình ảnh đồ họa, đồng thời bảo quản nguyên bản các font chữ cổ cũng như đương đại, định dạng tài liệu gốc, màu sắc và hình ảnh. Tệp tin PDF có thể được xem, thao tác và in dễ dàng thông qua với phần mềm miễn phí Adobe Acrobat Reader và có thể tương thích với tất cả các hệ điều hành máy tính lớn nào. PDF có rất nhiều ứng dụng và đang được sử dụng phổ biến để xuất bản các tài liệu của chính phủ, học thuật… Hầu hết các tạp chí điện tử và các nguồn dữ liệu số hiện nay đều được xuất bản dưới định dạng PDF.

PDF được thiết kế để hỗ trợ cho sử dụng trực tuyến, bảo mật, sử dụng tương tác, cũng như in ấn. PDF kết hợp các thuộc tính của nhiều định dạng văn bản có cấu trúc và định dạng hình ảnh truyền thống để đảm bảo một tài liệu số có thể sử dụng dưới hình thức văn bản (text) và xem trên màn hình theo trang. Điều này cho phép người đọc PDF không chỉ hiển thị và in tài liệu mà còn tiến hành các hoạt động định hướng văn bản (text-oriented) như tìm kiếm chuỗi văn bản, hoặc cắt và dán văn bản (cutting-and-pasting). Tuy nhiên, một tài liệu PDF cũng có thể chỉ đơn thuần là những hình ảnh trang tài liệu chưa được biên dịch, đó là những hình ảnh của văn bản.

PDF bao gồm nhiều khả năng về mặt kỹ thuật cho phép người sở hữu tài liệu mã hóa nội dung hoặc định nghĩa các thuộc tính của tài liệu để cho phép in, sửa đổi, khoá tài liệu vào thiết bị phần cứng nhằm đảm bảo thực hiện các quy định, thỏa thuận và quản lý bản quyền số (DRM – Digital Rights  Management).

Về tương lai của định dạng điện tử PDF mà lâu nay thư viện và người sử dụng lo ngại về tính bền vững với thời gian của nó, thì PDF bản chất là một định dạng dữ liệu, PDF được cam kết hỗ trợ lâu dài cả về công cụ hiển thị, in ấn và di trú dữ liệu khi cần thiết. Điều này đã được thực tế cho thấy chính PDF là một định dạng kế tiếp trong việc di trú dữ liệu tiếp sau định dạng Postscript của hãng Abode. Hãng Abode đang đầu tư mạnh vào sự thành công của định dạng PDF, song thậm chí nếu họ có ra khỏi quá trình phát triển này đi chăng nữa thì có rất nhiều công cụ phần mềm của bên thứ ba khác đã được phát triển cho PDF. Hơn thế nữa PDF được sử dụng rộng rãi như là một tiêu chuẩn quốc tế trong việc xuất bản và phân phối tài liệu và nội dung điện tử của hầu hết các nhà xuất bản và chính phủ trên thế giới bao gồm cả chính phủ Mỹ. Bởi vậy, PDF sẽ ngày càng có sự hậu thuẫn sâu rộng cho việc sử dụng và di trú dữ liệu trong trường hợp hãng Abode không còn khả năng hỗ trợ cho định dạng này đi nữa. Nếu sau này, có một định dạng nào đó được phát triển hoàn chỉnh hơn PDF mà người sử dụng thích sử dụng hơn thì cũng rất dễ dàng cho việc kế hoạch các chiến lược di trú dữ liệu cho loại định dạng này.

Về di trú dữ liệu là định dạng PDF, thì hiện nay chưa có bất cứ một định dạng nào khác hội tụ đủ tất cả các tính năng như PDF để có thể phát triển các công cụ biên dịch tiêu chuẩn. Trong khi đó chúng ta có thể di trú hai phần quan trọng của một tài liệu PDF: phần hình ảnh trang tài liệu và (đối với nhiều loại tệp tin PDF) phần văn bản (text – phần chữ). Với hai phần quan trọng này đủ cho các dạng bảo quản mà một thư viện đòi hỏi. Hiện nay về mặt kỹ thuật đã có nhiều công cụ phần mềm để chuyển đổi định dạng PDF sang các định dạng khác để dễ dàng sử dụng như  .txt, .doc, HTML hoặc XML…và tạo khả năng siêu dữ liệu.

2. Khả năng lưu trữ (Archiving): 

Những kỹ thuật bảo quản nhất định, như kiểm tra tính toàn vẹn và sao lưu (backup)là cần thiết để bảo quản các dạng thông tin số. Ngoài các đòi hỏi cơ bản, các thư viện và cơ quan lưu trữ cần xác định ba điểm để bảo quản tin cậy tài liệu dưới định dạng PDF để chúng chắc chắn được sử dụng lại vĩnh viễn:

* Điểm thứ nhất: Xác định chính xác những gì mà một thư viện cam kết bảo quản:

Camkết 1:  dễ đạt nhất

+ Hình ảnh tĩnh của trang tài liệu PDF (trong trường hợp tồi tệ nhất nào thì những biến đổi về hình dáng phông chữ cũng sẽ không ảnh hưởng đến kích cỡ hoặc trật tự sắp xếp).

Camkết 2: khó hơn một chút.

+ Hình ảnh tĩnh với sự lặp lại chính xác phông chữ nguyên bản gốc

+ Phần văn bản chữ được mã hóa trong tài liệu PDF

+ Cấu trúc bảng nội dung (Table of content structure) được mã hóa trong tài liệu PDF

Camkết 3: mức độ khó hơn

+ Đảm bảo được những thuộc tính động, bám sát nguyên bản gốc, hay phụ trợ khác của một tài liệu PDF. Các thuộc tính cụ thể như nối kết siêu dữ liệu Web thông thường, có khả năng bảo quản nếu tài liệu đó được xác định được bảo quản.

* Điểm thứ 2: Cần đạt được sự kiểm soát chất lượng trên mỗi tài liệu PDF, đảm bảo thông số kỹ thuật của định dạng (vd. Dạng mã hóa, sử dụng chữ nhúng (watermark) và khả năng mã hóa nội dung,…) nhằm đáp ứng các yêu cầu và hướng dẫn lưu trữ của một tổ chức.

+ Đối với các tệp tin PDF có sự mã hóa văn bản được bảo quản thì tất cả phần văn bản nên được mã hóa như các ký tự sử dụng các bộ ký tự tiêu chuẩn. Bộ ký tự Unicode thường được sử dụng cho các tài liệu đa ngôn ngữ hay những tài liệu không viết bằng các ngôn ngữ Châu Âu. Việc mã hóa trang và văn bản nên được sắp xếp theo trật tự logic đọc của ngôn ngữ đó.

+ Nếu có thể, nên tránh cho phép nhúng chữ viết vào trong văn bản, nhất là nếu nó ảnh hưởng đến trạng thái nguyên bản của trang tài liệu

- Tài liệu nên được biên tập ở dạng không mật hóa bằng mật khẩu

- Tài liệu nên sử dụng phiên bản PDF được lưu trữ rộng rãi nhất và được hỗ trợ bởi phần mềm của bên thứ ba.

* Điểm thứ ba: Công cụ và thủ tục di trú dữ liệu PDF sang các định dạng khác.

Hiện có một số công cụ phần mềm dùng để tách phần văn bản và hình ảnh của các tệp tin PDF cũng như nó có thể được sử dụng để di trú dữ liệu. Có một số công cụ có thể xử lý tự động không cần c&´ sự tương tác với con người. Ví dụ phần mềm miễn phí Ghostscript cho phép di trú hình ảnh và phần mềm Pstotext hoặc Prescript dùng cho di trú văn bản. Ngoài ra cũng có những phần mềm chuyển đổi thương mại khác. Hiện nay, chúng ta hoàn toàn có đủ tin cậy vào những phương pháp như sao lưu, kiểm tra tính toàn vẹn, ánh xạ và di trú dữ liệu.

Hơn thế nữa, nhiều giải pháp công nghệ  và kỹ thuật lưu trữ, bảo quản số, và khôi phục dữ liệu nhị phân (binary data) hay những tệp tin nhị phân (binary files) kết hợp trên vi phim (Microfilm/Microfiche) đang được phát triển cho việc bảo quản nội dụng số nhằm tránh sự tác động của sự lỗ thời và phát triển của công nghệ phần cứng, phần mềm cũng như sự lỗ thời hoặc phân hủy của phương tiện lưu trữ nội dung số theo thời gian.

Tóm lại, với những kỹ thuật thích hợp thì đối với các tổ chức sưu tập các tài liệu PDF hoàn toàn có thể bảo quản và lưu trữ vĩnh viễn thậm chí ngay cả khi có sự phát triển các tiêu chuẩn định dạng kế thừa khác trong ngành công nghệ máy tính tương lai.

3. Khả năng chia sẻ và phổ cập kiến thức rộng khắp thông qua truy cập cổng thư viện số. TC "3.1.3 Khả năng chia sẻ và phổ cập kiến thức rộng khắp thông qua truy cập cổng thư viện số." \f C \l "3"

Với sự góp mặt của Internet, mong muốn của từng cá nhân về việc truy cập thông tin ngày càng tăng mạnh mẽ. Mọi người không phải đợi lâu cho việc cân nhắc xem nên đi đến một địa chỉ cụ thể nào đó và mất vài giờ để có thể tìm ra được thông tin cần tìm. Bạn đọc của thư viện sẽ không hài lòng khi thấy một ấn phẩm mà mình quan tâm đang được cất giữ tại một địa chỉ vật lý khác, yêu cầu mượn ấn phẩm ấy, rồi đợi vài ngày hoặc thậm chí vài tuần ấn phẩm ấy mới đến tay. Cư dân mạng ngày càng mong muốn có các đường dẫn truy cập ngay lập tức đến tất cả các nguồn tài nguyên thông tin mà họ cần từ bất cứ nơi đâu, bất cứ lúc nào và bằng nhiều thiết bị truy cập khác nhau. Đây chính là mục tiêu mà các thư viện số đang cố gắng đáp ứng đầy đủ.

Với các thư viện số, một cá nhân có thể:

  • Truy cập vào vốn tư liệu của các thư viện trên khắp thế giới thông qua các mục lục điện tử.
  • Xác định được cả hai dạng phiên bản vật lý và số hoá của các cuốn sách, bài báo học thuật…
  • Tối ưu hóa sự tìm kiếm, điều này có nghĩa là có thể tìm kiếm một lần đồng thời trên cả Internet, các cơ sở dữ liệu thương mại và bộ sưu tập thư viện.
  • Lưu giữ các kết quả tìm kiếm và tiến hành xử lý nó để đảm bảo có được thông tin chính xác nhất.
  • Từ các kết quả tìm kiếm, chỉ cần thông qua nhấp chuột là có thể xem được nội dung số hoá hoặc tìm ra các tham khảo liên quan.

Tất cả các khả năng này đều sẵn có trên máy tích cá nhân hoặc các thiết bị có thể kết nối web khác như thiết bị trợ giúp số cá nhân (PDA) hoặc điện thoại di động. Ngoài ra, người sử dụng còn có thể tuỳ biến thông tin mà mình cần sao cho các kết quả tìm kiếm có thể phản ánh được nhu cầu, hoặc sở thích cá nhân. Việc cá nhân hoá này như một việc ứng dụng tạo nên kinh nghiệm sử dụng có giá trị hơn và phong phú hơn trong môi trường thư viện số.

 

* Các phần chính cấu thành thư viện số:

Một môi trường thư viện số được phát triển hoàn chỉnh bao gồm các thành phần chính sau đây:

  1. Sự chuyển đổi ban đầu nội dung từ dạng vật lý (sách hoặc tài liệu in, vi phim…) sang hình thức số.
  2. Xuất ra hoặc tạo ra siêu dữ liệu hoặc chỉ mục thông tin mô tả nội dung giúp thuận lợi cho việc tìm kiếm và xác định thông tin cũng như các siêu dữ liệu cấu trúc và quản trị  nhằm hỗ trợ cho việc xem, quản lý và bảo quản đối tượng số.
  3. Lưu trữ nội dung số và siêu dữ liệu trong một kho cơ sở dữ liệu đa truyền thông thích hợp. Kho cơ sở dữ liệu này, nếu cần, sẽ bao gồm những khả năng quản lý quyền số (DRM) nhằm thực thi đúng quyền sở hữu trí tuệ. Chức năng thương mại điện tử cũng có thể được tích hợp để xử lý thao tác đặt mua, công việc kế toán và xuất hóa đơn tới người dùng.
  4. Các dịch vụ trên máy người dùng thông qua một trình duyệt web bao gồm các cú pháp hỏi để truy cập dữ liệu và trình tự lưu thông.
  5. Chuyển giao nội dung số thông qua truyền tệp tin hoặc xem hình ảnh động
  6. Bạn đọc của thư viện có thể truy cập thông qua một trình duyệt hoặc một máy khách đã được cài đặt trước để truy cập dữ liệu.
  7. Hệ thống nối kết mạng công cộng hoặc cá nhân (Internet, Intranet, Extranet hoặc LAN)

 

Các cấu thành trên đây không chỉ là tất cả các thành phần chính của một hệ thống thư viện số riêng rẽ mà còn có thể được phát triển theo các hệ thống đa mục đích hoặc liên quan khác. Các nhà phát triển thư viện số đều nhất trí rằng sự tích hợp trong thư viện số là một vấn đề cần nhất quán. Để vận hành gắn kết với hạ tầng của một thư viện hiện có, thư viện số nhất thiết phải được thiết kế sao cho làm việc được với mục lục thư viện hiện có và các tiêu chuẩn công nghiệp, định dạng và giao thức thống nhất. Cụm từ “thư viện số” thường được dùng để mô tả một hệ thống quản lý đa phương tiện lưu trữ các thông tin số hóa, song nó cần phải chuyển giao được các chức năng ứng dụng thư viện thực sự. Bởi thế, các thành phần cấu thành thư viện số này cần được phát triển để thu thập thông tin, mã hóa và chuyển giao thông tin phù hợp với các tiêu chuẩn thực hành được hậu thuẫn rộng rãi bởi ngành thông tin thư viện.

4. Nối kết tài nguyên số với môi trường học tập trực tuyến (E-learning)

Phát triển tài nguyên số nhất thiết phải được xem xét trong bối cảnh của các sáng kiến nhằm thống nhất cấu trúc công nghệ thông tin của một trường học và thay đổi quy trình học tập thông qua một công nghệ sáng tạo. Áp lực về kinh tế, xã hội v&` văn hóa đang bắt buộc các trường học sáng tạo lại chính mình. Những loại hình sinh viên mới và sự thay đổi mong muốn của họ đang thúc đẩy sự tích hợp những chức năng chính của một trường học cũng như triển khai các dịch vụ cho sinh viên trên Web.  Những cách tiếp cận bảo thủ và manh mún sẽ không còn nữa khi các nhà sư phạm nhận thấy cần thiết phải nối kết học tập và tài nguyên quản trị theo một cách hiệu quả để trở thành nơi lưu trữ kiến thức, và những mô hình đào tạo trực tuyến của các trường học ở thế kỷ 21.

Một sự kết hợp của các dịch vụ dựa trên Internet, dịch vụ số hóa và dự án số hóa, cũng như sự mở rộng nội dung số ở phạm vi toàn cầu ngày càng tăng, đã và đang tạo ra một môi trường học tập ảo (VLE – Virtual Learning Environment) để chuyển giao và nâng cao khả năng trải nghiệm những gì học ở lớp, hoặc tiến hành học tập bên ngoài một khuôn viên trường học vật lý truyền thống. Tài nguyên số và thư viện số là một cấu thành không thể thiếu của môi trường học tập ảo này.

Những phát triển hiện nay đang mở rộng vai trò của một thư viện, và thay đổi mối quan hệ giữa thư viện và các bộ phận khác trong việc nghiên cứu học thuật. Theo ông Clifford Lynch, giám đốc Liên minh các Nguồn tài nguyên Nối kết mạng (Coalition for Networked Resources) nhận định, “Chúng ta sẽ chứng kiến sự phát triển liên tục từ tư duy về một bộ sưu tập số đến tư duy về các dịch vụ thông tin nối kết mạng, điều này sẽ tích hợp các công cụ tạo ra,  phân phối và phân tích, nhằm sử dụng và xác định lại mục đích của nội dung số. Trong hầu hết các trường hợp, các bộ sưu tập số và dịch vụ thông tin nhất thiết phải được tích hợp vào những mạng nghiên cứu và giảng dạy của một tổ chức, một quốc gia và toàn cầu”.

 

- By Vũ Sỹ Dũng, TED Engineering Documents JSC -

Hà Nội, ngày 12 tháng 6 năm 2008

TED ENGINEERING DOCUMENTS JSC