Bạn đang ở đây: Chuyên đề Các mục tiêu của một dự án số hóa

Các mục tiêu của một dự án số hóa

Mục tiêu Thư viện số: Các thư viện số chứa đựng hàng tỷ tài liệu và sách được chỉ mục và chú dẫn giúp cho các nội dung trong đó có thể đến với bất cứ ai trên thế giới thông qua Internet. Nhu cầu tìm kiếm và nghiên cứu trên phương tiện điện tử thông qua các mục lục điện tử để tìm ra nguồn và các thông tin tham khảo được đáp ứng đầy đủ và dễ dàng nối kết đến các chỉ mục của các thư viện khác. Kiến thức thế giới trở nên sẵn sàng hơn cho mọi nghiên cứu sẽ giúp thúc đẩy nền khoa học, kinh tế và giáo dục phát triển tốt hơn cho nhân loại.

Số hóa sách mang đến một phần quan trọng trong giải pháp đưa và giải phóng kiến thức trong sách đến với thế giới. Ứng dụng các công nghệ đã được cấp bằng hiện nay, các cuốn sách có thể được số hoá và lưu giữ ở nhiều định dạng sao cho con người có thể truy cập dễ dàng và đọc ngay trên máy tính khi kết nối Internet. Nội dung thể hiện bằng từ ngữ trên các cuốn sách có thể được xử lý thông qua phần mềm OCR (Nhận dạng ký tự quang học) để tạo nên các tệp tin tài liệu đọc bằng máy tính, những tệp tin này có thể được đưa vào các cơ sở dữ liệu. Hiện nay nội dung của một cuốn sách có thể được tìm kiếm bằng một từ khóa hoặc cụm từ thông qua các phần mềm tìm kiếm đưa lên mạng Internet hoặc các chương trình xuất bản điện tử riêng biệt khác. Đây là một phần phụ thêm vào thông tin biên mục truyền thống gắn kết với một cuốn sách. 

Các tệp tin hình ảnh được tạo ra một cách dễ dàng và được lưu trong nhiều định dạng tệp tin khác nhau để đáp ứng các yêu cầu khác nhau. Ví dụ, các tệp tin được lưu giữ dưới định dạng TIFF nén “không thay đổi bản gốc” là ứng dụng giúp cho các thông tin chi tiết được giữ toàn vẹn; hoặc chúng được chuyển sang dạng JPEG 2000, PDF hay nén bằng thuật toán nén mức độ cao khác cho phép các tệp tin truyền qua mạng hoặc tối ưu để xem trên Internet. Hãy tưởng tượng xem sẽ tuyệt vời thế nào khi quý vị đang nghiên cứu tại Việt Nam mà quý vị có thể truy cập vào các nguồn thông tin tại Paris, Seattle hoặc Cairo để xem toàn văn và các hình ảnh minh họa như thể cuốn sách gốc đang ở ngay trước mặt quý vị. 

Mục tiêu Bảo quản, lưu trữ và bảo tồn kiến thức:

Bảo quản tính vật lý chỉ là hành động giữ cho kiến thức khỏi bị mất. Bảo quản cho phép lưu giữ các tài liệu gốc, những tài liệu mà chắc sẽ được tham khảo trong tương lai. Những nỗ lực để bảo quản tính vật lý của sách là rất lớn và chi phí cao. Dĩ nhiên,  bằng việc bảo quản sách mang tính vật lý (sách in) thì nội dung cũng được bảo quản. Khi sách đang ở tình trạng cần được bảo quản thì nó sẽ bị loại khỏi hệ thống lưu thông tài liệu và cũng vì thế mà không ai tiếp cận được nội dung của nó nữa. Sau khi việc bảo quản hoàn tất, thì rất nhiều sách vẫn không thể được đưa ra lưu thông thường xuyên nhằm kéo dài sự tồn tại của chúng bởi vì dễ hư hỏng. Do vậy trong khi sách được bảo quản thì nội dung của nó cũng sẽ không được lưu thông hoặc ít được nghiên cứu để phục vụ các mục đích khác nhau. 

Số hóa sách sẽ làm thuận lợi hơn cho công tác bảo quản nội dung kiến thức trong sách (nhưng không phải là bảo quản tính vật lý của sách). Không quan tâm đến việc liệu cuốn sách có được đưa trở lại lưu thông hay không, nhưng nội dung của nó sẽ được truy cập nghiên cứu. Cuốn sách  sẽ nằm trong các máy chủ chứ không nằm trên giá sách. Với nhiều định dạng trên các hệ thống sao lưu sẽ hỗ trợ và tăng khả năng  tồn tại của các tệp tin, điều này nghĩa là các cuốn sách có thể tồn tại qua các thảm họa. 

Bảo quản các tệp tin số rất dễ và ít tốn kém. Khi có sự lỗ thời của công nghệ, thì các tệp tin số hoàn toàn có thể được chuyển sang các phiên bản mới  phù hợp công nghệ mới của tương lai. Việc lựa chọn một định dạng chủ đạo là rất quan trọng vì định dạng đó sẽ duy trì lâu dài hơn và việc đầu tư để di trú các định dạng này sẽ được mở rộng hơn và dễ đạt được do nhu cầu thị trường lớn. Nguyên tắc LOCKSS” - Lots of Copies Keep Stuff Safe (Nhiều bản sao sẽ lưu giữ tài liệu được an toàn) là một nguyên tắc rất đơn giản và hiệu quả khi chúng ta làm việc và quản lý các tệp tin điện tử. Để tham khảo thêm thông tin về chương trình, phần mềm và phương pháp LOCKSS ứng dụng trong công tác bảo quản tài nguyên số tại website www.lockss.org.   

      Mục tiêu Chất lượng và Tiêu chuẩn hình ảnh số hóa

Khi ta sử dụng bất cứ công cụ thông tin nào, sẽ có các tiêu chuẩn được thiết lập để đảm bảo chất lượng cho hình ảnh được xem. Nếu chất lượng kém và người xem không thể có được các thông tin họ mong muốn thì mọi nỗ lực đầu tư vào công tác số hoá đã bị lãng phí. Nếu hình ảnh có chất lượng kém, có các yếu tố trở ngại, như tính sáng sủa của tài liệu hoặc bị mất trang thì người dùng sẽ nhanh chóng bỏ qua các nguồn thông tin số đó. Hãy viếng thăm thông qua Internet đến một số nguồn dữ liệu sách đã số hóa sẽ thấy ngay các cấp độ chất lượng hình ảnh khác nhau.

Theo thời gian, các tiêu chuẩn về chất lượng được phát triển và nâng cấp dựa trên mức độ chất lượng trung bình thường thấy trên Internet hiện nay. Khi chất lượng được nâng cao, thì các hình ảnh đạt mức trung bình hiện nay sẽ bị loại bỏ hoặc sẽ phải sao chép lại để đảm bảo “tính cạnh tranh” đối với các nguồn khác. Các hình ảnh có chất lượng kém sẽ phản ánh ngay tính phủ định của nó đối với người sở hữu chúng.

Nguyên lý cơ bản của việc số hóa sách là sao chụp một lần ở một mức độ chất lượng làm hài lòng người xem. Hình ảnh phải ở chất lượng rất cao, không chỉ đơn thuần là hình ảnh của các trang văn bản tài liệu đen trắng mà còn cả những nội dung có minh họa nhiều màu sắc. Mục tiêu mà mỗi dự án số hoá sách vạch ra và phải đạt được là:

(1)     Bộ sưu tập hình ảnh số hóa cuối cùng phải ở mức độ chất lượng rất cao tương đương với tệp tin sử dụng cho dịch vụ in theo yêu cầu của nhà xuất bản khi xuất bản một cuốn sách để bán cho khách hàng, và dễ dàng đọc qua mạng là yếu tố xem xét kế tiế;

(2)     Đủ linh hoạt để có thể xử lý được đa dạng sách có chất lượng khác nhau, trang giấy có trọng lượng và màu nền khác nhau, bị rách, mất hoặc các trang giấy bị dính và hút chặt vào nhau;

(3)     Tệp tin sách điện tử phải được định dạng theo những tiêu chuẩn công nghiệp với siêu dữ liệu có tính cấu trúc và kỹ thuật cơ bản để đảm bảo khả năng bảo quản tệp tin lâu dài. Tối ưu hóa kích cỡ tệp tin để giảm thiểu gánh nặng lưu trữ và lưu thông trên mạng

(4)     Quá trình số hóa và xử lý sẽ bao gồm cả xây dựng và đồng bộ hóa siêu dữ liệu cho chỉ mục một cuốn sách trong kho cơ sở  dữ liệu, đảm bảo tuân thủ theo đúng tiêu chuẩn hiện hành như tiêu chuẩn Dublin Core +2.

(5)      Các định dạng tệp tin lựa chọn phải là theo các tiêu chuẩn công nghiệp và không có tính độc quyền. Những chương trình đọc các định dạng tiêu chuẩn công nghiệp này có thể luôn sẵn có và dễ dàng cài đặt trên máy tính. Các định dạng độc quyền có thể ngăn cản người sử dụng không xem được hình ảnh. Nếu việc truy cập trở nên khó khăn thì các tệp tin coi như bị “thủ tiêu” về bản chất.

(6)     Xử lý bằng OCR dẫn đến có khả năng chỉ mục toàn văn nhằm tìm kiếm nội dung dễ dàng.

 

Mục tiêu ưu tiên ứng dụng công tác số hoá:

- Sách quý hiếm và ấn phẩm duy nhất.

- Các bộ sưu tập sách có trang giấy giòn hoặc bị axít hoá.

- Bản viết tay hay bản thảo gốc.

- Tác phẩm âm nhạc

- Giấy tờ chứng thực quyền sở hữu đất.

- Các báo cáo liên quan đến phả hệ.

- Tài liệu nghiên cứu khoa học..

 

- By Vũ Sỹ Dũng, TED Engineering Documents JSC -

Hà Nội, ngày 12 tháng 6 năm 2008

TED ENGINEERING DOCUMENTS JSC