Web ngữ nghĩa (Sematic web) là một triển vọng đầy hứng thú, song nó vẫn chưa phải là một thực tế đối với các nhà nghiên cứu khi họ phải đối mặt với sự gia tăng nhanh chóng của lượng tài liệu chuyển giao trên Web – nhiều tài liệu sẵn có miễn phí và nhiều tài liệu lại chỉ có thể truy cập khi có sự ủy quyền hay cấp phép…

Bài báo này đề cập đến khái niệm của Web ngữ nghĩa và đồng thời cũng đề cập đến lợi ích to lớn mà Web ngữ nghĩa mang lại cho các nhà nghiên cứu như thế nào nếu họ nhận ra tiềm năng của nó. Nhiều hoạt động phát triển đang diễn ra hiện nay nhằm cung cấp các giải pháp với trải nghiệm thực tế cho các học giả ngày hôm nay thông qua việc tích hợp công nghệ vào các cổng thư viện; bài báo này cũng giải thích làm thế nào một giải pháp cổng thư viện MetaLib của Ex Libris lại có thể giải quyết được những vấn đề này.

Giới thiệu

Khối lượng thông tin học thuật đưa đến cho các nhà nghiêu cứu nhiều loại tài nguyên đang gia tăng nhanh chóng. Các nhà nghiên cứu có thể phải tìm một tài liệu nào đó phù hợp với chủ đề nghiên cứu của họ trong nhiều dạng tài nguyên khác nhau chuyển giao trên Web: mục lục thư viện của cơ quan họ, các mục lục nằm ngoài hệ thống thư viện của họ, một mục lục quốc gia hoặc mục lục liên hợp, hoặc một mục lục của một cơ quan nghiên cứu nào đó cung cấp những tài nguyên chuyên biệt cho chủ đề mà họ đang nghiên cứu; các cơ sở dữ liệu tham khảo như một cơ sở dữ liệu thư mục tóm tắt, hoặc một cơ sở dữ liệu trích dẫn; tài nguyên toàn văn; kho dữ liệu số; và cả các trang web đơn thuần. Quá trình truy cập một số lượng tài nguyên hiện nay nhằm tìm thấy thông tin phù hợp thật sự nặng nề và đòi hỏi một lượng kiến thức hiểu biết nào đó về các dạng tài nguyên khác nhau, cơ chế truy cập của chúng, giao diện nhập câu hỏi truy vấn mà nguồn tài nguyên đó cung cấp, và dạng kết quả tìm kiếm mà nó trả về cho người dùng. Nó cũng đòi hỏi sự so sánh kết quả bằng những thao tác thủ công (manual) giữa các kết quả trả về từ nhiều nguồn tài nguyên, và không cho phép người dùng di chuyển từ một tài nguyên này đến một tài nguyên khác để dễ dàng phát hiện tài liệu phù hợp.

Những nỗ lực phát triển đang diễn ra hiện nay nhằm giải quyết những vấn đề này, không chỉ đối với thông tin học thuật mà còn đối với tất cả các dạng dữ liệu có thể chuyển giao trên Web. Trong những nỗ lực phát triển đó, thì mối quan tâm phát triển Web ngữ nghĩa là trọng tâm của Tim Berners-Lee và tổ chức W3C. W3C là một tổ chức uy tín có vai trò tạo ra, duy trì và quảng bá các tiêu chuẩn Web. Công việc nghiên cứu Web ngữ nghĩa đang cho thấy một hứa hẹn rõ ràng, song trong khi chờ đợi sự chấp nhận các tiêu chuẩn đang phát triển này, chúng ta cần có những công cụ đủ thông minh để tiến hành truy cập tích hợp trên tất cả các dạng nguồn tài nguyên khác biệt nhau.

Web ngữ nghĩa

Đối với một người dùng, Web là một nơi đầy hứng thú: lưu trữ một tập hợp tài nguyên gắn kết nhau và các nối kết liên quan. Người dùng thường chỉ có thể nắm bắt được ý nghĩa của một tài liệu và quyết định mức độ phù hợp của nó chỉ khi họ xem toàn bộ tài liệu đó. Tuy nhiên, một công cụ tìm kiếm không thể sẵn sàng biên dịch được thông tin rằng tài liệu đó có phù hợp hay không; vậy một quy trình tự động hoặc vận hành bằng máy cho phép dễ dàng truy cập tới một khối lượng tài nguyên thông tin quá lớn trên Web là rất cần thiết.

Web ngữ nghĩa giờ đây đang được phát triển để giải quyết vấn đề này và mang đến triển vọng cho phép các lớp ý nghĩa rõ ràng được gán cho thông tin để giúp việc xử lý và tích hợp thông tin chuyển giao trên Web dễ dàng hơn đối với công cụ tìm kiếm tự động: “Sematic Web không phải là một trang Web riêng rẽ, mà là một sự mở rộng của trang web hiện hành, trong đó ý nghĩa được xác định rõ ràng, cho phép các máy tính và con người làm việc theo hình thức hợp tác” (theo định nghĩa của Berners – Lee et al., 2001). Sự tận dụng lợi thế của “Khổ mẫu Mô tả Tài nguyên” – RDF (Resource Description Framework) và nhiều tiêu chuẩn khác nữa, Web ngữ nghĩa hiện đang được W3C phát triển cộng tác với nhiều nhà nghiên cứu và các đối tác phát triển tiêu chuẩn công nghiệp khác (RDF, 2002) (W3C, 2001).

Vẫn ở thời kỳ đầu, sự phát triển của Web ngữ nghĩa đang xây dựng trên các công nghệ Web hiện có, như sử dụng khả năng trình bày dữ liệu của XML để định nghĩa các lược đồ gán thẻ tùy biến và tận dụng cách tiếp cận linh hoạt bởi tiêu chuẩn RDF để trình bày dữ liệu. RDF sẽ cung cấp một khổ mẫu chung để trình bày siêu dữ liệu trên khắp mọi ứng dụng.

Yếu tố kế tiếp đòi hỏi để thực hiện Web ngữ nghĩa đó là ngôn ngữ thể hiện các lớp ngữ nghĩa đối tượng của Web dùng để mô tả một cách hình thức ngữ nghĩa của các lớp trong những vùng thông tin quan tâm và ngữ nghĩa của đặc tính (hay thuộc tính) được sử dụng trong tài liệu Web. Ngôn ngữ mô tả ngữ nghĩa đối tượng (dùng để phát hiện đối tượng) cung cấp sự tích hợp và vận hành liên kết của dữ liệu và cho phép phát triển các ứng dụng tìm kiếm trên nhiều tài nguyên thông tin đa dạng hay tích hợp thông tin từ chúng. Thông qua việc sử dụng ngôn ngữ mô tả ngữ nghĩa, các ứng dụng trong tương lai sẽ “thông minh”: chúng sẽ làm việc chính xác hơn theo ý muốn của con người. Người ta sẽ sử dụng ngôn ngữ mô tả lớp ngữ nghĩa (ontologies) để cải tiến các ứng dụng trên Web và đồng thời sẽ đem đến nhiều cách sử dụng Web mới.

Một vài nỗ lực đầu tiên hướng tới phát triển ngôn ngữ mô tả các lớp ngữ nghĩa đang diễn ra trong môi trường cổng Web; ví dụ, dự án OntoWeb của trường đại học Amsterdam (Free University of Amsterdam). Dự án OntoWeb phục vụ cả cộng động học thuật và cộng đồng phát triển sản phẩm công nghiệp quan tâm đến nghiên cứu ngôn ngữ mô tả lớp ngữ nghĩa đối tượng trên Web.

Cổng Web (Web Portals)

Một trong nhiều ứng dụng hữu ích của Web đó là các cổng Web, và thường được hiểu như là Portals. Một Portal là một Web site hoặc một dịch vụ Web cung cấp nội dung thông tin để phục vụ một cộng đồng người dùng cụ thể nào đó. Web Portals bao gồm nhiều dịch vụ trực tuyến nhằm phát hiện tài nguyên từ xa như AOL hay MSN, cũng như các dịch vụ hướng vào một cộng đồng người dùng rất chuyên biệt – ví dụ như một cộng đồng người dùng quan tâm đến nghiên cứu ung thư. Tuy nhiên, một mặt phổ biến của các cổng Web đó là nhận tin tức, tìm kiếm và nói chuyện với nhau, xây dựng một cộng đồng, tìm những nối kết tới các tài nguyên Web khác có cùng chủ đề quan tâm. Karvounarakis el al (2001) viết “Để một cổng Web thành công, nó nhất thiết phải là một nơi khởi đầu để xác định nội dung quan tâm. Đặc trưng dễ thấy là nội dung đó cần được đóng góp bởi nhiều thành viên trong một cộng đồng người dùng, những người có khả năng thực hiện chỉ mục nội dung đó thành các chủ để nhỏ hơn. Các phương tiện thu thập nội dung khác nhờ vào việc nhà cung cấp nội dung gán thông tin cho nội dung đó và thông tin này được sử dụng để tổng hợp nội dung.” Hoạt động gán thẻ này (tagging), đặc điểm là tạo ra những thẻ đơn giản để nhận dạng chủ đề của nội dung đó.

Tuy vậy, những hoạt động chỉ mục như vậy chưa đủ đáp ứng nhu cầu của cộng đồng người dùng cổng Web, cho nên để tổng hợp nội dung một cách thông minh hơn, các cổng Web định nghĩa một ngôn ngữ mô tả lớp ngữ nghĩa của Web để phục vụ cho cộng đồng người dùng nó. Những nhà cung cấp nội dung sau đó thường chú giải những trang thông tin của họ bằng ngôn ngữ mô tả lớp ngữ nghĩa Web này và đưa ra các kết quả tìm kiếm mà người dùng không thể có được thông qua cách truy xuất thông tin bình thường.

Bước phát triển tiếp theo của Web – Web ngữ nghĩa sẽ là sự chuyển giao một khối lượng khổng lồ tài nguyên thông tin (dữ liệu, tài liệu, và chương trình máy tính) cùng với nhiều dạng thông tin mô tả (siêu dữ liệu). Bước này sẽ mở ra một triển vọng mới cho các cổng Web phục vụ các cộng đồng người dùng chuyên biệt. Sự gia tăng kiến thức về ý nghĩa, sử dụng, khả năng truy cập, và chất lượng của tài nguyên chuyển giao trên Web sẽ tạo điều kiện đáng kể cho quá trình xử lý tự động nội dung và dịch vụ sẵn có trên Web.

Cổng thư viện

Các cổng thư viện, một chủ đề trọng tâm đề cập trong bài viết này, là một phần của các cổng Web, và chúng phục vụ những cộng đồng nghiên cứu học thuật cụ thể hay chuyên biệt. Các thư viện – cụ thể là các thư viện số được xem như là những tổ chức có năng lực trí tuệ quan trọng hình thành lên một yếu tố quyết định cho sự phát triển của Web ngữ nghĩa (Miller, 2001).

Hiện nay, nhiều cổng thư viện rõ ràng đang cung cấp một cửa ngõ truy cập tới tài nguyên của một trường đại học, trung tâm thông tin hay một viện nghiên cứu bằng liệt kê các nối kết trực tiếp tới giao diện gốc của mỗi một tài nguyên. Sự liệt kê như vậy sẵn có trên nhiều Web site thư viện ngày hôm nay. Mặc dù nhiều site chỉ cung cấp một danh mục theo bảng chữ cái, song không mấy thư viện cung cấp các công cụ phát hiện tài nguyên điện tử tích hợp để giúp người dùng nhận dạng ra tài nguyên phù hợp trong mỗi lần tìm kiếm của họ. Một tính năng khá mới cho phép người dùng sử dụng một giao diện tìm kiếm của một cổng thư viện để tìm kiếm đồng thời hay liên tục trong nhiều tài nguyên khác biệt và không cùng chung các lược đồ siêu dữ liệu, hay kỹ thuật tìm kiếm và truy xuất thông tin.

Tính năng tìm kiếm mới này trong cổng thư viện đang giải quyết và xử lý với các nối kết sâu vào nội dung được chuyển giao trên Web, đào sâu vào nội dung của các cơ sở dữ liệu mà các đầu tìm kiếm Web thông thường khác không thể đạt được. Những nội dung với đường dẫn sâu trên Web có thể là tài nguyên sẵn có miễn phí như cơ sở dữ liệu PubMed của Thư viện Y học Quốc gia Mỹ (NLM), hay các tài nguyên cấp phép khác đòi hỏi thư viện phải trả phí thuê bao hàng năm (PubMed, n.d).

Theo Mary Jackson, thuộc Hiệp hội Thư viện Nghiên cứu (ARL) ở Mỹ, khả năng tìm kiếm tích hợp trên khắp các cơ sở dữ liệu là tính năng quan trọng nhất của các cổng thư viện khi chúng đang ngày càng cung cấp các tài nguyên phân mảng (Jackson, 2002). Tuy nhiên, thiếu vắng các tiêu chuẩn, việc phát triển các khả năng cho việc thống nhất tìm kiếm trên nhiều tài nguyên khác biệt như vậy sẽ phải đối mặt với nhiều thách thức, mà chính các tổ chức đề xuất tiêu chuẩn Web ngữ nghĩa hiện đang phải giải quyết.

Tìm kiếm tích hợp

Truy cập một tài nguyên nhằm truy vấn nó hay có được kết quả từ nó đòi hỏi người dùng phải có kiến thức về tài nguyên đó, bởi vì mỗi tài nguyên có những cấu trúc và quy tắc biên dịch dữ liệu riêng biệt. Trong tài liệu tham khảo tới Web ngữ nghĩa, Berners-Lee et al. (2001) phát biểu rằng “một quy trình chuyên biệt cần có sự tạo ra một “chuỗi giá trị” mà ở đó sự kết hợp thông tin được chuyển qua từ người này đến ngưới khác, mỗi người lại làm “gia tăng thêm giá trị”, nhằm tạo ra một sản phẩm cuối cùng mà người dùng cần.” Quả thật điều này là một viễn cảnh, song nó cũng đã được đề cập, rằng Web của ngày hôm nay chưa cho phép sự tương tác như vậy giữa những người tham gia, và bởi thế sự tương tác tự động giữa cổng thư viện trung tâm và một đầu tìm kiếm tài nguyên từ xa không thể đạt được vào thời điểm này.

Không chỉ đòi hỏi hiểu biết về cấu trúc dữ liệu, tài nguyên mục tiêu từ xa để nhập câu hỏi truy vấn và truy xuất kết quả tìm kiếm, người dùng cũng cần hiểu biết về quy tắc xây dựng thuật ngữ tìm kiếm, quy trình tìm kiếm và truy xuất thông tin. Theo Berners-Lee et al. (2001), bởi thể thách thức của Web ngữ nghĩa là phải cung cấp một ngôn ngữ thể hiện được cả dữ liệu, quy tắc suy luận về dữ liệu và cho phép thích nghi với quy tắc từ bất kỳ hệ thống trình bày kiến thức hiện có nào được đưa vào trong môi trường Web.

Thậm chí trước khi Web trở thành một thực thể phổ biến và không thể thiếu trong thư viện, thì một tiêu chuẩn đã ra đời từ thế giới của thư viện cho phép tìm kiếm và truy xuất thông tin trên nhiều dạng tài nguyên – đó là Z39.50. Tiêu chuẩn quốc tế này thống trị sự giao tiếp giữa các hệ thống máy tính, chủ yếu liên quan đến hệ thống thư viện và hệ thống thông tin. Z39.50 đã được phát triển như là một cơ chế máy chủ/khách nối điểm tới điểm (point-to-point client-server) và hoạt động chủ yếu để xác định vị trí biểu ghi thư mục trong một hoặc nhiều cơ sở dữ liệu trên cùng một máy chủ duy nhất. Tuy nhiên, người dùng phải cần có thông tin cụ thể về cả máy chủ và cơ sở dữ liệu, và cụ thể hơn nữa là hiểu biết về cấu trúc nội dung của cơ sở dữ liệu đó.

Cộng đồng hỗ trợ giao thức Z39.50 đã phát triển ứng dụng “Z39.50 Explain Facility” để giải quyết những vấn đề này. Ứng dụng này đưa ra một cơ chế có cấu trúc cho phép nhà cung cấp nội dung đưa ra thông tin không chỉ về khả năng của phần mềm máy chủ mà còn về đặc tích của thông tin được lưu trữ trong mỗi cơ sở dữ liệu trên máy chủ đó. Sebastian Hammers, của hãng Index Data, và John Fayaro, thuộc Intecs Sistemi, những người phát triển ứng dụng Z39.50 nhận xét rằng, “sự cấu trúc thông tin cứng nhắc này cho phép phần mềm máy khách tự động cấu hình chính nó và thích nghi với mỗi hệ thống máy chủ, trong khi đó giao diện thống nhất đối với thông tin mô tả về một cơ sở dữ liệu giúp người dùng nhanh chóng hướng tới nội dung của một tài nguyên thông tin mới” (Hammer và Fayaro, 1996).

Cho dù có những nỗ lực như vậy, bất kể sự dự báo trước đầy lạc quan của Hammer và Fayaro vào năm 1996, song chưa đến 1% máy chủ Z39.50 thực hiện ứng dụng “Explain Facility” tới tháng 6 năm 2000 (Bull, 2000). Và người ta cũng không thấy có sự tăng đáng kế nào về sử dụng ứng dụng này kể từ năm 2000. Bởi thế, nhiều các chương trình máy tính tin cậy vào ứng dụng “Z39.50 Explain” này cũng phải phát triển các cách khác để thực hiện sự tương tác tài nguyên trong trường hợp một nhà cung cấp dữ liệu nào đó không hỗ trợ một chút nào chức năng chuyển giao theo giao thức Z39.50 hay chỉ hỗ trợ một phần giao thức này.

Một số phát triển từ cộng đồng sử dụng Z39.50 hứa hẹn đơn giản hóa ứng dụng “Z39.50 Explain Facility”, mà sau đó nó đã được chấp nhận rộng rãi. Cụ thể, với giao thức SRW (Search and Retrieve Web Service) mà nhóm ZING (Z39.50 International Next Generation) đã định nghĩa, thì không có một sự phân biệt nào giữa một máy chủ và một cơ sở dữ liệu. Với giao thức mới này, người ta hy vọng rằng sự loại bỏ khái niệm cơ sở dữ liệu trong trong chuyển giao thông tin sẽ đem đến một sự đơn giản hóa đáng kể.

Một trong những thách thức lớn đối với các cổng thư viện là làm cho sự tương tác diễn ra giữa cổng thư viện và bất cứ tài nguyên mục tiêu nào mà không đòi hỏi người ta phải lập trình trước cho phù hợp với mỗi loại tài nguyên khác biệt. Giải pháp lý tưởng này sẽ truy xuất thông tin cụ thể về tài nguyên tại thời điểm diễn ra sự tương tác thực tế – như các nhà xúc tiến ứng dụng Z39.50 Explain Facility đã hình dung, và đã tổ chức luồng tương tác đó trên cơ sở thông tin thu được từ những truy xuất này. Tuy nhiên, cách thức mà các tài nguyên được xử lý tới bây giờ đã làm cho người dùng không nhận ra giải pháp này. Một giải pháp thực tiễn hơn là nhằm tạo ra một kho dữ liệu. Kho dữ liệu này sẽ chứa đựng thông tin cần thiết cho phép truy cập các tài nguyên mà các cổng thư viện mong muốn đạt được. Những kho dữ liệu như vậy có thể được xem như là những kho chứa các lớp ngữ nghĩa mô tả sâu về tài nguyên trên Web. Quả vậy, một thế hệ cổng thư viện mới đang tin cậy vào một kho dữ liệu với khả năng chứa đựng thông tin và quy luật nối kết và hiển thị tài nguyên. MetaLib, một giải pháp cổng thư viện của Ex Libris, đã phát triển theo hướng này và phát triển kho dữ liệu này như là một “MetaLib KnowledgeBase”; chính giải pháp MetaLib, cụ thể là thành phần Universal Gateway đang được coi như là một công cụ tổng hợp tài nguyên tham khảo toàn diện nhất hiện nay.

Phần 2: MetaLib, cổng thư viện từ Ex Libris và Cấu hình tài nguyên trong MetaLib

Tamar Sadeh và Jenny Walker

Theo tạp chí New Library World, Q. 104, Số 1184/1185, 2003, tr. 11-19, Emerald Publishing Limited.