SemanticWeb網絡導航論文

時間:2022-03-12 08:51:00

導語:SemanticWeb網絡導航論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

SemanticWeb網絡導航論文

1網絡信息資源導航的現狀

遍布全世界的主機和服務器,錯綜相聯的超媒體資源,這是互聯網為我們所構建的一個巨大而豐富的電子信息空間。它無疑是現代社會最重要的信息獲取手段,但是它的開放性、分布性、無序性以及驚人的發展速度也為人們對信息資源的利用帶來了困難。正如在大海中行駛的船只需要導航系統確定方位一樣,要想在茫茫的信息海洋中有效獲取有用信息,也必須擁有便捷有效的信息導航技術。一般來說,www網絡中常用的信息導航方式有三種:一是利用門戶網站的分類索引;二是利用網絡搜索引擎;三是利用網站的相關鏈接。但是目前這三種信息導航方式的效果都不盡如人意。分類索引所覆蓋的網絡站點范圍太小,更新較慢,難以適應網絡的快速增長,而且分類標準的不統一和不規范常常影響到用戶對站點所屬的判斷,造成導航失敗。搜索引擎雖然是目前主要的網絡信息檢索工具,但是通過簡單的邏輯運算檢索到的結果往往是數量龐大且魚目龍雜,充斥著大量的無用和重復信息。網站的相關鏈接是指符合當前網站內容主題的內部和外部信息資源的超鏈接,這種導航方式雖然簡單直接,但是信息量非常有限,而且對外部信息的鏈接常常出現錯鏈和假鏈,即使是內部信息,也常常因為組織和描述方式的影響,造成用戶的“資源迷向”。

用戶在信息空間中的“迷航”會使他們感到厭倦而喪失獲取信息的信心,分析其原因,主要包括以下幾個方面[1,2]:

(1)網絡的巨大信息量使人們必須依賴于自動化的處理技術。但是目前因特網的各個網端的技術支持環境比較復雜,信息資源的內容范圍、組織結構和存儲方式各不相同,呈現出分散、無序、變幻多端的特點,這使自動信息處理技術的應用困難重重。因此要提高信息導航的效率和質量,必須先解決資源異構的問題。

(2)網絡信息空間中的數據大多以半結構化和非結構化的形式存在,對信息資源的內容缺乏形式化的語義描述,而且大部分資源間的鏈接也沒有反映語義關系,這使得機器很難對網絡信息空間進行深層次的理解和處理,對信息的自動導航也無法像人工操作那樣準確有效。

(3)目前的網絡導航系統缺乏個性化的信息服務。由于知識背景的差異和一詞多義等方面的原因,不同的網絡用戶之間、用戶與系統設計者之間對于問題和信息內容可能會具有不同的理解與認識,當用戶按照自己的思路查找信息時,他所選擇的導航路徑可能是錯誤的或者低效的。因此信息導航必須考慮具體用戶的特殊性,有針對性地提供導航服務。

(4)網絡導航系統的設計缺乏規范。門戶網站各自依據不同的標準建立自身的分類導航系統,網站的劃分隨意性較大,常常引起用戶的困惑。一些著名的信息搜索引擎也各自采用不同的檢索規則,有些系統不能利用歷史信息或者不提供二次檢索,給用戶的使用帶來不便。另外,在網站內部的導航系統設計上,也存在著導航結構不合理,導航要素不完整,導航界面不統一等問題。這些都可能造成用戶的導航障礙。

由此可見,造成信息“迷航”問題的主要原因在于缺乏信息空間的合理組織和有效的導航機制,這也是第二代web網絡技術難以克服的困難。為此,人們正在研制第二代web網絡——semanticweb,它以結構化信息表示為主,為網絡導航研究開辟了新天地。

2SemanticWeb技術

TimBernersLee在1998年提出了SemanticWeb的概念。2001年2月,W3C組織正式推出SemanticWebActivity,使網絡環境下的語義處理技術研究漸入佳境。SemanticWeb研究活動的目標是開發一系列可由計算機理解和處理的語義表示語言和技術,通過顯式的語義表示和領域本體將網絡信息空間編織成為一個巨大的機器可讀的知識網絡,以支持自動化的信息訪問和知識管理,實現高質量的網絡信息服務。目前關于SemanticWeb的研究主要集中在網絡信息資源及其內容的語義和語義關系表征,基于語義的數據自動分析、理解和處理,不同應用領域和系統間的數據自動交換、轉換和復用[3]。SemanticWeb雖然是現有web網絡的延續,但在信息導航方面具有許多普通web沒有的優勢。SemanticWeb中的節點既可以代表物理頁面,也可以代表知識實體;SemanticWeb中網頁的內容不但可以被人理解,而且可以被機器理解;SemafiticWeb中的鏈接不再是任意的,而是遵循一定的語義關系。通過SemanticWeb技術,可以改變現有網絡松散的數據結構,將信息資源結構化并賦予含義,使網絡信息的整合和自動處理都變得更加容易[4]。

2.1本體

所謂本體(Ontology),實質上是描述特定應用領域知識的公認的術語集。關于奉體的定義,比較著名的觀點是“本體是概念模型的一個顯式的規格說明”和“本體是共享概念的一個形式化的規格說明”,其中,“概念模型(Conceptualization)”是指通過對某個客觀現象的相關概念進行辨析和提取而獲得的關于該現象的抽象摸型;“顯式(Explicit)”是指對所使用的概念的類型,以及這些概念在應用上的約束都給予明確的說明;“形式化(Formal)”表示本體以計算機可讀的形式存在;“共享(Share)”表示本體中反映的是共同認可的知識”[5]。

本體通常表達為一組對象(概念)、關系、函數、定理和實例。本體中的對象類按照等級關系組織成基本的結構體系。等級關系包括例化(is-a)關系、類屬(kind-of)關系和整部關系(part-of)。上層的對象類為父類,下層的對象類為子類。對象類具有各自的屬性,并可依據父子關系繼承。對屬性的取值對象、取值范圍、取值基數等都可以加以限制,還可以對屬性的交換性、對稱性、傳遞性、唯一性等進行定義。除了等級關系,本體中的對象類間還可以具有其他語義關系,形成語義網絡形式的概念模型。本體是機器自動推理和智能化高級信息服務的基礎,對網絡而言,一個簡單的本體的典型例子就是網絡的分類索引(如Yahoo!的分類目錄)。本體的應用對于提高網絡導航的精度和效率具有重要的意義[1,4)。

2.2RDF和RDFS

RDF是由W3C開發的元數據描述機制,其目的主要是為元數據在網絡上的編碼、交換和重用提供一個基礎。它允許在XML的基礎上以一種標準化的、互操作的方式對數據語義進行定義[4],提供了一個描述web資源的數據模型。RDF包含描述資源的屬性和關系的聲明。資源是任何用URl(UniformResourceIdentifier)唯一標識的實體對象。資源具有屬性,屬性則具有一定的值,該值可能是簡單的字符串或數字,也可能是自身也具有屬性的其他資源。這樣,資源、資源屬性和屬性值構成了RDF聲明中的三元關系模式,任何本體或描述性元數據都是這種三元關系模式的具體體現”[1,7]。

為了描述元數據元素間的復雜語義關系,W3C進一步定義了RDFS(RDFSchema)。它可以看成是一個本體定義語言,用來建立概念類體系結構、屬性層次和類關系。

3基于SemanticWeb的智能導航機制

SemanticWeb的出現為網絡信息導航提供了新的研究思路,SemanticWeb技術是解決無序網絡空間中“迷航”問題的關鍵技術?;赟emanticWeb的智能導航是一種以結構化、語義化的概念知識網絡為基礎,自動形成個性化導航結構的方法。它分為兩個方面,一是基于SemanticWeb的信息組織,即利用參考本體對各信息源進行語義描述和整合;二是基于SemanticWeb的個性化導航結構模型的構建,即在有序語義組織的基礎上,構造用戶語義模型,并據此建立導航結構。圖1顯示了基于SemanticWeb的智能導航機制的概念結構[8]。

3.1基于SemanticWeb的信息組織

基于SemanticWeb的信息組織的基本思想是,將來自于多個異構信息源中的數據整合到一個語義統一的參考本體中。參考本體是通過分析領域中的各個信息資源集合,提取公共概念、屬性和關系而構建的本體,它為所有信息資源提供統一的概念集合和通用語義。

信息整合的方法是先分別將各個信息源中的數據轉換為通用的數據模型,然后建立各個數據模型和參考本體之間的映射關系。網絡中的信息源具有各種各樣的數據格式,其中大部分是HTML頁面,有的包含表格和列表。另外還有XML文檔、RDF文檔以及關系數據庫文檔等。為了解決分布式異構信息源的語法相異問題,需要將數據轉換為公用的數據模型格式,例如RDF。對于非RDF格式的信息數據,可以利用外覆包(wrapper)技術將其自動地轉換為基于RDF的數據模型。外覆包對特定格式的數據文檔進行解析,并采用RDF聲明對其內容進行標注。下面是三種常用的外覆包:

(1)HTML外覆包。由于HTML頁面屬于半結構化的信息數據,因此HTML外覆包采用的是半指導性的標注方法。即預先手工標注一組HTML頁面,然后對新的HTML頁面進行結構分析,將新頁面與標注頁面進行比較,從中提取相關信息。HTML外覆包還可以處理異構的XML文件[1]。

(2)XML外覆包。根據DTD和Schema所定義的XML文檔的內容結構和內容元素,建立概念集與DTDSchema之間的映射關系,從而自動地將XML文獻中的DTD內容元素標記轉換為對應的概念集元數據標記。

(3)關系數據庫外覆包。將關系數據庫中的數據元素和二維數據關系映射到概念集中,形成語義基礎,以便從關系數據庫中自動創建RDF聲明。

由于不同的信息提供者可能會使用不同的詞表來標注數據,因此在建立通用數據模型后,還必須在信息數據源和參考本體之間建立概念和關系的映射,以消除語義差別。根據RDF聲明,在參考本體中注冊相關內容的來源,使參考本體成為一個知識內容的集成文件。另外,采用基于本體的元數據發現和漫游技術,探測相關的RDF聲明,可以自動地添加新的信息資源[8]。

3.2基于SemanticWeb的個性化導航

通過建立參考本體以及進行信息整合,無序異構的網絡信息數據通過語義概念及語義關系被組織到一起,形成一個有序的公共語義知識模型。但是對于具體網絡用戶的信息導航,并不直接在全部公共語義模型上進行,而是依據用戶語義模型有針對性地進行。

3.2.1用戶語義模型

用戶語義模型是反映用戶觀點的概念集合和概念關系。概念集合的確定可以由用戶直接提交或者根據用戶的注冊信息(用戶的興趣、愛好和知識背景等)按照一定的規則計算選擇。而構建用戶語義模型的關鍵步驟在于建立用戶概念集合與參考本體間的語義映射,尋找參考本體中與用戶相匹配的概念和關系。

為了將參考本體映射到用戶語義模型,需要預先對參考奉體和用戶概念集合進行數據訓練,方法是為每個本體概念和用戶概念各標注一定的相關資源作為訓練數據,然后利用向量空間模型為每個概念生成向量,并計算其標準權重。

建立語義映射的過程通過計算用戶概念集合中的概念向量uc與參考奉體中的每個概念向量間的匹配度來完成。假設在n維向量空間中,用戶概念向量uc中第i項的權重為的匹配度為[9]:

首先將計算結果中匹配度高于閥值的若干概念向量與uc建立映射,形成從用戶概念集合到參考本體的一對多的對應關系。如果參考本體的一些概念被重復映射,則需要選擇其中匹配度最高的映射,以保證從參考本體到用戶概念集合的一對一關系,即一個本體概念只能和一個用戶概念相關,但一個用戶概念可以和多個參考概念相關。在建立用戶概念集合與參考奉體對應關系的同時,用戶概念也繼承了本體中的概念層次結構和其他語義關系,成為一個獨立的語義模型。

原則上應該將參考本體中的所有概念都映射到用戶語義模型中,但是由于用戶語義模型是范圍相對較小的概念集合,因此參考奉體中的概念實際上不可能被完全映射。為了保持映射的完整性,可以在用戶語義模型中設立一個“其他”概念類,參考本體中的所有沒有被映射的概念將成為它的子概念[9]。

舉例來說,假設用戶提供的信息表明其在體育領域感興趣的概念為“足球”、“足球世界杯”、“足球亞洲杯”、“NBA”、“圍棋”、“奧運會”,圖2顯示了這些用戶相關概念經過映射后形成用戶語義模型的過程。

用戶概念集合中的每一個概念都在參考本體中找到了與之相對應的一個或多個概念,將這些概念從參考本體中提取出來,并根據其語義關系重新組合,就形成了用戶語義模型的結構。例如:用戶概念“NBA”的對應概念為“籃球”、“籃球賽事”和“美國籃球職業聯賽(NBA)”,因此這三個概念都被包含在用戶語義模型中,且它們之間的父子關系(即等級關系)保持不變。又如,雖然參考本體中的“其他賽事”概念和用戶概念集合沒有直接對應關系,但由于該概念和“足球賽事”與“籃球賽事”兩個概念間有語義關系,且這兩個概念均與用戶相關,因此該概念也被包含在用戶語義模型中。另外,“世界杯足球賽”概念實際上與“足球”和“足球世界杯”兩個概念間都具有對應關系。但由于它與后者的匹配度比前者高,因此將它映射到后者。

3.2.2個性化導航結構模型

導航結構模型顯示了導航系統組織、關聯和顯示信息內容的方式。站點地圖就是一種最簡單直接的導航結構模型。個性化導航結構模型是基于用戶語義模型創建的針對特定用戶的導航結構,是個性化導航服務的實現。

導航結構的設計需要考慮三個基本要素:卡片、頁面和鏈接。一張卡片只包含一種類型的信息內容,是導航結構模型中的最小組成單元。頁面與物理的web頁面相對應,一個頁面上可以包含若干個卡片。鏈接則用于連接各個頁面中的卡片以形成整體結構[8]。通常,導航結構模型總是從一個缺省的根頁面開始,每一級頁面都包含了到下一級頁面的鏈接,信息內容通過卡片和頁面進行分類和聚合,導航通過鏈接來進行。在個性化的導航結構建模中,導航結構是根據用戶語義模型來確定內容和鏈接關系的。圖3顯示了一個導航結構的部分示例,它是在圖2中的用戶語義模型的基礎上建立的。

導航結構的建模過程就是對各級貞面中的卡片的內容、類型和表示樣式的確定過程??ㄆ膬热莞鶕|發點和用戶語義模型來選擇,不同的用戶將獲得不同的信息內容。

導航結構中的卡片被分為兩種類型:靜態卡片和動態卡片。靜態卡片的內容獨立于數據源,主要包含靜態文本、圖片等。導航結構中的根頁面通常都包含靜態卡片,具有預先定義的錨點,指向下一級的頁面。動態卡片的內容視數據源而定,如果數據源改變,則卡片的內容必須重新計算生成。動態卡片還可以細分為四種類型,每一種都代表了對信息進行結構化的一種典型方法:

(1)列表型(List)卡片:顯示實體的實例列表,每一條實例都可具有指向該實例具體內容的鏈接入口。列表中的實例可以按照某種屬性排序或索引。圖3中的頁面P2、P3、P4、P5都包含了列表型卡片。

(2)事實型(Fact)卡片:詳細地顯示一個實例的具體內容,如圖3中的頁面P4包含的“新聞內容”卡片和頁面P5包含的“賽事內容”卡片。

(3)幻燈片型(Slide)卡片:順序顯示一組實例的具體內容,每次一個實例,且具有瀏覽附近實例的超鏈接,待顯示的實例可以按照某種屬性排序或索引。圖3中的頁面P6包含該類型的卡片,其中每個足球俱樂部的相關信息將被依次顯示。

(4)查詢型(Query)卡片:要求用戶先填寫一組實體屬性的值,然后查詢符合該值的實例并顯示,通常該類型的卡片用于導航系統中的信息檢索,如圖3中的頁面P7包含的卡片[8]。

另外,不同的卡片具有不同的表示樣式,表示樣式描述各種表示元素的屬性,例如字體、顏色、布局等。表示樣式可以根據用戶喜好確定。

個性化導航機制的導航方法采用用戶語義模型的查找與語義鏈的觸發相結合的方式。當導航結構中的一個鏈接被觸發時,該鏈接將被賦予一個查詢式Q(C,T,S),式中三個變量的含義分別代表卡片的內容、類型和表示樣式,在用適當的值填充變量后,即可利用查詢式計算生成鏈接末端的卡片。例如在圖3中,當鏈接L1被觸發后,L1的查詢式為:Q(“體育”,List,Stylel),其計算結果為頁面P2中的卡片。Q中的變量C的值為L1的觸發端點的概念“體育”,Q在計算時將檢索用戶語義模型,獲取此概念的相關概念或相關資源作為卡片的內容。Q中變量T的值為List,因此Q生成的卡片將具有列表型的信息結構。同時,由于Q中變量S的值為Stylel,因此Q還要讀取樣式表中名稱為Stylel的表示樣式,并據此決定卡片的外觀。同理,鏈接L2的查詢式為Q(“足球俱樂部”,Slide,Stylel),其結果是生成一個信息結構為幻燈片類型,表示樣式為Stylel,內容與足球俱樂部相關的卡片”[11,12]。

導航機制采用SemanticWeb技術,揭示和整合網絡信息資源的深層語義知識模型,能有效解決無序、異構網絡信息空間中的“迷航”問題。它利用映射方法建立用戶語義模型,可以充分表達用戶需求的語義知識,以提高個性化導航的效率。

4結束語

網絡信息的利用狀況不容樂觀,迫使人們努力探索更為先進更為成熟的導航理論、方法和技術。第二代web技術——SemanticWeb在信息服務中的應用,促進了網絡導航新技術的發展。它作為導航系統的信息組織框架,能夠使復雜的信息空間變得有序、清晰和直觀,它采用機器可讀的形式化的知識表示方式,有利于知識內容的自動獲取。目前,SemanticWeb技術正獲得越來越多的應用,相信經過不斷地研究和優化,以SemanticWeb為基礎的高級網絡信息服務將逐步成熟,智能、高效、個性化的導航系統將成為開發網絡信息資源的主流工具。

【參考文獻】

1叢敬軍,閻輝.數字圖書館的知識信息導航技術研究.中國圖書館學報,2003,29(145):51~53

2馬瑞民,衣治安.Web上超文本數據導航方法的研究.情報學報,2001,20(5):538~544

3張曉林.SemanticWeb與基于語義的網絡信息檢索.情報學報,2002,21(4):413~420

4劉柏嵩.基于知識的語義網:概念、技術及挑戰.中國圖書館學報,2003,29(144):18~21

5MikeUschold,MichaelGruninger.Ontologies:Principles,MethodsandApplications.KnowledgeEngineeringReview,1996,11(2):93~155

6JeffHeflinetal.Requirementsforawebontologylanguage./TR/webont-req/

7張平,郭金庚.語義網描述語言分析.電腦開發與應用,2003,16(4):31~33

8OntoWebberModel-DrivenOntology-BasedWebSiteManagement.www-db.stanford.edu/pub/gio/2001/Ontowebber01.pdf

9Ontology-BasedPersonalizedSearchandBrowsing.www.ittc.ku.edu/~sgauch/selectedpapera/WLAS2003.pdf

10畢強,劉早學.QUIC——一個智能超文本導航系統.情報學報,2002,20(12):1277~1281

11楊衛東,施伯樂.基于狀態圖的Web導航模型及其特征分析.計算機研究與發展,2002,39(8):992~997

12鐘元生.面向對象的Web導航模型設計.計算機應用,2002,22(12):50~52