回族歷史文化特色數(shù)據(jù)庫(kù)建設(shè)研究

時(shí)間:2022-06-09 02:35:58

導(dǎo)語:回族歷史文化特色數(shù)據(jù)庫(kù)建設(shè)研究一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

回族歷史文化特色數(shù)據(jù)庫(kù)建設(shè)研究

1引言

隨著信息技術(shù)的不斷發(fā)展,用戶獲取信息的渠道更加便捷和多元化,搜索引擎、虛擬社區(qū)、門戶網(wǎng)站等不斷分流著高校圖書館的用戶。在這種泛在知識(shí)環(huán)境下,高校圖書館應(yīng)充分發(fā)揮自身資源優(yōu)勢(shì)、專業(yè)優(yōu)勢(shì)、人才優(yōu)勢(shì),變被動(dòng)服務(wù)為主動(dòng)服務(wù),突出自身特色,只有這樣才能增強(qiáng)用戶粘性,促進(jìn)圖書館不斷發(fā)展。建立特色數(shù)據(jù)庫(kù)便是高校圖書館提供主動(dòng)知識(shí)增值服務(wù)的一種體現(xiàn)。特色數(shù)據(jù)庫(kù)是指針對(duì)用戶的信息需求,對(duì)某一學(xué)科或某一專題信息進(jìn)行收集、分析、評(píng)價(jià)、處理、儲(chǔ)存,并按照一定標(biāo)準(zhǔn)和規(guī)范將特色資源數(shù)字化,以滿足用戶個(gè)性化需求的信息資源庫(kù)[1]。特色數(shù)據(jù)庫(kù)應(yīng)根據(jù)本館館藏特色、地方特色或本校的重點(diǎn)專業(yè),集中各類文獻(xiàn)而建立,能充分反映文獻(xiàn)館藏信息資源和數(shù)據(jù)資源特色的總匯。寧夏大學(xué)圖書館依托地域特色和學(xué)科特色,利用先進(jìn)的數(shù)字化技術(shù)和網(wǎng)絡(luò)化手段,對(duì)現(xiàn)有的回族文獻(xiàn)信息資源進(jìn)行有序的整合,構(gòu)建回族歷史文化特色數(shù)據(jù)庫(kù),無疑具有重要的現(xiàn)實(shí)意義。回族歷史文化數(shù)據(jù)庫(kù)的建設(shè),一方面能夠最大限度地發(fā)揮特色資源的利用價(jià)值,為讀者提供系統(tǒng)、全面的回族文獻(xiàn)信息服務(wù);另一方面,能夠借此集中各方力量搜集整理與回族歷史文化相關(guān)文獻(xiàn),將形式各異、觀點(diǎn)鮮明的資源集中于一個(gè)平臺(tái),形成百家爭(zhēng)鳴的格局,促進(jìn)回族歷史研究的不斷進(jìn)步。

2回族歷史文化特色數(shù)據(jù)庫(kù)總體規(guī)劃

根據(jù)回族歷史文化特色數(shù)據(jù)庫(kù)的建設(shè)目標(biāo),我們應(yīng)全面搜集各種載體相關(guān)信息,將這些相關(guān)信息整合規(guī)范到一個(gè)系統(tǒng)中。建設(shè)回族歷史文化特色數(shù)據(jù)庫(kù)的總體規(guī)劃是:一方面對(duì)本館、本校和兄弟院校的回族歷史文化紙本資源進(jìn)行搜集、開發(fā)與整合;另一方面對(duì)有關(guān)回族歷史文化的各種格式的網(wǎng)絡(luò)文獻(xiàn)資源進(jìn)行挖掘與整合。最終將這些文獻(xiàn)資源進(jìn)行數(shù)字化加工處理,劃分成若干個(gè)子庫(kù),統(tǒng)一在同一檢索平臺(tái),在WEB服務(wù)器上。可以進(jìn)行目錄檢索、分類檢索、主題檢索和全文檢索,實(shí)現(xiàn)讀者網(wǎng)上輕松閱讀和下載。

3回族歷史文化數(shù)據(jù)庫(kù)建設(shè)前期準(zhǔn)備工作

3.1成立專門建設(shè)團(tuán)隊(duì)

由館領(lǐng)導(dǎo)牽頭組織,成立由回族研究學(xué)者、圖書情報(bào)人員、計(jì)算機(jī)技術(shù)專業(yè)人員共同組成的特色庫(kù)建設(shè)團(tuán)隊(duì)。總結(jié)和借鑒已有建庫(kù)經(jīng)驗(yàn),確定數(shù)據(jù)庫(kù)建設(shè)內(nèi)容、軟件平臺(tái)、相關(guān)數(shù)據(jù)規(guī)范標(biāo)準(zhǔn)、數(shù)據(jù)收集范圍,對(duì)資源采集、資源整理、資源加工、資源入庫(kù)等工作進(jìn)行合理分工。

3.2確定信息源與數(shù)據(jù)收集范圍

數(shù)據(jù)是數(shù)據(jù)庫(kù)的核心,數(shù)據(jù)收集是數(shù)據(jù)庫(kù)建設(shè)的基礎(chǔ)。回族歷史文化特色數(shù)據(jù)庫(kù)收集所有載體的回族文獻(xiàn)。關(guān)于回族文獻(xiàn),我們秉承以下定義:凡記錄、存貯和傳播有關(guān)回民族知識(shí)的一切載體,統(tǒng)稱為回族文獻(xiàn),它不僅包括內(nèi)容具有回族屬性的文獻(xiàn),而且涵蓋文獻(xiàn)作者(主要指著、畫、寫、刻、譯等)具有回族屬性的作品,如薩都剌的詩(shī)、張承志的小說。此外,回族文獻(xiàn)不等同于伊斯蘭文獻(xiàn),如《古蘭經(jīng)》的譯本,回族學(xué)者的漢譯本為回族文獻(xiàn),而維吾爾語譯本則不為回族文獻(xiàn);同為記述清真寺的文獻(xiàn),廣州的懷圣寺屬于回族文獻(xiàn),而記載新疆的艾提尕大清真寺就不能稱作回族文獻(xiàn)[2]。在此數(shù)據(jù)收集范圍的界定基礎(chǔ)上確定建庫(kù)信息源的種類,包括圖書、期刊、圖片、會(huì)議論文、學(xué)位論文和視頻等載體類型;然后對(duì)收集到的文獻(xiàn)進(jìn)行篩選、整理和組織,以確保數(shù)據(jù)庫(kù)中文獻(xiàn)的含金量。篩選、整理和組織文獻(xiàn)的過程是知識(shí)管理的過程,這一過程關(guān)系到整個(gè)數(shù)據(jù)庫(kù)的質(zhì)量,需要在學(xué)科專家的建議和指導(dǎo)下,由專業(yè)人員和圖書館建庫(kù)人員共同來完成。

3.3確定數(shù)據(jù)規(guī)范標(biāo)準(zhǔn)

高校特色數(shù)據(jù)庫(kù)具有為用戶提供個(gè)性化信息服務(wù),按照一定標(biāo)準(zhǔn)和規(guī)范建設(shè)而形成并可供共享等特征。因此,我們?cè)诮◣?kù)過程中應(yīng)注重標(biāo)準(zhǔn)和規(guī)范的制定,從而建立兼容性強(qiáng)、標(biāo)準(zhǔn)化高的特色數(shù)據(jù)庫(kù)。參照CALIS特色數(shù)據(jù)庫(kù)建設(shè)相關(guān)標(biāo)準(zhǔn),將是一個(gè)捷徑,如《CALIS資源數(shù)字加工與標(biāo)準(zhǔn)》《信息資源名稱規(guī)范》和《CALIS數(shù)字對(duì)象唯一標(biāo)識(shí)符命名規(guī)范》。CALIS針對(duì)數(shù)據(jù)制作標(biāo)準(zhǔn)制定了相關(guān)規(guī)則或規(guī)范,包括《CALIS描述型元數(shù)據(jù)規(guī)范及其著錄規(guī)則》《CALIS管理型元數(shù)據(jù)規(guī)范》[3]等,用來統(tǒng)一規(guī)范特色庫(kù)的建庫(kù)標(biāo)準(zhǔn)和服務(wù)功能。其中《CALIS描述型元數(shù)據(jù)規(guī)范及其著錄規(guī)則》選定了11種規(guī)范格式及其著錄規(guī)則,作為元數(shù)據(jù)規(guī)范格式,包括古籍、輿圖、家譜、拓片、地方志、學(xué)位論文、會(huì)議論文、電子圖書、音頻資料、網(wǎng)絡(luò)資源的描述元數(shù)據(jù)規(guī)范及其著錄規(guī)則。本館根據(jù)實(shí)際情況,據(jù)此規(guī)范制定了圖書、學(xué)位論文、期刊論文、會(huì)議論文、圖片、視頻六種元數(shù)據(jù)格式,以圖片元數(shù)據(jù)格式為示例一,見表1。

3.4確定特色庫(kù)建庫(kù)軟件平臺(tái)

本館在建設(shè)和中采用通過CALIS二期認(rèn)證的方正DESI系統(tǒng)作為資源建設(shè)和的平臺(tái)。DESI系統(tǒng)是北京方正阿帕比技術(shù)有限公司所開發(fā)的一套數(shù)字圖書館制作軟件。分為采用C/S模式的信息制作系統(tǒng)、信息資源系統(tǒng)和采用B/S模式的信息系統(tǒng),此系統(tǒng)可以將各種紙質(zhì)資源數(shù)字化,統(tǒng)一成符合國(guó)際標(biāo)準(zhǔn)格式的電子資源,能同時(shí)管理文字、圖片、多媒體等信息并提供全文檢索服務(wù),支持網(wǎng)頁(yè)的動(dòng)態(tài),一個(gè)程序界面便完全實(shí)現(xiàn)了數(shù)據(jù)加工、審核、,是一個(gè)面向內(nèi)容管理的應(yīng)用和信息軟件。DESI系統(tǒng)具有以下基本功能:(1)紙質(zhì)文獻(xiàn)數(shù)字化,并進(jìn)行圖像處理和文字識(shí)別;(2)文檔格式轉(zhuǎn)換,支持DOC、PDF、PS、JPG、TIF、TXT等格式轉(zhuǎn)換;(3)支持文檔的拆分、合并功能;(4)進(jìn)行元數(shù)據(jù)標(biāo)引、分類、目錄制作、多媒體鏈接等深度數(shù)據(jù)加工;(5)內(nèi)容加密使之無法隨意拷貝、打印、散發(fā);(6)支持電子資源的字段檢索、全文檢索、全面檢索和關(guān)聯(lián)檢索;(7)支持網(wǎng)絡(luò)、光盤,并可進(jìn)行各種統(tǒng)計(jì);(8)加密入庫(kù)及安全管理引擎,授權(quán)限定范圍內(nèi)的用戶下載閱讀;(9)提供FAQ、新聞、公告欄論壇等輔助功能;(10)對(duì)加工的電子資源添加水印。基于以上功能,DESI系統(tǒng)能夠很好地滿足我們的建庫(kù)需求。

4用方正DESI系統(tǒng)建設(shè)回族歷史文化特色數(shù)據(jù)庫(kù)

4.1創(chuàng)建數(shù)據(jù)庫(kù)

DESI中啟動(dòng)方正DESI客戶端,新建資源庫(kù)。DESI系統(tǒng)內(nèi)置了27種資源庫(kù)模板,其中包含《CALIS描述型元數(shù)據(jù)規(guī)范及其著錄規(guī)則》中規(guī)定的11種格式的特色庫(kù)模板。根據(jù)回族歷史文化特色數(shù)據(jù)庫(kù)的需要選擇特色庫(kù)圖書、期刊論文、學(xué)位論文、會(huì)議論文、圖片和網(wǎng)絡(luò)資源等六個(gè)模板。每個(gè)模板具有不同的字段,可以根據(jù)需要添加或修改字段信息。對(duì)于建好的各個(gè)子庫(kù)還需要進(jìn)行相關(guān)設(shè)置,主要包括子庫(kù)是否需要完成除元數(shù)據(jù)標(biāo)引外的數(shù)據(jù)分類、目錄制作和多媒體鏈接可選工作;是否分配不同人員來完成不同工作;是否數(shù)據(jù)審核后才能夠。數(shù)據(jù)庫(kù)框架如圖1示:

4.2數(shù)據(jù)采集

對(duì)于本館收藏的有關(guān)回族歷史文化的紙質(zhì)文獻(xiàn)資源通過掃描、圖像處理、OCR文字識(shí)別等手段形成數(shù)字化文檔,文本以pdf格式保存,圖片以tiff格式保存。利用文件上傳功能將數(shù)字對(duì)象轉(zhuǎn)入DESI系統(tǒng)相對(duì)應(yīng)的子庫(kù)中,最終文本數(shù)據(jù)轉(zhuǎn)換成方正DESI使用的CEB格式。CEB作為DESI系統(tǒng)的特有格式,是完全高保真的中文電子書格式,其將不同的源文件格式轉(zhuǎn)換成統(tǒng)一格式,并保留了源文件中的字符、字體、版式和色彩的所有信息,該格式對(duì)文字圖像等進(jìn)行了壓縮,節(jié)省了數(shù)據(jù)存儲(chǔ)空間。對(duì)于本館收藏的電子資源和搜集的網(wǎng)絡(luò)資源,需要進(jìn)行預(yù)處理,使之符合《CALIS文獻(xiàn)資源數(shù)字加工與標(biāo)準(zhǔn)》:文本格式的數(shù)字對(duì)象為pdf格式;圖像格式的數(shù)字對(duì)象為jpg格式或者tiff格式;視頻資源建議采用Mpeg或AVI(MPEG4)保存。在收集這類資源的過程中,利用Excel或access等軟件將各類型資源的元數(shù)據(jù)根據(jù)定義好的規(guī)范收集整理,利用DESI系統(tǒng)的資源導(dǎo)入導(dǎo)出功能批量將元數(shù)據(jù)和數(shù)字對(duì)象導(dǎo)入系統(tǒng)相對(duì)應(yīng)的子庫(kù)中。

4.3資源加工

入庫(kù)的記錄要經(jīng)過數(shù)據(jù)加工,才能最終到網(wǎng)上。回族歷史文化特色數(shù)據(jù)庫(kù)的數(shù)據(jù)加工過程主要包括元數(shù)據(jù)標(biāo)引、數(shù)據(jù)分類和數(shù)據(jù)審核3個(gè)方面的內(nèi)容。

4.3.1元數(shù)據(jù)標(biāo)引

元數(shù)據(jù)標(biāo)引是對(duì)文檔元數(shù)據(jù)進(jìn)行標(biāo)引的工作。元數(shù)據(jù)標(biāo)引是數(shù)據(jù)加工階段中必不可少的環(huán)節(jié),標(biāo)引的準(zhǔn)確、詳細(xì)程度也直接決定數(shù)據(jù)庫(kù)的質(zhì)量。在此環(huán)節(jié)中,直接從原文中拖選需要的內(nèi)容,操作簡(jiǎn)單,對(duì)于無法拖選內(nèi)容的資源也可以直接輸入。如果利用系統(tǒng)資源導(dǎo)入導(dǎo)出功能入庫(kù)的資源,元數(shù)據(jù)信息只要保證在入庫(kù)時(shí)已經(jīng)完整準(zhǔn)確,就不再需要手工標(biāo)引程序。在特色數(shù)據(jù)庫(kù)建設(shè)中,數(shù)字化對(duì)象的標(biāo)引和分類工作量通常很大,可將這些標(biāo)引工作分配給不同的工作人員,多人并行工作。

4.3.2數(shù)據(jù)分類

數(shù)據(jù)分類是將相關(guān)資料分到某種分類法的某一種類目之中。DESI系統(tǒng)在分類模塊中預(yù)制了標(biāo)準(zhǔn)的中圖法分類體系,同時(shí)也允許用戶自定義分類體系。用戶可根據(jù)自身需要?jiǎng)?chuàng)建相應(yīng)的導(dǎo)航樹結(jié)構(gòu),將庫(kù)中的記錄進(jìn)行分類,以方便數(shù)據(jù)的管理和訪問。回族歷史文化特色數(shù)據(jù)庫(kù)采用學(xué)科導(dǎo)航分類法來進(jìn)行數(shù)據(jù)的分類管理。

4.3.3數(shù)據(jù)審核

在具體的建庫(kù)過程中,我們?cè)O(shè)定數(shù)據(jù)審核,檢查元數(shù)據(jù)標(biāo)引和文件是否準(zhǔn)確無誤,分類是否合理。對(duì)于元數(shù)據(jù)標(biāo)引、分類信息準(zhǔn)確無誤的任務(wù)標(biāo)記為“任務(wù)正確”,只有“任務(wù)正確”后才能審核通過,對(duì)于有錯(cuò)誤的信息可以通過不同的錯(cuò)誤類型進(jìn)行分類標(biāo)記,如元數(shù)據(jù)標(biāo)引錯(cuò)誤、文件錯(cuò)誤、分類錯(cuò)誤。對(duì)于審核有錯(cuò)誤的任務(wù),在彈出的“錯(cuò)誤信息”對(duì)話框中輸入錯(cuò)誤原因,以待進(jìn)一步的修改。數(shù)據(jù)審核是數(shù)據(jù)庫(kù)管理中的重要一環(huán),對(duì)建立數(shù)據(jù)庫(kù)起到了質(zhì)量保障作用。

4.4資源

數(shù)據(jù)處理完畢后就可以到數(shù)字資源平臺(tái)上,供廣大讀者查詢、檢索、借閱、下載;供管理員進(jìn)行推薦、上架下架等操作。在DESI系統(tǒng)中時(shí)有三個(gè)選項(xiàng)可供選擇:一是僅元數(shù)據(jù),只一個(gè)任務(wù)的元數(shù)據(jù),而不會(huì)其他相關(guān)的數(shù)字對(duì)象文件;二是覆蓋,遇到重復(fù)的資源,自由選擇是否需要覆蓋已經(jīng)的資源的元數(shù)據(jù)和相關(guān)文件;三是時(shí)資源文件加密,對(duì)要資源的數(shù)字對(duì)象ceb文件進(jìn)行加密,加密后的ceb文件在讀者下載到本地后不能拷貝到其他電腦。為使后的資源文件更加安全,我們選擇“時(shí)加密資源文件”,遇到重復(fù)的資源,選擇更新資源的元數(shù)據(jù)和相關(guān)文件。在過程中會(huì)有進(jìn)度條顯示情況,在結(jié)束后會(huì)生成日志文件,以txt格式保存。txt文檔中展示了過程中是否有失敗的情況,若任務(wù)都成功就代表完成了資源。若有失敗的任務(wù)則根據(jù)文檔中提示查找失敗原因,方便修改后再次。資源成功后,用戶便可以根據(jù)權(quán)限在數(shù)字資源平臺(tái)訪問回族歷史文化資源庫(kù)。目前根據(jù)本校的實(shí)際情況,我們采用的是IP限制的方式來控制用戶權(quán)限,只有校內(nèi)用戶才可以訪問本資源庫(kù),全面開放共享將是我們下一步的工作。

5結(jié)語

方正DESI系統(tǒng)提供了一種簡(jiǎn)單、靈便、系統(tǒng)的建庫(kù)模式,提供了一個(gè)將回族歷史文化特色資源有機(jī)地組織整合起來的平臺(tái),有利于全方位、高效率地為讀者提供方便、快捷的電子文獻(xiàn)資源,進(jìn)一步宣傳和保存回族歷史文化。因此,我們要做好相關(guān)文獻(xiàn)的搜集、整理工作,做好數(shù)據(jù)錄入工作,努力實(shí)現(xiàn)信息資源的共享,為回族歷史文化資源的保護(hù)、研究開辟一條新的道路。

作者:楊婭娟 單位:寧夏大學(xué)