文獻(xiàn)資源存儲數(shù)據(jù)挖掘論文

時間:2022-05-23 02:52:57

導(dǎo)語:文獻(xiàn)資源存儲數(shù)據(jù)挖掘論文一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

文獻(xiàn)資源存儲數(shù)據(jù)挖掘論文

1云計算技術(shù)

云計算與云存儲的出現(xiàn),為圖書館文獻(xiàn)資源信息服務(wù)的建設(shè)注入了新的活力。利用云計算服務(wù)可以為圖書館提供存儲、平臺和計算功能,而圖書館也可以利用云服務(wù)來處理業(yè)務(wù),大大降低圖書館信息技術(shù)的資金成本和人力資源。圖書館通過對各類信息資源、格式采用一個統(tǒng)一的管理平臺,實(shí)現(xiàn)更大的網(wǎng)絡(luò)信息效益,同時也可以共享應(yīng)用和數(shù)據(jù)。

2文獻(xiàn)資源存儲

2.1存儲現(xiàn)狀

從存儲系統(tǒng)的模式來看,當(dāng)前存儲技術(shù)有以下3種:直接連接存儲DAS(DirectAttachedStor-age)、網(wǎng)絡(luò)接入存儲NAS(NetworkAttachedStor-age)和存儲區(qū)域網(wǎng)絡(luò)SAN(StorageAreaNet-work)[1]。DAS是最早的服務(wù)器與磁盤直聯(lián)的存儲方式。由于存儲量小,該模式已經(jīng)不再適合圖書館大容量數(shù)據(jù)資源的存儲要求。NAS采用網(wǎng)絡(luò)TCP/IP技術(shù),優(yōu)點(diǎn)是可以支持多計算機(jī)平臺,適合訪問量不大的數(shù)據(jù)庫和事務(wù)處理。

2.2存儲區(qū)域網(wǎng)絡(luò)SAN

SAN是采用光纖通道交換機(jī)和光纖線纜把存儲設(shè)備和服務(wù)器機(jī)群連接。提供速率高達(dá)4Gbps的數(shù)據(jù)傳輸,是真正的高速共享存儲。它不占用外網(wǎng)的資源,具有自己獨(dú)立的存儲區(qū)域,光纖接口提供連接長度達(dá)10km。其獨(dú)立的存儲管理系統(tǒng)對存儲設(shè)備進(jìn)行集中管理和監(jiān)測。與傳統(tǒng)的直連存儲方式相比,SAN更關(guān)注磁盤、磁帶等存儲設(shè)備的可靠結(jié)構(gòu)。成為最具發(fā)展?jié)摿Φ拇鎯δJ剑诖笮蛿?shù)據(jù)庫資源存儲中是主流技術(shù)。在云存儲的技術(shù)支持下,我們可以利用光纖通道SAN陣列來存儲數(shù)據(jù)量成倍增加的信息資源數(shù)據(jù)。把SAN陣列劃分成若干邏輯區(qū)域,每個區(qū)域存放一個服務(wù)器上的數(shù)據(jù)。通過存儲區(qū)域網(wǎng)絡(luò)服務(wù)組之間的共享存儲陣列,可以實(shí)現(xiàn)存儲資源的聚合,采用集中存儲架構(gòu),服務(wù)器將接入這個存儲網(wǎng)絡(luò),并由存儲平臺統(tǒng)一提供空間并保證存儲系統(tǒng)的可靠性和可用性。

2.3陣列存儲形式

在存儲區(qū)域網(wǎng)絡(luò)SAN的數(shù)據(jù)存儲模式下,文獻(xiàn)信息資源是以磁盤陣列的方式存儲的。磁盤陣列是數(shù)據(jù)存儲的重要設(shè)備,其穩(wěn)定性和可靠性是非常重要的??紤]到圖書館文獻(xiàn)資源存儲量日益增大,磁盤以RAID5的陣列存儲形式構(gòu)成。在RAID5中,數(shù)據(jù)以塊為單位分布到各個硬盤上。RAID5本身不對數(shù)據(jù)進(jìn)行備份,而是把數(shù)據(jù)和與其相對應(yīng)的奇偶校驗(yàn)信息存儲到組成RAID5的各個陣列磁盤上,而且數(shù)據(jù)和奇偶校驗(yàn)信息分別存儲于不同的磁盤上。當(dāng)RAID5的一個磁盤數(shù)據(jù)損壞后,利用剩下的數(shù)據(jù)和相應(yīng)的奇偶校驗(yàn)信息可以恢復(fù)被損壞的數(shù)據(jù)[3]。RAID5是目前冗余能力和存儲安全性能非常好的方式。根據(jù)RAID5的特性,陣列中其中一塊磁盤是作為熱備盤使用的,正常狀態(tài)下該盤不存儲數(shù)據(jù)。

3數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)的安全存儲和有效利用是現(xiàn)代化圖書館文獻(xiàn)資源建設(shè)的2個重要方面。在數(shù)據(jù)得以安全存儲的前提下,如何利用好這些海量的數(shù)據(jù)信息,發(fā)現(xiàn)其中規(guī)律,用于指導(dǎo)現(xiàn)在或是未來的工作,就需要一門新的技術(shù)來研究它們的規(guī)律。數(shù)據(jù)挖掘技術(shù)就在這個背景下應(yīng)運(yùn)而生,并且得到了迅速的發(fā)展。數(shù)據(jù)挖掘簡稱KDD知識發(fā)現(xiàn),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)。它是從龐大的不完整、模糊的隨機(jī)數(shù)據(jù)中提取潛在的和有價值的信息。例如:通過對讀者以往書籍的借閱情況進(jìn)行挖掘分析、對比,可以發(fā)現(xiàn)他們的學(xué)習(xí)情況、興趣愛好等規(guī)律,還可以通過分析,評估圖書館工作的成效,給圖書館的服務(wù)提供科學(xué)指導(dǎo)。其次,可以將關(guān)聯(lián)規(guī)則算法應(yīng)用到圖書流通數(shù)據(jù)的分析,挖掘讀者借閱行為中的潛在規(guī)則,以指導(dǎo)圖書館的讀者服務(wù)工作。應(yīng)用關(guān)聯(lián)規(guī)則算法,發(fā)現(xiàn)借閱流通日志中圖書之間的關(guān)聯(lián),從而指導(dǎo)讀者的借閱行為和提供個性化服務(wù)。通過實(shí)驗(yàn)分析獲得的相關(guān)規(guī)律和結(jié)論,為圖書館數(shù)字資源的采購、引進(jìn)以及個性化服務(wù)推薦提供有力的數(shù)據(jù)依據(jù)和決策管理支持。

4結(jié)束語

在圖書館文獻(xiàn)資源建設(shè)中,數(shù)據(jù)的安全存儲和高效的利用是2個重要的環(huán)節(jié)?,F(xiàn)代化圖書館中,電子文獻(xiàn)資源數(shù)量與日俱增,數(shù)據(jù)的安全存儲則十分重要。采用存儲區(qū)域網(wǎng)絡(luò)SAN的存儲系統(tǒng)具有很高的可靠性和可用性,為數(shù)據(jù)的存儲提供了安全的保障。同時利用數(shù)據(jù)挖掘技術(shù)可以顯著提高文獻(xiàn)資源的利用率,給圖書館的發(fā)展帶來了新的活力。

作者:貝蓓張凱單位:河北農(nóng)業(yè)大學(xué)