圖書館數字資源統計論文
時間:2022-06-19 03:57:00
導語:圖書館數字資源統計論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
1.1典型的研究計劃
美國和歐盟針對圖書館數字資源的訪問統計已經展開了一些針對性的研究計劃,比如,由美國研究圖書館協會資助的E-Metric項目、美國多個機構(包括ARL、JISC、NISO等)資助的COUNIER項目、歐盟TelematicsforLibrariesProgramme支持的EQUINOX項目等,這些項目多為研究制定描述電子信息服務和資源的統計指標和績效測度及其方法。
1.2相關標準
在相關的標準方面,面對新的信息環境和圖書館形態,一些組織開始嘗試將新的電子資源績效評估標準融入原有相關標準/指南的框架。例如NISO在2004年批準了圖書館和信息提供者信息服務和利用的測度和統計數據字典(NISOZ39.7-2004InformationServicesandUse:Metrics&statisticsforlibrariesandinfomationproviders--DataDictionary),該標準在傳統圖書館工作的基礎上,還特別增加了網絡服務、網絡資源、網絡運行的新的測度方法,這套數據字典將逐漸納入美國圖書館統計工作,成為美國圖書館統計工作的參考依據,
ICOLC1998年制定的《網上索引、文摘和全文資源使用統計測度指南》(GuidelinesforStatisticalMeaSuresofUsageofWeb-BasedIndexed,AbstractedandFullTextResources)提供了一套網絡化信息資源使用的績效測度指南。2001年的修訂版明確了網絡信息使用數據統計的最基本要求,并提供在隱私、保密、獲取、傳遞和報告形式方面的指導。
ISOISO/CD11620也在傳統服務統計指標的基礎上,結合ICOLC和COUNTER的研究,進行了圖書涫數字資源測度及其定義、方法的描述。
1.3國內圖書館數字資源訪問統計的研究和應用
國內隨著公共圖書館、大學圖書館、科學圖書館系統圖書館評估工作的進行,圖書館界開始逐步重視對圖書館數字館藏、圖書館數字化信息服務的評估。
參考文獻2中提出了數字資源后評估的概念,但是對圖書館數字資源訪問統計等后評估的方法和指標體系尚未全面展開評論。一些圖書館自行開發了基于jsp或者asp的圖書館網站訪問統計軟件,一些數字圖書館系統,如清華同方的TPI、北京拓爾思的TRS、浙江天宇的CGRS等等也提供了相應的統計功能,但是尚沒有一款商業化的軟件針對圖書館的各種類型的數字資源提供一攬子的訪問統計方案。
2圖書館數字資源訪問統計的方式
2.1WEB日志方式
web服務器在工作時,時刻將WWW訪問的結果記錄在一些log(日志)文件中,通過對服務器日志的分析可以得到以下信息
(1)通過對訪問時間進行統計,可以得到服務器在某些時段的訪問情況;
(2)對訪問者的IP進行統計,從中可以判斷主要是那些用戶在訪問Web服務器;
(3)對訪問請求的錯誤進行統計和分析,可以找出有問題的頁面加以改正;
(4)對訪問者清求的URL進行統計,就可以判斷出讀者對那些頁面的內容最感興趣,對哪些頁面的內容不感興趣。
各種web服務器日志文件的格式和內容大致相同。根據W3C的際準[2],一般Web日志都包括諸如用戶的IP地址、請求時間、方法(GET/POST等)、被請求網頁或文件的URL、發送/接收字節數、協議版本等信息。表1列出了幾種不同類型的Web日志。
但這些日志文件信息量很大,用戶難以直接從log文件獲得直觀的結果。對日志文件的分析,可以借助一些商業性的或者源代碼開放的軟件完成。其中比較好的開放源代碼的日志分析軟件有:AWStats、webalizer等。
從日志文件提供的信息進行統計和分析,就可以對整個網站有一個數字化、精確的認識,從而對網站的設計和內容進行改善和調整,使圖書館網站更好地為讀者提供服務。
2.2資源提供商提供
數據庫的使用情況屬于后評估指標,主要用于更新、續訂數據庫時使用,一般在圖書館購買資源提供商的數字資源時,應該要求由出版商或數據庫商提供使用報告,再據此進行各類分析。
目前出版商/數據庫商提供的統計報告常用的相關統計指標有:
①檢索次數(searfh/query):用戶在某一個數據庫中提出檢索式的次數。
②登錄次數(session/signon):用戶打開某個數據庫的次數。
③下載文摘/全文(abstract/fulltextpage/image):用戶在某一個數據庫中下載到本地客戶機中的文摘或全文篇數。
2.3通過網絡proxy
服務器(ProxyServer)是一種服務器軟件,它的主要功能有:設置用戶驗證和記帳功能,可按用戶進行記帳,沒有登記的用戶無權通過服務器訪問Internet網,可以對用戶的訪問時間、訪問地點、信息流量進行統計。
目前服務器軟件產品十分成熟,功能也很強大,可供選擇的服務器軟件很多。主要的服務器軟件有WinGate公司的WinGatePro、微軟公司的MicrosoftProxy、Netscape的NetscapeProxy、SybergenNetworks公司的SyGate等,這些軟件不僅可以為局域網內的PC機提供服務,還可以為基于Novell網絡的用戶,甚至UNLX的用戶提供服務。目前絕大部分Intemet的應用都可以通過方式實現。大多數服務器軟件產品具有登記內部網用戶訪問外部網的日志記錄,有些產品還可以直接將日志記錄到數據庫中。根據日志記錄文件或數據庫,可以統計內部網每個用戶的網絡流量以及上網時間,甚至可以按服務網絡類型(如:HTTP、SMTP、FTP等)分別進行統計。
2.4利用腳本語言自行開發
通過web服務器的日志可以獲得用戶訪問圖書館網站信息的情況,但是,這種方式需要對日志的格式進行了解,然后用相應的工具軟件或者進行一定的開發來完成。還有一種獲取網站訪問情況的方法是利用asp或者isp等網絡腳本語言,利用它們內置的server、session、request對象等獲取相關的信息,獲取數據進行統計。比如:利用Jsp我們可以用Jsp的內置request對象的獲取參數方法request.getParameter("userid"),獲取用戶名;用(request.getRemoteAddr)獲取訪問者的IP地址;通過request.getHeader("User-Agent")獲取包含瀏覽器和操作系統的信息,然后用字符串分割substring()方法來分別得到瀏覽器和操作系統;通過Jsp的內置對象session的方法session,getCreation-Time()返回Session被創建的時間,而session.getLastAccessedTime()則返回當前Session對象最后被客戶發送的時間,兩者之差為停留時間。
主要分以下幾個開發步驟:
(1)確定將要統計的信息;
(2)建立數據庫;
(3)實時的訪問信息紀錄,記錄每次點擊的信息,包括頁面信息、用戶信息、訪問IP、訪問時間;
(4)實時信息的分類存儲;
(5)顯示方式的選擇。可以用Windows的表格系統,也可以自行編制表格顯示。
利用這種方法相對比較簡單,但是可獲得的統計指標也有限。
除了上述幾種統計方式外,還有基于路由器的流量統計、基于防火墻的流量統計、基于以太網廣播特性的流量統計。但是這些方法所提供的簡單流量的統計功能,不能完全滿足圖書館數字資源訪問統計的目標。
3圖書館數字資源訪問統計的指標
3.1國際圖書館聯盟的統計指標指南
國際圖書館聯盟認為,信息資源提供商對他們提供的特定的電子信息資源所提供的統計數據應該滿足以下的最低需求。
必須提供的數據元素是:
a)會話(session)數量(或者登陸數量)numberofsessions。為了滿足政府機構和專業組織的報告的需要,應該提供會話數量或者登陸數量。在沒有國界的網絡環境中,會話數量的統計是一個粗糙的指標。
b)提問數(numberofqueries),即經過分類的提問數量。一次檢索是一次獨立的知識查詢。典型地,一次檢索被記錄為向服務器提交的一個檢索表單,之后的瀏覽行為或者選定一個單獨條目的行為沒有表現為額外的檢索,除非通過提交二次檢索。立即進行重復的檢索、雙擊或者其他用戶的無意識行為都不應計入其內。
c)菜單的選擇數(numberofmenuselections),如果數據的顯示需要通過使用菜單來進行瀏覽,則應該提供這個指標(如一個電子期刊網站提供的基于音序和主體的菜單選擇)。
d)全文的數量(打開的、下載的或者提供給用戶的全文,這些全文都是由服務器控制的而不是由瀏覽器控制的):
期刊文章-按照期刊名稱列出刊名和issn;
電子書——按照書名列出書名和isbn;
參考資料——按照改資源的內容單元(如字典的定義、百科全書的文章、傳記等);
非文本型資源——按照自愿的文獻類型(如圖像、音頻、視頻等)。
上述的每個數據元素應該按照每個特定的數據庫提供商、按照每一組機構的IP地址或其他特別的元素(如賬號),以及機構名稱、協會名稱和時間跨度(每月或者每年)分組描述,供應商還應該提供每天、每小時的統計數據,并且還應該可以動態地集成幾個月或者某一段時間的數據,而不用限制是當年數據還是由供應商限定的時間段。
3.2E-Metrics推薦的統計指標
為了了解圖書館數字資源的使用情況,確定數字資源的花費是否合理,MRL的E-Metrics項目推薦的指標如下:
(1)用戶可檢索的電子資源。包括:R1電子全文期刊種數、R2電子參考資源種數、R3電子書的種數。
(2)對網絡資源和服務的使用情況。包括:U1電子參考事務的數量、U2登錄電子數據庫的數量(會話session數)、U3電子數據庫的提問和檢索數量、U4電子數據庫的請求條數、U5對圖書館網站和書目的遠程訪問次數。
(3)網絡資源和相關設備的花費。包括:C1全文電子期刊的成本、C2電子參考資源的成本、C3電子書的成本、C4圖書館對書目設備、網絡環境等相關設備的花費、C5對書目設備、網絡環境等相關設備的外部花費。
(4)圖書館數字化活動。包括:D1數字館藏的大小、D2數字館藏的使用、D3數字館藏建設和管理的成本。
E-Metrics的統計指標,既考慮了數字資源和數字化服務的訪問量,還考慮了數字資源及其支持成本,便于從成本/效益的角度進行分析。
3.3我國圖書館常用的數字資源訪問統計指標
對于圖書館數字資源訪問統計的指標,在我們常見的統計分忻工作中,統計指標圍繞什么被使用?誰在使用?如何使用?什么時候使用?為什么使用?哪些資料經常被下載?哪些資料被檢索最頻繁?資料檢索來自哪些單位?哪個單位使用量最多等問題,通常采用數字資源提供商提供的訪問統計數據與對圖書館網站及自建數字資源的訪問統計相結合的方式,除了資源提供商提供的數據外,往往采用網站訪問流量、訪問者的IP、網站點擊次數、數字資源的點擊次數、下載的篇數等指標。
與國外相比,我國圖書館的數字資源訪問統計指標設定相對比較粗略,沒有統一的、針對各種類型數字資源的一致的標準,而且統計指標往往僅僅反映了訪問情況,未能與數字資源的購買和管理成本掛鉤進行成本/效益分析。
4圖書館數字資源訪問統計存在的問題
4.1資料庫不在館內,正確及時的統計數據不易取得
隨著各個圖書館在數字資源建設方面的積累和發展,圖書館數字資源的來源多樣,既有通過遠程鏡像或者資源提供商服務器訪問的數據,也有在本地鏡像的數據,還有圖書館自建的數字資源。尤其對于資料庫不在館內的情況,需要廠商配合協助,但是最大的問題在于沒有辦法從廠商那里得到充分的數據,或是廠商提供的數據不標準,或是提供的資料不是圖書館想要的,而且由于統計數據是由資源提供商提供,其客觀性和真實性的保障機制弱。這樣,正確及時的統計數據不易取得。
4.2缺乏標準的統計指標
由于資源來源多樣,統計指標不規范,不同的系統提供的統計報告五花八門,沒有統一指標。統計指標定義混亂、不明確,例如“search”在大多數系統內被定義為用戶發送檢索式的次數,但有些數據庫卻用“query”來表示同樣含義的指標,而CSA數據庫則同時使用了“search”和“query”,二者的含義和區別并不明確。沒有一致、標準、科學的統計指標體系,對用戶訪問統計的分析及其對圖書館決策的支持可信度就會降低。同時對于數字資源的訪問統計指標還應該結合每種數字資源的類型、考慮數字資源服務的研究人員規模等參數。
4.3圖書館數字資源的后評估,應該結合多種評估途徑展開
圖書館數字資源的訪問統計,是圖書館數字資源后評估的方法之一,目前的圖書館數字資源的訪問統計存在統計指標不一致、不標準的問題,而且網站訪問統計不能確定是否與使用者的目的相符,無法完全反映使用者真正的使用狀況,因而,圖書館數字資源的后評估可以結合數字資源的訪問統計、用戶使用調查、用戶訪談等方式完成。
4.4用戶隱私的問題
圖書館數字資源訪問統計的數據主要來自webserver的logfiles,目前法律上并無相關條文規定logfile資料的處理,但由于其中包含使用者的IP地址,應該與圖書館的流通記錄一樣,加以保密。不論圖書館決定如何分析logfile的數據,對于收集何種數據、誰能判讀數據以及如何使用數據等,都應有詳細的規定和說明,以免一時大意觸犯子個人隱私權。未經個人用戶同意,不能收集用戶的個人信息,也不能將所收集的統計信息用于分析和識別用戶個人信息。如果為提供特定服務必須采集用戶的個人信息,必須向用戶告知他的權利、個人信息用途及其保護方式,只有在用戶知情同意的情況下才能基于該服務明確相關的個人信息。并且必須對合法采集的用戶個人信息必須進行安全保管,未經用戶同意不得公開,不得將個人信息轉給第三方,而且服務中止后,必須立即刪除。
7張川,肖金升,周振,胡運發.具有訪問時間完整性的web日志方法.計算機應用與軟件.2004(2):105-107
8梁玉環,李村合,索紅光.基于JSP的網站訪問統計系統的設計與實現.計算機應用研究.2004(4):166-167
10詹麗萍.E-Metrics在數位圖書館使用評估的應用.p105.lib.nctu.edu.tw/2001conference/pdf/1-1.pdf
11張曉林、宛玲、徐引篪、宋小冬、王欣.國家科學效字圖書館數字資源采購的技術要求.中國圖書館學報.2004(7),14-19
12索傳軍.論述字館藏的質量評價.中國圖書館學報,2004,30(152):43-46
13肖瓏、張宇紅.電子資源評價指標體系的建立初探.大學圖書館學報,2002,(3):35-42
- 上一篇:縣科技特派員工作方案
- 下一篇:學校師德教育年終總結
精品范文
10圖書館論文