中文電子期刊資源訪問要點

時間:2022-05-27 05:20:05

導(dǎo)語:中文電子期刊資源訪問要點一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

中文電子期刊資源訪問要點

信息行為研究一直是圖書情報學(xué)中的重要內(nèi)容。隨著信息技術(shù)的發(fā)展,信息行為研究逐漸進入“數(shù)據(jù)驅(qū)動”時代。與傳統(tǒng)研究不同,“數(shù)據(jù)驅(qū)動”的信息行為研究更關(guān)注用戶與各類信息系統(tǒng)平臺及信息本身自然交互過程中留下來的外在的、非介入的、客觀的數(shù)據(jù)記錄,規(guī)避了傳統(tǒng)研究方法由于研究樣本(用戶)的主觀觀點,及可能無意或有意地偏離正式情景而帶來的研究結(jié)果偏差的弊端[1],高質(zhì)量的日志數(shù)據(jù)是新范式下信息行為研究的重要資源。本數(shù)據(jù)集是通過ERU系統(tǒng)(LibraryElectronicResourcesUsingStatisticalAnalysisSystem,電子資源使用訪問系統(tǒng))采集的2018年復(fù)旦大學(xué)師生訪問中文電子期刊資源的結(jié)構(gòu)化行為數(shù)據(jù),是開展數(shù)據(jù)驅(qū)動的信息行為研究的重要數(shù)據(jù)資源。

1數(shù)據(jù)采集和處理方法

1.1數(shù)據(jù)采集。通過ERU系統(tǒng)抓取復(fù)旦大學(xué)用戶訪問復(fù)旦大學(xué)圖書館訂閱期刊數(shù)據(jù)庫的檢索、瀏覽和下載行為數(shù)據(jù)。將數(shù)據(jù)導(dǎo)出后進行格式轉(zhuǎn)化,根據(jù)數(shù)據(jù)情況和MicrosoftExcel的文件要求,將數(shù)據(jù)分為14個表格文件,其中檢索數(shù)據(jù)分為2文件,瀏覽和下載數(shù)據(jù)按月份為12個文件。在數(shù)據(jù)采集中,設(shè)定條件如下:(1)時間范圍:2018年1月至12月;(2)限定平臺為中國知網(wǎng)和萬方數(shù)據(jù)知識服務(wù)平臺;(3)篩選出平臺相應(yīng)的期刊論文數(shù)據(jù)。1.2數(shù)據(jù)清洗。對系統(tǒng)采集數(shù)據(jù)進行人工對比檢查,對數(shù)據(jù)的檢查包括網(wǎng)絡(luò)異常、程序錯誤等造成的數(shù)據(jù)缺失等問題。此外,也包括數(shù)據(jù)格式、字段標準化命名和數(shù)據(jù)完整性等。數(shù)據(jù)清洗過程中還對異常數(shù)據(jù)進行了修正、剔除和補充。1.3數(shù)據(jù)脫敏。本數(shù)據(jù)集中的敏感信息為CLIENT_IP字段,采用MD5加密算法進行不可逆脫敏處理,處理后字段保留獨特性和部分可分析性。

2數(shù)據(jù)字典和數(shù)據(jù)樣本

本數(shù)據(jù)集中的14個文件共涉及20個字段,字段名稱說明、樣例值和備注信息如表2所示。

3數(shù)據(jù)質(zhì)量控制

通過網(wǎng)絡(luò)底層進行用戶信息行為數(shù)據(jù)采集、處理、解析和建模技術(shù),運用知識發(fā)現(xiàn)和智能信息技術(shù),從方法論上解決了圖書館電子資源的異構(gòu)系統(tǒng)和異構(gòu)數(shù)據(jù)庫問題,通過和國際Counter報表進行比較分析[3],一定程度上保障了數(shù)據(jù)源的完整性和準確性,通過分析數(shù)據(jù)占比情況,保障了數(shù)據(jù)集中的行為數(shù)據(jù)有一定的代表性。通過系統(tǒng)采集和人工干預(yù)結(jié)合的方式,保障數(shù)據(jù)質(zhì)量。人工干預(yù)方面主要針對數(shù)據(jù)進行完整性判斷,對必須的字段進行補充采集,進行數(shù)據(jù)轉(zhuǎn)換與敏感信息變形處理,保障數(shù)據(jù)的完整性、安全性和可分析性。

4數(shù)據(jù)價值

本數(shù)據(jù)集是基于ERU系統(tǒng)采集的2018年全年復(fù)旦大學(xué)用戶對中文期刊的檢索、瀏覽和下載行為的結(jié)構(gòu)化數(shù)據(jù),總數(shù)據(jù)量3131612條。與問卷調(diào)查、訪談、用戶日記等傳統(tǒng)社會科學(xué)研究方法獲得的數(shù)據(jù)不同,ERU系統(tǒng)采集的日志類型數(shù)據(jù)能夠避免觀察者效應(yīng)、霍桑效應(yīng)等問題,對信息行為特征、模式的研究具有重要價值。此外,近年來,隨著信息主體所依附的信息環(huán)境復(fù)雜程度日益增強,用戶信息行為的影響因素更趨復(fù)雜,受到社會學(xué)、心理學(xué)、信息科學(xué)、傳播學(xué)、醫(yī)療健康等多個學(xué)科領(lǐng)域研究者的關(guān)注[4]。本數(shù)據(jù)集也將為不同學(xué)科領(lǐng)域信息行為的研究和應(yīng)用提供基礎(chǔ)支撐。

5數(shù)據(jù)使用方法和建議

基于本數(shù)據(jù)集可開展用戶信息行為模式的識別、用戶行為偏好揭示、用戶需求內(nèi)容的解讀研究,可結(jié)合其他問卷調(diào)查、深入訪談、參與觀察和實驗等途徑獲取的用戶信息行為內(nèi)在機理研究數(shù)據(jù)進行融合研究。此外,本數(shù)據(jù)集還可嘗試進一步處理探索形成人工智能訓(xùn)練數(shù)據(jù)集,也可用于大數(shù)據(jù)時代用戶信息行為研究的行為理論、分布式數(shù)據(jù)挖掘、以及數(shù)據(jù)可視化等相關(guān)問題的分析和研究。未來的研究可根據(jù)研究目標和內(nèi)容,基于EXCEL、SPSS、STATA、SAS、MATLAB等工具,開展基于統(tǒng)計分析法、建模分析與預(yù)測、聚類分析以及機器學(xué)習(xí)等相關(guān)研究。

作者:汪東偉 伏安娜 胡杰 張計龍 殷沈琴