數據管理計劃工具RDMO研究
時間:2022-10-20 09:01:26
導語:數據管理計劃工具RDMO研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
摘要:數據管理計劃是科研數據管理服務的第一步和基礎,對良好的數據管理具有重要指導作用。文章以數據管理計劃工具rdmo為研究對象,從開發目標、服務模式到設計方案進行分析,發現該工具以訪談形式為輸入,屬性為核心元素構建信息組織關系,在應用上采用機構分散部署的方式,涵蓋整個數據生命周期,對于圖書館/信息機構開發相關工具具有較高的參考價值。
關鍵詞:科研數據;數據管理計劃;RDMO
數據管理計劃(DataManagementPlan,簡稱DMP)作為科研數據管理的第一步,是由科研人員撰寫,描述科研項目中如何管理、描述、分析和存儲可能獲取或生成的數據,以及項目結束后如何共享和保存這些數據的正式文檔[1-2]。由于科研數據管理的后續步驟都包含在數據管理計劃之中,且數字管理計劃是科研數據生命周期全流程管理的出發點,所以良好的數據管理計劃是增強數據質量、提升數據共享水平的基礎保障,也是后續數據存儲、組織等工作的落腳點和指南[3]。現階段,作為參與數據管理的重要工具,幾乎所有開展科研數據管理服務的圖書館都提供該服務[4]。數據管理計劃工具就是在此背景下,提供完善的數據管理計劃參考信息,并指導科研人員創建符合資助單位或是開放科學要求的工具。因此,設計、開發數據管理計劃工具是圖書館提升科研數據管理服務水平的重要任務,對于數據管理工作具有重要的指導意義。目前,數據管理計劃工具主要包括:由DigitalCurationCenter(DCC)開發運行的DMPOnline[5]、加利福尼亞大學數字圖書館監管中心(CDL)的DMPTool[6]、德國比勒菲爾德大學數據管理計劃工具OnlineTool[7]、柏林工業大學(TUBerlin)TUP-DMP[8]和德國生物數據學會GFBio開發的GFBioDMPTool[9]。其中最為常用的為DMPOnline和DMPTool。DMPTool的設計開發工作始于2011年,由5家美國高校圖書館、2家科學數據組織和1家博物館共同研制,目前共有268家機構,46911個用戶。DMPOnline最初由格拉斯哥大學的人文技術信息研究所按照DCC模型開發,目前有203家機構,近18000個用戶。目前,DCC和CDL聯合開發版本DMPRoadmap也已經上線。由于使用相對廣泛,所以針對數據管理計劃工具的研究普遍也以這兩種工具為主。
1文獻綜述
對于數據管理工具的相關研究成果方面,馬建玲等注意到國外圖書館在科研數據管理工具開發方面的工作,并介紹了數據管理計劃創建工具DMPTool[10];王凱等從開發路線、服務方式與需求建議的角度比較了DMPTool與DMPOnline二者的區別[11];王璞則分別介紹了DMPOnline和DMPTool的發展和目標,并指出盡管兩個工具有所差異,但都以集成式的DMP撰寫工具來促進數據管理的最佳實踐,已發展成為國際普及的數據管理計劃工具[12];吳海茹認為DMPTool可以加速科研人員創建數據管理計劃,更加熟悉科研資助單位的數據要求[13]。目前,針對現有科研數據管理計劃工具的研究還較少,主要集中在應用方式方法層面,對于開發的依據、設計理念的研究還有所欠缺。在實際使用層面,DMPTool與DMPOnline主要針對英美兩國科研環境,所關聯的機構數據要求也以本國為主。雖然機構在使用上述工具時可以進行個性化配置,但對于我國這樣的科研大國,開發自己的工具尤為重要。而RDMO工具開發時參考了相關工具的不足,并進行了德國科研的個性化開發,所以研究該工具,對于我國開展相關軟件工具的開發具有重要參考價值。
2RDMO工具概述
隨著開放科學的普及,科研數據已經成為重要戰略資源,作為科研工作的基本保障,良好的數據管理計劃已經成為大部分資助機構的要求,無論科研人員本身還是所在機構都需要利用有效工具進行科研數據管理。在此背景下,RDMO(ResearchDataManagementOrganiser科研數據管理組織工具)的開發,由德意志研究聯合會(DFG)資助,波茨坦萊布尼茨天文物理研究所、波茨坦應用技術大學和卡爾斯魯厄大學圖書館共同完成,第一階段從2015至2017年,第二階段從2017至2020年。如同DMPOnline和DMPTool,RDMO也是一款基于網頁的數據管理計劃軟件。RDMO的開發基于科研數據的全生命周期,所以適用于科研數據管理中涉及的所有參與者。同時,由于框架采用Python-Django和AngularJS,代碼開源(GitHub)[14],因此,RDMO可由科研機構或大學獨立安裝,并且易于補充特定學科或機構個性化的內容。RDMO的安裝主要分為三部分,即rdmo-app、rdmo軟件包和數據庫。其中rdmo-app主要存儲本機構的所有設置、自定義選項;rdmo軟件包則是由RDMO項目團隊集中維護的程序包;數據庫主要用于存儲用戶的科研數據管理計劃等機構實際使用信息,數據庫管理系統可支持sqlite3、MySQL或PostgreSQL[15]。從使用形式上看與DMPOnline和DMPTool也較為類似,如面向科研人員,通過結構化問題進行數據管理計劃的填寫,并可以選擇使用機構模板;而對于機構工作人員,也可以進行相關內容審查、模板編輯功能。數據管理計劃主要是滿足科研項目申請階段的要求,一般在項目執行階段前完成。所以,針對數據管理計劃的工具主要基于管理機構、資助方模板建立一份科研數據使用的備忘錄,并沒有發揮數據管理計劃在科研數據全生命周期中的功能。而且在實際使用中,無論DMPOnline還是DMPTool,其主要圍繞各自國家資助機構相關數據政策,并且采用集中管理模式,存在科研方向、研究內容等敏感信息的泄露風險。因此,開發本國數據管理計劃工具具有重要現實意義。目前,RDMO已經在德國科研機構廣泛使用或試用。從機構類別上看,主要包括三類:大型科研項目,如德國聯邦食品及農業部畜牧業減排項目、德國聯邦教研部區域高校聯盟科研數據項目、德意志研究聯合會(DFG)研究數據生命周期中的分子數據管理項目等;科研機構/高校圖書館/計算中心日常數據管理計劃服務,共26家,包括尤里希研究中心、馬克斯普朗克數字圖書館、亥姆霍次材料能源中心等7家國家科研院所和17所高校;聯邦州科研數據基礎設施,如黑森州研究數據基礎設施聯盟、北威州數字高校研究數據基礎設施先導行動等。由于結構化問題源自需求,又是良好實踐經驗的總結,因此,依托這些科研機構,RDMO可以提升學科適應性,豐富結構化問題。以德國的畜牧業減排項目(EmiMin)為例,服務團隊按照項目要求,設計工作流程,并根據各方的任務角色,建立與農業技術相適應的問題模板,開發出項目用數據管理計劃工具定制版RDMO4Life。下一步RDMO團隊將基于此,擴展相關問題,建立起適合農業科學的RDMO。目前,RDMO在其GitHub平臺上共享了8份結構化問題模板,包括DFG項目模板、經濟學項目模板、教育科學模板、社會學模板、機械工程模板等。
3RDMO工具服務模式
RDMO主要面向數據管理計劃使用者,包括創建者即科研人員,以及數據管理計劃服務的管理者,即一般組織機構的圖書館。相應地,所使用的服務方式也有所區別。
3.1面向科研人員服務模式
科研人員服務模式如圖1所示。與DMPOnline和DMPTool最大的不同是,RDMO首先通過結構化問題模板的方式引導科研人員完成科研數據在項目全周期各環節處理辦法的填寫,而非直接利用資助者或者相關機構的數據管理計劃模板進行。這樣的好處在于,數據管理計劃不拘泥于某個具體模板,而是切實在科研過程中管理數據的內容。問題模板選擇之后,科研人員按照問題進行相關內容的填寫,過程中既可以按順序填寫各部分內容,也可以跳過部分內容或自由跳轉,或以個人喜好的順序填寫各部分內容。RDMO的另一個特點是在預覽階段,已填寫的內容信息可以自動映射到具體資助機構的數據管理計劃模板,減少了科研人員的重復勞動。此外,科研人員還可以在線存儲數據管理計劃,填寫完成后導出數據管理計劃或提交至所在組織機構以待審查。服務的最后一步是用戶信息的添加和編輯,一個項目可能涉及多種用戶身份,RDMO設立4種身份供選擇,分別是項目負責人、項目經理、組員和訪客。從訪問權限上看,項目負責人和項目經理具有幾乎相同的編寫加工權限,區別只在于項目負責人可以添加/刪除項目,而組員具有讀和寫權限,訪客只有讀的權限。
3.2面向組織機構的服務模式
對于組織機構,RDMO最重要的服務是問題模板的編輯以及計劃模板的添加。機構管理員可以以現有問題模板為參考,增加/刪減機構層面特有/無關的問題,而在數據管理計劃預覽階段,也可以添加本機構或特定資助機構的數據管理計劃模板,具備了較強的擴展特性。此外,RDMO對于機構的服務還有面向軟件平臺的權限更改和配置,如用戶權限、賬戶信息等常規管理員功能。
4RDMO工具數據模型及要點
RDMO的數據模型如圖2所示。對于用戶而言,結構化問題是RDMO中最明顯的部分。層級從高到低使用目錄、部分、子部分、問題集和問題進行配置。單個RDMO可以配置多個目錄,創建新項目時,用戶可以選擇要用于該項目的目錄。目錄包含多個部分和子部分,這些部分本身具有問題集,而具體問題可以直接添加到問題集中。問題為文本格式,顯示給用戶,并輔助一個可選的幫助文本。“域”模型是數據模型的核心部分,其功能是將訪談中的問題與用戶輸入聯系起來,并按照樹狀結構組織。用戶項目中每條信息都由一個屬性表示,并采用目錄組織的形式,因此,這些屬性可以看作是“域”模型樹上的葉子,組織它們所代表的不同實體之間的聯系。如項目開始日期為帶有路徑的屬性project/schedule/project_start,該屬性本身鍵值為project_start,并位于屬性schedule中,而schedule本身又位于project中。“條件”與問題集相關聯,并確定所控制的問題集在當前環境下是否有效。如果問題集無效,則不會顯示給用戶。“視圖”是允許在RDMO中使用的DMP模板,每一個模板都對應一個“視圖”,該視圖可以使用基于HTML的Django進行編輯。在“視圖”中,管理人員可以人為的添加標題和幫助文本,并顯示在項目之中,幫助科研人員回答相關科研數據管理的問題。待結構化問題填寫完成后,RDMO將根據用戶的回答提供跟進“任務”。“任務”具有標題和文本,通常情況下,“任務”與“條件”相關聯,以確定特定項目是否需要。此外,由于“任務”本身具有“datetime”等時間屬性值,可以使用諸如項目開始或結束的答案來計算任務的時間范圍,因此便于進行時序管理。
4.1RDMO屬性結構
從上節可以看出,每個問題所對應的屬性是RDMO希望提取的核心元素,是整個數據組織的骨架。同時,屬性又是RDMO的信息基礎,是數據管理計劃中信息顆粒度的重要指標。因此分析RDMO的屬性設計是理清工具功能的基礎。RDMO的屬性無外乎就是如何組織串聯每個任務和所包含的具體信息,所以,首先要明確科研數據管理的任務劃分和流程。科研數據管理主要由6個科研數據生命周期的獨立任務,包括:計劃/創建、選擇/評估、獲取/接收、存儲/IT、保存手段以及訪問/使用,以及5個貫穿于全周期且交叉的管理任務組成,分別為:管理/政策、法律/道德、財務/資助、元數據和標識[16]。而RDMO的基本屬性結構,可以從其GitHub上的文檔得到,如表1所示(由于篇幅的原因,四級鍵值有所歸并和簡略)。從內容上看,RDMO屬性包括funder、costs、legal_aspect、dataset等交叉管理任務,而dataset中又包含creation、datacollection等數據生命周期獨立任務,涵蓋了所有科研數據管理任務元素,具有較為全面的特點。從結構上看,科研數據的基礎單位是項目,因此屬性以project為最高級。在二級中,除research_field、schedule等項目概述值外,主要包括:additionalrdm_policy、coordinator、partner、funder、costs、legal_aspect、dataset等,而三級則主要是二級值對應的各個方面,四級以此類推。特點主要表現在:首先,以科研數據管理模型中具有交叉特點的管理任務為屬性結構的主線(二級),而數據生命周期獨立任務則主要處于第三級,并融入相應的二級指標中。這樣的好處在于,數據管理計劃的核心是管理,因此以管理實體,如科研人員、組織機構、伙伴機構劃分,可以明確主要干系人的任務/信息區塊,避免了管理實體交叉帶來的任務不清;其次,增加時間維度指標,在數據生命周期中任務步驟,如datacollection、datacleaning、dataanalysis等方面增加了執行的起始和結束時間,明確了數據管理計劃的計劃性、動態性特征;最后,增加了責任人,如在機構合作層面的coordinator和partner中明確了contact_person、name,在數據周期任務中,也出現如creator,owner,responsible或responsible_person等需要確立的相關責任人元素.
4.2互操作性
互操作性是RDMO與其他工具軟件或科研數據基礎設施信息共享的基礎。由于結構化問題是唯一輸入,所以,RDMO互操作性的基礎是上節所述“域”內問題——屬性與目標系統之間的有效映射。目前,RDMO互操作性主要針對DataCite的15個強制屬性和5個推薦屬性,具體如表1所示。從表中不難發現,在映射時,RDMO非常注意問題——屬性和DataCite之間語義的對應。如在“Publisher->dataset/preservation/repository”中,DataCite主要使用“Publisher”表明數據來源,所以在RDMO結構化問題中,使用“storedorarchivedaftertheendoftheproject”(在項目結束后存儲或歸檔),既明確了時間為“項目結束后”,在用詞上使用“storedorarchived”,區別于一般概念上的“Publish”;再如“creatorName->project/dataset/creator_name”中,“creatorName”在DateCite中指數據建立者的姓名,格式為“姓,名”,在RDMO中,首先區別了creator和creatorName,前者可以為人或機構,而后者為DataCite所指的主要研究人員,并且在問題中給出了明確的解釋。
4.3服務體系
本研究的服務體系指RDMO軟件的使用者社區建設。類似其他需求驅動型開源軟件,完整的開發者和使用者的生態體系建設是成果的關鍵。在DMPTool和DMPOnline的開發設計時就考慮了這種互動關系。其主要原因有:(1)技術因素。單獨的數據管理計劃軟件本身是“空”的,結構化問題和域內的屬性元素需要不同機構在使用過程中才能反復優化,才能提高應用性和適用性;(2)組織因素。科研數據價值的提升在于大規模匯集,因此,建立使用者-開發者社區建設是開放科學下科研數據共享的要求。由于RDMO在設計之初就考慮到了數據的隱私性,所以,RDMO社區建設的核心方針是,使分布在各地的不同RDMO使用機構能夠在技術上“自給自足”,并以此方式進一步發展RDMO整體社區。因此,RDMO社區建設通過多種渠道開展雙方的交流,而RDMO團隊針對這些問題和需求進行再優化。RDMO社區建設模式主要包括:(1)傳統的宣傳和培訓。在RDMO官網上有技術幫助文件的文本、視頻文件供下載,如快速使用手冊、如何生成、編輯結構化問題等。(2)技術文檔解決方案。在RDMO網站內,開發者公開了技術文檔手冊包括安裝、部署、配置,在涉及科研數據管理的內容上,也有相應的問題-屬性等核心字段。(3)RDMO在機構數據基礎設施的整合服務。一方面協助機構進行RDMO的整合,如RDMO與不同專業學科、不同機構展開合作,建立適用不同專業或特定機構的的數據管理計劃工具版本。另一方面,RDMO還積極融入到現有科研基礎設施中,特別是一些德國參與建設的平臺,如re3data(全球科研數據知識庫注冊系統)、RADAR(通用科研數據知識庫)。(4)交流平臺,如GitHub、建立聊天群組、郵件列表等。(5)使用者大會。從2018年開始,每年召開一次使用者大會,在大會上,RDMO服務團隊及用戶就軟件的使用、問題和需求開展一些列講座和研討。
5RDMO工具特點
5.1以模板為驅動轉變為以組織為核心
隨著科研數據愈發重要,數據管理計劃逐漸成為科研機構或是資助者在項目執行前所提供的必需材料。從目前主要數據管理計劃工具看,資助者模板是計劃的最初驅動。在完成數據管理計劃時,基本與科研機構或資助機構的數據管理要求相關聯,而對于沒有現成模板的情況,結構化的問題則相對簡單,如DCC基礎模板,對于未來實際科研數據管理指導性、操作性不強。而RDMO使用一般化的問題,依管理任務進行切分,內容涵蓋整個科研數據管理流程,又在相關步驟中明確責任人,可以依照不同角色安排任務。在技術上,模板中的每個問題與屬性相對應,便于進行信息的提取-交互,也便于融入到其他工具和系統之中,從而形成一份可執行、可擴展的數據管理計劃。
5.2分布式部署
當前的數據管理計劃工具多為集中管理方式,這種方式存在數據安全和機構/國別適應性方面的問題。而RDMO允許進行機構/項目/聯盟等多種方式的分布式部署,既保證了科研項目/科研數據,特別是一些敏感信息的安全性,在應用層面又便于使用方按照機構特點或學科特征進行編輯和優化,具備了較強的擴展能力。由于RDMO的組成結構較為簡單,主要包含rdmo-app、rdmopackage和database3個部分,因此,從安裝到配置都較為簡單,且源代碼在GitHub上公開。對于軟件更新的問題,則主要通過建立技術社區、收集問題、工具軟件包更新的方式進行。
5.3互操作的擴展特性
目前,如DataCite、re3data等基礎設施在科研數據領域,已經成為科研數據的必要組成。因此,數據管理計劃作為科研數據管理的基礎和出發點,互操作性是與其他軟件/基礎設施一起工作并共享信息的保證。在RDMO中,所有結構化問題都對應了一個屬性,同時一些關鍵詞匯也來自RDMO內部的規范詞匯表。因此,互操作性既是軟件內部問題——模板的自動關聯,實現自動提取,降低科研人員工作量的重要保障,又是與外部一些科研數據常用基礎設施進行信息共享的基礎。如上文所述,RDMO已經與DataCite中的20個強制屬性和可選屬性進行了映射。目前,RDMO正在通過開發相應模塊和元數據模型來實現與其他系統的信息共享,以及與機構本身科研管理相關聯的功能,如將RDMO鏈接到科研信息系統(FIS),實現元數據的接口和標識符系統,采集科研數據成果。
5.4建立多維度社區服務
通過建立社區實現開發者與用戶之間的交流是開源工具軟件持續優化的保障。在RDMO中,這種信息交互是多維度的。從內容上看,既有傳統媒介的宣傳和培訓,又有目前開發人員使用較為廣泛的GitHub、Slack、Twitter等,通過多種渠道建立聯系,廣泛收集問題和需求,實現反復優化迭代;從組織上看,有學科、機構、聯盟等不同合作模式,一方面可以推廣工具軟件的使用,另一方面可以擴展軟件在學科和使用環境的適用特性,為衍生出不同版本的RDMO提供了基礎。
6對我國科研數據管理的啟示
縱觀我國科研數據管理研究,主要從服務的范疇和任務(如內容、參與者)、治理(如機構科研數據政策)、執行(圖書館在科研數據管理服務的作用)和實踐(科研數據管理服務平臺建設)開展,并取得了大量研究成果,但具體工具軟件卻較少。而數據管理計劃作為科研數據管理的服務的首要內容,其工具軟件的開發設計,對于我國圖書館/信息機構開展相關服務都具有重要參考價值。
6.1開發我國自己的數據管理計劃工具
數據管理計劃工具是規范科研數據管理,增強數據質量以及提升數據共享意愿的重要工具軟件,也是發揮圖書館/信息機構在數據治理中作用的重要手段。2018年,我國科研機構和高校各類研究與試驗發展項目接近120萬項[17],僅國家層面的自然科學和社會科學基金2019年就達到50000余項[18-19],這還不算數量更為巨大的省市系統基金資助項目。一方面,若使用國外相關工具,在適用性上無法保證,另一方面,還有泄露重要科研敏感信息的風險。德國作為科研大國和強國,從2015年開始開發自己的數據管理計劃工具RDMO,保障自身科研需要。2018年4月國務院辦公廳印發《科學數據管理辦法》,旨在進一步加強和規范科學數據管理,保障科學數據安全,提高開放共享水平[20]。因此,開發我國自己的數據管理計劃工具,具有重要現實意義。
6.2注重可執行性
科研數據管理計劃并不只是為了滿足資助方的數據管理要求,不能局限在一個靜態的文檔,其目的是增強數據在全生命周期的有效管理,保障科研數據的質量,增強可復用性。因此,數據管理計劃工具在開發過程中應在以下方面注重可執行性。可執行性的基礎就是參與者可以找到自己所需要的信息。具體來看,應注重問題顆粒度設計和相關方需求的辨析。首先,數據管理計劃的結構化輸入應盡量明確,以科研數據管理中的必要元素為核心設計問題模板,引導科研人員做出盡量標準、規范的回答,收集到所需信息;其次,科研數據管理涉及多方共同協作,包括數據生產方(科研人員)、服務提供方(圖書館/技術中心)、科研數據基礎設施以及項目資助者,所以,數據管理計劃應滿足不同角色的使用需要,如對于科研人員,類似項目的DMP案例、元數據的使用規范是其正確填寫的基礎,而對于資助方,可能來自科研人員未來數據的存儲方式、地點和成本回答是最為重要的信息。
6.3注重互操作性
互操作性是可執行性的重要基礎。互操作性主要分為3個維度:(1)工具軟件內的信息可以充分交互。如在RDMO中,結構化的輸入與不同數據管理計劃模板相關聯,便于信息的提取,此外,對于一些具備唯一性的實體也應當進行標記,以便不斷完善數據管理計劃數據庫內容,為科研人員撰寫數據管理計劃提供良好的幫助和指導。(2)與其他數據基礎設施的互操作。其他數據基礎設施主要指包括如DataCite、re3data等在內的數據索引、知識庫登記系統。這些系統是科研數據、再利用的重要保障。(3)數據管理計劃與科研信息系統的互操作。一方面,數據管理計劃中諸如項目信息、資助信息來自科研信息系統,另一方面,科研信息系統也需要在數據管理計劃中提取如大型儀器的使用、成果數據進行相關領域的評估。在開發階段,應著重從方案語義和持久標識符兩個方面考慮。方案語義是不同信息相互映射的基礎。在數據管理計劃工具的數據模型設計中,可按照不同系統方案中的語義,通過注釋信息或向用戶提供標準描述列表來實現和規范,如RDMO就使用如注釋信息來解釋creatorName,利用問題中store和archive來解釋publish在不同方案的含義。而對于持久標識符,應從人-機構進行標識,如學者身份ID、知識庫標識、資助者標識、項目計劃標識。
6.4注重用戶社區建設
建設完善的用戶社區是數據管理計劃軟件成功的關鍵。首先,數據管理計劃本身由于可能涉及各機構的敏感數據,技術上一般需采用分布式部署,滿足自有數據的獨立性;其次,對于軟件的輸入-結構化問題必須不斷優化,因此,又需要為工具軟件不斷進行核心功能的迭代和升級。而內容上,只有盡可能豐富來源,才能建立起更為貼近實際的問題輸入,以及更為全面的語義方案,從而提升工具軟件的可執行性和互操作性。在具體工作中,用戶社區建設的關鍵在于多維度,多維度應包括機構、學科、形式三個方面。機構上,包括項目執行機構(如高校、科研機構)和項目資助機構,并盡可能廣泛推廣;學科上,應注意學科領域分類或科研數據類型范圍,盡量將研究領域相近、元數據類似的學科整合在一起,構建適用于機構和學科領域層面的數據管理計劃工具;同時,形式上,建立以開源形式的技術文檔庫為核心,以網絡社區、聊天群組為主要交流形式,輔之以定期的培訓和用戶大會等多方面、多角度的培訓。
作者:周雷
- 上一篇:科技管理與數據管理服務模式分析
- 下一篇:實訓場所運維管理數據采集系統設計探討