科學論文首條推特積累速度與用戶類型

時間:2022-05-05 09:26:26

導語:科學論文首條推特積累速度與用戶類型一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

科學論文首條推特積累速度與用戶類型

1引言

較快的數據積累速度,與廣泛性、多樣性和開放性一同,被認為是Altmetrics最主要的特征[1,2]。相比于出版延遲等因素所導致的傳統引用數據的時間滯后性[3-5],Altmetrics數據可以在科學后的較短時間內實現快速積累,以此為論文影響力計量提供早期評價指標[6]。從科學論文在線發表的時刻開始,文獻管理工具或社交媒體平臺上圍繞論文所開展的學術交流活動和用戶傳播行為就有可能被追蹤記錄下來,構成早期的Altmetrics數據。這些非正式的數字學術足跡,一般不需要經過同行評議、學術出版等流程,因此能在論文在線可見后極短時間內出現并且被捕捉[7,8]。例如論文在發表后不久,便會在Mendeley上積累起大量的讀者數據,而引用數據則一般需要經過幾年的積累才初具規模[9,10]。反之,快速積累的社交媒體數據,也增強了論文在網絡環境中的可見度,為論文帶來更多點擊與訪問[11]。在諸多Altmetrics數據來源中,推特(Twitter)數據不僅是論文覆蓋率最高的數據來源之一[12,13],而且表現出最快的積累速度[14,15]。推特數據的快速積累具體表現為:當科學論文可在線獲取的短短幾小時甚至幾分鐘內,就已經被推特用戶提及,從而積累起推特數據[16,17]。受到預印本的影響,論文甚至會在正式發表之前就已經受到推特關注[18]。因此,對于大部分僅擁有推特數據的科學論文而言,它們的首條推特是Altmetrics數據從無到有的分界線,意味著它們首次在社交媒體平臺為用戶可見,是社交媒體傳播的起點。以往關于科學論文推特傳播問題的研究,大部分關注的是論文推特提及次數與未來引用次數的相關關系[19-21],或是總推特提及次數隨時間推移的積累模式與速度[22]。但對于科學論文推特傳播的起點,即來自何地的哪類用戶在何時實現了科學論文的首次推特傳播,還缺乏具體定量分析。在傳統文獻計量學領域,科學論文獲得首次引用的積累速度與模式已受到學者關注[23,24]。本文則著眼于科學論文獲得的首條推特,對WebofScience的論文中擁有推特數據進行了大規模分析,以回答以下研究問題:第一,科學論文首條推特的積累速度如何?對于不同學科領域的論文而言,發表后一般需要經歷多長時間才能獲得首條推特?第二,科學論文的首條推特是由哪些類型的推特用戶的?首條推特和后來的其他推特是否有不同的推特用戶構成比例?第三,科學論文首條推特的用戶來自哪些國家/地區?來自論文作者國家/地區的推特用戶是否會最先關于這些論文的推特?

2數據來源與研究方法

要對科學論文的首條推特進行分析,首先需要確定論文具體的正式發表日期和所有推特的時間。文獻計量學分析中常用的宏觀時間尺度,如年、月等,并不適用于分析在微觀時間尺度(日、小時等)內能夠實現快速積累的推特數據,更無法用于識別科學論文的首條推特。因此,本文使用Crossref記錄的精確到日的DOI號創建日期代表論文正式發表日期,論文所有推特的日期與用戶信息則通過DOI號從Altmet-ric.com提供的數據集中匹配獲取。2.1Crossref記錄的DOI創建日期Crossref(www.crossref.org)是一個正式成立于2000年1月的國際學術出版商聯盟,目前已成為開放科學(OpenScience)的重要數據整合者和提供者。截至2018年9月,Crossref已收錄了逾1億條學術文獻記錄[25]。Crossref最主要的產品之一,是其為成員提供的數據對象標識符(DOI)注冊與儲存服務。本文使用Crossref記錄的科學論文DOI號的創建日期,作為科學論文正式發表日期的。由于DOI創建日期精確到了具體日期的層次,本文得以實現在微觀時間尺度(日)上,對科學論文獲得首條推特的耗時進行度量。Altmetric.com從2011年10月開始追蹤記錄論文的推特傳播數據,因此本文選取發表于該時間點之后的論文作為研究對象。自2012年1月1日至2016年12月31日的五年時間里,共有6,859,973篇WebofScience論文(僅考慮Article和Review兩種文獻類型)擁有被Crossref記錄的DOI號。通過對DOI號的匹配,本文從Crossref采集了這些論文的DOI創建日期,以代表論文正式發表日期。2.2Altmetric.com記錄的科學論文的推特數據本文基于所選取的6,859,973篇論文的DOI號,通過Altmetric.com提供的數據集搜索匹配了它們的推特傳播數據。截至2017年10月,共有2,221,737篇論文(占32.4%)積累了推特數據。根據Altmetric.com記錄的所有推特的時間,每篇論文的首條推特,以及與之相關的推特日期、推特用戶地理位置、用戶類型等數據,同時被提取出來以進行分析。有預印本的論文相比于其他論文而言,具有在電子出版環境下優先可見的優勢,有可能更早被推特用戶提及,因此,33,879篇有預印本的論文(占1.5%,即Altmetric.com記錄有ArXivID的論文)被剔除。對于其余的2,187,858篇論文,本文比較了所有論文的DOI創建時間與Altmetric.com記錄的首條推特時間。正常情況下,推特提及應該發生在之后,但有149,212篇論文的首條推特時間早于DOI創建時間,除預印本的影響外,可能的原因還包括:第一,部分情況下,Crossref記錄的DOI創建日期與出版商正式在線的日期之間存在細微偏差,論文上線日期可能實際上早于記錄中的DOI創建日期。當這類論文在上線后迅速獲得推特提及,其首條推特時間便有可能早于記錄中的DOI創建日期;第二,由于出版商合并等客觀原因,Crossref記錄的DOI號可能根據要求更新創建日期,導致已經發表了一段時期的論文獲得一個新的DOI創建日期,從而使得以往已經積累的推特的時間早于新的DOI創建日期。為保證分析的準確性,這些首條推特日期先于DOI創建日期的論文也被剔除。最終,2,038,646篇WebofScience論文及其首條推特數據被選取為本文的研究對象。所有6,859,973篇論文以及2,038,646篇擁有首條推特的樣本論文的發表年份分布狀況如圖1所示。2012—2016年這五年間,總數呈增長趨勢,且獲得首條推特(即至少擁有一條推特數據)的論文的數量也逐年增加。發表于2015、2016年擁有推特數據的論文的比例相較于前幾年也有明顯提升,2015年和2016年分別有34.6%和34.1%的論文積累了推特數據。2.3CWTS學科分類體系為比較不同學科領域科學論文在獲得首條推特時表現的差異性,本文使用CWTS學科分類體系對2,038,646篇樣本論文進行了領域分類。CWTS學科分類體系是由Waltman和VanEck提出的基于引文關系的單篇論文學科分類體系[26]。相比于WebofScience使用的基于期刊的學科分類體系,基于單篇論文的CWTS學科分類體系能對論文的所屬學科和具體研究方向進行更詳細的分類,并且解決了發表于多學科期刊上的論文無法進行有效分類的問題[27]。在科研評價的實踐中,CWTS學科分類體系已被應用于“萊頓世界大學排名”(LeidenRanking,http://www.leidenranking.com/)。CWTS學科分類體系基于引文關系,對WebofScience數據庫收錄的三種可引用類型的文獻:研究論文(Article)、綜述(Review)、信函(Letter)進行了聚類,這些單篇論文形成了4047個有著各自具體研究主題的子類,即圖2中的4047個圓點。這些細分子類又聚集成高層的五大學科類型,分別是人文與社會科學、生物醫學與健康科學、物理學與工程學、生命與地質科學、數學與計算機科學。五個學科類型的布局如圖2所示。

3結果分析

3.1具有推特數據的論文的學科分布當一篇論文收獲了首條推特,也就意味著該論文積累了至少一條推特數據。圖3展示了6,859,973篇論文形成的4047個子領域中,2,038,646篇具有推特數據的樣本論文的分布狀況。每個圓點代表一個子領域,圓點的大小由該領域內總論文數量決定。圓點顏色取決于各個子領域中至少有一條推特數據的論文的比例(Proportionofpaperswithatleastonetweet,PP(Tw≥1))。當子領域內擁有推特數據的論文的比例較高(即PP(Tw≥1)數值更接近于1)時,圓點偏向紅色;當該比例較低(即PP(Tw≥1)數值更接近于0)時,圓點偏向藍色。比照圖2的CWTS分類體系可以看出,人文與社會科學、生物醫學與健康科學、生命與地質科學的論文推特數據的覆蓋率更高,這些學科領域的論文更容易受到推特關注。而在物理學與工程學和數學與計算機科學這兩個領域,具有推特數據的論文比例較低。從各個學科論文的具體推特數據覆蓋比例來看(見表1),生物醫學與健康科學為44.8%,位列所有學科第一位;人文與社會科學位列第二,比例為42.2%;其后是生命與地質科學領域,該領域有31.7%的論文受到了推特關注;物理學與工程學、數學與計算機科學的比例非常低,分別為13.4%和6.9%,出自這兩個學科領域的論文在推特平臺上的受關注度相對較低。3.2首條推特的積累速度通過計算論文正式發表日期(DOI號創建日期)與首條推特日期之間的天數差值,可以得知每篇論文收獲首條推特的耗時(天),即在后的第幾天,論文獲得了首條推特。圖4分別展示了五個學科領域內,歷經不同天數獲得首條推特的論文的比例。首條推特的耗時被分為六個時間階段:0—1天(當天和接下來的第一天)、2—6天(后的第二天至第一周內)、7—30天(的第一周后和第一個月內)、31—180天(的第一月后和半年內)、181—364天(的半年后和一年內)、365天—(的一年后)。五個領域具有推特數據的論文中,都有過半的論文在發表后一個月內積累了首條推特,超過80%的論文在一年之內被推特提及。但獲得首條推特的耗時,有著較明顯的學科差異。物理學與工程學領域的論文盡管推特覆蓋率不高,但總體收獲首條推特的速度更快,該領域論文的首條推特有43.5%是在后的前兩天獲得,約80%發生在后的第一個月內。生命與地質科學、生物醫學與健康科學的論文在各時期獲得首條推特的比例,僅次于物理學與工程學領域。相比之下,人文與社會科學和數學與計算機科學領域里,在發表較長一段時間后才獲得首條推特的論文比例更高。尤其是數學與計算機科學的論文,逾40%是在發表一個月之后才獲得首條推特,12.3%是在發表一年后才積累了首條推特。表2展示了五個學科領域內,論文獲得首條推特的平均耗時。其中物理學與工程學領域的論文平均經歷了最短的時間獲得了首條推特(約52天),隨后是生物醫學與健康科學、生命與地質科學領域的論文,平均耗時約66天獲得首條推特。人文與社會科學和數學與計算機科學領域的論文獲得首條推特的耗時較長,分別為95天和134天。數學與計算機科學領域不僅只有很小比例的論文被推特提及,而且論文一般是在發表較長一段時間后,才被推特用戶關注。3.3首條推特的推特用戶類型分布Altmetric.com主要根據推特用戶的個人簡介關鍵詞、有鏈接關系的期刊的類型和關注者列表這三項個人用戶信息,將過科學論文相關推特內容的推特術期刊和學術出版商存在頻繁鏈接關系的用戶;實踐工作者(Practitioner):臨床醫師或者從事臨床醫學研究的研究者;科研人員(Researcher):熟悉科學文獻的用戶;社會公眾(Memberofthepublic):與科學文獻沒有鏈接關系并且不屬于以上任何一種類型的用戶。本文選取的2,038,646篇樣本論文的首條推特,是由180,114個不同的推特賬號的,其中169,312個推特用戶(占94.0%)擁有Altmetric.com識別并匹配的身份類型。此外,為比較論文獲得的首條推特和后來其他推特的用戶構成,本文采集了這2,038,646篇樣本論文的全部推特數據以及用戶類型數據。2,038,646篇論文獲得的全部推特由1,550,615個不同的推特賬號,其中1,438,031個推特用戶(92.7%)擁有Altmetric.com識別的身份類型。圖5比較了CWTS五大學科領域內,首條推特和后來其他推特的四種類型的用戶構成比例。對于各個學科的論文而言,科學傳播者在首條推特中所占的比例要明顯高于在后來其他推特中所占的比例。科學傳播者是與學術期刊、學術出版商頻繁關聯的一類推特用戶。期刊與出版商的工作促成了科學論文的在線發表,科學傳播者往往能第一時間接收到論文出版信息,并將其到推特平臺,從而提高了論文的可見度。實踐工作者主要是從事臨床科學的用戶,他們更加關注自身所處領域的論文,在生物醫學和健康科學中所占的比例明顯更高。科研人員是最熟悉科學論文的人,他們在推特傳播中的作用僅次于社會公眾(即Altmetric.com無法根據用戶資料明確劃分身份類型的高于在后來其他推特中所占的比例,其他領域的情況則相反。無論是首條推特還是其他推特,物理學與工程學領域的論文擁有最高比例的科研人員參與論文的推特傳播,該領域論文的首條推特有大約32%是由科研人員的,這一比例顯著高于其他學科領域。表3列舉了五大學科領域內,四類推特用戶論文首條推特的平均耗時(天)。物理學與工程學領域的論文獲得首條推特的平均耗時最短,不論首條推特是由哪類用戶的。數學與計算機科學領域的論文獲得首條推特的平均耗時相對最長,除了科學傳播者貢獻的首條推特(平均58天),要快于對人文與社會科學領域論文的首條推特(平均83天)。總體來看,除人文與社會科學領域外,科學傳播者論文首條推特的平均耗時是最短的。在生物醫學與健康科學、物理學與工程學、生命與地質科學領域,科研人員首條推特的速度僅次于科學傳播者。而在人文與社會科學和數學與計算機科學領域,實踐工作者卻展現出較快的首條推特速度。3.4首條推特的推特用戶國家/地區分布樣本論文獲得的2,038,646條首條推特中,1,002,728條(占49.2%)具有Altmetric.com識別的用戶地理位置信息。這些了論文首條推特的用戶的國家和地區分布狀況如圖6所示。美國與英國是最大的兩個首條推特用戶來源國。第一時間科學論文相關內容的推特用戶絕大部分來自北美、西歐和澳洲,相比之下,來自南美、非洲、東歐和亞洲的用戶較少。本文從WebofScience中采集了首條推特用戶地理位置可被識別的論文的作者機構數據,以統計這些論文是由來自哪些國家/地區的作者發表的。當來自多個國家/地區的作者合作發表一篇論文時,每個國家/地區都計作發表了一篇論文。發表了具有推特數據的論文最多的20個國家/地區及其論文積累的首條推特的數量(括號中)如圖7所示。這些國家/地區的論文所收獲的首條推特的用戶來源,則通過堆積百分比條形圖來表示。每一個子塊代表來自某一國家/地區了首條推特的用戶的比例,越靠近左側,就表示來自這個國家/地區的推特用戶比例越高。來自論文作者本國/地區的推特用戶用紅色子塊突出顯示。由美國、英國和西班牙這三個國家作者發表的論文,吸引了最高比例的來自本國的用戶第一時間在推特平臺相關內容。由于來自美國和英國科學論文首條推特的用戶絕對數量最多,對于其他大部分國家/地區發表的論文,來自這兩個國家的推特用戶同樣占據了最高比例,緊隨其后的,是來自本國的推特用戶最早相應論文的推特內容。然而對于意大利、中國、韓國和中國臺灣而言,其論文首條推特的用戶來源構成則較為特殊。來自西班牙的推特用戶在美國和英國之后,是意大利發表的科學論文收獲的首條推特的第三大來源。而中國、韓國和中國臺灣這三個亞洲國家和地區,盡管擁有推特數據的論文總數量較高,但首條推特用戶來自本國/地區的比例則較低,分別僅有1.2%、1.4%和0.8%的首條推特是由本國/地區用戶的,遠遠低于其他國家/地區的這一比例。由圖6可知,來自這三個國家/地區了科學論文首條推特的用戶的數量較少,因而可能導致了相比于其他更為活躍首條推特的國家而言,來自本國/地區的用戶比例較低。圖8詳細列舉了積累了首條推特的論文數量最多的20個國家/地區所獲得的來自這20個國家/地區的用戶貢獻的首條推特的比例。美國與英國是最主要的了首條推特的用戶來源國,分別對各個國家/地區論文首條推特的貢獻比例幾乎都占據了20%以上。除西班牙、意大利、中國、韓國和中國臺灣以外,其他國家/地區來自當地的推特用戶對本國/地區的首條推特貢獻率緊隨美國和英國之后,比例處于6.4%(丹麥)至21.2%(澳大利亞)之間。

4討論與結論

通過對大規模WebofScience論文首條推特數據的分析,本文發現不同學科論文的推特覆蓋率有著較為明顯的差異。生物醫學與健康科學、人文與社會科學領域的論文擁有最高的推特數據覆蓋率,來自這兩個領域的論文更容易積累推特數據,其后是生命與地質科學,而物理學與工程學和數學與計算機科學這兩個領域推特覆蓋率較低。盡管物理學與工程學領域的論文僅有較少一部分積累了推特數據,但該領域論文獲得首條推特的平均速度是最快的。總體來看,物理學與工程學、生物醫學與健康科學、生命與地質科學和人文與社會科學領域的論文表現出更快的首條推特積累速度,半數以上的首條推特是在后一周之內積累起來的。數學與計算機科學的論文則需耗費更長的時間才被推特用戶關注到。論文首條推特者的用戶類型構成和后來其他推特者的用戶類型構成之間也存在一定差異。各學科中,科學傳播者在首條推特者中所占的比例明顯高于在后來其他推特者中的比例,并且科學傳播者貢獻的首條推特的耗時在多數學科中是最短的。而科研人員這類較為熟悉科學論文的推特用戶,在多數領域內同樣展現出較快的首條推特速度。尤其在物理學與工程學領域,科研人員在首條推特和其他推特者中所占的比例均高于其他學科,對科學論文推特傳播的參與度較高,并且首條推特的平均速度僅次于科學傳播者。以往的研究已證明用戶在推特或者點擊訪問論文的行為中都展現出地理鄰近性的特征,即一般情況下,用戶更多地關于本國/地區作者發表的論文的推特[29],或點擊訪問本國/地區作者新發表的論文[30]。而從最先論文相關推特的角度出發,本文同樣發現,對具有推特數據的論文數量較多的國家/地區而言,來自當地的推特用戶在本國論文首條推特的用戶中占比很高,除美國和英國這兩個貢獻首條推特絕對數量最多的國家外,來自本國/地區的推特用戶是第一時間在推特平臺傳播當地作者論文的主力軍。然而對于部分亞洲國家和地區,如中國、韓國、中國臺灣等,來自當地的推特用戶對本國/地區論文首條推特的貢獻則比較弱,不及來自其他推特活躍國家/地區的用戶。本文的研究結果也存在一些局限性。第一,Crossref記錄的DOI創建日期與論文正式發表日期較為接近,但某些情況下不能完全準確地代表論文正式在線發表并為推特用戶可見的時間。盡管本文已清除了部分日期存在疑義的論文,但其余論文的DOI創建日期也可能與正式在線發表日期之間存在細微偏差,從而一定程度上使首條推特積累速度的計算出現誤差。第二,本文使用的CWTS單篇論文學科分類體系只能對研究論文(Article)、綜述(Review)和信函(Let-ter)這三類文獻類型進行分類,因此本文的樣本論文只選擇了研究論文(Article)和綜述(Review)這兩種最主要的文獻類型。其他擁有推特數據的文獻類型沒有囊括在本文的分析之中。第三,本文所使用的推特用戶地理位置數據和用戶類型信息來自Altmetric.com。由于用戶資料填寫完整度不高、Altmetric.com分類標準與算法設計等客觀因素的影響,并非所有樣本論文的推特數據都能識別出具體的推特用戶地理位置[31]和準確身份,因此本文對于首條推特用戶身份構成和地理位置來源的分析,分別是在約90%和50%的樣本量基礎上進行的。另外Altmetric.com所界定的推特用戶身份類型,存在分類邊界的模糊。科學傳播者、科研人員和實踐工作者的分類界限并不十分清晰。在未來基于推特用戶地理位置與身份類型的研究中,如何更加全面、準確地識別參與科學論文傳播的推特用戶的信息,是亟待解決的一個研究問題。