地區RPI增速預測結果研究

時間:2022-06-02 11:31:28

導語:地區RPI增速預測結果研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

地區RPI增速預測結果研究

內容提要:大數據時代可有效利用高頻網絡搜索數據預測傳統宏觀經濟走勢。基于網絡搜索數據對商品零售價格指數(RPI)變動影響的分析,利用相關關鍵詞的網絡搜索數據,構建河北省地區日度網絡搜索指數,并基于混頻數據模型MIDAS-AR(1)對地區rpi增速進行預測。研究結果表明:基于日度網絡搜索指數的混頻數據模型適用于地區RPI增速的預測。在靜態預測方面,采用混頻數據模型的預測精度要優于同頻模型。在動態預測方面,采用調整模型h值的混頻數據模型的預測效果優于AR(1)模型的動態預測結果,說明構建的日度網絡搜索指數對地區RPI變動具有一定的預測能力。基于此,在對宏觀經濟進行監測預測時,應有效利用網絡海量即時數據;混頻數據模型可應用于區域RPI增速預測。

關鍵詞:商品零售價格指數;RPI增速預測;混頻大數據;網絡搜索指數

近年來,現代網絡技術手段的不斷發展使獲取和儲存海量數據成為可能。網絡搜索數據頻率往往高于傳統宏觀經濟變量,蘊含豐富的數據信息。伴隨著混頻數據模型的深入研究和在經濟金融領域內的推廣應用,利用高頻數據預測低頻數據成為可能。網絡搜索數據可以體現由于經濟環境或供給需求變化產生的關鍵詞搜索行為,其中蘊含了能夠引起RPI變動的因素,這些因素是對預測RPI變動的傳統信息源的重要數據補充。結合混頻數據模型,可以充分發揮網絡搜索數據的高頻優勢。這一方法可以利用更多數據信息,在已有的應用研究中大多收到較好的預測效果,為預測宏觀經濟變量提供新的思路。因此,篩選恰當的網絡搜索數據,研究利用高頻數據信息預測宏觀經濟變量具有一定的現實意義。

一、相關研究文獻評述

網絡搜索數據是衡量網絡輿情的重要指標。在宏觀經濟領域,已有研究表明:網絡搜索數據可體現生產者和消費者的投資和需求狀態,與經濟指標存在相關關系。張崇等(2012)研究表明:網絡搜索數據與居民消費價格指數存在協整關系。白麗娟等(2015)認為,用戶受到事件影響時結合自身信息需求會產生搜索行為,形成關鍵詞,即關鍵詞可看作是事件發展的量化指標。劉偉江和李映橋(2018)從供求理論的角度出發,基于谷歌指數合成宏觀和微觀搜索指數,實證表明:搜索指數與商品零售價格指數具有長期穩定協整關系。基于網絡搜索數據對金融和經濟指標影響的分析,Choi和Varian(2012)引入Google指數預測失業、旅游等領域的經濟指標,研究表明:其預測效果更佳。González-Fernández和González-Ve-lasco(2018)基于所選關鍵詞的Google指數,實證表明:引入網絡搜索數據能夠提升模型預測精度,利用網絡搜索信息的預測可被推廣至其他經濟指標。國內學者徐映梅和高一銘(2017)基于百度指數數據,構造CPI低頻及高頻輿情指數預測CPI,兩類輿情指數具有較強的時效性,在利用高頻輿情指數預測CPI時采用混頻數據模型MIDAS,改進了CPI預測精度。張瑞等(2020)基于網絡搜索數據預測上海商品零售價格指數,研究表明:在預測時引入網絡搜索數據具有時效性。李俊杰等(2021)發現,通過百度搜索數據可提取房地產市場信息關注指數。關于混頻數據模型理論的應用研究較多,Ghy-sels等(2004)提出混頻數據模型(MIDAS),認為MI-DAS模型可應用于經濟與金融領域。Clements和Galvo(2012)提出引入一個向量自回歸項作為共同因子,以消除低頻因變量對高頻自變量的季節性影響。國內多數研究將混頻數據模型應用于我國宏觀經濟變量的預測中,王維國和于揚(2016)基于混頻數據,構建不同權重函數的混頻數據回歸預測模型和無約束MIDAS模型,對我國季度GDP進行預測,研究表明:以BIC為權重的聯合預測模型預測效果最優。紀堯(2021)采用包含利率、大宗商品價格、農產品價格、京東網絡電商等高頻數據,構建MIDAS模型,對我國CPI及PPI進行預測,說明其相對于ADL及GARCH模型在預測效果上的優越性。通過對已有研究文獻的梳理,可以發現:公眾對事件的關注度可以通過網絡搜索行為轉化為關鍵詞熱度,網絡搜索數據對宏觀經濟變量存在影響。相比以往研究,本文有以下方面創新:一方面,本文保留網絡大數據的原有頻率,采用日度網絡搜索數據構建地區網絡搜索指數進行預測,從而避免損失數據信息;另一方面,本文將混頻數據模型應用于某區域的RPI預測,以豐富基于網絡搜索數據預測商品零售價格指數的研究。

二、網絡搜索數據對地區RPI變動影響分析

(一)網絡搜索數據關鍵詞與地區RPI變動

根據以往研究,本文認為,利用網絡搜索數據構建的指數不僅可以應用于CPI預測,同樣可以推廣至其他類價格指數,例如RPI。構建關注度指標的首要任務是相關關鍵詞的篩選,本文從經濟金融環境、常見零售商品、民生熱詞方面考慮與RPI變動相關的關鍵詞。1.宏觀經濟及金融環境的影響。結合白麗娟等(2015)的研究,本文認為,當宏觀經濟及金融市場發生熱點事件時,一方面,居民對這一事件的關注度增加,這會從網絡搜索熱度中得以體現;另一方面,RPI作為宏觀經濟系統中的重要組成部分,宏觀經濟及金融市場的大事件會對RPI產生影響。在這個過程中存在居民對于某一關鍵詞的搜索熱度先行于RPI變動的可能性,但具體哪些關鍵詞能夠先行于RPI變動、能夠應用于RPI變動的預測還需要進一步定量分析。2.居民對商品價格的關注度。RPI這一指數主要反映商品零售價格變動的趨勢。因此,部分商品價格的變動也會引發RPI變動。從消費者角度和生產者角度都有可能形成對某種商品的搜索行為,這些搜索行為本身代表了某些商品供求關系的變動情況,凝結了可能影響物價的因素。3.居民對社會熱點問題的探討。民生領域熱詞的關注度是持續較高的,就業、物價上漲等社會經常關注的熱點問題同樣會對RPI的變動產生影響。例如,就業壓力大時對于就業的關注度會加大,而就業壓力可能影響部分人群的消費水平,致使部分消費品價格波動,從而影響RPI變動。綜上,本文基于上述三個層面選取關鍵詞,具體選取的關鍵詞如表1所示。

(二)構建網絡搜索指數的關鍵詞篩選

初選關鍵詞不一定都適合應用于地區RPI變動的預測,還需要通過定量分析進一步篩選出具有預測作用的關鍵詞。在構建日度網絡搜索指數時,首先,將地區關鍵詞日度搜索數據通過按月平均的方式轉化為月度日均搜索數據;其次,利用SPSS計算地區RPI同比增長率與其月度網絡日均搜索數據在不同時滯情況下的時差相關系數,找出相關系數最大時的時滯數,分析該關鍵詞與RPI同比增長率數據的時滯關系;最后,基于篩選出的具有預測作用的關鍵詞構建日度網絡搜索指數,即根據各關鍵詞與RPI同比增長率之間的時滯關系對各關鍵詞序列進行錯序調整,以關鍵詞搜索數據與RPI增長率的時差相關系數的絕對值作為權重進行加權平均,得到地區日度網絡搜索指數。綜上所述,本文認為,可以先找出在理論上與RPI增速存在關聯的關鍵詞,構成一個專有的關鍵詞詞庫,產生重點關鍵詞;再采用定量分析的方法篩選出與地區RPI變動相關性較大的關鍵詞;最終,構建日度網絡搜索指數。基于構建的日度網絡搜索指數,建立混頻數據模型MIDAS-AR對區域RPI增速進行預測效果研究。

三、基于網絡搜索數據的地區RPI增速預測模型構建

(一)數據來源與處理

本文以河北省為例,構建河北省網絡搜索指數預測地區RPI增速。國內多數研究利用百度指數衡量關注度,如楊欣和呂本富(2014)、陳植元等(2016)。百度指數基于訪問百度的海量網民行為數據,已具備向咨詢者展示單個詞的趨勢、需求圖譜和人群畫像等功能。本文采用的關鍵詞網絡搜索數據來源于百度指數官網。地區月度RPI數據來源于同花順金融數據庫。實證分析時將數據集分成訓練集和測試集,將2013年1月1日至2019年6月30日的日度網絡搜索數據及2013年1月至2019年6月的RPI同比增速數據作為訓練集,將2019年7月1日至2020年12月31日的日度網絡搜索數據及2019年7月至2020年12月的RPI同比增速數據作為測試集,采用均方誤差MSE衡量模型預測效果。為減少入選關鍵詞序列由于數量級差異對模型預測造成的影響,將入選的關鍵詞百度指數序列的訓練集按以下方式進行處理:(1)對于測試集的日度網絡搜索指數,采用與訓練集相同的歸一化算法,即(2)

(二)模型構建

本文基于混頻數據模型MIDAS(m,K,h)-AR(p)進行實證分析,其表達式如式(3)所示。其中,xt代表高頻日度數據,yt代表低頻月度數據。m為因變量與自變量的頻率倍差,本文中m的值為30。為權重多項式,L為滯后算子。K為最大滯后階數,h為向前預測的步數。在表1的關鍵詞中,選出了關鍵詞指數與河北省RPI變動的時差相關系數較大的四個關鍵詞,分別是“油價”“利率”“糧食價格”“棉花價格”。其領先階數分別為1階、0階、5階、4階,對應的時差相關系數分別為-0.55、-0.59、-0.50與-0.53。按照式(1)對四個關鍵詞序列進行預處理,并以時差相關系數的絕對值作為權重對兩個關鍵詞序列進行加權平均,得到地區日度網絡搜索指數。經檢驗,建模序列在5%的顯著性水平下平穩。為便于模型計算分析,將一年中每個月的天數設定為30天。本文采用三種模型對河北省RPI同比增速進行預測:(1)基于混頻數據的MIDAS-AR(1)模型;(2)基于同頻數據的自回歸分布滯后模型ADL。由于對河北省RPI增長率建立AR(1)模型后,其殘差已不存在自相關。因此,在這兩種模型中,均引入因變量的一階滯后項;(3)AR(1)模型。

四、基于網絡搜索數據的地區RPI增速預測結果分析

(一)基于靜態預測方法的預測效果分析

首先,采用靜態預測的方法對測試集的各時間點進行預測。基于三種模型預測的均方誤差如表2和表3所示。表2列出了混頻數據模型設定不同的最大滯后階數K值及不同的向前預測步數h值時MI-DAS-AR(1)在測試集上的靜態預測情況。表3列出了h值取90的MIDAS-AR(1)模型、相應滯后階數的ADL模型與AR(1)模型靜態預測的均方誤差。其中,ADL模型的網絡搜索指數采用月度數據,先將“油價”“利率”“糧食價格”“棉花價格”關鍵詞日度網絡搜索數據通過按月平均的方式轉化為月度日均網絡搜索數據,再將經錯序調整的兩個序列進行歸一化,并以時差相關系數的絕對值作為權重加權平均得到。由表2可知,采用MIDAS-AR(1)模型靜態預測的效果與最大滯后階數K和向前預測步數h有關。隨著最大滯后階數K的變化,模型預測的均方誤差大小有波動。在表2中,當h的值為90,K的值為150,即日度網絡搜索指數采用向前預測步數為90天,滯后150天(5個月)的數據進行預測時,模型的預測效果相對最優。此時,MIDAS-AR(1)模型與ADL模型的預測效果如圖1所示。由表3可知,采用混頻數據模型的預測精度均優于對應的同頻ADL模型。當h值大于等于60,混頻數據模型的靜態預測可以產生優于AR(1)模型的靜態預測效果。

(二)基于動態預測方法的預測效果分析

基于動態預測,進一步分析構建的日度網絡搜索指數對地區RPI變動預測的作用,訓練集與測試集的劃分與靜態預測相同。本文通過調整混頻模型中h的值對2019年7月至2020年12月測試集上的RPI增速進行動態預測。其對應關系如表4所示。在進行動態預測時,模型中因變量的一階滯后項,即2019年7月及之后的RPI增速數據采用由MI-DAS-AR(1)模型預測得到的估計值。采用MIDAS-AR(1)模型及AR(1)模型在測試集上的MSE如表5所示。其中,AR(1)模型采用動態預測方法預測,模型預測效果仍采用模型預測的均方誤差MSE衡量。表5列出了采用調整h值的MIDAS-AR(1)模型與AR(1)模型在測試集上進行動態預測的均方誤差。由表5可知,對測試集預測2個季度、4個季度和6個季度的情況下,其動態預測的均方誤差小于AR(1)模型,說明構建的日度網絡搜索指數對地區RPI變動具有一定的預測能力,得出構建的日度網絡搜索指數對地區RPI變動具有一定影響的結論。

(三)重點關鍵詞討論

基于上述分析,可以發現:第一,構造日度網絡搜索指數的四個關鍵詞中,“油價”“利率”可以看作是由于居民對經濟金融環境的關注而產生的搜索行為。經濟金融環境和居民的生活息息相關。一方面,油價的變動會提升居民對于“油價”的關注度,居民關注度的提升對于油價下跌更加敏感。另一方面,受經濟金融環境波動影響,居民在調整自身的消費投資行為、形成利率預期時會提升對“利率”的關注度。這些關鍵詞關注度的提升是經濟金融環境變動的一種體現,且居民進行關鍵詞的搜索行為通常是即時的。另外,經濟金融環境的變動會對RPI產生影響。例如,油價下跌可能帶來的通縮壓力、由于經濟金融環境變動導致的居民消費投資行為變化等。在RPI發布前,居民的搜索行為對RPI可能具有一定的先行性。從時差相關系數來看,在研究的時間范圍內,伴隨著對“油價”“利率”關注度的提升,會導致地區RPI短期下降。第二,“棉花價格”“糧食價格”可以看作是居民對商品的關注。糧食作物價格變動會引起生產者和消費者的關注度提升。在研究的時間范圍內,伴隨著對“棉花價格”“糧食價格”關注度的提升,會引起地區RPI反向變動。第三,在研究的時間范圍內,表1的關鍵詞中,除了用來構建日度網絡搜索指數的四個關鍵詞外,還有“就業”“蔬菜價格”這些關鍵詞的關注度與地區RPI變動的時差相關系數在0.4-0.5之間,且具有一定的先行性。其中,“就業”可以看作是居民對民生熱詞關注度的體現,當居民感受到就業壓力時,對該關鍵詞的關注度會提升。時差相關系數顯示,對“就業”關鍵詞關注度的提升對河北省RPI變動具有先行性,具體影響體現為負相關。第四,“雞蛋價格”“股票”“基金”關鍵詞的關注度與地區RPI變動的時差相關系數具有滯后性。其中,“股票”“基金”關鍵詞的關注度的時差相關系數在0.5以上,且RPI變動與對該關鍵詞的關注度變動是反向的。

五、結論與政策啟示

本文實證結果表明:基于構建的網絡搜索指數建立混頻數據模型,有助于地區RPI的預測。居民對經濟金融環境類關鍵詞的關注度對河北省RPI變動具有一定的先行性,具體體現為當居民對相關關鍵詞的關注度提升,與短期RPI的下跌有較強的相關性。部分商品的關注度也存在先行性和相關性,但時差相關系數相比經濟金融環境類關鍵詞稍小。基于時差相關系數較大的關鍵詞構建的日度網絡搜索指數,在靜態預測方面,采用混頻數據模型的預測精度均優于對應的同頻ADL模型。通過調整MIDAS-AR(1)模型的h值,可基于混頻數據模型對地區RPI增速進行動態預測,且均方誤差小于AR(1)模型動態預測的均方誤差,這說明構建的日度網絡搜索指數對地區RPI變動具有預測能力。基于上述結論,本文可得出以下啟示:1.應關注居民由于經濟金融環境變化產生的關鍵詞搜索行為。相關關鍵詞的關注度可能凝結了引起RPI變動的因素,且具有一定的即時性。在實際應用中,與RPI增速相關性較強的關鍵詞通常也處于動態變化的過程中。因此,需要根據實際情況不斷更新網絡搜索關鍵詞詞庫和關鍵詞篩選方法,在實踐中找到對RPI增速有持續性影響的關鍵詞,使關鍵詞詞庫形成體系,更好地應用相關預測方法。2.在對宏觀經濟進行監控和預測時,應有效利用網絡海量即時數據。網絡搜索數據和搜索引擎中的關鍵詞熱度等數據蘊藏了能夠反映經濟社會變化的關鍵信息。近年來,我國不斷出臺相關政策,積極推動云計算等互聯網信息技術與大數據的融合發展,鼓勵其在金融、工業等領域的應用。應當積極關注網絡搜索數據中反映社會關注度的信號,更好地提取并利用這些關鍵信息。3.混頻數據模型可被應用于區域RPI增速的預測中。利用高頻數據預測低頻數據有利于保留網絡大數據原始頻率,為RPI預測提供了新的思路和方法。混頻數據模型在地區宏觀經濟預測中具有適用性。今后,在RPI的預測中應充分利用高頻數據和混頻數據模型,并結合實際不斷完善該模型,在經濟指標的監測中注意吸收新技術、新理論。

作者:王文勝 常曉穎