電視劇收視率預測分析

時間:2022-02-06 10:18:05

導語:電視劇收視率預測分析一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

電視劇收視率預測分析

【摘要】本文對影響電視劇熱度的因素進行了系統的研究。首先通過建立并優化AR(2)、ARMA(2,3)單一模型,預測電視劇后三集的收視率;之后建立ARMA-BP神經網絡組合模型,以ARMA(2,3)模型捕捉線性特征,用線性殘差訓練BP神經網絡以捕捉非線性特征。通過在測試集上的計算,證明組合模型的性能優于單一模型。

【關鍵詞】電視劇收視率;一元線性自回歸模型;時間序列;BP神經網絡

1.前言

電視劇的熱度是對其影響力和關注度的綜合衡量指標。為了在目前“多屏模式”下找到電視劇熱度的影響因素,并且提出更綜合、客觀的衡量指標,國內外專家學者進行了很多針對性的研究。主要可以分為兩類:(1)單一預測模型,如:梁招娣等基于RBF神經網絡對電視收視率進行預測[1],等基于BP神經網絡建立收視率預測模型[2],張春燕等利用ARMA模型對在線電視劇流行度進行預測[3],毋世曉等人利用移動平均法預測網站電視劇視頻點擊量[4]等等。(2)組合預測模型,如:張茜等基于TEI@I方法,提出了對綜藝節目收視率預測的研究框架,引入了新的解釋變量百度指數和新浪微指數,并采用模型集成技術顯著提高了預測精度[5]。黃玲莉等基于ARIMA與BP神經網絡,建立了收視率組合預測模型[6]。對比前人的研究成果,我們發現組合模型的效果比單一模型更加出色。因此,本文在前人已有研究的基礎上,綜合運用了多種機器學習模型,對影響電視劇熱度的因素進行了系統的研究。

2.收視率單一時序預測模型的構建和優化

2.1數據收集和預處理。本研究選取了2015年到2017年期間首播的共23部完結的電視劇作為研究對象,這些電視劇包含了不同種類的收視率變化模式,均屬于該種類中較為典型的電視劇,可以比較全面的反應不同的收視率變化情況,確保了模型的廣泛性與合理性。研究中所有的收視率數據均為索福瑞CSM52城收視率統計值,電視劇的基本信息(如首播日期、播出衛視、每天播放集數)等信息來源于百度百科,所有的原始數據都存儲在補充材料的excel表格中。2.2建立AR(2)模型進行預測。首先,本文使用二階自回歸的時序預測模型,利用電視劇前集的收視率數據來預測最后三集的收視率。其中該模型的基本假設為:(1)電視劇收視率變化平穩,不會因為外界因素的臨時干擾而發生突變;(2)不同時間的電視劇收視率統計方法一致,能夠反映電視劇的受關注程度。本文基于以上的模型假設,建立了二階自回歸模型,即AR(2)模型。若假設代表第集電視劇的收視率,那么該模型的表達式為:利用excel自帶的數據分析工具進行擬合,此處以2017年收視率榜首電視劇《人民的名義》為例進行模型的訓練和求解。其中訓練集和測試集分別為:(1)訓練集:《人民的名義》前29天、共47集的收視率作為訓練集。(2)測試集:《人民的名義》最后3天、共5集的收視率作為測試集。經過excel的擬合分析,得到《人民的名義》二階自回歸擬合的表達式為:擬合得到的擬合優度,說明該模型在訓練集上具有比較好的擬合效果。之后在測試集上對該模型的預測性能進行測試,將后3天的收視率真實值和通過模型計算出的預測值進行對比,并且計算均方根誤差參數來衡量預測性能。最終通過計算得到的預測結果,預測值序列和真實值序列之間的均方誤差為。可以體現該模型具有不錯的預測性能。用同樣的方法,對其余的22部電視劇建立AR(2)模型,分別作出收視率的預測分析。結果發現,對于部分電視劇來說,該模型的預測性能比較好,如《平凡的世界》RMSE=0.056,《北上廣不相信眼淚》RMSE=0.051,《外科風云》RMSE=0.077。而對于另外一些電視劇,該模型的預測性能比較差,例如《孤芳不自賞》RMSE=0.534,《于成龍》RMSE=0.583,《親愛的翻譯官》RMSE=0.683。由此可見,最簡單的AR(2)時序預測模型僅能實現一定程度的預測功能,其局限性主要體現在以下兩個方面:(1)只能描述數據分布規律中的線性特征,而難以刻畫數據分布的非線性關系。這就使該模型對于基本符合線性增長趨勢的電視劇收視率與測量好,而對于波動性較大的電視劇收視率難以精準預測;(2)部分模型存在過擬合的問題,將數據中的噪聲當做了信號進行處理,有些參數的p-value不能通過0.05顯著性水平檢測。2.3對數據和模型進行優化處理。2.3.1對收視率數據異常點的處理。通過對部分電視劇測試結果的深入研究,發現部分預測收視率與真實收視率差距較大的電視劇,都存在兩種不一樣的播放模式。例如《武媚娘傳奇》有單集播放的、也有三集連播的;《人民的名義》有單機播放的、也有兩集連播的。為確定“收視率異常下降”與“當日單集播放”之間的關系,我們對23部電視劇中有不同播放模式的17部電視劇進行了統計分析,得到了如表格1所示的結論。此處,“收視率異常下降”定義為“該天的收視率明顯小于本電視劇收視率的線性增長趨勢”。由表格1可以非常明顯地看出,在所有的考察對象的單集播放日中,“收視率異常下降”事件出現的概率遠遠高于所有播放日的平均概率。所以我們認為,“單集播放”是與“收視率異常下降”存在緊密的聯系。所以,我們首先對于研究對象電視劇的所有單集播放日中“收視率異常下降”的數據進行了修正,采用均值插值的方法,替換掉原有的收視率異常點。修正后的收視率等于單集播放日前后的收視率平均值。2.3.2將AR(2)模型優化為ARMA(2,3)模型。在完成對單集播放日異常點的修正后,部分電視劇依然存在比較大的波動性。因此,進一步優化模型,引入移動平均的優化計算,對波動劇烈的曲線進行平滑濾波,從而降低波動性帶來的影響,更容易地把握住數據分布的線性趨勢。因此進一步將AR模型優化為ARMA模型。在ARMA(p,q)的模型識別和定階過程中,我們以《人民的名義》電視劇為樣例,對p、q兩個參數采取逐步試探法以獲得最佳值。經過多次嘗試,確定收視率預測的最佳模型為ARMA(2,3)。在對單集播放日的異常點修正后,利用matlab實現ARMA的預測功能,再次對表2-4中曾經對AR(2)模型表現不佳的電視劇進行預測,得到新的預測結果為《孤芳不自賞》RMSE=0.235,《于成龍》RMSE=0.462,《親愛的翻譯官》RMSE=0.383.可以看出,經過對數據集的修正和對模型的優化之后,原先AR(2)預測表現不佳的電視劇預測性能都有了一定的提升。改變最大的電視劇《親愛的翻譯官》,其均方誤差降低了44%,其他電視劇的均方誤差也有10%-30%不等的下降。2.4總結與討論。本章節采用單一的時序預測模型,對23部研究對象電視劇進行了逐一的預測。在AR(2)模型的基礎上,一方面深入分析了異常點的規律和特征,對異常點進行了修正;另一方面在模型中加入了移動平均的過程,將模型優化為ARMA(2,3)。最終可以看到,ARMA(2,3)模型在修正后的數據集上,表現出的預測性能比AR(2)在原數據集上的性能要優秀很多。雖然目前的預測模型得到了一定的優化,例如《人民的名義》預測RMSE從0.3285降低到了0.2376,但該模型依舊存在一定的問題。其最核心的問題在于該模型依舊只能描述數據的線性變化趨勢,對于變量之間非線性的變化關系十分無力。為了進一步提高預測的精確程度,我們從前人的工作中得到啟發,嘗試采用組合模型來進行預測,一方面利用ARMA模型的線性描述能力,另一方面利用BP神經網絡的非線性預測能力,二者相結合地展開后續的預測工作。

3.ARMA-BP神經網絡組合預測模型

3.1模型構造思路。經過前文的分析和預測,我們發現節目的收視率會受到很多因素的影響。哪怕對一些異常點進行修正和調整,節目的收視率也會有一定的波動性和無序性。所以,僅憑線性的模型是無論如何也無法進行精準擬合的。由于基于回歸的分析方法能夠提取出數據的線性特征,而神經網絡對非線性關系有很強的逼近能力。所以我們在前人研究的啟發之下,選擇使用ARMA模型與BP神經網絡相結合,進行收視率的預測分析。對目前要預測的收視率序列rate來說,每個數值都可以表示為:其中Lt表示該序列中規律的線性部分,對該部分ARMA模型有很好的擬合能力;而NLt表示該序列中的非線性部分,這部分能夠使用BP神經網絡來逼近求解,因此該組合模型的整體構造思路分以下幾步:(1)用一個樣本電視劇確定ARMA(p,q)模型的階次,通過逐步試探的方法進行識別、定階。在2.3.2節中,我們利用了《人民的名義》作為樣本電視劇,確定了該模型最佳的階次為ARMA(2,3)。(2)用ARMA(2,3)模型進行ratet預測,假設預測的結果為。這代表了第個點的預測值,而代表了該點的預測殘差。(3)以為BP神經網絡的期望輸出,對收視率數據進行N階的空間重構、即以N維的收視率向量作為BP神經網絡的輸入。利用BP神經網絡進行預測,訓練后的預測結果為。(4)利用ARMA(2,3)與BP神經網絡兩種模型的預測結果組合后作為最終的預測結果,即在點的預測結果為整體構造過程如圖1所示。3.2模型求解過程。以《人民的名義》電視劇為例,利用1—26天的收視率作為訓練集,27—29天的收視率作為測試集,檢驗該模型的預測性能。首先利用2.3.2節中提到的ARMA(2,3)模型,用前26天的收視率進行訓練。利用matlab完成模型訓練過程,計算出第5天至第26天的真實收視率與預測收視率。之后,將22個預測殘差作為BP神經網絡的期望輸出。然后將原始收視率數據以最大收視率為基準進行歸一化處理,歸一化后的數據設為。之后對歸一化后的數據進行相空間重構,根據實際情況,確定重構階數為5階,即通過生成一組5維的收視率空間向量。將重構后的數據作為BP神經網絡的數據輸入。利用matlab實現3層BP神經網絡,利用newff函數構建網絡,其中隱含層數目經過多次試探驗證設置為8。隱含層傳遞函數為tansig,輸出層的傳遞函數設為purein,訓練函數采用trainm。經過282次學習后,精度達到了預設的0.001的要求。將訓練后的ARMA(2,3)模型和BP神經網絡模型共同用于對《人民的名義》最后三天收視率的預測,結果顯示組合模型能夠的均方誤差為,預測性能超過之前所有的單獨預測模型。由此可見,ARMA-BP神經網絡模型通過分別擬合線性部分和非線性部分,實現了更加精準的預測性能,更適合用于電視劇的收視率預測中。

參考文獻

[1]周小普,韓瑞娜,凌姝.多屏發展背景下網絡收視度的影響因素研究——以熱播電視劇為例[J].國際新聞界,2014,(12):114-129.

[2]侯衛星,高建中.基于因子分析法的城市低碳經濟實證評價——以太原市為例[J].企業經濟,2012,(06):15-19.

[3]張輝,王雯聰.基于多元統計分析方法研究電視劇收視特征及影響因素[J].現代傳播(中國傳媒大學學報),2011,(06):101-103+126.

[4]耿金花,高齊圣,張嗣瀛.基于層次分析法和因子分析的社區滿意度評價體系[J].系統管理學報,2007,(06):673-677.

[5]何躍,蔡博馳.基于因子分析法的微博熱度評價模型[J].統計與決策,2016,(18):52-54.

[6]劉志.模糊層次分析法在電視劇評價中的應用[J].安徽廣播電視大學學報,2014,(02):57-60.

作者:陸文昊 單位:紹興市第一中學