垃圾短信數(shù)據(jù)挖掘論文

時間:2022-03-26 03:30:33

導(dǎo)語:垃圾短信數(shù)據(jù)挖掘論文一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

垃圾短信數(shù)據(jù)挖掘論文

1垃圾短信治理面臨的調(diào)整

目前的垃圾短信過濾的方法主要有黑名單和白名單監(jiān)控技術(shù),但是短信中心對黑白名單處理數(shù)量有上限要求;基于關(guān)鍵字的過濾技術(shù),但是這種技術(shù)不能靈活識別和更新關(guān)鍵字;基于內(nèi)容的過濾技術(shù),可分為基于規(guī)則的過濾和基于概率統(tǒng)計的過濾;基于數(shù)據(jù)挖掘方法的垃圾短信用戶識別,目前基本上都使用IBMSPSSModeler平臺的決策樹和邏輯回歸經(jīng)典算法識別垃圾短信用戶,由于選取的建模數(shù)據(jù)不全面以及算法本身各自存在不足使得建模效果受到影響。為建立白名單和科學(xué)封堵模型相結(jié)合的垃圾短信治理模式,實現(xiàn)精細化、行為級、高效性的垃圾短信治理,本方案提出了基于客戶綜合特征分析的垃圾短信治理技術(shù)方案:基于隨機森林分類的垃圾短信用戶預(yù)測模型。通過客戶入網(wǎng)屬性,客戶通信行為信息、客戶賬單信息等多個維度構(gòu)建模型,對垃圾短信號碼進行識別和治理。相比傳統(tǒng)基于短信內(nèi)容識別、發(fā)送量控制的事中控制,本系統(tǒng)能夠進行垃圾短信發(fā)送行為預(yù)測,配合垃圾短信攔截系統(tǒng)將垃圾短信在未形成大規(guī)模發(fā)送前攔截。實驗結(jié)果證明該模型能夠有效的識別垃圾短信號碼,對監(jiān)控系統(tǒng)攔截垃圾短信起到很好的輔助作用。

2大數(shù)據(jù)挖掘的原理與優(yōu)勢

大數(shù)據(jù)是指數(shù)據(jù)量很大(一般是TB到PB數(shù)量級)的巨量資料,無法通過主流軟件工具,在合理時間內(nèi)完成數(shù)據(jù)處理并獲取有價值的信息。數(shù)據(jù)大多以非結(jié)構(gòu)化或者半結(jié)構(gòu)化數(shù)據(jù)為主,大數(shù)據(jù)具有4V特點:Volume、Velocity、Variety、Veracity。大數(shù)據(jù)處理的一般思路是數(shù)據(jù)壓縮、數(shù)據(jù)抽樣、數(shù)據(jù)挖掘等。數(shù)據(jù)挖掘是一種新的信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其它模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。利用數(shù)據(jù)挖掘進行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、推薦系統(tǒng)等,它們分別從不同的角度對數(shù)據(jù)進行挖掘。大數(shù)據(jù)挖據(jù)的數(shù)據(jù)源和處理方式對比。

3數(shù)據(jù)挖據(jù)流程和模型選取

3.1數(shù)據(jù)挖掘的主要流程

數(shù)據(jù)挖掘主要包括以下6大步驟。

(1)商業(yè)理解:確定挖掘目標以及產(chǎn)生一個項目計劃。

(2)數(shù)據(jù)理解:知曉有哪些數(shù)據(jù),以及數(shù)據(jù)的特征是什么。

(3)數(shù)據(jù)準備:對數(shù)據(jù)作出轉(zhuǎn)換、清洗、選擇、合并等工作。

(4)建模:根據(jù)挖掘目標確定適合的模型,建模并對模型進行評估。

(5)模型評估:評估建模效果,對效果較差的結(jié)果我們需要分析原因。

(6)結(jié)果部署:用所建挖掘模型去解決實際問題,它還包括了監(jiān)督、維持、產(chǎn)生最終報表、重新評估模型等過程。

3.2垃圾短信治理指標體系設(shè)計

垃圾短信用戶識別建模數(shù)據(jù)主要從信令監(jiān)測系統(tǒng)、經(jīng)營分析系統(tǒng)獲取,所獲取的用戶行為數(shù)據(jù)主要包括用戶通信行為信息、用戶基礎(chǔ)業(yè)務(wù)屬性、用戶通信業(yè)務(wù)信息等7個維度。其中,用戶通信行為信息包括活動軌跡、終端IMEI和數(shù)據(jù)業(yè)務(wù)訪問等信息。

3.3模型的選取

對白名單用戶的識別可以利用社交網(wǎng)絡(luò)模型與業(yè)務(wù)規(guī)則相結(jié)合的方法。利用社交網(wǎng)絡(luò)進行白名單用戶識別,重點考慮用戶之間發(fā)生的通信行為、增值業(yè)務(wù)交互行為等群體行為,通過對用戶之間關(guān)系的辨識。本文建模的重點著眼于垃圾短信用戶的識別及其治理。

3.3.1現(xiàn)有垃圾短信識別模型的優(yōu)勢與不足

識別垃圾短信用戶是數(shù)據(jù)挖掘中的分類問題,數(shù)據(jù)挖掘中常用的分類算法主要有邏輯回歸、決策樹、貝葉斯網(wǎng)絡(luò)等算法。其中,神經(jīng)網(wǎng)絡(luò)因本身算法的復(fù)雜性,造成模型結(jié)果解釋性較差,模型落地較困難而很少在實際項目中使用。目前識別垃圾短信的數(shù)據(jù)挖掘模型基本上為邏輯回歸模型和決策樹模型。決策樹模型主要具有以下優(yōu)勢:模型非常直觀,容易讓人理解和應(yīng)用;決策樹搭建和應(yīng)用的速度比較快;決策樹對于數(shù)據(jù)分布沒有嚴格要求;受缺失值和極端值對模型的影響很小。但是,使用決策樹作為垃圾短信用戶識別模型主要存在以下不足。

(1)決策樹最大缺點是其原理中的貪心算法。貪心算法總是做出在當(dāng)前看來最好的選擇,卻不從整體上思考最優(yōu)的劃分,因此,它所做的選擇只能是某種意義上的局部最優(yōu)選擇。

(2)決策樹缺乏像回歸或者聚類那樣豐富多樣的檢測指標和評價方法。

(3)容易出現(xiàn)過擬合。當(dāng)某些自變量的類別數(shù)量比較多,或者自變量是區(qū)間型時,決策樹過擬合的危險性會增加。

(4)決策樹算法對區(qū)間型自變量進行分箱操作時,無論是否考慮了順序因素,都有可能因分箱喪失某些重要信息。尤其是當(dāng)分箱前的區(qū)間變量與目標變量有明顯的線性關(guān)系時,這種分箱操作造成的信息損失更為明顯。

相比于數(shù)據(jù)挖掘建模常用的其它算法如決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機等,邏輯回歸技術(shù)是最成熟,得到廣泛應(yīng)用,邏輯回歸模型主要存在以下不足。

(1)變量之間的多重共線性會對模型造成影響。

(2)應(yīng)刪除異常值,否則它會給模型帶來很大干擾。

(3)邏輯回歸模型本身不能處理缺失值,所以應(yīng)用邏輯回歸算法時,要注意針對缺失值進行適當(dāng)處理,或者賦值,或者替換,或者刪除。

3.3.2垃圾短信識別預(yù)測模型選取

鑒于目前研究者對垃圾短信識別使用的決策樹和邏輯回歸模型存在較多不足之處,本文從模型算法上對其進行改進,力求得到更加科學(xué)合理的垃圾短信識別預(yù)測模型。本文使用的數(shù)據(jù)挖掘模型為隨機森林模型。

3.3.2.1模型簡介

隨機森林(RandomForest)算法是一種專門為決策樹分類器設(shè)計的優(yōu)化方法。它綜合了多棵決策樹模型的預(yù)測結(jié)果,其中的每棵樹都是基于隨機樣本的一個獨立集合的值產(chǎn)生的。隨機森林和使用決策樹作為基本分類器的Bagging有些類似。以決策樹為基本模型的Bagging在每次自助法(Boostrap)放回抽樣之后,產(chǎn)生一棵決策樹,抽多少樣本就生成多少棵樹,在生成這些樹的時候沒有進行更多的干預(yù)。而隨機森林也是進行許多次自助法放回抽樣,所得到的樣本數(shù)目及由此建立的決策樹數(shù)量要大大多于Bagging的樣本數(shù)目。隨機森林與Bagging的關(guān)鍵區(qū)別在于,在生成每棵樹的時候,每個節(jié)點變量都僅僅在隨機選出的少數(shù)變量中產(chǎn)生。因此,不但樣本是隨機的,就連每個節(jié)點變量產(chǎn)生都有相當(dāng)大的隨機性。隨機森林讓每棵樹盡可能生長,而不進行修剪。隨機森林算法主要包括決策樹的生長和投票過程。隨機森林中單棵樹的生長可概括為以下幾步。

(1)使用Bagging方法形成個別的訓(xùn)練集:假設(shè)原始訓(xùn)練集中的樣本數(shù)為N,從中有放回地隨機選取N個樣本形成一個新的訓(xùn)練集,以此生成一棵分類樹。

(2)隨機選擇特征(指評估指標,以下同)對分類樹的節(jié)點進行分裂:假設(shè)共有M個特征,指定一個正整數(shù)m<M,在每個內(nèi)部節(jié)點,從M個特征中隨機抽取m個特征作為候選特征,選擇這m個特征上最好的分裂方式對節(jié)點進行分裂。在整個森林的生長過程中,m的值保持不變。

(3)每棵樹任其生長,不進行剪枝。Bagging方法形成新的訓(xùn)練集和隨機選擇特征進行分裂,使得隨機森林能較好地容忍噪聲,并且能降低單棵樹之間的相關(guān)性;單棵樹不剪枝能得到低偏差的分類樹,同時保證了分類樹的分類效能(Strength),分類樹的分類效能是指分類樹對新的測試數(shù)據(jù)的分類準確率。

3.3.2.2隨機森林分類預(yù)測模型的主要優(yōu)勢

(1)隨機森林的預(yù)測精度高,它可以產(chǎn)生高準確度的分類器。

(2)可以處理相當(dāng)多的輸入變量。隨機森林不懼怕很大的維數(shù),即使有數(shù)千個變量,也不必刪除,它也會給出分類中各個變量的重要性。

(3)當(dāng)在構(gòu)建隨機森林模型時候,對GenerlizationError估計是無偏估計。

(4)隨機森林在設(shè)計上具有很快訓(xùn)練速度,訓(xùn)練出結(jié)果模型不必花費大量時間。

(5)對缺失值和極端值具有很強容忍能力,即使有較多缺失數(shù)據(jù)仍可以維持準確度。

(6)當(dāng)遇到分類數(shù)據(jù)不平衡時,可以較好地平衡誤差。

(7)隨機森林算法并不會導(dǎo)致過擬合。定義組合分類器的總體分類效能s為:s=Ex,ymg(x,y)。若用ρ表示每棵分類樹之間相關(guān)度的均值,則隨機森林的泛化誤差PE的上界可由下式給出:PE*≤ρ(1-s2)/s2。當(dāng)隨機森林有相當(dāng)多的分類樹時,隨機森林的泛化誤差幾乎處處收斂于一個有限值。因此,隨著森林中分類樹數(shù)目的增長,隨機森林算法并不會導(dǎo)致過擬合。

(8)隨機森林在模型訓(xùn)練過程中,能夠?qū)μ卣髦g的相互影響行為做出檢測。隨機森林算法具有以上優(yōu)勢,在垃圾短信治理預(yù)測中具有應(yīng)用的優(yōu)勢,本文采用隨機森林模型作為垃圾短信用戶的分類預(yù)測。綜上所述,隨機森林模型主要在不會出現(xiàn)過擬合、訓(xùn)練精度高、能處理大量輸入變量并輸出變量重要性3個方面優(yōu)越于決策樹模型;在容忍缺失值和極端值方面明顯優(yōu)越于邏輯回歸模型。隨機森林模型在算法設(shè)計上有效彌補了決策樹和邏輯回歸模型的不足之處,在垃圾短信識別分類預(yù)測中具有較好的應(yīng)用價值。

3.3.2.3垃圾短信數(shù)據(jù)挖掘模型構(gòu)建

通過前述的商業(yè)理解確定了垃圾短信識別業(yè)務(wù)需求,并進行數(shù)據(jù)理解構(gòu)建了垃圾短信識別指標體系,再抽取需要的數(shù)據(jù),并進行數(shù)據(jù)清洗、轉(zhuǎn)換、衍生變量計算等步驟,具備了建模的目標數(shù)據(jù),接下來的任務(wù)就是通過隨機森林模型構(gòu)建垃圾短信分類預(yù)測模型,對垃圾短信用戶進行識別。

3.4用戶分類治理策略

通過隨機森林模型的識別,根據(jù)用戶是垃圾短信發(fā)送者的可能性評估,制定不同的治理策略,如圖3所示。實際的執(zhí)行過程中,需要根據(jù)清單的范圍大小,適當(dāng)?shù)恼{(diào)整預(yù)測概率門限,以保證策略執(zhí)行的效果,同時避免過多的正常用戶的業(yè)務(wù)感知受到影響。

4垃圾短信治理平臺的實現(xiàn)

4.1系統(tǒng)架構(gòu)

垃圾短信治理平臺的數(shù)據(jù)來源較多,需要處理的數(shù)據(jù)量也非常大,因此,數(shù)據(jù)采集和數(shù)據(jù)處理過程是相互影響的過程。垃圾短信治理平臺的系統(tǒng)架構(gòu)圖如圖4所示。

(1)數(shù)據(jù)采集層:是垃圾短信治理平臺與多個數(shù)據(jù)庫來源的安全訪問接口,通過數(shù)據(jù)采集層實現(xiàn)數(shù)據(jù)挖掘和分析所需要的基礎(chǔ)信息:用戶屬性信息、用戶卡號信息、用戶業(yè)務(wù)記錄、用戶的位置信息和消費記錄。

(2)數(shù)據(jù)處理層:需要根據(jù)數(shù)據(jù)挖掘的需求,將采集的基礎(chǔ)數(shù)據(jù)轉(zhuǎn)換為業(yè)務(wù)服務(wù)層可以使用的數(shù)據(jù),通過對基礎(chǔ)數(shù)據(jù)進行整形、清洗和預(yù)處理,為后續(xù)的數(shù)據(jù)挖掘做好數(shù)據(jù)準備。

(3)業(yè)務(wù)服務(wù)層:主要包括應(yīng)用性服務(wù)和安全服務(wù)兩個部分,應(yīng)用性服務(wù)包括數(shù)據(jù)查詢統(tǒng)計服務(wù)、用戶查詢服務(wù)和GIS應(yīng)用服務(wù),同時,補充報表服務(wù)和文件管理服務(wù)以方便日常的工作。通過外部接口服務(wù),可以部署相應(yīng)的權(quán)限管理、數(shù)據(jù)管理維護以及注冊服務(wù)等,降低系統(tǒng)的風(fēng)險,保證信息的安全傳遞。

(4)功能模塊:主要是根據(jù)客戶需求,定制開發(fā)的功能單元,功能模塊的個數(shù)以實際部署的情況為準。以圖4垃圾短信治理平臺的系統(tǒng)架構(gòu)圖某省公司的定制模塊為例,主要包括指標查詢模塊、垃圾短信治理模塊、用戶綜合信息分析模塊和市場支撐應(yīng)用模塊4個部分。

4.2效果展現(xiàn)

針對不同的部門或用戶,垃圾短信治理平臺展現(xiàn)不同的數(shù)據(jù),主要包括以下的結(jié)果展現(xiàn)方式。

(1)治理效果掌控:通過指標查詢系統(tǒng),及時掌握垃圾短信的治理效果,發(fā)現(xiàn)工作的成果和風(fēng)險,達到及時發(fā)現(xiàn)問題并快速響應(yīng)的目的。

(2)治理效率提升:通過垃圾短信治理模塊,快速準確識別垃圾短信源頭并定位區(qū)域,下發(fā)至地市公司快速處理,減小垃圾短信帶來的不良社會影響。

(3)實現(xiàn)預(yù)先管控:通過用戶綜合信息分析模塊,可以對潛在的具有垃圾短信源頭特征的風(fēng)險終端進行監(jiān)控、通過外呼、資費信息等情況,提前發(fā)現(xiàn)和治理潛在垃圾短信源。

(4)渠道規(guī)范化:市場部門通過渠道信息和卡號信息,對一些垃圾短信來源集中的渠道的發(fā)卡進行監(jiān)督和嚴格控制,從源頭上減少垃圾短信的源頭。

(5)分層的權(quán)限管理、數(shù)據(jù)來源分級管理和分用戶權(quán)限管理可以有效保障數(shù)據(jù)來源的安全,不同的用戶,劃分不同的展現(xiàn)方式。

作者:單位:中國移動通信集團四川有限公司