大數據下數據挖掘算法綜述

時間:2022-12-07 10:19:43

導語:大數據下數據挖掘算法綜述一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

大數據下數據挖掘算法綜述

【摘要】在互聯網發展的早期,雖然每天也會產生很多新的數據,但是數據量相對而言還可以用人力分析的方法來處理,并且對于固定的某個站點和角度去切入的話,所需要處理的數據量就更少了。隨著互聯網的飛速發展,每天產生的全新數據越來越多,并且呈指數態勢上升,大量的數據中勢必蘊含著大量有價值的信息,如果能抽取出這些信息,那么對于企業的發展和社會的發展都將大有裨益,在這個背景之下,很多數據挖掘處理方法應運而生。數據挖掘即使用計算機工具從海量的數據中挖掘出有價值的模式和規律,并用這些模式和規律去預測和指導未來的行為。在當今的互聯網背景之下,最為常用的數據挖掘算法有頻繁模式挖掘、聚類分析、決策樹和貝葉斯網絡等,本文將從若干方面入手,條理系統地介紹一下各類數據挖掘算法的原理、使用方法以及適用范圍,力求為數據挖掘算法的應用提供一個良好的參考和指導。

【關鍵詞】數據挖掘;頻繁模式挖掘;聚類分析

1導論

1.1背景問題.當今互聯網上90%以上的數據都是在兩年內產生的,并且每天產生的數據量仍然在以巨大的速度上升,在這樣的背景之下,對于海量的數據僅僅有接收和存儲的能力是不夠的,還需要對這些數據進行有效的處理,進而獲取能指導未來行為的規律和模式,并提高企業、社會、組織和機構的效益以及效率。計算機處理數據的速度很快,但是從海量數據中挖掘規律并不是簡單的操作,因此需要有行之有效的數據挖掘算法來完成在數據中“沙里淘金”的過程,因此各種數據挖掘算法也就應運而生了。1.2研究綜述.在數據挖掘領域中,涌現了一大批各式各樣的算法,其中應用最為廣泛的是頻繁模式挖掘、聚類分析、決策樹和隨機森林、貝葉斯網絡這四類,其他算法很多是基于這四大類算法的改進和擴展。其中頻繁模式挖掘的作用是從大量的數據(事務集)中獲取某些項之間的相關模式,它可以用于指導項之間的關聯分析。聚類分析的作用是對于大量的數據進行聚類操作,通過查看哪些數據聚攏在一起來對數據進行分類和相關分析。決策樹是通過以數據中各個屬性為分類依據將數據不算分類,最終構成一個樹的形態,用于對數據進行分類判別處理;隨機森林是使用多棵決策樹同時進行判別和分類,最終投票選出結果。貝葉斯網絡同樣是一種分類算法,在已知“執因索果”的前提條件下,通過條件概率和貝葉斯概率公式,進行“執果索因”的操作,是貝葉斯公式的成功運用。1.3本文介紹.本文從頻繁模式挖掘和聚類分析的角度出發,分別對這兩個算法進行介紹和分析。每一部分算法都分為三個部分,分別是算法介紹、算法過程以及算法分析。算法介紹部分主要是關于算法的主要思想,算法過程部分介紹了算法具體模型和執行過程,在算法分析部分,本文從算法的優缺點和應用場景分別給出了解釋和說明。

2頻繁模式挖掘

2.1算法介紹.頻繁模式挖掘的目的是在大量的數據中獲取到頻繁出現的模式,這些模式以規則的形式出現,即X→Y的形式,其中X和Y都是項集,即若干項組成的集合,這個規則表示的含義是“若項集X出現,則項集Y也可能會出現”,那么如果要度量這個規則是否可用,需要從兩個方面入手,即這個規則足夠常見以及這個規則足夠可信。對于“足夠常見”的度量,有一個度量指標叫做支持度,對于集合S來說,它的支持度表示為sup(s)={ti|S奐ti,ti奐T}T,其中T是全體數據,以事務集的形式給出(即若干原始項集構成的列表),ti是事務集中的一個事務(即一個原始項集)。一個集合的支持度越高,那么它就出現得越頻繁。對于“足夠可信”的度量,有一個度量指標叫置信度,對于規則X→Y而言,它的置信度表示為conf(X→Y)=sup(X∪Y)sup(X),即集合X∪Y的支持度與集合X的支持度的比值。對于一個合格有用的規則而言,它的支持度和置信度要同時滿足一定的標準才可以被接受,因此對于頻繁模式挖掘需要另外設置兩個閾值,分別是最小支持度閾值min_sup和最小置信度閾值min_conf,只有指定的規則同時滿足這兩個閾值的情況下,才可以認為該規則是可以被接受的。對于具體的問題,最小支持度閾值和最小置信度閾值往往不同。2.2算法過程.對于頻繁模式挖掘而言,算法的步驟一共分為兩個大部分,即頻繁模式的計算和頻繁規則的計算,下邊分別介紹這兩個部分:2.2.1頻繁模式的計算.頻繁模式也叫頻繁項集,即從給定的數據集中找到那些頻繁出現的項集。頻繁模式的計算方法很多,如Fk-1×F1、Fk-1×Fk-1和FPTree等,這里著重介紹Fk-1×F1方法,下邊是計算過程:(1)首先計算所有的1-頻繁項集,并放入1-頻繁項集的集合中;(2)對于當前的輪次(初始值為1),求兩個集合Fk的笛卡爾積,然后求出結果中所有的頻繁項集,對于(k-頻繁項集,放入其所屬的集合中;(3)進入下一輪次,重復執行2)的操作;(4)如果某一輪中沒有新的頻繁項集產生,則算法終止。2.2.2頻繁規則的計算.頻繁規則的計算是要基于頻繁模式的,簡證如下:對于集合X1奐X,X2奐X,X1∩X2=覫,X1∪X2=X,X1≠覫,X2≠覫而言,所有可能的規則X1→X2的支持度都是X本身的支持度sup(X),因此如果直接求規則會產生大量重復的計算,并且如果X不是頻繁項集,那么規則X1→X2肯定也不是我們需要的規則,因此欲求頻繁規則,則應先求頻繁模式,再由頻繁模式導出規則。對于給定頻繁項集X,從中導出規則的算法過程如下:(1)對于中的每一項,都構造出類似X-xi的規則形式,并挑選出其中的有效規則備用;(2)兩兩合并后件中只有一個元素不同的規則,然后形成一個新的規則,判斷其是否是有效的,如果是,則仍然放入規則集合中,留待以后計算;(3)重復以上過程直到沒有新的規則產生。2.3算法特點.對于頻繁模式挖掘而言,它適合求取大量的數據中某些事務之間的關聯,并且過程簡潔明了,非常易于編寫和修改擴展。但是同樣地,頻繁模式挖掘算法的理論時間復雜度是指數級的,雖然經過重重優化之后的實際表現不錯,但是整體仍然需要進行大量的計算,因此當數據集特別大的時候,使用頻繁模式挖掘很難迅速準確地得到期待的結果。

3聚類分析

3.1算法介紹.對于給定的數據,如果數據中的若干屬性都可以量化,則能夠把一個單個數據的n個屬性當做坐標方向的偏移量,然后可以把這個數據映射到n維笛卡爾坐標系中的一個點,這樣就可以把給定的大量數據轉換成n維坐標系統的若干點,通過對這些點進行分析和處理,進而得到分類情況,最終可以得到數據之間的關聯和分類情況。對于聚類分析算法而言,關鍵點是如何判定兩個點之間在什么情況下應該被聚攏在一起(即聚類依據),根據聚類依據的不同,聚類分析算法中又可以延伸出若干不同的算法,如劃分聚類、層次聚類、密度聚類、網格聚類、圖聚類和譜聚類等等,這些聚類方法各有特點和使用場景,在這里我們主要選取劃分聚類來介紹。3.2算法過程.在劃分聚類中,最為著名的就是K-Means算法,即“K均值”算法。它的主要思想是將歐幾里得距離作為聚類依據,將坐標系中的點聚攏成不同的分類,假設要將指定的數據分成k類,那么算法過程如下:(1)在給定的點集中隨機選取K個點作為初始的聚類中心;(2)對于點集的每一個點,都計算其與K個聚類中心的距離,選取距離最近的那個聚類中心所在的簇作為當前點所屬的簇;(3)聚類結束之后,重新對每一簇計算新的聚類中心,計算方法是求各個點的平均值;(4)如此迭代,知道聚類中心不再發生變化為止,此時即得到了K個簇。3.3算法特點.算法適合于數據各個屬性易于量化和抽取的數據,并且有著明確的分類需求,而且事先制定了簇的數目。但是當沒有確切的簇的數目被指定的時候,K-Means算法有時候并不一定會有很好的結果。

4結論

4.1本文結論.本文從數據挖掘的角度出發,在大數據的背景下梳理了常見的數據挖掘算法,并且給出了不同的數據挖掘算法各自不同的特點,給其他人提供了思路和借鑒。4.2研究展望.本文本次只從若干方法入手來分析,數據挖掘領域仍然有很多的算法未被梳理,之后本文將繼續沿著這個方向梳理數據挖掘領域更多的算法。參考文獻[1]鄭偉.數據挖掘在人工智能上的應用實踐.[2]王雷.基于大數據挖掘的國防交通建設研究.[3]葛俊言.數據挖掘技術的應用研究.[4]張佳.計算機數據挖掘技術及其應用探析.[5]羅之皓.知識圖譜的Top-k摘要模式挖掘方法.[6]何鎮宏.并行頻繁項集挖掘算法研究.[7]柴變芳.基于主動學習先驗的半監督Kmeans聚類算法.[8]金輝.自然最近鄰優化的密度峰值聚類算法.[9]魏杰.基于K-means聚類算法改進算法的研究.

作者:鄭州外國語學校 單位:鄭州外國語學校