新聚類判別分析研究思考

時間:2022-10-25 07:40:00

導語:新聚類判別分析研究思考一文來源于網友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

新聚類判別分析研究思考

摘要:在分析經典聚類判別分析方法實質的基礎上,提出了一種新的聚類判別分析框架,改進了一種基于樣本指標值頻度計算的兩總體判別分析算法,提高了在對所有參與建立判別模型的樣本進行判別時的計算速度;給出了建立在此改進判別分析算法基礎上的一種動態(tài)聚類判別分析算法的設計,并實現了所有算法。進行相應的實證研究,結果表明以此聚類判別分析框架對給定樣本集合進行分析,可以迅速得到多個合理的聚類結果以及對聚類結果的清晰解釋,既可以對已有的聚類結果進行驗證,又可以進行數據的探索性分析。

關鍵詞:聚類分析;判別分析;動態(tài)聚類

0引言

經典聚類分析算法是基于距離計算的。然而除馬氏距離定義外,其他距離定義都存在樣本指標的量綱處理問題;除馬氏距離和斜交空間距離定義外,其他距離定義都存在樣本指標的相關性處理問題;另外,包括馬氏距離在內的所有距離定義都存在將用于聚類的指標同等對待的缺點,不能反映不同指標對聚類結果的貢獻程度。

一般情況下,在確定樣本間距離計算方法的基礎上,用不同的聚類分析方法得到聚類的結果是不會完全一致的。這是因為在實際應用中,許多對象在不同類之間本身并無清晰的劃分。這導致了在既定用于聚類的指標組合的情況下,用不同的聚類方法對同一組樣本進行分析會得到不同的聚類結果。如上所述,即使使用同一種聚類方法,有時由于樣本的排列順序不同,也可能導致不同的分類結果。這就提出了對不同的聚類方法進行評價的問題。關于所用方法好壞的評價,現在還沒有一個合適的標準。Edwards和CAVALLIsforza(1965)曾建議把樣本分成兩類,使得兩類間的離差平方和最大[1]。D.FisherWalter也指出,應該尋找使類內差異最小的聚類方法[2]。因此,評價不同聚類方法的一個重要方面,就是看這些方法得到的聚類結果在類內的接近程度和在類間的相隔程度。一個較好的分類方法應該得到類內差異較小、類間差異較大的聚類結果。在實際應用中,一般采用以下兩種處理方法:a)根據分類問題本身的專業(yè)知識,結合實際需要來選擇分類的方法,并確定分類的個數;b)用多種方法對數據進行分析處理,把結果的共性取出來。如果用幾種方法的某些結果都一樣,則說明這樣的聚類確實反映了事物的本質。將有爭議的樣本暫放一邊,或者用其他方法如判別分析進行處理歸類。另外,在聚類分析方法既定的情況下,同一組樣本采用不同的指標組合進行聚類分析,通常也會得到不同的分類結果。產生不同結果的原因主要是由于不同的指標組合測度是樣本間的不同側面的相似程度,在進行聚類分析時存在指標組合選擇的問題。一般是根據聚類的實際需要進行指標的選擇,這是一個比較復雜并且?guī)в兄饔^性的問題。實踐中,在開始進行聚類分析時,通常是先選擇多種指標組合分別進行聚類,然后對聚類分析的結果進行對比分析,以確定出合適的測度指標。

判別分析產生于20世紀30年代,是利用已知類別的樣本建立判別模型,為未知類別的樣本判別的一種統計方法。近年來,判別分析在自然科學、社會學及經濟管理學科中都有廣泛的應用。判別分析的特點是根據已掌握的、歷史上每個類別的若干樣本的數據信息,總結出客觀事物分類的規(guī)律性,建立判別公式和判別準則。當遇到新的樣本點時,只要根據總結出來的判別公式和判別準則,就能判別該樣本點所屬的類別。判別分析按照判別的組數來區(qū)分,可以分為兩組判別分析和多組判別分析。本文僅研究兩組判別分析。在眾多的判別分析方法中,最直觀的是距離判別法。

距離判別的思想是計算待判樣本到第i類總體的平均數的距離。哪個距離最小就將它判歸到哪個總體。所以,距離判別法的任務就是構造一個恰當的距離函數,通過樣本與某類別之間距離的大小判別其所屬類別。這里僅討論兩個總體的距離判別法。距離判別只要求知道總體的數字特征,不涉及總體的分布函數。當參數未知和協方差時,就用樣本的均值和協方差矩陣來估計。

從距離判別法可以看到判別規(guī)則是一個線性函數。由于線性判別函數使用簡便,希望能在更一般的情況下建立一種線性判別函數。Fisher判別法由Fisher在1936年提出,是根據方差分析的思想建立起來的一種能較好區(qū)分各個總體的線性判別法。該判別方法對總體的分布不作任何要求。

從兩個總體中抽取具有p個指標的樣本觀測數據,借助于方差分析的思想構造一個線性判別函數:

距離判別法是基于距離計算的,用構造線性判別函數方法進行樣本判別的Fisher判別法也存在著類似基于距離計算的聚類分析方法當中的不足:

a)將總體和樣本的多個指標賦予了同等的判別能力,而這與現實是不相符合的,即不同的指標在判別樣本的歸屬時具有不同的判別能力。

b)沒有對用于建立判別分析模型的總體指標進行篩選。這在兩總體的某指標沒有顯著差異時進行判別分析的意義不大,誤判的概率很大[3,4]。

c)距離的計算不可避免地會帶來量綱上的問題[5]。

d)距離判別方法簡單實用,但沒有考慮到每個總體出現的機會大小,即先驗概率,沒有考慮到錯判的損失。Bayes判別法正是為了解決這兩個問題提出的判別分析方法,其判別效果更加理想,應用也更廣泛。本文將在實證研究部分用Bayes判別方法對涉及的問題進行分析,作為與新算法計算效果的一個對比。

在回歸分析中,變量的好壞直接影響回歸的效果。在判別分析中也有類似的問題。用于建立判別準則的指標的選擇是判別分析中的一個重要問題。如果在某個判別問題中,將最重要的指標忽略了,相應的判別函數的效果一定不好;另一方面,如果引入了一些判別能力不強的指標,不僅會增加計算量,還會嚴重地影響判別的效果。但是在許多問題中,事先并不知道哪些是主要指標。因此篩選變量的問題就非常重要,從而產生了逐步判別法。逐步判別法與逐步回歸法的基本思想類似,都是采用有進有出的算法,即逐步引入變量,每引入一個重要的變量進入判別式,同時也考慮較早引入判別式的某些變量。如果其判別能力隨新引入的變量而變?yōu)椴伙@著了(如其作用被后引入的某幾個變量的組合所代替),應及時從判別式中把它剔除,直到判別式中沒有不重要的變量需要剔除,而剩下的變量也沒有重要的變量可以引入的判別式時,逐步篩選結束。這個篩選過程實質就是作假設檢驗。通過檢驗找出顯著性變量,剔除不顯著的變量,得到用于建立判別式的變量組合后,可用各種方法建立判別函數和判別準則。

實際上,以上提到的不論是距離判別法、Fisher判別法,還是Bayes判別法、逐步判別法,其出發(fā)點都是把給定的分組作為構造判別函數的依據和出發(fā)點,其最終結果都是構造一個線性判別函數。它們僅僅是判別函數構造思想上的差異。距離判別法基于距離判別思想;Fisher判別法基于方差分析思想,判別式的形式為距離判別式的一般形式;Bayes判別法基于條件概率思想;逐步判別法基于假設檢驗思想確定用于判別的指標,但其判別式的確定仍由其他判別分析方法確定。

以上各種判別分析方法中,僅有逐步判別法的基本思想中考慮到了不同指標具有不同的判定能力,但是其思想的具體體現僅在于確定用于構建判別式的指標,并沒有給出各個指標具體的判別能力大小的差異。實際上不僅不同指標的判別能力存在差異,而且在篩選掉部分指標的同時也會丟失該部分指標所包含的判別信息。

對于一組給定的樣本,對其進行聚類分析時,可以應用不同的聚類方法對不同的指標組合進行聚類分析,同時也將得到多組不同的聚類結果。對于某些指標組合下的聚類結果,結合實際可能會得到比較符合實際意義的解釋,對此類聚類結果可以為其構造特定的判別模型,用于新樣本類別的判別。因此,聚類分析的實質是對不同的指標組合下的樣本分類組合的可能性進行搜索,找出符合特定聚類定義的組合。其作用是尋找滿足特定需求的,或者說可以給出較好解釋的聚類結果。判別分析的實質是根據歷史信息或者聚類的結果建立判別標準,用于對參加聚類的樣本和新的樣本的判別。聚類分析和判別分析之間存在著緊密的聯系。聚類分析的結果作為進行判別分析的基礎;而判別分析不僅可以用于對新樣本進行判別,而且另一個重要的作用在于校驗聚類分析結果的正確性,即回判。

基于以上的分析結論,傳統的對數據的聚類判別分析流程一般是先有聚類分析,然后在其之上的判別分析。本文將借鑒經典聚類分析和判別分析中的部分思想,從聚類分析和判別分析的實質出發(fā),逐步構建出一類有異于傳統分析思路的樣本聚類判別分析算法,并嘗試在新算法中解決經典聚類判別分析方法中存在的部分問題。

1動態(tài)聚類判別分析算法的設計和實現

1.1新的聚類判別分析框架

對于一組給定的需要進行聚類分析和判別分析的樣本集合,新的聚類判別分析框架基于以下基本事實:

a)對于給定的樣本序列,有有限種分組方案。

b)用傳統聚類分析方法得出的結果并不總能遍歷以上所有的分組可能。不僅因為其中部分分組在任何指標組合下都不合理,還因為傳統聚類分析方法得出的結果本身就有限。在指定指標組合、指定樣本排列順序的情況下一種聚類方法僅能給出一個聚類結果。

c)對于用聚類方法得不出的分組方案,存在部分用判別分析進行判別回判率為百分之百的分組方案。

d)對于既定的分組,不同指標在區(qū)分該分組的能力上存在差異。不同組的某些指標差異明顯,有些并沒有明顯差異。

新的聚類判別分析框架的設計基于以下基本假設:對于任意一種分組方案,如果判別分析的回判正確率足夠高,那分組就是合理的和可以接受的。因此,新的聚類判別分析框架設計的基本思想是聚類分析建立在判別分析的基礎之上。據此設計的新算法中并不包括具體的聚類分析算法,僅僅包括判別分析算法。

本文中應用的判別分析算法基于文獻[6]提出的基于樣本指標值頻度計算的判別分析算法。該兩總體判別分析算法的思想與逐步判別法的思想有一定的相似之處。不同之處在于其核心思想不是篩選變量,而是篩選指標值,是逐步篩選出具有顯著判別能力的指標值;不是根據用具有顯著判別能力的變量建立判別式,而是用篩選出的具有顯著判別能力的指標值建立判別模型;其判別模型不是線性判別式,而是一個復雜的判定模型系統;得出的結果不是某樣本的判定結果,而是某樣本屬于某總體的概率。該算法篩選指標值的基本思想為:對于同一指標而言,假設兩組中所有樣本的該指標值為一維空間上的點。如果兩組內距離最近的兩點距離小于或者等于這兩點中任意一點到該點所在組的其他任意一點的距離,則這兩點根本就不具有判別能力,應該剔除。為提高該算法的計算速度,進行了如下兩點優(yōu)化,在程序實際運行中取得了良好效果:

a)對某指標進行計算時應用冒泡算法對所有指標值進行排序。該數據預處理大大提高了指標值的篩選速度。

b)因為對樣本的判別問題是通過計算該樣本的各個指標值上的判別概率得到的,從對數據庫表的訪問效率出發(fā),進行判別分析時不是依次對每一個樣本進行判別,而是按照指標的順序依次計算所有樣本的某指標值在該指標下的判別概率,并且若某指標的權重為零時不需要計算任何樣本在該指標下的判別概率,最后對每一個樣本進行判別。

本文依據以上提出的聚類判別分析框架,以改進的兩總體判別分析算法為基礎,提出了一種動態(tài)的聚類判別分析算法的設計,并在實現算法的基礎上進行了相應的實證研究。

1.2兩總體動態(tài)聚類分析算法的設計和實現

兩總體動態(tài)聚類分析算法的設計基于兩總體判別分析算法。其基本思想在于從某初始判別狀態(tài)出發(fā),不斷修正判別分析中錯判的樣本分組,直到所有樣本已經判別,并且回判率為100%或出現錯判循環(huán)為止。

根據樣本初始判別狀態(tài)的情況,這里把動態(tài)聚類分為有指導的動態(tài)聚類過程和無指導的動態(tài)聚類過程。有指導的動態(tài)聚類過程是指在進行聚類分析之前根據實際經驗對所有或者部分樣本進行組別的指派,這有助于加快動態(tài)聚類的過程,并產生期望的聚類結果;無指導的動態(tài)聚類過程是指在進行聚類分析之前不進行任何初始判別狀態(tài)的設置。其中有指導的動態(tài)聚類與無指導的動態(tài)聚類的區(qū)別在于,無指導的動態(tài)聚類可能導致聚類過程中判別次數的增加,這在進行大樣本聚類時,時間開銷將成倍增加;另一個可能產生的結果是無指導的聚類過程會產生與預期不同的分類結果,即聚類的可能結果更多,可用于試探性分析。一般有指導的聚類分析過程可以很快得出與預期相符合的聚類結果。

從另一個角度對動態(tài)聚類過程可以作如下分類:可以在初始聚類之前一次全部指定所有樣本的判別狀態(tài),之后不斷修正樣本的判別狀態(tài)直到判別結束,也可以逐步添加參加判別分析的樣本個數。實證分析的結果表明,第一種動態(tài)聚類方法的聚類過程不穩(wěn)定,有時會產生抖動現象,即某次的很多錯判樣本在修改組別后進行下一次判別后仍然為錯判樣本,如此不斷反復,甚至出現循環(huán)。出現這種現象的原因可以解釋為當錯判樣本較大時,即使改變了錯判樣本的組別,因為錯判樣本個數相對較大,錯判的樣本對新的判別模型仍然會產生很大的影響。另外因為分組本身存在的模糊性,某些樣本本身屬于兩總體的概率就比較接近,也有可能導致該類現象的發(fā)生。

一個解決方案是為所有錯判的樣本,選擇錯判概率最大的樣本改變組別,但這不能從根本上解決抖動現象的發(fā)生。用第二種動態(tài)聚類算法可以很好地解決此類問題,因為第二類逐步聚類分析方法中,每次判別分析都將錯判樣本的個數控制在相對較小的范圍內,每次增加一個新的樣本進入判別模型。圖1給出第二種動態(tài)聚類過程的算法流程。

在動態(tài)聚類的算法流程設計中,所有樣本沒有判別之前,某次判別過程后,需要平衡不同組別的樣本個數,使不同組別的樣本個數差不大于1;在所有樣本組別判別之后實行不平衡樣本個數的判別過程。實際上也可以進行不平衡樣本個數的動態(tài)聚類。這樣得到的結果有可能與經典的聚類分析算法有很大的差異,但聚類結果仍然可以得到很好的解釋。

兩總體的判別分析算法以及相應的動態(tài)聚類分析算法已經應用在基于ODBC和ADO標準的數據庫訪問技術、SQLServer2000數據庫、VisualBasic6.0編程工具,參考相關技術資料[1,2,7]實現。以下分別給出不平衡樣本個數的無指導動態(tài)聚類、平衡樣本個數的無指導動態(tài)聚類以及平衡樣本個數的有指導動態(tài)聚類的算例及其分析。

2關于該算法的實證研究

以下實證分析所用的原始數據以及用經典判別分析方法得到的結果均來自文獻[3]。

2.1不平衡樣本個數的無指導動態(tài)聚類

不平衡樣本個數的無指導動態(tài)聚類更符合實際,但數據量少時,可能得到的結果不具有統計學意義。

對人文發(fā)展指數案例中14個樣本的原始數據進行不平衡樣本個數的無指導動態(tài)聚類過程得到的結果,與經典判別分析結果的分組完全相同。聚類結果如表1、2所示。在該聚類結果中,指標成人識字率(%)的權重僅為0.142857。這與用逐步判別法進行判別分析時得出的判別式的結論比較一致。

另外還給出兩種可能的聚類結果,分別如表3、4和表5、6所示。其中第二種聚類結果中出生時的預期壽命成為最重要的指標,分組的結果使得出生時的預期壽命相似的樣本成為一組;同時使同組內樣本在成人識字率以及調整后的人均GDP這兩個指標上沒有明顯的差異。第三種聚類結果中調整后的人均GDP成為最重要的指標,分組的結果使得調整后的人均GDP相似的樣本成為一組;同時使同組內樣本在出生時的預期壽命以及成人識字率這兩個指標上沒有明顯的差異。實際上已經有不少學者對聯合國開發(fā)計劃署人文發(fā)展指數的確定方法表示了懷疑。因為該指數本身的確定方法,包括所選的指標以及指標值的調整等都不存在令人信服的理由[8,9]。本文給出的這兩種聚類分析的結果可以從其他角度給出人文發(fā)展指數的可能更合理的確定方法,即把所有參加評價的國家納入聚類分析的范圍進行探索性的分析,并選擇可以接受的聚類結果。

不平衡樣本個數的無指導動態(tài)聚類算法當然可以作為一個數據挖掘算法用于挖掘離群點。但是有時候這并不符合聚類的初衷。因為聚類的結果并不能通過顯著性檢驗,無統計學意義。

2.2平衡樣本個數的無指導動態(tài)聚類

平衡樣本個數的無指導動態(tài)聚類是指在所有樣本沒有全部被判別完之前,在每次判別之前對組別的樣本個數進行判別。與不平衡樣本個數的無指導動態(tài)聚類相比,不容易出現分組個數嚴重不平衡的情況,但并不能避免這種情況的發(fā)生。下面以人文發(fā)展指數案例的聚類分析中給出的第二種聚類結果說明這種情況。

第二種聚類結果如表7、8所示。在第二種聚類結果中,成人識字率成為判別能力最顯著的指標。其中,阿聯酋、南非和中國三個成人識字率最低的國家成為一組;其他11個國家成為另一組。各組內其他兩個指標的差異不顯著。因此該分組方案中識別的是所有樣本在識字率指標上的差異。

2.3平衡樣本個數的有指導動態(tài)聚類

將人文發(fā)展指數案例中的待判樣本加入聚類樣本中,并且把待判樣本以外的其他樣本的組別作為動態(tài)聚類的起點,得到的聚類結果如表9、10所示。聚類結果與經典判別分析結果一致,并且指標權重的計算結果表明實際人均GDP指標具有顯著的判別能力,成人識字率判別能力不顯著。

3結束語

本文在分析經典聚類分析和判別分析方法實質的基礎上,給出了一種新的聚類判別分析框架,并利用改進的兩總體判別分析算法依據此分析框架構造并實現了一種動態(tài)聚類判別分析算法。實證結果表明逐步動態(tài)聚類算法具有相對較好的穩(wěn)定性;無指導動態(tài)聚類算法很適合尋找樣本中的奇異點,適合作為一種數據挖掘算法使用;有指導的動態(tài)聚類更適合于經典聚類算法的聚類問題。

參考文獻:

[1]沈毅,陳峰.六種常見的條件系統聚類法比較[J].中國衛(wèi)生統計,2004,21(6):338-340.

[2]WALTERDF.Ongroupingformaximumhomogeneity[J].AmericanStatisticalAssociationJournal,1959,53(12):789-798.

[3]于秀林,任雪松.多元統計分析[M].北京:中國統計出版社,1999:61-153.

[4]何曉群.現代統計分析方法與應用[M].北京:中國人民大學出版社,1998:255.

[5]朱孔來.評價指標的非線性無量綱模糊處理方法[J].系統工程,1996,14(11):58-62.

[6]魏世振,楊磊,陳傳明.上市公司財務狀況判別分析算法的實證研究[J].系統工程,2005,23(1):108-110.

[7]張堯庭,方開泰.多元統計分析引論[M].北京:科學出版社,1982.

[8]保羅·斯特里滕.關于人文發(fā)展指數的爭論[J].國際社會科學雜志:中文版,1996(1):31-44.

[9]金玉國.新HDI評介[J].山西統計,1995(5):44-45.

[10]陳峰.帶約束的聚類分析[J].數理醫(yī)藥學雜志,1999,12(20):112-113.

[11]蔡紅艷,韓立巖.上市公司財務狀況判定模型研究[J].審計研究,2003(1):62-64.

[12]徐成志,陳少軍.ODBC配置數據庫應用程序[J].山東農業(yè)大學學報:自然科學版,2003,34(2):238-241.

[13]賀智明,李雯.采用動態(tài)數據庫連接技術開發(fā)多課程通用考試信息系統[J].計算機應用與軟件,2003,20(4):16-17,77.

[14]趙宇峰,張燁,黑新宏,等.VB6訪問數據庫技術的應用[J].計算機應用研究,2004,21(8):223-224.

[15]谷震離.ADO訪問SQLServer數據庫技術分析及其應用[J].計算機應用與軟件,2004,21(12):32-33,77.

[16]BRADLEYJC,MILLSPAUGHAC.VisualBasic6.0高級編程[M].常曉波,劉穎,等譯.北京:清華大學出版社,2003.

[17]ALTMANE.Financialratios,discriminantanalysisandthepredictionofcorporatebankruptcy[J].JournalofFinance,1968,23(9):589-609.

[18]吳德勝,梁樑,殷尹.不同模型在財務預警實證中的比較研究[J].管理工程學報,2004,18(2):105-108.

[19]劉洪,何光軍.基于人工神經網絡方法的上市公司經營失敗預警研究[J].會計研究,2004(2):42-46.

[20]喬韋華韋華,牛芳.上市公司財務困境預測的Fisher判別分析模型[J].統計與信息論壇,2003,18(2):69-71.

[21]ZMIJEWSKIME.Methodologicalissuesrelatedtotheestimationoffinancialdistresspredictionmodels[J].StudiesonCurrentEconometricIssuesinAccountingResearch,1984,22(9):5982.

[22]GRICEJS,INGRAMRW.TestsofthegeneralizabilityofAltman’sbankruptcymodel[J].JournalofBusinessResearch,2001,54(1):53-61.

[23]郭亞軍.綜合評價理論與方法[M].北京:科學出版社,2002.

[24]楊淑娥,徐偉剛.上市公司財務預警模型——Y分數模型的實證研究[J].中國軟科學,2003(1):56-60.

[25]MUTAPIF,MDULUZAT,RODDAMAW.Clusteranalysisofschistosomespecificantibodyresponsesartitionsthepopulationintodistinctepidemiologicalgroups[J].ImmunologyLetters,2005,96(2):231-240.

[26]YUANH,PARRILLA.ClusteranalysisandthreedimensionalQSARstudiesofHIV1integraseinhibitors[J].JournalofMolecularGraphicsandModelling,2005,23(4):317-328.

[27]TerBRAAKCJF,HERBERTH,WIESA,etal.Bayesianmodelbasedclusteranalysisforpredictingmacrofaunalcommunities[J].EcologicalModelling,2003,160(3):235-248.

[28]LIANGGS,CHOUTU,HANTC.Clusteranalysisbasedonfuzzyequivalencerelation[J].EuropeanJournalofOperationalResearch,2005,166(1):160-171.

[29]ALEXYU,VERENASP,WOLFGANGSH,etal.Clusteranalysisofindividualswithsimilartrendsoffatintakeduringchildhoodandadolescence:anewapproachtoanalyzingdietarydata[J].NutritionResearch,2005,25(3):251-260.

[30]PECEAEC.Generativemodelbasedtrackingbyclusteranalysisofimagedifferences[J].RoboticsandAutonomousSystems,2002,39(3):181-194.

[31]KWONSH.Thresholdselectionbasedonclusteranalysis[J].PatternRecognitionLetters,2004,25(9):1045-1050.