CART算法對航空公司客戶流失的應用
時間:2022-09-07 11:03:01
導語:CART算法對航空公司客戶流失的應用一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
【摘要】為了降低客戶的流失造成公司的巨大損失,構建了客戶流失模型。通過航空公司的客戶信息、數據預處理、屬性規約、數據離散化以及樣本選取構建數據集,并利用cart算法進行客戶流失的預測,利用混淆矩陣和ROC曲線評估模型的性能,證明該模型的可行性和良好性,為航空公司開展持續改進的營銷活動提供參考。
【關鍵詞】客戶流失;分類預測;混淆矩陣;ROC曲線;CART算法
1引言
隨著大數據時代的到來,航空公司掌握隱藏在數據的有價值信息成為獲取商機的關鍵因素,客戶流失是造成公司利潤損失的重要原因。客戶與公司保持的關系越良好,帶給公司的利潤就越高。但是不少客戶成為新客戶的同時,又有一大批的客戶流失,一個老客戶的關系維護比獲取一個新客戶的成本更小[1]。這就需要預測的方法,如何在客戶即將流失前有效地發現,并對客戶特征進行準確的分析,從而幫助營銷部門確定可能流失的目標客戶群體,制定有針對性的策略是關注重點。基于決策樹建立航空公司客戶流失模型,將具有不同特征的客戶劃分為不同客戶類型,分析不同客戶群體特征,為制定營銷策略提供參考。
2準備工作
2.1客戶流失類型
由于不同的業務所對應的客戶流失的定義不一,這里對客戶流失類型的定義:把客戶類型MEMBER_TYPE分為三類。第一類:第二年飛行次數和第一年飛行次數的比例大于或者等于90%的客戶為未流失客戶,標記為0;第二類:第二年飛行次數和第一年飛行次數的比例大于或者等于50%小于90%的客戶為準流失客戶,標記為1;第三類:第二年飛行次數和第一年飛行次數的比例小于50%的客戶為已流失客戶,標記為2.
2.2預測客戶流失的重要性
獲得新客戶,一般需要在銷售、市場、廣告和人力等方面花費很多,然而大多數新客戶白喉產生的利潤往往不如流失的老客戶。然而,在航空市場競爭日益激烈的今天,航空公司在客戶流失方面應該引起自購的重視,如何改善流失問題,進一步提升客戶的滿意度。忠誠度是航空公司保持自身核心競爭力的一大關鍵因素。因此,航空公司要做好客戶流失預測工作。
2.3CART決策樹
決策樹是由內部節點、分支和葉子組成一種樹狀結構。由根節點開始,葉節點結束。決策樹在數據分類和預測中是最簡單易懂的數據挖掘方法,同時也是一種非常有效的分類算法。CART算法可用于分類和回歸,相對ID3算法和C4.5算法應用更加廣泛,目前已經成功應用于醫學疾病預測[2,3]、魚種豐富度預測[4]、客戶流失分析[5-7]、土壤濕度分析[8]等多個領域。
3分析方法與過程
大數據時代的迅猛發展,使得公司客戶數據呈數量級增長,如何快速并有效地發掘隱藏在數據的價值,是公司必抓的重點之一。目前航空公司客戶數據主要表現出為數據量大、屬性多而余。由于客戶信息包括了MEMBER_NO、GFFP_TIER、SUM_YR_1、SUM_YR_2等44個屬性。從系統中直接抽取的數據不能直接表示客戶的流失特征,需要對樣本數據進行探索性分析與預處理,包括數據缺失值與異常值探索行分析,數據的屬性構造、清洗和變換等、對已完成預處理的數據進行建模,構建客戶流失模型、評估模型性能、調用模型實現實時診斷,逐漸完善該模型。
3.1數據來源
從某個航空公司抽取了2012-04-01至2014-03-31的客戶數據,共有62,988條記錄,其中包含了44個屬性,由于篇幅限制,給出部分屬性名稱以及說明如表1所示。
3.2數據探索性分析
原始數據中存在大量的缺失值與異常值,需要分析數據的分布規律。數據探索結果如表3所示。原始數據中存在票價為空值,最小票價為0,最小票價折扣率為0,總飛行公里數大于0的情況。票價是空值可能是客戶沒有乘機記錄,其他的可能是客戶乘坐免費機票或者積分兌換造成的。原始數據中某些屬性數據的取值范圍差異比較大,為了消除數量級數據造成的影響以及數據變換的屬性取值分級,所以需要對數據進行離散化(3.3.2小節提及)。
3.3數據預處理
客戶流失分析一般是針對老客戶而言,這里定義飛行次數FIGHT_COUNT大于6次的客戶為老客戶。由于客戶類型MEMBER_TYPE是由第二年飛行次數以及第一年飛行次數的比例確定的,則第一年飛行次數等于0的記錄不滿足分母不為零的條件。發現數據中存在缺失值,原始數據中存在票價為空值,最小票價為0,最小票價折扣率為0,總飛行公里數大于0的情況。由于原始數據量很大,這類數據占比比較小,對于問題的分析影響很小,所以對這些記錄直接刪除,即刪除票價為空的記錄;刪除票價是0、平均折扣率是0、總公里數大于0的數據。經過數據的簡單處理后,剩余數據是31,272條記錄。3.3.1屬性規約原始數據中包含了太多的屬性,選取客戶的關鍵屬性。即需要選取與MEMBER_TYPE相關性比較強的變量,計算不同的變量與MEMBER_TYPE的相關性。對原始數據集中數值型變量,通過雙變量Pearson相關性檢驗來說明變量間的相關性。從44個屬性中選取相關性比較高的20個屬性(這里選取相關性的絕對值大于等于0.13),如表4所示。其他屬性對MEM⁃BER_TYPE的影響很小,可以忽略不計,因此直接剔除。3.3.2數據變換數據變換目的是將數據轉化成“合適的”格式,以便適應數據挖掘的需要。這里采用的是屬性構造以及數據離散化,采用聚類算法的方式將除了客戶級別、客戶類型的其他屬性分成3類。3.3.2.1屬性構造為了降低屬性的維度,通過原始數據計算以下指標。5)綜上,最終確定的數據屬性個數為12,第13列為標簽列。3.3.2.2數據離散化通過聚類算法將數據集進行離散化處理,每個屬性(除了客戶級別)分成3類,其離散表如表5所示。3.3.3樣本平衡對于訓練的數據,數據正負樣本比例并非一定是相同或等比的才是樣本平衡。這里最終得到的數據一共31272條記錄,標記為0的數據未流失客戶為17396,標記為1的數據準流失客戶是7252,標記為2的數據已流失客戶是6624,樣本比例大致是:2.6∶1∶1,決策樹正負樣本比例最佳時1∶2.5[9]接近數據樣本最佳比例,所以直接用數據進行訓練以及測試。
4模型的建立以及實現
混淆矩陣是表示真實屬性與識別結果類型之間關系的一種常用表達形式,也是評價分類器性能的一種常用方式。經過數據準備工作,預處理后的樣本數據達到了建模數據質量要求,在此基礎上直接通過PYTHON包含的Scikit_Learn利用訓練樣本構造CART算法決策樹模型,建立客戶流失預測模型,默認葉子節點包含的最小樣本數為2。選擇10-fold交叉驗證方式,即隨機選擇80%為訓練樣本,20%為測試樣本,得到混淆矩陣,即可獲得分類器的正確識別率和錯誤識別率。由圖1可知,隨機選擇訓練樣本為25017,則整體分類準確率是(14998+6012+2977)/25017=95.88%。第一行說明,有12998個樣本分類準確,占據99.04%,屬于未流失客戶,有141個樣本被誤判為準流失客戶,有5個樣本為誤判為已流失客戶;第二行說明,有6012個樣本分類準確87.23%,屬于準流失客戶,有675個樣本被誤判為未流失客戶,有205個樣本被誤判為已流失客戶;第三行說明有2977個樣本分類準確,占據99.87%,屬已流失客戶,有1個樣本被誤判為未流失客戶,有3個樣本被誤判為準流失客戶。三類客戶類型的平均正確識別率為95.88%,說明該模型效果良好。
4.1模型評估
受試者工作特性ROC曲線[10]反映了分類器正確的體積概率,其值越是接近1說明該結果越好。為了進一步評估模型分類的性能,用測試樣本對其采用ROC曲線進行評估,一個優秀的分類器所對應的ROC曲線應該是盡可能的靠近左上角。由圖2可知,該模型效果優良,對客戶流失預測是合理、準確的。
4.2模型應用
航空公司客戶流失分析的最終目標是要給公司的營銷計劃給予指導,從以下幾方面進行闡述。由于本模型采用歷史的數據進行建模與預測,對于新增的老客戶信息,如果預測結果與實際情況差別大的話,需要航空公司重點分析,查看實際的原因以及確定模型的穩定性。如果模型穩定性變化大,則需要重新訓練模型。一般建議每隔半年訓練一次[11]。整個客戶流失分析的過程應該是一個可持續循環利用的過程。確定客戶類型,特別是準流失客戶。可以通過客戶流失概率來確定可能流失的客戶,并對該客戶群進行追蹤與關懷。會員級別的升級與保留。如今對于會員級別的管理,基本是大同小異的。在航空行業,一般要求客戶在規定時間,如一年,累計達到相對應的飛行里程或單位里程票價,達到此要求后在有效期內(通常為兩年)可進行會員級別的升級,以便享受更人性化的服務。有效期結束時,根據一定的評價方式,對客戶的級別進行調整。但是大部分客戶往往不關注或者無法獲取航空公司對會員級別調整制度,而導致錯過以至于對航空公司的不滿而轉向在其他公司消費。因此,航空公司可以在有效期結束之前對即將滿足評價要求的客戶進行提示以及采取相應的促銷,如降低折扣,刺激客戶消費。積分兌換。航空公司可以通過累計的飛行里程或單位里程積分來兌換免機票或者升級艙位,特別是首次兌換,當達到航空公司的標準,首次兌換的力度往往會比其他營銷活動力度要大。但是,航空公司也對客戶積分的進行削減,一般會在年末進行清零,導致了很多客戶好不容易積累的積分白白損失,總是難以達到首次兌換的標準,造成客戶的不滿。可以對即將滿足首次兌換的客戶進行提示或者進行促銷活動,積分兌換實際上在一定程度上實現了成本轉移,因為往往再次積分兌換的客戶在本公司比在其他公司消費的可能性大。捆綁銷售。增強與非航公司的合作,使得客戶在其他公司消費的同時獲得本航空公司的積分或其他福利。與客戶的互動價值往往高于獲取新客戶的價值,也避免了客戶流失的利潤直接損失。
5結束語
論文利用CART決策樹算法結合航空公司客戶數據進行客戶流失分析,研究航空公司客戶流失的行為特征,利用屬性構造等方式總結出客戶流失的特征屬性,根據CART決策樹算法在航空公司的識別效果,采用ROC曲線進行模型評估,對客戶進行建模分析能很好的預測其流失情況,利用CART決策樹算法進行航空公司客戶流失預測分析具有現實意義。
作者:余思東 黃欣 單位:廣西農業職業技術學院信息與機電工程系
- 上一篇:初中個性化作文教學策略
- 下一篇:城中村公共藝術探討