&

導語：機器學習信貸逾期檢測模型研究一文來源于網友上傳，不代表本站觀點，若需要原創文章可咨詢客服老師，歡迎參考。

機器學習信貸逾期檢測模型研究

摘要：基于某信貸機構歷史業務原始數據，經過數據預處理后，分別建立決策樹、邏輯斯蒂、BP神經網絡和隨機森林預測模型，得到的準確率不超過90%。再對原始數據進行特征分箱后，通過XGBoost算法建立模型，準確率提高為91.2%。最后，基于Cook距離的多元模型檢測到的離群點與逾期客戶有顯著關系，模型準確率為96.7%，召回率為99.3%。

關鍵詞：逾期檢測；特征分箱；機器學習；Cook距離

1引言

隨著互聯網金融行業的興起，銀行和貸款機構通過互聯網為有貸款需求的客戶提供線上金融服務。在帶來更好服務體驗的同時，也存在著諸多信用風險問題，急需建立信貸風險檢測模型提高風控水平。根據信貸客戶還款的具體情況，將客戶分為正常和逾期兩種類型。以三個月的時間作為觀察窗口，還款連續逾期三個月的，判定為逾期客戶；其余正常還款情況的，為正常客戶。通過采用機器學習和統計方法得出的信用檢測模型，能夠較為準確地預測個人未來的信用表現，估計每筆信貸是否逾期，方便銀行提前預知可能存在的風險。

2數據預處理

分析來自某貸款機構的歷史業務數據，包含貸款基本表、報告主表、貸款記錄、貸記卡記錄、信用提示、未銷戶貸記卡和未結清貸款信息匯總、逾期信息匯總、查詢記錄匯總、信貸審批查詢記錄明細、貸款特殊交易、透支記錄、詐騙記錄等12個數據集，涉及3萬名客戶和100多個特征，數據預處理較復雜，需盡量減少信息損失。為了獲得更好的訓練數據特征，通過特征工程將原始數據轉換成模型訓練數據，使得機器學習模型逼近這個上限，提高模型性能。主要運用了特征構建和特征選擇。例如針對“數據集：信貸審批查詢記錄明細表”，利用日期函數計算查詢間隔月份數，通過總查詢次數除以查詢間隔月份數構建出新屬性“月查詢次數”。例如針對“數據集：貸款記錄”，由ID將貸款狀態拆分成“呆賬、結清和正常”三類屬性的數據。最終從100多個指標中初步構建了42個特征。接著，利用R語言“informationvalue”函數計算各定性指標的IV值，選擇有高預測性能的前兩個顯著特征“工資”和“教育”；再通過廣義交叉驗證法得到10個顯著性指標，主要包括信用狀況、償還歷史和逾期行為3個維度的指標，結合Boruta算法得出變量對逾期狀態影響的顯著性，根據變量間相關性圖和現實意義，篩選出“信用使用年限”和“貸款賬戶數”；最終，經過定性指標和定量指標的篩選，從42個初選特征中選擇了重要程度前14的特征。特征選擇結果如表1所示。處理完缺失值后，采用無放回隨機抽樣方式，將總體以7∶3的比例拆分成訓練集和測試集，數據基本情況如表2所示。

3初步建立逾期檢測模型

分別通過“gbm”函數建立決策樹逾期檢測模型（GBDT）、“glm”函數建立邏輯斯蒂回歸模型，并通過逐步回歸剔除非顯著變量、“nnet”包所得BP神經網絡模型、“randomForest”函數建立隨機森林逾期檢測模型，結果如表3所示。四種模型的AUC值均低于0.8，預測準確性不是很高，離想要檢測逾期客戶的目標還有一定差距。其中表現較好的模型為邏輯斯蒂和BP神經網絡，AUC值為0.71。

4特征分箱

通過特征分箱離散化連續變量，同時將離散變量合并成少狀態。經特征分箱后的數據，具有更易于模型快速迭代和降低模型過擬合風險等優勢。基于“smbinning”包對各特征進行最優分段，通過分段結果對數據進行封閉性分箱和轉換，如特征“信用使用年限”的分段結果如表4所示。

5逾期檢測模型探索和優化

5.1基于XGBoost的集成學習模型

前面幾種機器學習模型的預測精度相對不高，嘗試基于XGBoost算法的集成學習模型以提高預測模型的精度。同時，將分別對原數據和特征分箱變換后的數據進行預測，以觀察特征分箱是否提升了模型的表達能力和擬合度。XGBoost模型結果如表5所示。通過R語言“xgboost”函數建立模型，經參數調試后對原數據進行預測，得到預測準確率為84.5%，召回率為37%，AUC值為0.72。對特征分箱后數據進行預測，預測準確率為91.2%，召回率為52.7%，AUC值為0.82。將“xgboost”函數的目標設為邏輯斯蒂模型，由于邏輯斯蒂為廣義線性模型，表達能力有限，而特征分箱后每個變量有了權重，即引入了非線性到模型中，顯著提升了模型的表達能力和擬合效果。

5.2基于CooK距離的多元模型

通過統計學方法分析得到離群點，觀察離群點與逾期客戶是否有顯著的關系。一般如果觀測樣本的Cook距離比平均距離大4倍，則該數據點被判定為離群點。通過Cook平均距離的4和24倍分別進行離群值檢測，其中顯著離群點和全部離群點如圖1所示。經匹配樣本號發現，基于Cook距離的多元模型檢測法所得出的離群點基本為逾期客戶，該模型表現出了較高的檢測準確率和召回率。當Cook距離為4倍時，99.3%的逾期客戶被檢測出來，而此時模型的準確率仍非常高，為96.7%。具體如表6所示。

6結論

進行分析的目的是檢測出可能存在逾期行為的客戶，基于這個業務背景，主要從模型的準確率、召回率和AUC值來評價模型的優劣。四種機器學習模型的AUC值均低于0.8，預測準確性不是很高。模型優化上，通過XGBoost集成學習模型對原數據和分箱后數據分別建立模型，AUC分別提高到0.72和0.82，說明集成學習模型和特征分箱均有優勢，且經特征分箱后的XGBoost模型預測準確率達到91.2%，召回率達到51.7%，模型有很好的預測效果。模型探索上，由于逾期客戶均在數據的某些特征取值上較為極端，故通過統計學方法，基于Cook距離的多元模型檢測出來的離群點，與逾期客戶有著顯著的關系。當Cook距離為4倍時，99.3%的逾期客戶被檢測出來，而此時模型的準確率仍非常高，為96.7%，該模型表現出了非常高的分類效果。

參考文獻：

［1］中國人民征信中心.個人征信系統新版信用報告概述［DB/OL］.［2021-04-15］paper/94313836.html.

［2］高祖康.基于數據挖掘的商業銀行貸款信用評級［D］.南京：南京理工大學，2013.

［3］何曉群.多元統計分析［M］.4版.北京：中國人民大學出版社，2004.

［4］董媛香，程鑫.大數據背景下個人信用評價體系構建［J］.現代工業經濟和信息化，2017，7（5）：106-108.

［5］石澄賢，陳雪交.P2P網貸個人信用評價指標體系的構建［J］.常州大學學報（社會科學版），2016，17（1）：80-85.

［6］李佳.網絡銀行個人客戶信用風險評價研究［J］.中國市場，2016（14）：91-92.

［7］劉揚，劉偉江.特征選擇方法在信用評估指標選取中的應用［J］.數理統計與管理，2006（6）：667-674.

［8］張道宏，張璇，尹成果.基于BP神經網絡的個人信用評估模型［J］.情報雜志，2006，25（3）：68-70.

［9］張國政，陳維煌，劉呈輝.基于logistic模型的商業銀行個人消費信貸風險評估研究［J］.金融理論與實踐，2015（3）：53-57.

作者：侯浩鑫趙志紅單位：北京理工大學珠海學院

機器學習信貸逾期檢測模型研究

熱門標簽

相關文章

精品范文