數據挖掘分析及決策

時間:2022-01-30 09:24:41

導語:數據挖掘分析及決策一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

數據挖掘分析及決策

1前言

百年大計,教育為本。教育是立國之本,民族興旺的標記,教育無論在何時何地何種制度下其地位都是不可或缺的。近些年來,教育方式也在時刻更新與進步著?,F如今,我國教育的主要目標之一是如何通過分析學生,教師和學校在教學實踐過程中的影響因素,找出提高學生學習效率和教師教學質量的因素。近年來,我國高校入學的學生人數大幅增加。但是傳統教學和管理方法未能適應高校的未來發展,因此我們需要新的管理方法和教學方法,以滿足高校學生管理和教學工作帶來的嚴峻考驗。在這個階段,我國高校教辦公室的數據庫中已經積累了大量的學生成績信息,但是學生成績數據的管理仍處于簡單查詢數據庫中的得分數據的階段,因此這些數據的作用沒有被充分利用起來。如果能充分利用這些數據,在教學實踐過程中準確分析學生,教師和學校的影響因素,找到提高學生學習效率和教師教學質量的途徑,有利于提高學校教學質量。利用數據倉庫和數據挖掘技術對存儲在學校數據庫中的學生數據進行深入分析,挖掘隱藏在這些數據背后的有用信息,發現有用的知識,指導學生的學習和教師教學,并幫助學校管理者做出決策學校未來的發展必將在提高學生學習效率,提高教學質量,提高學校管理水平方面發揮重要作用。以大學生的學習成績信息為應用背景,將數據挖掘技術應用于學生成績管理系統,分析學生在數據庫中存儲的績效數據。學位可以幫助解決存在的問題,使學校教學管理系統充分發揮作用,進一步滿足學校教學管理職能的需要,幫助有關部門制定合理的教學計劃和人才培養計劃,并給予學生根據自己的實際情況提供學習、研究方向以及課程各方面的幫助。在此背景下,本文旨在進一步探討尚不清楚的教育現象和規律。本文結合著名理論馬斯洛層次需求理論,該理論的基本原理是人類只有當滿足了較為底層的需求時,更加高層次的需求才能夠得以滿足。這個需求理論應用面十分廣闊,例如本文將該需求理論映射學生身上進行研究和討論,學生的基本需求就是他的家庭,因為他的家庭伴隨著他的一生,因此家庭因素對學生成績影響很大。本文使用機器學習流行的python工具對現有的數據進行建模,旨在挖掘海量數據中有價值的信息。本文中采集到學生的葡萄牙語成績和一些其他方面的基本數據,將學生與家庭因素有關的一些基本數據與學生學習成績綜合考慮,并且同時用多元線性回歸模型、隨機森林模型和支持向量機模型多方面進行測定和分析比對,構建合適的預測模型。通過大數據分析與挖掘,提出了預測學生成績的模型,并將其應用。意義創新,其結果可供教學管理者借鑒。

2預測學生成績

2.1數據來源與處理和模型假設。由于數據獲取難度大,因此本研究選取了Kaggle網站中已有的數據,這些數據包含了葡萄牙語的各分段成績、每條數據還包括各種家庭背景的研究對象以及性別、年齡等32個屬性特征。由于歷次成績也是不可忽略的,因此我們選取了8個家庭因素,和學生的前兩次考試成績,并進行了預處理工作,如表1所示。通常,在構建模型之前,為了方便運算都需要對模型提出一些假設:(1)假設每個學生的學習水平可以在一定程度上通過歷史水平反映,因為一個人的成績平均水平應該是有聯系的,像天氣預報或者股市預測一樣,學生歷史成績走勢圖可以在一定程度上預測未來的成績。(2)假設每個學生的影響因素對他們來說是穩定的,也就是說,他們不會由于突發情況,學生的學習成績波動很大,與歷史史稱不一致。這里先將這650個數據分成測試集和訓練集,訓練集是用來模型訓練的,選擇其中70%的數據來訓練模型,測試集是用來判斷訓練好的模型對新樣本的擬合情況,測試集選擇30%的數據來測試模型的性能。2.2多元線性回歸模型。我們首先考慮可能影響學生成績的各種家庭因素,然后使用這些因素作為自變量來建立多元線性回歸模型來預測學生的成績。接下來建立一個多元線性回歸模型,上述因素作為因變量,用實驗驗證上述因素是否對學生的成績產生影響。實驗結果如下所示:MSE:1.10411755616NMES:0.8491703395992.3SVMSVM是支持向量機,SVM的原理是將數據在低維空間中完成計算,然后利用核函數將輸入空間映射到高維特征空間,這樣做的目的是可以將原本在低維線性不可分的數據映射在高維中,這樣就可以在高維特征空間中構造最優分離超平面將不可分的數據劃分開來。實驗結果如下所示:MSE:2.69185273348NMES:0.6322753574782.4隨機森林算法。傳統的分類模型雖然原理簡單、容易實現,但是往往不準確,容易出現過度擬合的問題。因此可以考慮通過聚合多個模型來提高預測準確性,這種聚合各種模型的方法稱之為組合或集合分類器方法。這樣的方法通常是首先使用訓練數據構建一組基本分類模型,然后通過對每個基本分類模型的預測值進行投票(當因變量是一個離散變量時)或取平均值(當因變量是一個連續變量時)。為了生成這些組合模型,通常需要生成隨機向量來控制組合中每個模型的變化。利用已有的python庫和模塊,我們可以實現隨機森林算法。輸入數據后,本文調整了模型中決策樹的最大深度,這樣做的好處是可以防止過度擬合。此外還利用了袋外數據以估算OOB估計值。用于估計隨機森林模型的單一決策樹分類的強度以及決策樹之間的相關性。在調整了決策樹的最大深度并打開OOB估計之后,模型的性能得到了進一步提高。

3結論和前景

本文使用來自Kaggle網站的數據,使用來自多個家庭因素的數據來預測學生的成績。在利用數據預測學生成績的過程中,本文采用多元線性回歸模型,支持向量機算法模型和隨機森林算法這樣的三種模型進行建模和分析,通過對各種模型的性能,優缺點的比較分析,選擇進一步優化模型。將維度分為兩個角度進行分析,這使得模型性能再次得到改善。最后,通過與其它模型之間進行對比實驗分析,發現了多元線性回歸在RMSE值上仍具有最佳性能,但在使用本文討論的方法模型優化后隨機森林的預測性能得到顯著提高,因此說明了隨機森林可用于預測,具有較強的預測性。因此,當遇到類似問題時,可以綜合考慮隨機森林計算模型和多元線性回歸模型進行組合預測和分析,這樣模型可以達到更高的預測準確率。

參考文獻

[1]MichaelBowles.Python機器學習預測分析核心算法[M].人民郵電出版社,2017,1(1).

[2]董師師,黃哲學.隨機森林理論淺析[J].集成技術,2013,2(01):1~7.

[3]李杰.數據挖掘技術在學生成績分析中的應用研究[D].西安石油大學,2010.

[4]王磊.支持向量機學習算法的若干問題研究[D].電子科技大學,2007.

[5]支持向量機通俗導論(理解SVM的三層境界).

作者:王岳卿 單位:中國人民大學附屬中學