數據挖掘預處理技術研究
時間:2022-05-14 10:32:10
導語:數據挖掘預處理技術研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
摘要:21世紀以來隨著互聯網的迅猛發展,我們進入了一個信息大爆炸的時代。信息經過記錄與存儲成了海量的數據,如何在這海量的數據中有效地挖掘出有價值的知識成了數據挖掘的主要解決的問題。不同的數據預處理技術影響著數據挖掘的質量,我們將分析幾種常用的數據預處理技術對于數據挖掘的影響程度。
關鍵詞:數據預處理;數據挖掘;數據挖掘質量
數據挖掘作為近幾年十分熱門的學科,隨著人工智能和數據庫的發展而崛起的一種數據技術,普遍應用于金融、軍事、農業、航空航天、科學探討以及其他范疇。它的出現可以說讓人們對于數據價值的利用率提高到了新的高度,許多未解之謎或許可以因此得以破解。常見的數據挖掘核心步驟包括數據準備階段、數據挖掘階段和結果分析階段。數據準備階段占據了大約60%的工作量,它將多種不同的數據集合到一塊,消除噪聲點數據、不一致數據和不清楚完整的數據,并從中提取出對我們有用的數據,并通過一定的規則變換,組成我們所需要的數據倉庫。我們的研究重點就是這個數據準備階段。
一、數據挖掘相關概念
(一)數據挖掘。數據挖掘是經過了分析大量的有關數據來揭示有意義的新的相關聯系、趨向和形式的過程。它融匯了人工智能、數據庫技術、模式識別、機器學習、統計學和數據可視化等多個范疇的理論和技巧。該技術的涌現的崛起是現代信息技術發展到必然階段的產物,它能夠飛快探求數據之間的潛伏相關聯系和規則。所起到作用類似于科學家們經過不斷的科學分析所發現的科學規律。(二)數據預處理。數據預處理是為了處理原始數據中所存在的“臟數據”現象,是數據挖掘中重要的一環。數據預處理的效果好,則可以提高數據挖掘的效率,從而提高挖掘的質量。數據預處理是數據挖掘前的一個非常重要的數據準備工作,是知識挖掘過程的關鍵所在,它保證挖掘數據的正確性和有效性,通過對數據格式和實質的調整,使數據更符合挖掘的需求。為什么原始數據中會存在有“臟數據”呢?重要的原因有以下三點,一是數據采集時和數據分析時,咱們所思考的要素和成分不一致,搜集到了缺失值,即缺乏完整性;二是數據傳輸過程中會出現操作失誤產生了某些噪聲值,即缺乏準確性;三是數據在收集過程不限來源導致了不一致性的值,比如序號“1”、“2”、“3”和序號“A”、“B”、“C”其實所代表的含義是一致但表達不一致,即缺乏一致性。常見的缺失值填充算法包括EM最大期望值算法、MI算法和KNNI算法等。數據預處理技術的重點功能有數據清理、數據集成、數據變換和數據簡化。而預處理方法可以大致分為,基于粗糙集(RS)理論的約簡方法、基于概念層次樹的數據濃縮方法思想和普化知識發現和基于統計分析的屬性選擇方法。本文主要測試了基于粗糙集(RS)的理論的簡約方法和基于概念層次樹的數據濃縮方法。
二、數據預處理實現方法
下面我們簡單介紹一下,我們的數據預處理技術的幾個方法。(一)基于粗糙集(RS)理論的約簡方法。對于研究對于不精確、不確定性知識的十分有效的數學工具,由于它的易用性,目前是國內外研究的重點之一。基于粗糙集(RS)的理論約簡方法處理過程如下:(1)大批量無順序的數據通過泛化后,整頓成一個二維表,構成一個知識系統;(2)根據我們所要定義形成二進制可識別矩陣;(3)依據算法對矩陣進行規約化簡,并得到屬性的約簡;(4)評判歸約集,選擇具備較少屬性的歸約集,而不改變原本的依賴關系,約簡不是唯一的;(5)從約簡表抽取規則。(二)基于概念層次樹的數據濃縮方法。概念層次樹是數據分類的方法之一,它可以將總結好的數據提升到較高的概念層,為數據挖掘的各個環節提供背景,從而提高知識的準確性和可理解性。比較適用于挖掘用戶特征等場景,他的實現步驟如下:(1)定義概念層次樹和相關語義表,作為概念分層的依據;(2)對數據進行概念提升;(3)進行類組計算;(4)得出規則特征。
三、結語
根據我們的測試結果可知,粗糙集(RS)理論的約簡方法的正確率比概念層次樹的數據濃縮方法稍高,但是一組測試數據并不容易比較出兩者的區別。粗糙集(RS)理論適用于不確定的信息和不完整信息的處理,概念層次樹適用于對特征值的挖掘分析。在未來一段時間里,數據挖掘技術將會是世界主流技術的研究熱門之一,我相信在不遠的將來數據挖掘技術將會助力人工智能技術的發展,進而推動社會的科技水平。
作者:蔡念慈 柯 敏 單位:福州外語外貿學院
- 上一篇:計算機大數據分析與云計算研究
- 下一篇:電網運營監控平臺數據挖掘研究