數據挖掘檔案管理應用研究

時間:2022-06-04 03:03:12

導語:數據挖掘檔案管理應用研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

數據挖掘檔案管理應用研究

一、數據挖掘技術

當今社會科技迅速發展,以往收集數據的模式已經無法適應當代社會發展需要。而數據挖掘技術的誕生,提高了數據收集的速度和質量,且在某種程度上還促進了社會的發展。

(一)數據挖掘技術的概念

數據挖掘技術是從許多的、不完全的、相對模糊的、存在噪聲的、任意的實際數據當中,找出其中隱藏的、人們原先不了解的、但又是實際存在的、有用的信息和知識的過程[1]。數據挖掘所得信息具有先前未知、有效和實用三個特征。決策者對挖掘所得信息進行分析,從中提取出隱藏的關系和模式,來對未來發生的行為進行預測。

(二)數據挖掘技術的運用

在使用數據挖掘技術的過程中,數學方法經常被用到,但在一些特殊的時候,也會用到非數學的方法。另外,使用數據挖掘技術過程中,除了上面提到的方法外,還可以用演繹的方法和歸納的方法收集數據。在使用數據挖掘技術過程中,利用對相關數據進行挖掘、收集和分析得出相應的結果,并且這個結果在某些情況下,恰好能被用在管理信息、優化查詢、過程控制、決策支持及數據維護等方面[2]。然而,由于數據挖掘技術特性,其在使用的過程中,涉及學科比較廣,并且還涉及數據庫、數理統計、人工智能、并行計算、機器學習、可視化等許多領域。數據挖掘技術中,常用到的有規則歸納、決策數、人工神經網絡、遺傳算法,以及可視化等技術。

二、數據挖掘技術的形式

數據挖掘分為描述型與預測型兩種形式。描述型是對數據中存在的規則進行描述,并且依據數據具有微觀性的特點找出其表征的、普遍性強的、概念層次較高的、比較宏觀的知識,并對數據進行概括總結和抽象來描述出同一類事物的相同屬性。預測型是分析和處理現有的數據,來獲得某類事物中某些屬性的內容,或者是預測出某類事物將來形成的規律等。在使用這兩種挖掘技術時,經常用到的方法有分類方法、關聯方法和粗糙集方法。

(一)分類

在運用計算機數據挖掘技術的過程中,分類是挖掘技術里的重點部分。數據收集的好壞,以及收集的數據的屬性分析都是由分類決定的。因此,分類在運用挖掘技術的過程中具有非常重要的作用。分類是對數據庫屬性進行分析,把元組劃分成不同種類的過程。并且在其劃分過程中,根據數據形成的訓練集,來集中對部分數據進行處理劃分。然后,再對余下的部分數據做測試,在測試滿足要求以后,遵守對應的規則對其分類。在實際分類過程中,比較有代表性的分類過程是:明確分類的范圍、找出目標屬性、組成訓練集、研究屬性、算法選取、分類計算、結果顯示、選出測試集、分類規則驗證、輸出分類規則等[2]。

(二)相關規則

相關規則是數據挖掘技術中,比較簡單實用的關聯分析規則。它可以準確地將相關數據進行描述,并且能夠對數據進行嚴格分析。在相關規則使用過程中,主要是對具體事物進行描寫,并按照相同屬性進行結合,然后對其進行總結概括,找出其共同屬性和模式。一般會將關聯規則直接應用到數據庫中,統一地記錄下每個事物得出的數據,不但可以正確地記錄數據,同時消減了數據的搜索空間,使得整個運行系統得到改善和提高。

(三)粗糙集

數據挖掘技術中的粗糙集是被用作對不精確和不確定性知識進行研究的一種數學工具,在系統整個使用中占的優勢比較大[3]。首先,在使用粗糙集方法時,相應的信息不需要了解,并且在運算的時候,算法比較簡單且容易控制,得到大量的計算機用戶的喜愛。其次,在運行粗糙集的過程中,能從數據中發現異常,排除知識發現過程中的噪聲干擾,同時還能將這類數據的規律在最短時間內找出,并利用表格對其進行歸納總結,將其變成決策表,為使用者的查詢提供方便。最后,在客觀世界,應用有些規則的過程中也會出現不確定性。應用數據庫的時候會產生許多不確定性的信息,而這些不確定性都得依賴粗糙集對其進行處理,這樣就使得數據挖掘的效率得到大大提高。

三、挖掘技術在檔案管理中應用的意義

記錄歷史資料的重要工具就是檔案,它直接反映了檔案管理人員的智慧和成果[3]。由于計算機網絡的迅速發展,在管理檔案信息的實際應用中,引入挖掘技術可以使檔案的管理水平得到提高,并且改革了檔案信息管理的模式。因此,數據挖掘技術應用在檔案信息管理中是具有非常重要意義的。

(一)提高檔案信息管理的安全性

檔案信息是記載一些比較寶貴的資料,由此可知其價值的表現就是檔案信息的實體。對檔案管理者來講,保存有歷史意義的檔案信息的時間應越長越好。保存得越長遠,越體現了檔案信息的價值。其使用價值相對應地增大了,被使用的頻率也相應地增加,使保管工作非常困難,使用次數越頻繁,就越容易縮短檔案信息的壽命。同時,保密性是檔案信息管理的另一項重要工作,萬一檔案信息外漏,不僅相關人員的隱私權受到侵犯,還有可能對其以后生活造成消極負面的影響,造成了檔案保管與使用之間存在矛盾[4]。將數據挖掘技術運用到檔案管理中,可以很好地避免這種情況的發生,從而保護檔案信息實體和內容的安全。

(二)加快檔案管理的效率,降低檔案管理的成本

檔案管理工作中引用數據挖掘技術,能夠有效改變以往傳統的檔案管理模式。使得檔案管理人員的工作效率和檔案信息管理水平得到提高。引入數據挖掘技術,工作人員的管理時間被大量節省,處理檔案信息的速度得到提高。同時,還可以加快檔案鑒定工作的發展。檔案管理工作中的一個重要環節就是檔案的鑒定,傳統的檔案鑒定工作是由檔案管理人員憑借多年經驗來實現的,具有主觀性。數據挖掘技術的運用,可以防止在鑒定檔案工作中因檔案管理人員的主觀性而造成有價值的檔案丟棄,為檔案管理工作提供了比較有效的定量化方法,使檔案的鑒定工作有據可依。

四、數據挖掘技術在檔案信息管理系統中的運用

隨著計算機信息化的迅猛發展,檔案管理工作也需要進一步的完善。過去的檔案管理方式已經不能適應當代社會的需要,很多數據信息無法有效地使用。要想有效地利用現有的檔案數據,使其價值得到充分發揮,使用數據挖掘技術把那些隱含的信息挖掘出來,對其總結和使用是非常有必要的。檔案信息管理中使用數據挖掘技術,能讓挖掘出的知識信息得到發揮,并且能使檔案數據信息價值被充分地利用。檔案管理中應用數據挖掘技術的方法有以下幾種:

(一)檔案分類法

檔案分類法是按照不同的種類把許多檔案進行整理的方法。把檔案中屬性相似的放在同一個類別中,把那些檔案屬性不同的放在不同的類別當中。在檔案進行分類的過程中,數據挖掘技術能夠詳細地劃分這些檔案的類別,幫助管理員進行檔案歸類,檔案的檢索效率和速度得到有效提高。

(二)檔案收集法

檔案收集法是先分析數據庫中的數據,并通過對這些數據做詳細的描述建立模型。然后用這些模型和所有的測試樣本進行對比,一旦經測試后有一個模型與樣本相符合,就可以依據這個模型對管理對象進行分類。

(三)檔案保留法

檔案保留法其實就留住老的人員,使其檔案不流失的過程。對某個單位來講,使用新人員的成本比留住一個老人員的成本要高很多。因此,在研究保留老人員時的一項很重要的工作是找出人員檔案流失的原因。并且通過數據挖掘技術,來對人員檔案流失的現象進行詳細分析,并采取相應的辦法,留住老的人員,避免其檔案的流失。檔案管理中,不同使用者所需檔案使用程度和需求也不一樣[4]。但把數據挖掘技術運用到檔案管理中之后,利用數據挖掘技術對檔案進行分類,提高檔案檢索效率,利用對檔案目錄和信息的挖掘找出檔案收集工作的重點,利用對檔案數據的挖掘,找出檔案管理人員和檔案使用人員與檔案實體之間的關系,利用對檔案使用情況的挖掘找出檔案內容與檔案使用人員之間的關系,針對不同人員提供不同的個性化服務,為使用人員快速查詢出所需檔案信息提供了方便,同時也使得檔案管理工作變得更加順利。隨著數據挖掘技術在學術界和工業界的影響越來越大,數據挖掘的研究向著更深入和實用技術方向發展。由此可知,未來數據挖掘技術和檔案管理的結合也會更加緊密。數據挖掘技術應用到檔案管理中,改變了傳統的檔案管理模式,且為未來的檔案信息管理提供了良好的平臺和技術支持,是開發信息化檔案管理系統必不可少的技術。(本文來自于《黑河學院學報》雜志。《黑河學院學報》雜志簡介詳見.)

作者:索向峰工作單位:黑河學院計算機科學與信息工程系