數(shù)據(jù)挖掘技術(shù)在軟件工程的實(shí)用性
時(shí)間:2022-02-09 09:54:46
導(dǎo)語(yǔ):數(shù)據(jù)挖掘技術(shù)在軟件工程的實(shí)用性一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
【摘要】隨著科學(xué)技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)水平得到提升,很多領(lǐng)域都開始應(yīng)用該技術(shù)。軟件工程也是高科技時(shí)代的產(chǎn)物,其發(fā)展與信息技術(shù)存在直接關(guān)系。在軟件工程領(lǐng)域使用數(shù)據(jù)挖掘技術(shù),可以體現(xiàn)出該技術(shù)的優(yōu)勢(shì),促進(jìn)軟件研發(fā)水平的全面提升,降低軟件研發(fā)成本,推動(dòng)社會(huì)的發(fā)展。本文通過(guò)說(shuō)明數(shù)據(jù)挖掘技術(shù)與圖書館管理信息系統(tǒng)的內(nèi)涵,闡明數(shù)據(jù)挖掘技術(shù)在圖書館管理信息系統(tǒng)中應(yīng)用的作用,并舉出具體的應(yīng)用實(shí)例,有益于加強(qiáng)圖書館中的管理工作,也便于管理工作的決策與研究,使圖書館管理工作更加標(biāo)準(zhǔn)和規(guī)范。
【關(guān)鍵詞】數(shù)據(jù)挖掘技術(shù);軟件工程;圖書館管理;管理信息系統(tǒng);應(yīng)用策略
1引言
信息化領(lǐng)域高速發(fā)展,數(shù)據(jù)挖掘技術(shù)成為先進(jìn)信息技術(shù)被廣泛應(yīng)用,并且逐步使用到軟件工程中,讓開發(fā)、管理、代碼編寫等各個(gè)環(huán)節(jié)順利進(jìn)行,從而實(shí)現(xiàn)數(shù)據(jù)挖掘的高效進(jìn)行,促進(jìn)數(shù)據(jù)質(zhì)量的提升,提高研發(fā)速度,提高軟件工程開發(fā)水平,滿足各項(xiàng)工作的運(yùn)行需要,促進(jìn)軟件工程領(lǐng)域的發(fā)展。我國(guó)圖書館的館藏圖書量較大,需要處理的信息量也不斷變得繁雜。在此條件下,圖書館管理信息系統(tǒng)充分應(yīng)用數(shù)據(jù)挖掘技術(shù)是十分必要的,我們要通過(guò)數(shù)據(jù)挖掘技術(shù)進(jìn)一步改變較為傳統(tǒng)的圖書館管理,達(dá)到提高圖書館信息化管理整體水平的目的。
2數(shù)據(jù)挖掘技術(shù)與圖書館管理信息系統(tǒng)
2.1數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)主要是對(duì)數(shù)據(jù)進(jìn)行深入的開發(fā),并在大量的數(shù)據(jù)中整理出有價(jià)值的數(shù)據(jù),達(dá)到雜亂數(shù)據(jù)規(guī)整化的目的。大量數(shù)據(jù)中仍然具有缺陷,比如不完整性、隨機(jī)性和噪聲性等,利用該技術(shù)對(duì)數(shù)據(jù)進(jìn)行挖掘,并從各種數(shù)據(jù)中提取出有價(jià)值的信息,使其更具實(shí)用性。在數(shù)據(jù)處理過(guò)程中使用數(shù)據(jù)挖掘,是對(duì)數(shù)據(jù)信息的轉(zhuǎn)換。數(shù)據(jù)挖掘也是一種多學(xué)科融合之下的技術(shù),體現(xiàn)出大數(shù)據(jù)的優(yōu)勢(shì)。利用數(shù)據(jù)挖掘掌握全部數(shù)據(jù)信息,更容易被用戶采用和使用。數(shù)據(jù)挖掘?qū)嶋H上是對(duì)數(shù)據(jù)進(jìn)行深度加工和精細(xì)加工的過(guò)程,并且在數(shù)據(jù)分析中具有高度的自主性。它主要針對(duì)各種格式的數(shù)據(jù)庫(kù)和Internet,首先構(gòu)建完善的數(shù)據(jù)庫(kù)系統(tǒng),實(shí)現(xiàn)數(shù)據(jù)清理與轉(zhuǎn)換,經(jīng)過(guò)挖掘之后得出結(jié)論,進(jìn)行進(jìn)一步的分析和總結(jié)。數(shù)據(jù)挖掘技術(shù)被廣泛應(yīng)用于生產(chǎn)和生活的各個(gè)領(lǐng)域,并取得了良好的效果,例如數(shù)字圖書館的個(gè)性化服務(wù),同樣可以利用數(shù)據(jù)挖掘技術(shù),從它的應(yīng)用效果可以看出,服務(wù)質(zhì)量得到了極大提升[1]。
2.2圖書館管理信息系統(tǒng)
圖書館管理信息系統(tǒng)是通過(guò)計(jì)算機(jī)掌握全部圖書館信息,讓圖書館管理順利實(shí)施,這是現(xiàn)代化圖書館管理的模式,專業(yè)性高、可使用性強(qiáng)、工作內(nèi)容比較繁雜。圖書館管理信息系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行采集、存儲(chǔ)和轉(zhuǎn)換,給用戶提供完善的信息,取代以往人工作業(yè)方式,提高工作精度和質(zhì)量,讓圖書館管理者做出正確的決策。在信息化建設(shè)的過(guò)程中,合理應(yīng)用海量的網(wǎng)絡(luò)資源,及時(shí)進(jìn)行深入分析和研究,深度挖掘信息資源的內(nèi)在,給用戶提供有用的信息,讓管理人員了解內(nèi)在的關(guān)系,實(shí)現(xiàn)管理人員與圖書、用戶之間的高效鏈接。
3圖書館管理信息系統(tǒng)中數(shù)據(jù)挖掘技術(shù)的作用
3.1切實(shí)提升信息獲取速度
信息獲取速度的提高是當(dāng)前圖書館管理的需要,也是信息管理技術(shù)應(yīng)用的優(yōu)勢(shì),體現(xiàn)出數(shù)據(jù)挖掘技術(shù)的優(yōu)勢(shì)。信息獲取速度的提升,是通過(guò)數(shù)據(jù)挖掘技術(shù)在圖書館管理信息系統(tǒng)中的高效應(yīng)用,能夠更進(jìn)一步記載用戶的瀏覽記錄、閱讀傾向,并進(jìn)行更加深化的觀測(cè),然后系統(tǒng)會(huì)將所獲取的數(shù)據(jù)通過(guò)分析、融合,找到具有價(jià)值的數(shù)據(jù),并通過(guò)關(guān)聯(lián)規(guī)則將同時(shí)獲取的相關(guān)規(guī)則進(jìn)行編制,組建出能夠?yàn)橛脩籼峁┏浞诌x擇和利用的圖書資源,信息獲取順利實(shí)現(xiàn)。
3.2確保用戶個(gè)性化服務(wù)
圖書館的目標(biāo)是給用戶提供高水平的服務(wù),滿足不同人群的閱讀需要。但是,從管理的過(guò)程來(lái)看,這樣圖書館的服務(wù)會(huì)更加被動(dòng),并不能達(dá)到用戶使用的要求,這種處于被動(dòng)的服務(wù)模式使圖書館的管理發(fā)展滯后。而充分應(yīng)用了數(shù)據(jù)挖掘技術(shù)的圖書館,在此技術(shù)的支撐下,為用戶提供了由自己進(jìn)行實(shí)際操作和向用戶推薦相關(guān)閱讀服務(wù)一個(gè)平臺(tái),有效地提高了圖書館的智能化水平。這種現(xiàn)代化的服務(wù)模式既保證了圖書館在服務(wù)過(guò)程中處于主動(dòng),使人力與物力的配置更加合理化,也使用戶更加明確自己的實(shí)際需求,促進(jìn)了服務(wù)質(zhì)量的提升,確保了用戶個(gè)性化服務(wù)[2]。
3.3實(shí)現(xiàn)圖書館資源優(yōu)化利用
圖書館資源的優(yōu)化利用可以發(fā)揮出圖書資源的作用,利用數(shù)據(jù)挖掘技術(shù)可以實(shí)現(xiàn)。系統(tǒng)內(nèi)存儲(chǔ)大量的借閱日志,跟蹤用戶和書籍信息,每日借用書籍而形成的大量數(shù)據(jù)信息,傳統(tǒng)的數(shù)據(jù)分析無(wú)法確定借用書籍資源的趨勢(shì)。應(yīng)用數(shù)據(jù)挖掘技術(shù)后,將圖書館每日借書數(shù)據(jù)深入挖掘和利用,分析用戶的真實(shí)需求,發(fā)布相關(guān)的服務(wù)方案,保證圖書館資源科學(xué)合理的應(yīng)用。因此,在數(shù)據(jù)挖掘技術(shù)應(yīng)用到圖書管理系統(tǒng)后,有效地優(yōu)化了信息資源,改善了信息架構(gòu),科學(xué)地解決了此類問(wèn)題。首先,它可以先有效地分析圖書館中用戶的瀏覽記錄和借閱日志記錄,以及分析出圖書館館藏圖書的記錄,再將分析出的數(shù)據(jù)進(jìn)行系統(tǒng)分析,把分析結(jié)果與用戶實(shí)際的需求作為基本的根據(jù),以此確定圖書館館藏書目的類型和數(shù)量。其次,隨著信息技術(shù)的發(fā)展與完善,網(wǎng)絡(luò)信息的發(fā)展也越來(lái)越完善,在此環(huán)境下,它能使圖書館輕松地獲取有價(jià)值的信息并將其添加到信息資源數(shù)據(jù)庫(kù)中,豐富了庫(kù)中的信息資源,也使管理人員的工作效率得到提高[3]。在圖書館的規(guī)模建設(shè)的持續(xù)發(fā)展中,日漸更新的藏書量變得更加繁雜,會(huì)使用戶對(duì)圖書的搜集和閱讀造成較大困擾。為了有效地控制信息資源,有必要將其基本屬性進(jìn)行分類,以確保信息整合和轉(zhuǎn)化的科學(xué)性和合理性。
3.4達(dá)到信息自動(dòng)處理的要求
經(jīng)過(guò)信息處理技術(shù)的應(yīng)用,保證挖掘技術(shù)可以充分利用,這是圖書管理信息系統(tǒng)基本功能,與傳統(tǒng)的圖書館管理中的信息處理模式相比有較明顯的差別。傳統(tǒng)的圖書館管理中,數(shù)據(jù)采集常常受到挖掘時(shí)間限制,會(huì)存有數(shù)據(jù)缺失,數(shù)據(jù)遺漏等現(xiàn)象,不利于查找,此時(shí),挖掘技術(shù)中的數(shù)據(jù)清理,就能有效地解決此類問(wèn)題。數(shù)據(jù)挖掘技術(shù)在該系統(tǒng)中的應(yīng)用使用戶所需要的數(shù)據(jù)能夠更加完整精確地存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)當(dāng)中。用戶只需遵循標(biāo)準(zhǔn)化的檢索程序,可以直接獲取目標(biāo)文件信息。相對(duì)而言,該類型的信息挖掘過(guò)程具備標(biāo)準(zhǔn)化、自動(dòng)化、廣泛性的優(yōu)勢(shì)。
3.5館藏資源優(yōu)化利用
利用數(shù)據(jù)挖掘技術(shù)可以充分掌握用戶與圖書、圖書之間的關(guān)系,以此為基礎(chǔ)對(duì)圖書的采購(gòu)進(jìn)行指導(dǎo)。一方面,適當(dāng)篩除借閱率低的舊書,針對(duì)借閱率高的圖書類型進(jìn)行豐富和填充,達(dá)到優(yōu)化館藏的目的,使圖書館的圖書資源更加符合用戶需求,利用掌握的信息客觀分析圖書轉(zhuǎn)化趨勢(shì)。另一方面,不同學(xué)科也有著差異和關(guān)系,且隨著時(shí)間的變化而改變,通過(guò)運(yùn)用數(shù)據(jù)挖掘技術(shù)把這種關(guān)系呈現(xiàn)出來(lái),以此用來(lái)指導(dǎo)圖書館中專業(yè)學(xué)科的設(shè)置,也達(dá)到了優(yōu)化館藏的目的,同時(shí),為用戶提供了相關(guān)學(xué)科專業(yè)的咨詢服務(wù)和推薦服務(wù)。
3.6圖書館決策制定達(dá)到智能化標(biāo)準(zhǔn)
數(shù)據(jù)挖掘技術(shù)應(yīng)用到圖書管理中,能夠收集到與圖書館中信息資源相關(guān)的全部信息,掌握內(nèi)部數(shù)據(jù),并且為決定的制定提供強(qiáng)有力的支持,保證數(shù)據(jù)可以充分利用,促進(jìn)工作順利開展和實(shí)施。
3.7創(chuàng)建數(shù)字圖書館
現(xiàn)代社會(huì)發(fā)展之下,數(shù)字圖書館是未來(lái)發(fā)展的必然。分析數(shù)據(jù)挖掘技術(shù)的形態(tài),數(shù)字圖書館通過(guò)現(xiàn)代化信息技術(shù)的研發(fā)和應(yīng)用,可以掌握全面的圖書館資源,采集圖書圖像、文字與語(yǔ)音等資源,這種情況之下,處理和儲(chǔ)存了現(xiàn)有的信息資源,有利于最終價(jià)值的進(jìn)一步提升。分析應(yīng)用的狀態(tài),可以完成數(shù)字圖書館建設(shè),掌握足夠的數(shù)據(jù)信息。總之,數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用,能夠系統(tǒng)應(yīng)用現(xiàn)代有效的分析工具和統(tǒng)計(jì)方法,同時(shí),還可以應(yīng)用決策樹、規(guī)則處理等技術(shù)獲取足夠的信息資源,它實(shí)現(xiàn)了對(duì)圖書館管理模式的可行性分析,最后利用知識(shí)表達(dá)的方法可以給用戶提供數(shù)據(jù)挖掘技術(shù),讓信息管理達(dá)到數(shù)字化、智能化的標(biāo)準(zhǔn)。
4圖書管理中應(yīng)用數(shù)據(jù)挖掘技術(shù)的案例分析——圖書關(guān)聯(lián)規(guī)則方面
4.1關(guān)聯(lián)Apriori算法介紹
Apriori算法是為了找出數(shù)據(jù)中出現(xiàn)次數(shù)頻繁的集合,進(jìn)行數(shù)據(jù)庫(kù)掃描處理,形成數(shù)量龐大的頻繁項(xiàng)集,且每一次形成的頻繁項(xiàng)集都會(huì)經(jīng)過(guò)迭代的方法形成頻繁候選項(xiàng)集,然后再次掃描數(shù)據(jù)庫(kù),保證生成的集合是頻繁項(xiàng)集。Apriori算法的基本思想是:首先通過(guò)多次的迭代,找出所有符合支持度標(biāo)準(zhǔn)的且是最大個(gè)數(shù)的頻繁項(xiàng)集;其次,根據(jù)上述找見的頻繁項(xiàng)集,輸出得到的強(qiáng)關(guān)聯(lián)規(guī)則。通過(guò)上面第一步找出的頻繁項(xiàng)集生成的規(guī)則,只把置信度大于用戶設(shè)置的最小置信度的規(guī)則保留下來(lái),要想讓形成的頻繁項(xiàng)集更加有效,提高挖掘效率,可以使用遞歸的方法,其挖掘步驟如下:產(chǎn)生大量的頻繁項(xiàng)集后,及時(shí)把生成的非頻繁項(xiàng)集篩除,減少重新組合頻繁候選項(xiàng)集的時(shí)間;在使用Apriori算法前先把一些特殊的事務(wù)刪除掉,這樣生成的頻繁項(xiàng)集,不會(huì)再次計(jì)算這些特殊事務(wù),減少誤差。
4.2應(yīng)用到圖書間關(guān)聯(lián)規(guī)則
深入分析發(fā)現(xiàn)用戶和圖書的關(guān)聯(lián)規(guī)則,然后可以給客戶推薦圖書和優(yōu)化館藏資源,比如優(yōu)化館藏與提供個(gè)性化服務(wù)。根據(jù)系統(tǒng)中用戶的借閱記錄可以直接看出圖書的借閱率,然后就能挖掘出關(guān)聯(lián)性較強(qiáng)的圖書,即為優(yōu)化館藏。同時(shí),可以把關(guān)聯(lián)性強(qiáng)的圖書推薦給選擇過(guò)類似圖書的用戶,或者給該用戶推薦與他選擇圖書關(guān)聯(lián)性強(qiáng)的其他書籍。也就是說(shuō),按照?qǐng)D書管理系統(tǒng)的數(shù)據(jù)特性,從借閱記錄中,通過(guò)關(guān)聯(lián)分析把用戶與圖書之間的關(guān)系挖掘出來(lái)。具體包含下述幾個(gè)步驟:(1)數(shù)據(jù)準(zhǔn)備。給用戶推薦圖書時(shí),通常會(huì)推薦與該用戶以往選擇圖書關(guān)聯(lián)性強(qiáng)的圖書,例如,用戶在借閱《呼嘯山莊》時(shí),也會(huì)借閱《瀕死之眼》。通過(guò)利用數(shù)據(jù)挖掘可以發(fā)現(xiàn),圖書之間的關(guān)聯(lián)規(guī)則可以優(yōu)化館藏,并為用戶提供個(gè)性化服務(wù)。(2)數(shù)據(jù)預(yù)處理。進(jìn)行挖掘前,要挖掘的數(shù)據(jù)有一些是含有雜質(zhì)的,或者存在信息不完整的情況,所以在實(shí)驗(yàn)環(huán)節(jié)要對(duì)該類型數(shù)據(jù)實(shí)現(xiàn)預(yù)處理。內(nèi)容如下:①空值處理。數(shù)據(jù)挖掘表內(nèi),不允許有空值屬性的字段存在。如果表中填充空值,例如,在借閱信息表中,挖掘的重要參考字段是分類號(hào),而分類號(hào)有空值,那么可能會(huì)使表中信息的不確定性更加明顯,使具有確定性的成分變得更難把握,此時(shí)就需要根據(jù)副本的相關(guān)信息將此空值進(jìn)行數(shù)據(jù)補(bǔ)齊,使數(shù)據(jù)挖掘表更加完備。②噪聲處理。數(shù)據(jù)挖掘表內(nèi),一些沒(méi)有意義的數(shù)據(jù)給數(shù)據(jù)分析影響結(jié)果產(chǎn)生不利影響,因此,應(yīng)該充分開展數(shù)據(jù)挖掘和分析,提高工作質(zhì)量和標(biāo)準(zhǔn)[4]。
5結(jié)語(yǔ)
綜上所述,數(shù)據(jù)挖掘技術(shù)中具有描述性、預(yù)測(cè)性的數(shù)據(jù)分析功能為在圖書館管理信息系統(tǒng)中應(yīng)用提供了重要的技術(shù)支持,而數(shù)據(jù)挖掘技術(shù)應(yīng)用到圖書館管理系統(tǒng)內(nèi),給系統(tǒng)產(chǎn)生積極的影響,并且發(fā)揮出該技術(shù)在圖書館管理信息系統(tǒng)的作用,可以有效地增強(qiáng)系統(tǒng)功能,使其工作更加便捷。在圖書館信息化建設(shè)中,管理人員自身的現(xiàn)代管理意識(shí)提升,才有可能充分認(rèn)識(shí)到數(shù)據(jù)挖掘技術(shù)在其中的應(yīng)用優(yōu)勢(shì),做好其信息化建設(shè)的具體應(yīng)用內(nèi)容,保證系統(tǒng)中數(shù)據(jù)挖掘應(yīng)用水平的有效提高,進(jìn)一步推動(dòng)系統(tǒng)的發(fā)展。
【參考文獻(xiàn)】
[1]黃俊.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用[J].信息通信,2020,33(2):254-256.
[2]胡宇輝.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用[J].電子技術(shù)與軟件工程,2019(5):187.
[3]汪敏,朱習(xí)軍.基于改進(jìn)的Apriori算法的關(guān)聯(lián)規(guī)則分析[J].計(jì)算機(jī)科學(xué)與應(yīng)用,2021,11(6):11.
[4]閆緒鵬.探討軟件工程行業(yè)中數(shù)據(jù)挖掘的應(yīng)用[J].科技資訊,2019,17(2):47-48.
作者:董德生 單位:63810部隊(duì)
熱門標(biāo)簽
數(shù)據(jù)分析論文 數(shù)據(jù)挖掘論文 數(shù)據(jù)管理論文 數(shù)據(jù)安全論文 數(shù)據(jù)庫(kù)論文 數(shù)據(jù)誤差 數(shù)據(jù)統(tǒng)計(jì) 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)采集 數(shù)據(jù)分析 心理培訓(xùn) 人文科學(xué)概論