數據信息論文范文
時間:2023-03-31 21:55:40
導語:如何才能寫好一篇數據信息論文,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
在電子商務網站設計的應用在設計電子商務網站的時候,首選就需要幫助銷售商對客戶行為的了解,這樣才能使得站點的使用效率得到有效提高,此時就需要應用數據挖掘技術,這樣網絡管理員就可以根據客戶在上網過程中所瀏覽的網站頁面及其數據信息歸納分析經常訪問該站點的用戶類型,及其訪問途徑和通過怎樣的方式完成交易等內容,這樣才能讓建立的網站更吸引客戶,同時也為網站結構的進一步優化、站點訪問量和效果的提升提供有利的依據。整個電子商務網站的設計包括三個步驟,分別為數據信息的采集、分析以及提供個性化服務。
1.數據信息的采集
因為只有將客戶相關的數據信息收集起來,才能在分析之后,將個性化的服務提供給客戶,也就是說電子商務網站向客戶提供個性化服務是基于說數據信息采集的。銷售商能夠得到客戶在注冊過程中保存的信息,即客戶的基本信息,包括姓名、籍貫、家庭住址、出生日期以及愛好等,同時還能根據客戶所瀏覽的網頁和商品等信息,對客戶關注和傾向的商品進行判斷,進而為客戶建立相應的服務檔案。而且客戶人員還能在計算機的數據庫中存儲客戶與自身交流時的數據信息。當客戶完成訂單和付款之后,可以對其收貨地址信息加以確定,進而掌握客戶的所在地等信息,進而進一步完善客戶對應的信息數據庫。同時還能夠對客戶的投訴和評價進行分類整理,使客戶的服務檔案得到不斷的完善,以此為網站的優化提供更加有利的數據資料。與此同時還會將數據挖掘技術引入到網絡服務器中,進行一個可以對客戶瀏覽途徑和頁面以及點擊產品信息加以記載的數據庫系統,實現各企業資源共享的目標,并且還不會對網絡服務器的訪問速度產生影響。
2.數據信息的分析
想要設計出一個成功的電子商務網站,就應該在保持對客戶完全透明的基礎上,及時、快速、準確的分析客戶資料及其訪問行為,進而保證客戶訪問頁面的處理時間不被占用的條件下,為客戶提供一個可以更方便、快捷的進行網購、網上交易等商務活動環境。首先,就要分析客戶行為和登錄方式,對網站客戶群進行劃分歸類;其次在進行內容設計的時候重點考慮客戶群的年齡、愛好和特點等方面,將網站內容加以歸類,并針對不同類別的客戶群,展示客戶感興趣的商品信息,最后再根據客戶的訪問、瀏覽信息以及訂單信息,為客戶的行為資料進行及時修改和完善。
3.個性化服務
這就是通過挖掘網絡數據信息,了解和掌握客戶的需求和興趣,準確的向客戶提供個性化的產品推薦,這不但要根據客戶的諸多方面對其提供滿足其需求的信息,而且還是主動為客戶提供所需信息,使網站的個性化服務的特點更為突出,進而吸引更多的客戶。并且為了使得客戶類型更加穩定和準確,就需要優先臭氧統計具有較長注冊時間、較多瀏覽記錄以及產品購買數量大的客戶。
二、結束語
篇2
1.對資料管理重視不夠,圖書資料管理工作基礎較差。縱觀大部分的企業,普遍存在對資料管理工作忽視的問題。企業的管理層往往認為這項工作無足輕重,不會對企業的發展產生影響。較低的重視度使得企業對圖書資料管理要求寬泛,在工作人員、工作內容以及工作制度等方面沒有加以重視和關注,使得工作人員工作積極性不高、專業性不強,工作內容模糊,工作制度缺失等問題出現。另外,企業對圖書資料管理工作資金投入較少,使其軟硬件基礎設施落后。以上因素都使得圖書資料管理工作基礎變得薄弱,不能完全發揮自身職能去服務企業。
2.圖書資料利用率不足,利用效果不明顯。圖書資料在企業的發展中起著信息交流、互相溝通的作用,特別是在企業制定發展戰略時候能夠提供參考、借鑒和考證等方面的幫助。但是,對于大多數的企業而言卻沒有充分利用圖書資料這些特點。主要原因在于文書資源的管理缺乏網絡化和現代化,再加上對圖書資料的整理編排不科學等,當企業需要借助相關資料進行分析決策時,面對龐雜的圖書資料工作者不能及時地將對方所需的資料提取出來,給對方工作造成不便,打擊了企業其他部門取用圖書資料的積極性,造成了企業雖然占有大量的文書資源但是其他部門不充分利用的現狀。
3.圖書資料工作與檔案管理工作協調性差,工作漏洞時常存在。在企業里會出現圖書資料工作和檔案管理工作的對接偏差,使兩者間的協調性受到了嚴重地削弱,進而不能及時提供有效、全面的信息資源。造成兩者間工作協調性差的原因主要在于雙方不能明確各自的工作范圍和內容,不能夠做好相互的銜接工作。圖書資料工作與檔案管理工作不能夠很好地配合會導致一些漏洞的發生,如在圖書資料工作中,文種使用不當、初始稿件丟失、檔案收集工作不及時等;在檔案管理工作方面,存在著操作不規范,主要體現在對檔案的裝訂、添加附件、編號等工作上。
4.圖書資料管理軟硬件建設投入不足,制約了信息化管理進程。圖書資料管理軟硬件投入不足主要是指企業在其硬件設備以及人員配備方面沒有給與足夠的資金投入,使之不能夠滿足工作的需要,制約了信息化的管理進程。主要體現為現有的辦公設備較為成舊,在開展信息化建設時不能夠提供硬件支持。另外,人員配備方面也存在缺陷,表現為現有的工作人員素質較低,也沒有高素質的專業人員的引入。
二、大數據時代圖書資料信息化管理工作發展的建議
針對上述問題,應當從以下幾個方面出發對其進行改進:
1.做好圖書資料管理的基礎工作,加強企業部門之間資料管理的協調。為了更好地做好圖書資料管理的基礎工作,加強部門之間與圖書資料管理的溝通合作。企業需要對圖書資料工作人員加以規范和約束,督促其做好本職工作,諸如搜集,分類,鑒別,整理等,還要增強其服務意識。在提高重視度的同時還要針對圖書資料管理工作的性質制定完善的管理制度和工作方法、流程等。最后在加強基礎性工作方面還要對其進行有效的、全方位的監管,確保工作的準確性、全面性、及時性。另外,在部門協調方面,負責圖書資料管理的部門也應加強和企業內部其他部門的聯系與互動,及時將搜集處理好的信息及時地提供給企業內部需要的部門,以幫助企業在制定目標或戰略時及時做出判斷,切實發揮自身的基礎性作用,在一定程度上也能夠增強企業對圖書資料管理的重視度。
2.實現圖書資料管理的數字化,簡化手動、整理和歸檔的過程。為了提高圖書資料的利用率,使之更加方便地為其他部分提供服務,企業應對現有的圖書資料管理模式進行改革創新。圖書資料管理部門要逐步實現圖書資料管理的數字化,即在原有紙質資料基礎上引入數字化處理技術。在對紙質資料進行整理、編號、儲存的同時,將大數據時代的技術優勢應用于圖書資料的管理工作中,將圖書資料進行數字化處理,建立數據庫,從而簡化手動、整理和歸檔資料的過程,也能夠在很大程度上方便需要者查閱。數字化、網絡化的介入將徹底改變圖書資料傳統的處理方式,將不必要的、過于繁瑣的步驟和工作進行刪減和革新,不僅能夠提高了圖書資料管理者的工作效率,減輕了其工作負荷,還提高了圖書資料的利用效率。
3.強化員工管理意識,科學梳理圖書資料工作與圖書資料管理工作的配合度。為了增強圖書資料工作和圖書資料管理工作的配合度,企業應當對這兩項工作進行科學地梳理。首先,要對圖書資料工作和圖書資料工作各自的工作范圍和內容加以明確,要以條文的形式對其各自的職責進行規范,特別在涉及兩者工作銜接時的各項工作項目的歸屬加以明確。其次,要確保兩者在各自的工作中恪盡職守,嚴格按照各自的制度和規范要求來開展工作,避免因自己的工作疏忽或者漏洞給對方的工作帶來不便,進而影響兩者點的協調。再者,還要在意識方面對雙方加以增強,使之不僅能夠明確自身工作的重要性,還能夠充分認識到對方工作的重要性以及自身的工作對對方工作的影響力。總之,要使圖書資料工作和檔案管理工作雙發充分了解圖書資料和檔案資料之間的重要關系,明確兩者是相輔相成,相互依托的,只有這樣才能夠促進兩者間的有效配合。
4.加強資料管理的軟硬件建設,提供資料信息化管理支撐。在加強資料管理的軟硬件建設方面,企業需要做到以下幾點:1)加大對基礎設施的精力和財力投入。為了適應信息化的發展,企業要對現有的基礎設施加以升級或者更換,使之在辦公中滿足網絡搜索引擎、網絡信息平臺等各項信息化建設的需要。2)加大對現有的工作人員的培訓力度。企業要通過公共課、視頻教學、網絡會議、外派學習等手段對員工進行專業、服務意識等方面的培訓,提高其綜合素質。3)引進專業化的高素質人才。企業應適當提高圖書資料工作人員的任用門檻,聘用更多經過專業知識學習或經過專業培訓的人員,借助這些專業人員的力量來對現有的圖書資料工作進行信息化管理方向的創新和轉變。
三、結語
篇3
1.1惡意的對計算機進行攻擊伴隨著計算機的軟件發展,各種方面的軟件、硬件都在出現和更新中。作為計算機最基礎的數據統計等功能也進入了開放性越來越強的變新中。在醫院的SQL數據庫中使用的是局域網,在這個局域網里面的用戶基本都可以訪問到數據庫及應用系統。這樣的互享模式如果是在醫院內部倒也沒什么,只是各種惡意的軟件橫行,會導致不少來自外界未知的惡意軟件對醫院的計算機進行攻擊。這些都給醫院的信息管理系統的安全造成了極大的威脅。一旦醫院的數據庫信息被泄露,從收費的數據到醫療的信息、從病人隱私的保密到管理信息保密都會處于一個透明的狀態,這對于醫院的信息管理是一個巨大的沖擊,也會帶給病人一些重大麻煩。為了避免這類事情發生。需要醫院信息管理系統和數據庫處在非常安全的環境里。這也是本文研究基于SQL數據庫的醫院信息管理綜合應用平臺設計的重心。
1.2被動的進行攻擊在不影響正常網絡使用的情況下,還會有更高明的竊取破譯數據庫的方法,這也是所謂的被動的進行攻擊。在這種竊取、破譯的行為下,當事人醫院數據庫很難查悉這行為,因此會造成非常重要的機密性文件數據的泄露。醫院的數據庫是整個醫院信息系統的靈魂,很多黑客病毒都會以此為突破點以獲得很重要的機密數據。無論是主動的還是被動的攻擊方式,都是現今使用的SQL數據庫系統的抖動,為了保證醫院的計算機信息安全,保證醫院和病人的隱私,有必要針對這些缺陷進行改進。基于SQL數據庫系統的綜合信息應用平臺設計可以更貼近實際,防止人為惡意的網絡安全的攻擊。這也是醫院今后采用SQL數據庫進行工作時的防范重點。
2SQL數據庫在醫院信息管理綜合應用中的完善
2.1根據具體的需要相應的增加或者減少相應的模塊數量醫院和個人可以根據自己的具體需要,進行一些簡單的維護,將系統的模塊進行增加或減少。并且在增減模塊的同時注意維護編程的界面,這樣才能設計出很友好的系統模塊。有了針對性的結構特點,這樣的數據庫應用平臺不僅更符合醫院信息管理系統的設計,而且還增大了獨立性和獨特性,因此也可以整體提高系統的可維護性和可靠性。選用這樣模塊化的SQL數據庫應用平臺也是設計結構的特點。
2.2采取開發式結構特點研究基于SQL數據庫的醫院信息管理綜合應用設計就必須要仔細斟酌這數據庫的系統硬件的結構設計。這個也是整個信息系統的核心內容。當前采取的數據統計模式執行的是TCP/IP的協議。如果要進一步加強系統給的可靠性,保證醫院和病人信息的安全就應當采取開發式結構特點的系統硬件結構設計。采取這樣的硬件結構設計可以減少冗余的配置,保證系統可靠性。在整體的醫院數據信息系統中,最重要的就是這個系統。在完善機遇SQL數據庫的應用設計時自然需要通過增強系統給的整體可靠性,以聯合增強SQL數據庫的互聯網安全機密新能。SQL依然可支持遠程的訪問,這也是醫院信息數據庫需要有的特點。因此,雖然可支持遠程訪問的功能會導致醫院的信息保密功能不太安全,卻也不能刪除。但是可具體根據醫療方面的任務對應的增加遠程訪問的時間限制、地點限制和次數限制。這也是開發式硬件結構的特點。
2.3系統性能優化SQL數據庫歷經幾年的研究和使用已經近乎完美,因此對數據庫的性能進行優化是個非常困難的任務。然而,只要是實際工作有需要的,都應當做出針對性的系統性能優化。為了保證醫院信息的安全,也為了保證醫院工作的效率,系統性能優化的完善勢在必行。在醫院日常的工作中,最繁重的就是數據統計和索引了,若性能得到優化,就可以大大加快數據庫的反應速度,這樣也能使醫院的工作和服務得到提升。
3結論
篇4
近年來,數據挖掘與商務智能技術發展迅速,充分借鑒國外相關研究,尤其是ACMSIGKDD課程委員會對數據挖據課程建設建議,對進行數據挖掘類課程的教學建設研究有重要意義。ACM(美國計算機協會)于1998年成立了SIGKDD(知識發現興趣小組),致力于知識發現與數據挖掘的相關研究,ACMSIGKDD課程委員會連續多年多次更新其主要課程———數據挖據課程的建議,其中委員會將數據挖掘課程分為基礎部分與高級主題,基礎部分覆蓋了數據挖掘的基本方法,高級主題既有數據挖掘基本方法的深入研究,又有更高級算法的介紹。國外很多大學的計算機科學學院、商學院都開設了數據挖掘類課程并同時進行相關研究。波士頓大學開設了“數據管理與商務智能”課程,課程主要包括基礎、核心技術、應用三部分。許多國外著名大學建立了教學管理系統,提供大量的案例、在線討論和在線輔導功能。國內很多學校都開設了數據挖掘的相關課程,我國大多數高校的課程大綱內容與國外大致相同,只是在實踐部分選用了不同的商務案例。數據挖掘的應用領域廣泛,因此可以根據開課學院和專業選擇合適的實例。
二、根據信息管理專業本科生培養要求確定課程目標
數據挖掘課程是一門綜合性很強的前沿學科,對計算機軟硬件、數據庫、人工智能技術、統計學算法、優化算法等基礎知識都有較高的要求。因此該門課程開設在學生大三下學期,既有相關知識的基礎,又為大四做畢業設計提供了一種思路。信息管理專業是計算機與管理相結合的專業,旨在培養具備信息系統開發能力與信息資源分析與處理能力的綜合應用型人才。對信息管理專業的學生而言,本課程主要的目標是數據挖掘算法原理理解、數據挖掘算法在商務管理問題中的應用以及常用數據倉庫與數據挖掘軟件的熟練應用和二次開發。
三、基于模塊化方法的課程內容分析
模塊化教學模式是按照程序模塊化的構想和原則來設計教學內容的一整套教學體系,它是在既定的培養目標指導下,將全部教學內容按照一定標準或規則進行分解,使其成為多個相對獨立的教學模塊,且各教學模塊之間可以按照一定的規則有選擇性的重新組合。學生可以根據個人興趣和職業取向在不同模塊之間進行選擇和搭配,從而實現不同的教學目標和人才培養要求。模塊化教學本質上是以知識點與實踐的細化為出發點研究的。商務智能方法本身非常豐富,實踐應用也是課程的主要特點之一,因此十分適合使用模塊化的知識分解方式。本課程的知識點模塊管理分為兩個層次,一是從宏觀角度設計課程的基礎內容模塊和高級主題模塊;二是從微觀角度針對較為復雜的教學內容進行的知識點劃分。
1.課程主要內容模塊化分析。目前該課程包括十章理論內容,分別為數據倉庫與數據挖掘的基本知識、數據倉庫的OLAP技術、數據預處理、數據挖掘系統的結構、概念描述:特征化與比較、挖掘大型數據庫中的關聯規則、分類與預測、聚類分析、復雜類型數據挖掘和序列模式挖掘。根據模塊化管理的宏觀角度分類,課程內容的第一至五章屬于基礎理論部分和簡單數據挖掘技術的介紹,可以作為基礎內容模塊;第六至八章為數據挖掘的核心算法,其中既有基礎理論與技術方法,又可深入到較難的方法和復雜的應用,因此介于基礎內容與高級主題之間;第九、十章可以算做課程的高級主題模塊;另外,課程的實踐模塊既包含數據倉庫的建設又包含數據挖掘算法的應用,難度也介于基礎內容與高級主題之間。
2.復雜知識點的模塊化管理。從微觀角度對知識點進行設計主要針對的是上述的高級主題、以及難度介于基礎內容與高級主題之間的章節,由于這些章節知識點在難度上有一定層次,講授內容彈性比較大,因此需要在課程設計中明確一定課時量所要達到的難度。以商務智能技術中的分類算法為例:首先一般的入門課程都會介紹分類算法的概念和基本原理;接著開始介紹分類算法的基礎算法———決策樹,而決策樹算法中又包含ID3等多種算法,并且除了決策樹外,還有其他更高級的分類算法;在真正使用分類法進行預測時,還要分析預測準確度;最終要將所學知識加以應用。這樣就形成了一個結構清晰、難度循序漸進的知識點模塊的層次關系。在宏觀角度、微觀角度對教學內容進行分類的前提下進行相應的授課方法與考查方法的研究,才能真正有助于學生的學習。
四、授課與考核方法設計
對不同層次學生要求不同,這種不同既體現在知識點的要求上,又直接體現在任務的難易性程度上,這都需要教師在課程設計時充分考慮不同要求情況下的不同的授課方式,并使學生清楚自己需要掌握的程度。對于高級算法和實現部分,通常可以選擇一到兩章內容采用專題探討式的教學方法。這種方法是指在教師啟發和引導下,以學生為主體,選擇某個基本教學單元為專題,學生自主研究作為知識傳遞的基本形式,將多種靈活的教學方式綜合運用到教學環節的教學方法。根據信管專業培養方案的培養目標、以及對學生調研的情況,實踐環節比較適合選擇成熟的商務智能工具進行數據的整合和多維數據建模,也就是直接使用現成的;或者使用數據挖掘軟件進行數據建模,完善數據挖掘算法。可以針對學生管理基礎課與IT基礎課知識的掌握情況,選擇合適的工具為學生設計綜合性實驗。實驗中給出部分操作步驟,并在實驗后期僅給出數據與工具,讓學生自己設計數據倉庫、進行數據挖掘、并對挖掘結果進行多種形式的展示。
五、結論
篇5
大數據時代的到來,計算機信息處理技術也存在著很大風險,其中最突出的問題是計算機病毒以及惡意盜版軟件等,給用戶使用計算機產生了極大的消極影響。這些還是一些比較基礎的問題,隨著計算機技術的發展,還出現篡改數據、冒名頂替等問題,影響計算機技術服務質量,計算機信息處理技術受到了前所未有的考驗。另外,大數據時代的到來,還出現了許多新型網絡技術,針對一些繁瑣的問題能夠有效解決,提高了人們的工作效率,然而,這也在一定程度上降低了網絡的真實性,特別是在網絡交流和溝通日益緊密的前提下,導致網絡信息真假難分,不僅增加了信息搜索難度,而且致使人們無法快速獲得真實信息。因此,提高計算機信息處理技術至關重要。
2大數據時代計算機信息處理技術
2.1信息采集、加工方面
計算機信息處理技術要進行工作,首先,要采集數據信息,計算機技術都是建立在數據采集基礎之上的,數據采集主要是針對目標信息源進行實時的信息監督和控制,并將才覺得數據儲存在計算機數據庫中,為各個軟件提供信息支持,確保下一項工作順利進行;其次,對數據信息進行加工,按照用戶的要求,對數據信息進行加工;最后,將加工好的數據信系進行分類,最終傳送到用戶手中,實現數據采集、加工以及傳送目標。
2.2存儲方面
計算機存儲技術是將采集的信息儲存到計算機數據庫之中,在用戶需要某一項信息過程中,可以通過數據庫直接將數據調取出來,計算機以其儲存量大、速度快等優勢,受到人們越來越多的關注,另外,計算機技術還能夠實現長時間儲存。
2.3信息安全方面
大數據時代的到來,讓人們感受技術帶來的便捷的同時,也讓人們意識到數據信息安全對人們的重要性。因此,為了能夠提高數據信息的安全、可靠性,可以通過以下幾個方面進行:首先,建立計算機信息安全體系,加大專業技術人才的培養力度,投入資金,為構建計算機安全體系奠定堅實的基礎;其次,加大研究力度,開發信息安全技術產品。傳統信息安全技已經無法滿足大數據時代數據安全需求,為了能夠盡快改善數據安全問題,應加大研究力度,尋求更好的解決方案,有效避免數據信息受到威脅;最后,重視對重要數據的檢測,大數據時代的突出特點是數據量大,無法實現對每一個數據的檢測。因此,為了提高數據安全系數,應加強對重點數據信息的檢測,從而確保數據信息安全。
2.4信息處理技術的發展
計算機硬件具有一定局限性,在一定程度上阻礙了計算機網絡的發展,而云計算網絡能夠突破這一弊端。因此,推廣和應用云計算機網絡成為未來大數據時代計算機信息處理的主要發展趨勢。傳統計算機網絡是將硬件與網絡有機結合,抑制了計算機信息處理技術的發展,將二者分離開,促使云計算主筋形成云計算網絡,從而構建大數據信息網絡系統,推動我國社會不斷發展。
3結論
篇6
1.大數據的概念和特征
對于大數據時代,目前通常認為有下述四大特征,稱為“四V”特征:第一,數據體量巨大(VolumeBig):數據量級已從TB(1TB=210GB)發展至PB(1PB=210TB)乃至ZB(1ZB=220PB),可稱海量、巨量乃至超量;第二,數據類型繁多:越來越多的為視頻、位置信息、圖像與圖片等半結構化和非結構化數據信息;第三,價值密度低,商業價值高:以視頻為例,連續不間斷監控過程中有價值的數據可能僅為一兩秒的數據流;第四,處理速度快,處理工具演進快:數據流往往為高速實時數據流,而且往往需要快速、持續的實時處理。[2,3]
2.大數據時代對人才的需求
2013年3月,IDC數字宇宙報告《大數據,更大的數字身影,最大增長在遠東》預計到2020年數字宇宙規模將達到40ZB。這意味著需要大量的人力和技術對如此龐大的數據進行處理、分析和管理。在此情況下,對于大數據環境下新型人才的培養問題在近年逐漸受到重視。未來對具有大數據管理和分析能力的人才需求將快速增長,這些人員除了具備相應的技術能力、管理能力、社交能力、系統分析和開發的能力外,還需要具備深度分析數據的能力。同時,一些和大數據相關的職位也會應運而生,例如數據分析師、數據架構師等。2011年麥肯錫全球研究所給出的一份報告預測,美國到2018年對具有良好信息素養的經理人才的需求量大約在150萬人,此外,還需要14萬~19萬數據分析方面的資深專家。[4]在我國,互聯網企業、電子商務、金融機構、醫療衛生、零售、保險等行業及政府數據中心對大數據專業人才的需求量都很大。
二、大數據時代下山東理工大學信管專業培養模式
大數據時代產生對相關人才的巨大需求,因此,山東理工大學(以后簡稱“我校”)信管專業提出了新的培養標準和課程設置體系,培養具有我校特色的信息管理專業人才。
1.培養目標和培養標準
在大數據環境下,重新定位信管專業的培養目標和標準,以適應“大數據”對專業人才提出的新要求,是信管專業建設的首要議題。我校信管專業突破國內高校信息管理專業人才培養的三種主要模式(一是強調IT技術,弱化了現代管理理論與方法;二是強調管理又過于弱化了IT技術;三是IT技術與管理相融合,但實際效果不理想),[5]強調學生不但要掌握現代信息系統的規劃、分析、設計、實施和運維等方面的方法與技術,更要具有現代管理科學思想和較強的信息系統開發利用以及數據分析處理能力。我校信管專業還制定了全新的培養標準矩陣(如表1所示),從五大方面28個小方面更為詳實地闡述了信管專業學生需具備的技能和能力,并為課程的設置提供了依據。
2.課程設置體系
為了滿足大數據時代對人才提出的新要求,我校信管專業課程設置圍繞主干學科(管理學、經濟學、計算機科學與技術、管理科學與工程)不僅設置了國內高校信管專業常設的管理學、統計學、管理信息系統、數據庫原理與應用、數據結構與算法分析、計算機網絡基礎與應用、Java程序設計、電子商務等課程外,還設置了數據倉庫與數據挖掘、商務智能與人工智能等相關課程,使學生在理解新興數據處理模式的同時,智能化數據分析處理及決策支持能力得到訓練。與此同時,還設置了基于移動終端的APP開發、企業信息系統構建與仿真、電子商務平臺架構設計等課程,使信管專業的學生成為擁有合理知識結構的復合型人才。大數據時代下新型的信息管理與信息系統專業人才的培養既要高度重視理論知識的學習,又要加強實踐能力的培養。為此,我校信管專業還設置了工程實訓、軟件實習等實踐項目,以及為期10周的IM&IS應用實踐環節,為學生搭建實踐平臺,拓寬實踐渠道。通過3年在校學習及總計約1年的實踐鍛煉(如圖1所示),我校信管畢業生不僅具有良好的管理知識基礎、信息技術應用能力,現代信息系統的開發利用的能力,還具備智能數據分析處理工具的操作能力以及綜合數據分析處理能力。
3.特色
大數據時代下,我校信管專業制定了具有自身特色的培養模式,即:培養目標和標準與行業發展結合,適應大數據對人才能力需求的變化;培養具有綜合分析和管理能力,強調動手能力的新型信管人才。
三、總結
篇7
心電圖蜂窩大數據網絡系統包括心電圖中心服務器、報告診斷中心(可接收由全球各地醫療機構傳來的心電信息)、多種檢查設備(心電圖機、運動平板、動態心電圖等)和終端瀏覽器4個部分。心電圖中心服務器由數據庫、數據儲存和數據轉換系統組成。它運行的系統主要包括:預約檢查申請模塊系統、排隊叫號系統、檢查系統、心電圖輔助分析系統、終端瀏覽系統、專業查詢及統計系統。其中,預約檢查申請模塊與HIS緊密結合,可準確查詢到患者的預約就診信息;排隊叫號系統幫助患者及時了解大約需要的就診等待時間,以便安排檢查行程。在心電圖檢查結束后,心電圖機通過檢查系統將心電圖數據與HIS中的患者信息進行匹配,再發送到心電圖服務器;服務器運行數字接收程序(MedExXDTJReceived),將心電圖數據入庫。而報告診斷中心通過FTP文件傳送服務自動從服務器下載病歷數據,在心電圖輔助分析系統的協助下,完成心電圖分析、報告編輯等,保存后自動將數據上傳到服務器。醫生工作站打開ECGWeb瀏覽、IE瀏覽等終端瀏覽系統,通過服務器上的臨床心電圖MedExECGWebSetup服務程序瀏覽心電圖及報告[5-6]。
2網絡系統技術方案
心電圖蜂窩大數據網絡系統能夠將分散的心電數據進行集中儲存、轉化、管理、分析和統計,將完成史無前例的心電大數據管理,為全人類的心電學研究提供全面而豐富的病例資料。除此之外,它還可實現與各級醫療機構的HIS等信息系統的對接,實現心電數據的共享。該網絡系統所涉及的相關技術包括以下幾方面。
2.1心電設備網絡化連接
系統支持將動態心電圖、運動心電圖、數字心電圖機等心電檢查設備連入網絡,從而實現全部心電檢查的網絡化。利用數字化技術,將心電檢查設備等所采集的心電信號數據轉換成心電圖,發送到心電圖中心服務器,實現全院醫生的臨床Web瀏覽。
2.2門診與病房技術支持配備門診預約、登記、心電檢查網絡系統,與醫院HIS進行無縫連接。病房將可使用的不同型號心電設備之間進行數字連接,以打通與全球心電信息網絡的聯系。
2.2.1便攜式心電檢查儀該設備應用于床旁心電圖檢查,支持心電圖的采集、存儲、回放與傳輸。臨床采集心電信號后,通過無線傳輸技術,將心電圖快速傳到心電圖診斷中心,再由診斷中心出具報告。這樣一來,就實現了邊檢查、邊報告,簡化了以往“檢查后再集中報告”的傳統流程,為患者節約了診治時間[7]。
2.2.2心電診斷中心中心設有多功能心電分析系統,心電圖醫生根據專有用戶名和密碼登錄系統,不僅可分析已有記錄的波形和參數,還可隨時調閱相關類型的心電圖進行對比分析與統計等操作;所發出的心電圖報告可保存、打印、審核及傳送。目前,山西醫科大學第二醫院在網絡心電監測診斷方面開展了卓有成效的工作:建立有完備的遠程心電監測中心,構建了城市、社區和農村三級會診系統服務模式,并正逐步健全山西省心電監測數據庫,為解決省內醫療基礎資料分布不均的問題找到了良策。我院自2012年3月起全面開展院內、院外、院前心電網絡信息化管理,覆蓋全院所有病房、門/急診和體檢中心,并發展院外站點51個,年心電圖檢查量達13萬人次,且呈逐年增長之勢。
2.2.3心電圖中心服務器設立在全球各國家和地區或各級醫院的服務器中心,接收特定范圍內的心電數據并進行數據儲存及轉換,再傳回服務器所在醫院的心電圖數據管理庫,并提供終端計算機的FTP文件傳送服務,與臨床ECGWeb瀏覽、WebService等相應匹配。
2.3統計檢索
該系統具備多種查詢條件,可進行醫生工作量、檢查工作量、設備工作量等的管理統計。不僅如此,它還能方便地對心電圖數據進行查詢、歸納與統計分析,為科研創新和教學工作提供了有力保障。
3全球心電信息網絡系統設計目標
當今在大數據時代背景下,傳統的心電信息業務管理模式正悄然發生著改變。在傳統模式下,人工干預過多,如檢查收費、報告生成等流程皆需人力介入,易造成監管混亂;心電圖與患者病史及臨床診斷脫節,難以實現心電圖數據共享;記錄在熱敏紙上的心電圖容易丟失且保存不便,給心電圖分析及科研資料的積累造成很大的困難[6]。隨著全球心電信息網絡系統的建立,上述問題均能引刃而解。它能為心電圖原始資料的積累和共享搭建理想的平臺,還能實現傳統心電信息業務管理模式下無法完成的目標:(1)實現全球各國、各醫院區域范圍內的患者基礎資料和心電檢查資料的全面共享。(2)實現基層醫院與中心醫院以及各國專家之間的心電檢查會診功能,從而實現區域內心電圖檢查設備和高端人才資源的全面共享,乃至從整體上提高全球心電診斷質量和衛生服務水平。(3)搭建院前120急救心電圖檢查遠程診斷平臺,中心醫院根據傳回的心電圖報告及早做好心臟病患者搶救的手術準備。(4)提供對疑難病例的會診支持。(5)患者能夠在區域范圍內任何一家醫療機構獲得同等質量的心電診斷服務,從而方便患者就近就診且避免重復檢查。此外,還能夠方便患者上網查詢自己的心電檢查報告。(6)實現科研素材與業務學習資料的方便獲取,解決了基層醫院心電診斷醫生工作、培訓難以兼顧的難題;能夠促進心電工作者在工作中學習,從而快速提高業務素質。(7)建立各國區域性的心電圖像資料庫和典型病例數據庫,供教學和科研使用;建立各國區域范圍內各家醫院的心電診斷質量追蹤數據庫,以形成從源頭上把關的心電診斷質控體系,從而全面提升各國心電診斷水平。(8)促進各國區域內醫療信息化建設,為今后構建基于人體健康檔案的衛生信息服務平臺奠定基礎。
4結語
篇8
【關鍵詞】大數據環境;文書檔案管理;信息化;企業發展
企業在發展中各項管理活動增多,必然會生成非常多的企業文書檔案,是對企業經營、管理各項信息記錄的保存與管理。在信息化時代下,企業發展離不開信息技術,不管是企業還是機關單位,均構建了信息化管理平臺,文書檔案管理信息化趨勢也加強。信息技術為載體的管理方法比起傳統文書檔案管理存儲數量增大,檔案信息瀏覽與查詢更加便捷,檔案儲存時間更長,但是依然受到以下因素限制,出現一些管理上的問題,仍面臨挑戰。
一、大數據環境與企業文書檔案信息化管理
(一)大數據概述。人類社會不斷發展中以及網絡行為日漸增多的背景下,作為一種信息記錄與數據保存下來的內容就是大數據,其中不僅包含了生產信息、數據,還包括其他涉及企業發展的隱私。在網絡逐漸普及下,大數據應用日漸普遍,儲存容量不斷增大,期間會產生非常多的難以加工與應用的數據,為應用與管理帶來難度。在數據容量不斷增大的背景下,很多用戶可以通過查詢、文件檢索、下載、加工、復制等方法應用這些數據,使數據復雜與繁瑣程度進一步增大,為管理帶來了阻礙。
在信息技術不斷發展的背景下,各種信息數據獲取也更加有難度,激烈的市場競爭中誰最先獲得了這些信息,誰就獲得了發展機會,增加了搶占市場的籌碼,對于數據資產的保護任何企業都沒有懈怠過。大數據獲取不僅體現在數據源獲得上,更體現在借助這些數據源,對真正有價值的數據進一步發掘,增加數據潛在價值。當前,網絡應用體量大幅度增加,大數據成為人們生活不可缺少的信息。
(二)企業文書檔案與信息化管理概述。企業文書系統地記錄了企業成立到發展期間各項經營與管理活動,比如,財務管理、人事管理、外事管理等,都是企業有顯著價值的資源,通常,文書信息由企業專門部門負責,包括對文書的收集、整理、排列以及轉送、開發、處理等。在大數據環境下,企業文書檔案信息化管理在信息技術下會大大提高管理效率,發揮其內在的服務價值。
二、大數據環境下企業文書檔案信息化管理的主要內容
(一)企業文書檔案的數字化管理。企業文書檔案以紙質為主,其中記錄著各項文字信息,錄入信息的過程較為漫長,考驗著工作人員的耐心,需要付出一定勞動,如果信息量龐大,容易出現錄入錯誤等,查詢信息時也較為困難。但是大數據下企業文書檔案可以實現信息化管理,應用計算機的自動篩選技術可以有效節省人力、物力,提高工作效率。大數據環境下企業文書檔案管理一個顯著特點就是可以對紙質檔案進行數字處理,且不改變檔案中的信息內容,更加利于保存、查詢等,這就是電子檔案價值的體現,也是大數據環境下企業文書檔案信息化管理的重要內容之一。
(二)企業文書檔案網絡化管理。經過從紙質到數字化的轉換后,還需要對數字化檔案進行管理,依據互聯網可以進行不分時間、不分地點的修改與添加,使電子檔案更加細化、具體,用戶查詢更加方便,體現了檔案網絡化管理的便捷性。企業文書檔案利用功能很多,包括網絡檢索、借閱、歸檔、復制、分類等。
三、大數據環境中企業文書檔案信息化利用
企業文書不僅為企業發展提供了支持,體現了生產與經營的價值,比如,人事管理、財務管理、科研成果等,為企業發展積累了寶貴經驗,也是企業發展成果的體現。由此,企業文書檔案參考價值也很顯著,實施檔案化管理,可為用戶提供更多、更全面的檔案資源服務。企業發展中還能對文書檔案進行重建,依據不同需求提供不同功能的服務,也是大數據環境下企業文書檔案信息化服務的一種體現。與此同時,借助不同地域下的網絡可供用戶隨時下載、查詢,使用戶對企業文化、產品等的了解更加全面、細致,還能對某個文書檔案進行跟蹤服務,體現開放式服務的優勢。
四、結語
總之,大數據環境下,企業文書檔案在信息技術基礎上可以為用戶提供更為全面、周到的服務。在企業生產日益增多的前提下,人力、物力成本會逐漸提高,由此,信息化檔案的應用可節省成本與資源,為用戶在查詢、應用、下載檔案信息中提供了便利。
【參考文獻】
[1]庫俊平.大數據環境中企業文書檔案的信息化管理及利用[J].創新科技,2013(9):50-51.
[2]江鴻.探析大數據環境中企業文書檔案的信息化管理[J].中國科技投資,2016(4):144.
篇9
論文關鍵詞:滇池流域,昆明主城,排水系統診斷
排水系統是城市基礎設施重要組成部分,可分為合流制和分流制兩種類型,其中合流制排水系統按雨、污、廢水產生的次序及處理程度的不同可分為直排式合流制、截流處理式合流制和全處理式合流制[1]。排水體制的選擇應根據城鎮和工業企業規劃、當地降雨情況和排放標準、原有排水設施、污水處理和利用情況、地形和水體等條件,綜合考慮確定,同一城鎮的不同地區可采用不同的排水制度,新建地區的排水系統宜采用分流制[2]。
昆明主城地處滇池流域北岸濱湖上游區域,污染負荷比重大,占流域污染負荷總量約80%[3],目前昆明北岸主城二環路內區域為合流制排水系統,二環路外為分流制排水系統,雨季雨、污合流污水溢流污染問題嚴重。為保護下游滇池水環境,昆明市政府將雨污分流管網改造和完善工程列為近期治滇重大工程,本研究針對昆明主城區排水系統存在的問題,在昆明市地下管線探測工作的基礎上,利用ARCGIS高效的空間分析手段,構建排水片區-子排水片區-排水單元結構網絡,建立污染源與排水系統拓撲關系,對研究范圍內排水系統進行全過程診斷,分析旱季污水收集率和雨季合流污水溢流率水利工程論文,為排水系統完善工程的全面開展提供數據支持。
1 研究方法
1.1 空間數據信息處理
系統空間數據信息建立的基礎是原有的以AutoCAD繪制的排水管網圖。由基礎空間要素和管網要素組成,基礎空間要素包括地表構筑物、下墊面、道路、河流等;管網要素包括管線和管網中的附屬設施(雨水篦子、排水口、檢查井、排水泵站等)。需要處理的工作包括以下兩方面:
1.1.1排水系統結構分層
排水單元:可以為一棟樓、一個庭院、一個小區或一個街區,劃分的依據為庭院排水管網和市政排水支管系統的相對獨立性,其意義在于界定出了排水系統管理和污染控制的最小且有效的可操作對象。
子排水片區:在排水單元劃分的基礎上,以市政排水干管和輸水泵站為主線索,根據排水系統主次脈絡,串聯排水單元,形成基于排水干管和泵站的子排水片區。
排水片區:即污水處理廠納污范圍,由基于排水干管和輸送泵站的子排水片區組成。
1.1.2拓撲關系構建
城市排水空間數據龐大、復雜、多層次,各要素間具有特定關聯性,且由此關聯性構成了排水系統結構。拓撲是反映空間要素和要素類之間關系的數據模型或格式。利用拓撲規則可以指定要素類中的要素之間有何種空間關系,或者多個不同要素類中的要素之間的空間關系。系統中涉及到的排水單元、排水管線、檢查井以及其他排水構筑物之間的特定關系利用GIS提供的拓撲規則建立,并利用拓撲處理功能進行有效的管理。
1.2屬性數據信息處理
針對主要管網要素,錄入屬性信息論文的格式。
表1管網要素屬性信息
Tab.1 Attribute information of sewageelement
要素
數據信息
節點
X、Y坐標、井底標高、地面標高、點源污水排放量(m3/s)、點源污染負荷排放量(t/s);
管線
管徑、管材、長度、坡度、埋深、起點標高、終點標高、起始節點、終點節點;
篇10
關鍵詞:區域發展;面板數據質量;信息熵;FCM;可行性論證
中圖分類號:F224.9
文獻標識碼:A文章編號:
16721101(2015)02003605
Abstract: Based on information entropy from the perspective of data quantity under index system of regional development, this paper establishes the way of evaluation by the standard of information entropy, explores how to improve the information of data using fuzzy c-means algorithm, and validates the the proposed method from theoretical proof and empirical analysis.The paper makes improving experiments via panel data under comprehensive index system of regions of northern Anhui and along the Huaihe river.Its result suggests diversity in data by information entropy standard and marked improvement of information, which lays good basis of better data quality for consequent data mining.
Key words:regional development; quality of panel data; information entropy; fuzzy c-means algorithm; feasibility demonstration
在現代信息技術迅猛發展的背景下,越來越多的領域都采用數據驅動的方式進行研究。應運而生的數據技術從傳統的統計分析到數據挖掘,再到現今的云計算和大數據都很好的給生產生活帶來更多的價值。但是隨之而來的數據量度和尺度都變得紛繁復雜,再加上各行業所取觀測指標的不同使得數據在單位、量綱和指標含義等客觀情況下呈現很大差異性和不確定性,特別是經濟數據指標的數值差距過大,因此給數據技術方法本身的可行性以及所得結果的可靠性帶來很大挑戰。傳統的數據預處理中多采用清理、變換和規約等方法來提高數據質量[1,2],在大多數文獻中多采用Min-Max標準化[3,4]、Z-score標準化[4]、Decimal scaling小數定標標準化[5]以及Log和Atan函數轉化[6]來處理數據,并不著重討論數據達到的質量程度。但是由于標準化方法的一些理論局限性,容易在處理中降低數據的信息量。所以在研究中如何能夠判斷標準化后數據信息量的改變程度,這對采用的技術方法本身和后續結果分析將起到重要的作用。本文將嘗試探討數據信息量衡量熵標準,并從理論層面和結合皖北沿淮區域經濟發展數據做相應的實證分析。
一、構建熵標準下FCM分類改進模型
(一)信息熵與FCM準備
1.數據質量的信息熵標準
熱力學第二定律表明孤立系統中任何變化都不可能減少熵值,1948年Shannon定義通信信號中平均信息量為熵[7],從此熵作為衡量信息量的一種方式被廣泛應用。信息熵是數據含載信息程度的一種度量方式,當信息熵越大時表明數據越無序,需要理清數據所需信息就越多,也說明數據的信息量越大。離散隨機變量的信息熵定義為自信息的平均值
H(X)=Ep(x)[I(x)]=-∑xp(x)logp(x)
其中I(x)為事件的自信息,Ep(x)表示對隨機變量的概率取平均運算。其具有熵的非負性、對稱性、擴展性和可加性等相關性質。
2.模糊C均值聚類FCM
模糊C均值聚類[8,9](FCM)是由Bezdek在1981年提出的一種模糊分類方法,FCM需要根據類中距和類間距構造分類準則,利用預先給定的分類數C對所給樣本點進行分類。即求解規劃問題:
minJm(U,Z,c)=∑ci=1∑Nk=1μhikd2ik,
s.t.∑ci=1μik=1,l≤k≤N;0≤μik≤1;
通過求解上面規劃問題,利用得到的隸屬矩陣Uik=∑cj=1(dikdjk)-2m-1和聚類中心
Ci=∑nk=1umikXk∑nk=1umik,進行迭代運算得到分類結果。
(二) 熵標準下FCM分類改進模型
由于熵值代表了數據的信息量,而通過衡量信息量可以產生評價策略,陳衍泰等在綜合評價方法分類的研究中總結了信息熵方法應用在評價領域的情況[10],張樹森等將熵與聚類算法結合提出改進的模糊聚類算法EFC[11],韓宇平等將最大熵原理用于評價區域水資源短缺問題[12],劉紅琴等將信息熵應用到能源消費的分配衡量中[13],本文考慮將信息熵引入到數據質量的評價中。
再由于區域發展數據在數值上差距過大,如果僅僅統一進行z-score標準化處理則可能帶來信息損失,本文考慮利用FCM方法將數據進行分類標準化,這樣也同時帶來數據扁平化特征,而由離散最大熵定理[7]可知,數據出現概率越相同,那么數據的信息熵越大。
設n維數據集{xi}ni=1進行z-score標準化后{xi-μσ}ni=1在D段中出現的概率為{Pj(x)}Dj=1,利用FCM對數據分C類后原始數據重新組合變為{xij}i=1,…C,j=1…ni,在每個數據集中表轉化得到數據集{xij-μiσ}i=1,…C,j=1…ni在D段中出現的概率為{Qj(x)}Dj=1,當分段數D足夠體現數據概率分布時Q(x)比P(x)更加趨近相同概率。利用P(x)對Q(x)的散度D(P//Q)非負特征,有如下推導:
D(P//Q)=∑xP(x)logP(x)Q(x)=
∑xP(x)logP(x)-
∑xP(x)logQ(x)≥0
Hp(x)=-
∑xP(x)logP(x)≤
-∑xP(x)logQ(x)≤-
∑xQ(x)logQ(x)=HQ(x)
因此在分類標準化后的數據信息量比直接標準化的信息量要大。從分類的角度來看,分類后數據標準化數值會產生比整體標準化更多的多樣性,從而帶來的信息量的增加,而數據信息量的增加也給后續的研究方法提供更好的數據質量。
二、基于區域發展面板數據的實證分析
(一)指標體系構建與數據來源說明
1.區域發展指標體系構建
結合前期工作制定指標體系[14]21,指標的選取原則兼顧經濟、生活、環境、社會、特征產業和可持續發展的指標體系,構建一級指標,細化二級指標共選取5個一級指標和69個二級指標如圖1所示,并由此構建整體指標模型和各級別體系。
具體指標表現為:(1)在經濟發展與產業結構方面:GDP;城鎮固定資產投資額;出口總額;進口總額;農業總產值;工業總產值;建筑業鄉村從業人員數;交通運輸、倉儲及郵政業鄉村從業人員數;鄉村私營企業從業人員數;農、林、牧、漁業鄉村從業人員數;鄉村個體從業人員數;工業從業人員年平均人數;城鎮房地產開發投資額;(2)民生能力與生活質量:職工工資總額;總戶數;農民人均純收入;城鄉居民儲蓄存款余額;社會消費品零售總額;城鎮居民最低生活保障人數;新型農村合作醫療參合率;建成區綠化覆蓋率;城市出租汽車數;公共汽(電)車客運總量(市轄區);人口自然增長率;城市公共汽(電)車客運總量;城市每萬人擁有公共交通車輛數;城市人口密度;人口密度;基本養老保險基金支出;基本醫療保險參保人數;人均公園綠地面積;(3)政府管理與社會服務:財政收入;財政支出;財政用于教育的支出;財政支出中衛生經費;等級公路里程;公路貨物周轉量;公路旅客周轉量;公路客運量;鐵路客運量;城市道路長度;城市供水總量;城市清掃保潔面積;城市天然氣供氣量;地質災害防治投資;城市公園數;街道辦事處數量;(4)資源實力與可持續發展:降水量;人均水資源量;土地面積;林業用地面積;水田耕地面積;城市污水排放量;生活垃圾無害化處理率;城市排水管道長度;城市污水處理率;工業廢氣排放量;工業廢水排放量;“三廢”綜合利用產品產值;(5)教育產業與創新科技:財政用于教育的支出;普通高等學校數;普通高等學校在校學生數;普通高中在校學生數;普通小學在校生數;發明專利申請受理量;發明專利授權量;科技活動人員數;
圖1綜合區域發展指標結構圖
基于以上初步指標體系充分涵蓋從經濟發展到人民生活,從政府能力到社會服務,從可持續發展到特色產業的方方面面,兼顧發展的效率、速度、質量、潛力和能力。但是在數據收集中往往遇到很多實際情況需要做修正,對于少部分的數據遺漏采用數據擬合回歸和缺省值補充等傳統數據預處理方法進行修整[1],對于大部分的數據遺漏則采用指標替換的方式進行變通。
2.面板數據來源說明
本文依托皖北沿淮地區6市39縣區的區域發展研究,因為在皖北沿淮地區中蚌埠市和淮南市具有相同的地緣特征和相似生活特征,所以對兩個地區指標的衡量具有很好的實際意義,故而采用2005年到2012年蚌埠市和淮南市數據,數據來源于中國知網提供的《中國統計年鑒》、《中國城市統計年鑒》和各地區發展統計年鑒等。同時本文數據屬于面板數據,可以克服時間序列分析受多重共線性的困擾,能夠提供更多信息、變化、自由度和估計效率。
(二)具體實證分析
本文的具體實證分析分為以下三個方面:(1)對于原始數據的處理過程:按照論文前面介紹的科學指標模型和數據采集來源,將兩個城市69個屬性從2005年到2012年共8年的數據進行矩陣化,得到一個138行8列的原始數據矩陣,對于原始數據矩陣中的缺省值采用外插和內插法進行相應的差值擬合得到完整的使用數據。(2)對于使用數據的分析過程:第一步根據本文前期工作[14]22通過對數據進行譜系聚類、HCM和FCM三種聚類方法,采用Matlab2012b進行編程,比較從分2類到分10類的由R方統計量和偽F統計量得到的半偏相關統計量SPRSQ數值,發現當分三類時譜系聚類方法和HCM的SPRSQ數值達到最高值分別為0.400 1和0.023 9,而FCM的SPRSQ數值在分四類時達到最高值0.027 0,因此在進行分類構建信息熵時,將分三類和分四類的情況均予以考慮。第二步根據論文前面討論的信息熵構建過程進行分類信息熵構建,首先將利用FCM對數據分三類和分四類得到的數據集
{xij}i=1,…C,j=1…ni(其中C=3或者4),在每個數據集進行z-score標準化:{xij-μiσi}i=1,…C,j=1…ni;然后討論這些數據在分D段中出現的概率{Qj(x)}Dj=1,其中分段數D的大小要足夠體現數據概率分布特征 [7,11]取D分別為10和20兩種情況,計算相關信息熵數值H(X)=
EQ(x)[I(x)]=-∑xQ(x)logQ(x)
;最后通過和沒有進行分段改進的原始數據集的未標準化和統一標準化兩種情況進行比較得到相關結論。(3)對于數值比較的分析結果:通過比較未標準化、普通的列統一標準化和采用FCM分三類和四類的類標準化的三種方法在取分段數為10和20下的信息熵大小,得到了相關的數值結果表1。
對表1中的相關數值做圖進行直觀的表達,可以得到在分10段情況下的圖2和分20段情況下的圖3,其中橫坐標為從2005年到2012年每一年的數據情況,從圖中可以發現不論哪一年的數據數值在分類標準化后的熵值都高于圖中最下面的線,即統一標準化的數據熵值。
從以上圖表的結果來看,采用FCM算法對于數據分類標準化后得到的信息熵提升效果是明顯的,具體可以概括為以下的一些結論:
1.未標準化和統一標準化的結果數值完全一樣,這是因為z-score標準化過程并不改變數據分布特征,因此他們擁有相同的概率分布,則信息熵也完全一致,故而數據所含信息不變,因此在作圖階段就不體現未標準化的結果圖形。
2.分段標準化后所有的數據結果均大于統一標準化的數據值,即信息熵在分段標準化后都有顯著提高,這和理論推導的結果一致。故而分段標準化的方法可以有效消除量綱差異,同時還能有效的提高數據信息熵,從而使得數據含有更好的信息量。
3.就分段標準化而言從所有列信息熵的總和數值可以發現,在兩種最佳聚類數時信息熵的總和情況分別可以表示為:分10段3類時的9.07高于4類時的7.8,分20段3類時的12.19高于4類時的11;同時數據信息熵隨著分段的增大數值也在增大,這是信息熵本身性質所決定的,因為分段越多概率分布越接近均勻分布,由離散最大熵定理以及本文理論推導可知數據信息熵在增加。但是如果分段過多,甚至達到數據總量的一定比例,此時再高的信息熵數值也并不能夠說明很好的信息量,所以在分段數的選取需要與數據總量相互匹配。
三、結論
根據以上論證發現,從理論角度和實證分析都驗證了分類標準化可以有效的提高數據信息量。所以在相應數據分析方法使用之前,對于數據標準化處理階段可以嘗試采用分類標準化的方式,這樣既可以消除數據量綱差異,也可以有效的提高數據含載信息,為進一步使用數據挖掘方法得到更好的數據結論提供較好的前期準備。
同時由于在數據集統一標準化中均值唯一,相當于只有一個中心節點。但是在分類標準化后,在不同類中都有相應的均值作為中心節點,所以分類標準化比傳統的統一標準化更符合現代互聯網思維,那就是去中心化和多節點多分類,以及扁平化結構體系的相關思想。參考文獻:
[1]Jiawei Han.Data Mining Concepts and Techniques, Second Edition[M].BeiJing: China Machine Press,2008:30-65.
[2]韓京宇.數據質量研究綜述[J].計算機科學,2008(2):1-5.
[3]程惠芳,唐輝亮.開放條件下區域經濟轉型升級綜合能力評價研究――中國31個省市轉型升級評價指標體系分析[J].管理世界,2011(8):173-174.
[4]張鋼.長江三角洲16個城市政府能力的比較研究[J].管理世界,2004(8):18-27.
[5]安悅.基于微博客的手機供應商排名推薦[J].數學的認識與實踐,2013(10):23-29.
[6]汪冬華.我國滬深300股指期貨和現貨市場的交叉相關性及其風險[J].系統工程理論與實踐,2014(3):631-639.
[7]田寶玉.信息論基礎[M].北京:人民郵電出版社,2008:18-26.
[8]史小松,黃勇杰,劉永革.數據挖掘技術中聚類的幾種常用方法比較[J].中國科技信息,2009(20):99-105.
[9]諸克軍,蘇順華,黎金玲.模糊C均值中的最優聚類與最佳聚類數[J].系統工程理論與實踐,2005(3):52-61.
[10]陳衍泰.綜合評價方法分類及研究進展[J].管理科學學報,2004(2):69-77.
[11]張樹森.改進的基于熵的中心聚類算法[J].計算機與現代化,2014(3):53-56.
[12]韓宇平.基于最大熵原理的區域水資源短缺風險綜合評估[J].安徽農業科學,2011(1):397-399.
[13]劉紅琴.基于信息熵的省域內能源消費總量分配研究[J].長江流域資源與環境,2014(4):482-489.