Web數據研究與應用論文
時間:2022-03-11 11:07:00
導語:Web數據研究與應用論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
1知如何能夠投其所好,為用戶實現主動推薦,提供個性化服務;這些都是電子商務成敗的關鍵問題。在這種新型的商務模式下,如何對網絡上大量的信息進行有效組織利用,幫助海量數據的擁有者們找出真正有價值的信息和知識,以指導他們的商業決策行為,成為電子商務經營者關注的問題。迅速發展的基于web的數據挖掘技術,為解決電子商務所面臨的問題提供了有效途徑。
2Web數據挖掘
2.1Web數據挖掘概述
數據挖掘(DataMining)是從大量的、不完全的、有噪聲的、模糊的和隨機的數據中提取人們事先不知道的、潛在有用的信息和知識的非平凡過程。
Web數據挖掘(WebMining)是從Web文檔和Web活動中抽取感興趣的、潛在的有用模式和隱藏的信息,是數據庫、數據挖掘、人工智能、信息檢索、自然語言理解等技術的綜合應用,是在一定基礎上應用數據挖掘的方法以發現有用的知識來幫助人們從WWW中提取知識。Web數據挖掘可以分為Web內容挖掘(WebContentMining)、Web結構挖掘(WebStructureMining)、Web使用記錄挖掘(WebUsageMining)三類。Web內容挖掘是指從文檔內容或其描述中抽取知識的過程,又可以分為基于文本的挖掘和基于多媒體的挖掘兩種。Web文本挖掘可以對Web上大量文檔集合的內容進行總結、分類、聚類、關聯分析等。Web結構挖掘是指從Web組織結構和鏈接關系中推導知識。通過對Web結構的挖掘,可以用來指導對頁面進行分類和聚類,找到權威頁面,從而提高檢索的性能,同時還可以用來指導網頁采集工作,提高采集效率。Web使用記錄挖掘是指從服務器端記錄的客戶訪問日志或從客戶的瀏覽信息中抽取感興趣的模式。
基于Web的數據挖掘技術的出現不僅為商家做出正確的商業決策提供了強有力的工具,也為商家更加深入地了解客戶需求信息和購物行為的特征提供了可能性。
2.2電子商務中Web數據挖掘的步驟
電子商務中Web數據挖掘的步驟如下:
①明確數據挖掘的對象—業務對象,確定商業應用主題,不能盲目地進行挖掘;
②將與業務對象的各類原始數據收集起來作為挖掘的數據源泉;
③對收集的數據進行預處理,一般包括數據凈化、用戶識別、會話識別、路徑補充、事務識別和格式化等階段,以提高挖掘效率,剔除無用、無關信息并對信息進行必要的整理。
④根據需要解決的問題建立合適的數據挖掘模型,然后利用已知數據對模型進行訓練和測試,并應用該模型得到挖掘結果;
⑤利用可視化技術,驗證、解釋挖掘的結果,并據此做出決策或豐富知識,即進行模式分析與應用。
在整個Web數據挖掘的過程中,被明確的業務對象是挖掘過程的基礎,它驅動整個Web數據挖掘的全過程;同時,也是檢驗挖掘結果和引導分析人員完成挖掘的依據。
2.3電子商務中Web數據挖掘的數據源
在電子商務中,可以用來作為數據挖掘分析的數據量比較大,而且類型眾多,總結起來有以下幾種類型的數據可用于Web數據挖掘技術產生各種知識模式。
①服務器數據??蛻粼L問站點時會在Web服務器上留下相應的日志數據,這些日志數據通常以文本文件的形式存儲在服務器上。一般包括serverslogs、errorlogs、cookieslogs等。
②查詢數據。它是電子商務站點在服務器上產生的一種典型數據。例如,對于再現存儲的客戶也許會搜索一些產品或某些廣告信息,這些查詢信息就是通過cookie或是登記信息連接到服務器的訪問日志上。
③在線市場數據。這類數據主要是傳統關系數據庫里存儲的有關電子商務站點信息、用戶購買信息、商品信息等數據。
④Web頁面。主要是指HTML和XML頁面的內容,包括文本、圖片、語音、圖像等。
⑤Web頁面超級鏈接關系。主要是指頁面之間存在的超級鏈接關系,這也是一種重要的資源。
⑥客戶登記信息??蛻舻怯浶畔⑹侵缚蛻敉ㄟ^Web頁輸入的、要提交給服務器的相關用戶信息,這些信息通常是關于用戶的人口特征。在Web的數據挖掘中,客戶登記信息需要和訪問日志集成,以提高數據挖掘的準確度,使之能更進一步的了解客戶。
2.4Web數據挖掘能夠獲取的知識模式
運用Web數據挖掘技術能夠對站點上的各種數據源進行挖掘,找到相關的一些知識模式,以指導站點人員更好地運作站點和向客戶提供更好的服務。一般運用Web數據挖掘可以在站點上挖掘出來的知識模式有以下幾個:
①路徑分析。它可以被用于判定在一個Web站點中最頻繁訪問的路徑。通過路徑分析,可以得到重要的頁面,可以改進頁面及網站結構的設計。
②關聯規則的發現。在電子商務中關聯規則的發現可以找到客戶對網站上各種文件之間訪問的相互關系,可以找到用戶訪問的頁面與頁面之間的相關性和購買商品間的相關性。利用這些相關性,可以更好的組織站點的內容,實施有效的市場策略,增加交叉銷售量,同時還可以減少用戶過濾信息的負擔。
③序列模式的發現。序列模式的發現就是在時間戳有序的事務集中,找到那些“一些項跟隨另一項”的內部事務模式。它能夠便于進行電子商務的組織預測客戶的訪問模式,對客戶開展有針對性的廣告服務。通過系列模式的發現,能夠在服務器方選擇有針對性地頁面,以滿足訪問者的特定要求。
④分類和預測。分類發現就是給出識別一個特殊群體的公共屬性的描述,這個描述可以用來分類新的項。分類的目的是通過構造分類模型或分類器,把數據庫中的數據項映射到給定類別中的某一個,以便用于預測;也就是利用歷史數據記錄自動推導出對給定數據的推廣描述,從而能對未來數據進行預測,進行適合某一類客戶的商務活動。
⑤聚類分析。聚類分析可以從Web訪問信息數據中聚集出具有相似特性的那些客戶。在Web事務日志中,聚類顧客信息或數據項能夠便于開發和執行未來的市場策略。這種市場策略包括自動給一個特定的顧客聚類發送銷售郵件、為屬于某一個顧客聚類中的顧客推薦特定的商品等。對電子商務來說,客戶聚類可以對市場細分理論提供有力的支持。通過對聚類客戶特征的提取,電子商務網站可以為客戶提供個性化的服務。
⑥異常檢測。異常檢測是對分析對象的少數的、極端的特例的描述,以揭示內在的原因,從而減小經營的風險。異常檢測在電子商務中的應用可以體現在信用卡欺詐甄別、發現異??蛻艉途W絡入侵檢測等方面。
Web數據挖掘的各項功能不是獨立存在的,而是在挖掘過程中互相聯系,發揮作用。
3Web數據挖掘在電子商務中的應用
3.1數據抽取方法在電子商務中的應用
與傳統商務活動相比,電子商務具有更多的虛擬和不確定的因素:如客戶購買的心理、動機、能力、欲望等。Web數據挖掘要解決的問題就是如何從零散的無規則的網絡數據中找到有用的和有規則的數據和知識,基本方法之一就是進行數據抽取,以期對數據進行濃縮,給出它的緊湊描述,如方差值等統計值或用直方圖等圖形方式表示,從數據泛化的角度討論數據總結,把最原始、基本的信息數據從低層次抽象到高層次,以便于企業決策。
3.2基于Web數據挖掘的智能化搜索引擎
電子商務企業在活動過程中面臨的問題之一是如何通過Internet全面、準確、及時地收集到企業內、外部的環境信息,尤其是一些隱性的、關系到企業經營成敗的關鍵信息,以提高競爭力。目前的搜索引擎存在著查準率低、返回無用信息多的問題,使企業無法得到優質的信息。鑒于此,將Web數據挖掘技術應用于搜索引擎,使之成為智能搜索引擎,從而提高性能,滿足電子商務企業的需要。Web挖掘技術主要在以下幾個方面對搜索引擎有借鑒作用:文檔的自動分類、自動摘要的形成、檢索結果的聯機聚類和相關度排序及實現個性化的搜索引擎。經過文檔的分類處理,可以對搜索結果進行分門別類,可以通過限制搜索范圍來使文本的查找更為容易,幫助用戶快速的對目標知識進行定位,從而提高用戶進行網上信息搜索的效率;自動摘要能夠解決大部分搜索引擎機械地截取文檔的前幾句和固定字數的摘要使信息反映不完整的缺陷,使用戶能較準確、快速、方便地了解檢索信息;通過對檢索結果的文檔集合進行聚類,可以使得與用戶檢索結果相關的文檔集中在一起,從而遠離那些不相關的文檔,將處理以后的信息以超鏈結構組織的層次方式可視化地提供給用戶,由用戶選擇他所感興趣的那一簇,將大大縮小所需瀏覽的頁面數量;將Web使用挖掘中的個性化技術應用在搜索引擎中,可以在大量訓練樣本的基礎上,得到數據對象間的內在特征,并以此為依據進行有目的的信息提取,使得搜索引擎可以按照用戶的興趣偏好擴充用戶搜索的關鍵詞,以使得檢索結果更接近用戶要求,或者根據用戶歷史瀏覽信息的分析獲得用戶興趣庫,調用個性化的搜索引擎可以提高用戶檢索的查全率與查準率。通過借鑒Web挖掘技術可以提高查準率與查全率,改善檢索結果的組織,從而使檢索效率得到改善。
3.3Web數據挖掘在客戶關系管理中的應用
①客戶關系管理的核心
客戶關系管理(CustomerRelationshipManagement,簡稱CRM)的核心是通過客戶和他們行為的有效數據收集,發現潛在的市場和客戶,從而獲得更高的商業利潤,通過完善的客戶服務和深入的客戶分析來滿足客戶的需求,保證實現客戶的終生價值??梢哉fCRM能給傳統企業帶來在網絡經濟時代謀取生存之道的管理制度和技術手段。它要求企業從“以產品為中心”的模式向“以客戶為中心”的模式轉移。
②Web數據挖掘在客戶關系管理中的應用
Web數據挖掘能夠幫助企業確定客戶的特點,使企業能夠為客戶提供有針對性的服務。將Web數據挖掘用在電子商務CRM中主要體現在客戶的獲取和保持、價值客戶鑒別、客戶滿意度分析及改善站點結構等幾方面。
通過Web數據挖掘,可以理解訪問者的動態行為,據此優化電子商務網站的經營模式。通過把所掌握的大量客戶分成不同的類,對不同類的客戶提供個性化服務來提高客戶的滿意度,從而保持老客戶;通過對新訪問者的網頁瀏覽記錄進行分析,就可以判斷出該訪問者是屬于哪一類客戶,是有利可圖的潛在客戶還是毫無價值的過客,達到區別對待、節省銷售成本、提高訪問者到購買者的轉化率的目的,從而挖掘潛在客戶;通過對具有相似瀏覽行為的客戶進行分組,提取組中客戶的共同特征,從而實現客戶的聚類,這可以幫助電子商務企業更好地了解客戶的興趣、消費習慣和消費傾向,預測他們的需求,有針對性地向他們推薦特定的商品并實現交叉銷售,可以提高交易成功率和交易量,提高營銷效果。
此外,站點的結構和內容是吸引客戶的關鍵。利用關聯規則的發現,針對不同客戶動態調整站點結構和頁面內容,把具有一定支持度和信任度的相關聯的物品放在一起以有助于銷售;通過路徑分析等技術可以判定出一類用戶對Web站點頻繁訪問的路徑,這些路徑反映這類用戶瀏覽站點頁面的順序和習慣,將客戶訪問的有關聯的文件實現直接鏈接,讓客戶容易地訪問到想要的頁面。這樣的網站會給客戶留下好印象,提高客戶忠誠度,吸引客戶,延長他們在網站上的駐留時間以及提高再次訪問的機率。
通過挖掘客戶的行為記錄和反饋情況,進一步優化網站組織結構和服務方式以提高網站的效率。通過Web數據挖掘,可以得到可靠的市場反饋信息,評測廣告的投資回報率,從而評估網絡營銷模式的成功與否;可以根據關心某產品的訪問者的瀏覽模式來決定廣告的位置,增加廣告針對性,提高廣告的投資回報率,降低公司的運營成本。③維護客戶的隱私權
維護客戶的隱私權是商家在商業運作過程中不能忽視的一個基本組成部分。因此,作為電子商務企業,應該盡量避免對單個客戶數據進行挖掘。企業管理客戶隱私權的保護應該從技術和管理兩個方面來實現:技術上,通常是采用加密標志符,并且盡量避免對單個客戶數據進行挖掘;管理上,很多電子商務企業現在已經增設了首席隱私官(CPO,ChiefPrivacyOfficer)職位,隱私官將能在個人對隱私的需求和公司以合理手段使用隱私材料的權利之間,建立適當的平衡關系。這種平衡關系的大成,需要以長期的實踐和經驗為基礎。除了電子商務企業以單獨的主體身份進行客戶隱私權保護的管理之外,行業自律也是保護客戶隱私權的一個行之有效的手段。目前,電子商務網站越來越傾向于通過行業自律的方式來樹立其在客戶心目中的形象,讓客戶放心地提交數據。
3.4Web數據挖掘在個性化服務推薦系統中的應用
電子商務個性化服務推薦系統是向站點企業提供在電子商務中更好地運作CRM,建立良好客戶關系的一種解決方法,是“以客戶為中心”、“一對一”的行銷的堅實執行者。
該系統主要是將數據挖掘的思想和方法應用到Web服務器日志及Web數據庫等資源上,挖掘出客戶的訪問規律;然后將在線訪問客戶歸結到某一類中去,根據該類用戶的訪問規律進行Web頁面的推薦;并且系統還可以通過不斷地跟蹤用戶的當前訪問,實時調整推薦集,為用戶提供個性化的訪問。該系統由五大模塊組成:數據收集模塊、數據預處理模塊、數據存儲模塊、離線挖掘模塊和在線推薦模塊。其系統結構模型如圖1所示:
圖1基于Web數據挖掘的個性化服務推薦系統結構模型
數據收集模塊主要用于收集Web數據庫、使用日志等數據,形成數據采集庫,為以后的挖掘做準備;數據預處理模塊主要是對所收集的數據進行預處理,數據預處理的質量與挖掘的效率和結果緊密相關;數據存儲模塊將預處理后的數據存入用戶事務庫;離線挖掘模塊中的挖掘引擎使用挖掘算法庫中的數據挖掘技術如統計分析、關聯規則、聚類分析、序列模式等,來發現用戶瀏覽模式,并通過模式分析對其進行分析與解釋,根據實際應用,通過觀察和選擇,把發現的統計結果、規則和模型轉換為知識,經過篩選后得到有用的模式用來指導實際的電子商務行為;在線推薦模塊在Web服務器前端設置了推薦引擎,它將用戶當前的瀏覽活動與瀏覽出的頁面推薦集結合起來考慮,生成相應推薦集,然后在用戶最新請求的頁面上添加推薦集的頁面,再通過Web服務器傳遞到用戶端的瀏覽器,為用戶實現實時個性化服務;同時將推薦結果送往網站管理中心,以便調整網站設計,優化網站結構,提高網站效率。
總的來說,在個性化服務推薦系統中運用數據挖掘技術有兩個階段:第一個階段是學習階段,離線進行。第二個階段是模式的使用階段,在線進行。挖掘和在線推薦的特征獲取和規則生成是離線處理的,而當用戶訪問該網站時通過在線推薦引擎進行在線服務。離線模塊和在線模塊相互聯系,在線模塊主要是利用離線模塊提供的規則模型對在線用戶推薦(推薦引擎);離線模塊主要是利用在線模塊積累的數據運用系統推薦算法形成相應的規則。挖掘算法和推薦策略可以根據不同類型站點的要求來具體選擇,挖掘結果和推薦集通過推薦引擎反饋給用戶。電子商務網站的客戶登錄網站以后,其訪問信息將會被記錄到服務器端。這些數據將在經過預處理后,在專用的數據挖掘模塊中,通過具體的挖掘算法和推薦策略來進行模式識別和模式分析。用戶訪問信息也會傳到推薦引擎,推薦引擎根據客戶的會員標識,向挖掘模塊抽取對應客戶的挖掘結果和推薦集,將其可視化地反饋給用戶,達到個性化服務的目的。
3.5基于Web的數據挖掘在商業信用評估中的應用
發達的社會信用水平是發展電子商務的重要基礎,通過Web數據挖掘對站點數據統計和歷史記錄之間的差別,結果與期望值的偏離以及反常實例進行充分的分析,可以有效地防范投資和經營風險。另外,通過數據挖掘技術對企業經營進行跟蹤,開展企業的資產評估、利潤收益分析和發展潛力預測,構建完善的安全保障體系,實施網上全程監控,監督網上言論,維護企業信譽,強化網上交易和在線支付的安全管理,利用數據挖掘的信用評估模型,對交易歷史數據進行挖掘發現客戶的交易數據特征,建立客戶信譽度級別,有效地防范和化解信用風險,提高企業信用甄別與風險管理的水平和能力。
4結論
本文對Web挖掘技術進行了綜述,介紹了其在電子商務中的典型應用。Web數據挖掘高度自動化地對電子商務中的大量信息進行分析和推理,從中挖掘出潛在的模式,預測客戶行為,幫助企業的決策者調整市場策略,減少風險,做出正確的決策。Web數據挖掘是近幾年來數據挖掘領域的探討熱點,利用它的技術知識將它運用到電子商務,將會解決許多實際問題,具有豐富的學術價值。將Web數據挖掘技術和電子商務兩者有機結合,將會為企業更有效的確認目標市場,改進決策,獲得競爭優勢提供幫助,有著很廣闊的應用前景,使電子商務網站更具有競爭力,從而為企業帶來更多的效益。面向電子商務的Web數據挖掘能發現大量數據背后隱藏的知識,指導商家提高銷售額,改善企業客戶關系,提高網站運行效率,改進系統性能,具有良好的發展和應用前景,必將得到越來越多的關注。
參考文獻:
[1]毛國君.數據挖掘原理與算法[M].清華大學出版社.2005(07).
[2]張冬青.數據挖掘在電子商務中應用問題研究[J].現代情報.2005(09).
[3]李鳳慧.面向電子商務的Web數據挖據的研究[D].山東科技大學碩士學位論文.2004(06).
[4]楊風召,白慧.異常檢測技術及其在電子商務中的應用[J].情報雜志.2005(12).
[5]陸垂偉.電子商務中數據挖掘技術的研究與應用[J].商場現代化.2006(04).
[6]CHENYu-ru,HUNGMing-chuan,Don-linYANG.Usingdataminingtoconstructanintelligentwebsearchsystem[J].InternationalJournalofComputerProcessingofOrientalLanguages,2003,16(2).
- 上一篇:UML網上售樓系統設計論文
- 下一篇:談話禮節