群智感知網絡中高效數據收集策略

時間:2022-11-11 09:38:31

導語:群智感知網絡中高效數據收集策略一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

群智感知網絡中高效數據收集策略

摘要:針對群智感知網絡數據收集中的效率問題,需要整合數據收集能量、延遲優化節點、參數設置、網絡路由和通信協議等多方面優勢,建立符合實際的群智感知網絡的智能高效數據收集策略。本文設計了一種能夠減少數據冗余、提高數據覆蓋率的群體感知策略,從如何選擇數據收集者,降低平臺開銷,提高網絡覆蓋率來保證應用的服務質量,為群智感知網絡高效數據收集提供參考依據。關鍵詞:群智感知;數據收集;高效;策略

1引言

隨著5G通信、物聯網、云計算及數據庫技術的飛速發展,人們對物理環境更大規模、更復雜、更全面的感知需求越來越強烈。近年來,隨著無線傳感器網絡、眾包計算、社會計算、機會網絡研究的不斷深入,人們提出了新型群智感知(CrowdSensing,CS)模式。群智感知模式主要應用在智能交通管理、天氣監測系統、噪聲污染監測系統、醫療診斷、空間探索等領域。它可以高效對海量復雜的大數據進行特征學習,發現隱藏的知識和規律,挖掘大數據中潛在價值,極大促進社會各領域的發展[1-2]。目前對高質量的群集數據收集策略僅局限于某個特定區域的整體數據收集,特別是智能移動感知設備的多維目標的數據收集策略還處于初級研究階段,多維數據收集的冗余量、網絡延遲以及能量消耗也是目前群體感知網絡亟需解決的問題,因此研究高服務質量的群集數據收集策略,對于基于數據的基礎應用具有重大意義。針對群智感知網絡數據收集的效率存在的問題,本文基于群智感知網絡框架來研究建立一種智能高效的數據收集策略,從數據收集能量、延遲優化、路由選擇、通信協議等多方面進行設計,選擇能夠降低平臺開銷、提高網絡覆蓋率的數據收集者來保證應用的服務質量,為群體感知網絡高效數據收集和傳感網絡數據應用提供參考。

2群智感知網中的應用

2.1高效數據收集方法

群智感知是指一種能利用個體或社區共同感知信息來形成知識片段的新的感知模式。近年來,國內外在體系結構、數據收集、隱私保護、激勵機制、信譽模型、社會自私性等方面進行了一些探索性研究,加利福尼亞大學、雷丁大學、東京大學、新南威爾士等大學關注度非常高。群智感知網絡中數據收集是指利用人們所使用的無處不在的智能傳感器設備如智能手機、iPad、車載傳感器和可穿戴設備等來采集數據,將物理環境中相關的數據信息采集后向應用后臺/云端上報,由后臺/云端進行計算形成需要收集的數據。這些數據信息可為智能城市基于復雜數據傳感的應用(如環境監測、智能交通、公共安全、醫療保健中的遠程病人護理系統等領域)里面的重要需求提供解決的新策略。在數據采集和收集過程中,盡量采用最少的投資來獲取最多的信息,或采用盡量少的信息采集點達到最大的全局信息覆蓋,或根據采集到的離散信息來構造完整的全局信息描述。它們具有低成本、動態性強和擴展性好等特點。(1)基于群體競爭感知模式的數據收集方法。基于群體競爭感知模式的數據收集方法,有兩種感知模式。一種是以平臺為中心的感知模式。系統首先將獎勵金額設定好,然后數據收集者通過競爭來參與任務的執行。另一種是以數據收集者為中心的感知模式。這種模式通過拍賣的方式來選合適的數據收集者。在實際的數據收集過程中,數據收集者的協作成本是很難提前獲取到的。因為不同的數據收集者的數據成本具有個體差異性,甚至使用的數據收集設備也不盡相同。因此獲取到數據收集者的真實成本是很困難的。基于群體競爭感知模式的數據收集方法存在的不足主要是激勵機制同樣會給系統帶來一定的開銷。另外,它不能有效地解決離散數據收集問題。(2)基于群體線上、線下模式的數據收集方法。群智感知模式還可以分為線上模式和線下模式。線上模式中的數據收集者集合是動態變化的。而線下模式中的數據收集者集合在開始確定后則固定不變。在動態的感知模型中,為了滿足應用在不同時期對感知任務的不同要求,需要不斷地增加或者減少數據收集者的數量。該模型的主要目的是為了選擇出具有較高穩定性的數據收集者集合。基于群體線上、線下模式的數據收集方法存在的不足主要為:線上模式雖然能夠提高數據收集者群體的協作靈活性,但線上動態的模型也相應地會帶來大量的計算成本;而線下模式則無法保證數據的實時性。(3)基于局部網絡的數據收集方法。局部網絡的數據收集方法主要考慮網絡延遲和傳感器節點能耗問題[3-4]。網絡延遲是指從傳感節點感知到數據經由多跳傳輸到sink(匯聚結點)并被sink接收所經歷的時間,一般稱為端到端延遲(或延遲)。在群體感知網絡中,網絡延遲主要包括如下幾類:①睡眠延遲。睡眠延遲是指從數據包被發送節點發送出去到它被目標接收節點接收所經歷的時間間隔。②數據處理延遲。數據處理延遲是指節點計算與處理數據所需的時間。數據處理延遲通常要小于睡眠延遲。③數據傳輸延遲。傳輸延遲是指數據傳輸所需要的時間,包括排隊延遲和可能的數據重傳延遲。基于局部網絡的數據收集方法的不足主要體現在:經典的路由算法如最短路徑算法只考慮節點與sink的距離,而沒有考慮節點睡眠所造成的延遲。(4)基于全局網絡的數據收集方法。數據收集者數量不足以及數據收集者在全局網絡區域分布不均勻是群體感知系統中面臨的難題。目前很少有研究人員將數據恢復技術應用到全局網絡數據收集中。數據恢復技術是減少全局網絡數據收集系統中數據冗余問題以及數據缺失問題的一種有效解決方法。

2.2高效數據收集技術

群體感知網絡主要研究如何使數據收集成本降低,服務質量得以提高;通過減少數據冗余來提高數據覆蓋率的群體感知策略。通過數據恢復技術和有效的激勵機制以及節點能量消耗和延遲計算模型設計,來建立細粒度滿足消費者需求的智能數據收集技術。(1)群體感知數據收集的框架建模。在群體感知網絡研究中,數據收集者在采集與報告時需要付出一定的成本,同時面臨著隱私泄露的風險。因而平臺采用一定的激勵機制,通常是對數據報告者給予一定的貨幣、信任度、虛擬貨幣或者其它措施來激勵數據收集者參與數據的采集。它依據給予獎勵對象的粒度不同而有所不同。以單個數據包為獎勵的單位的報告數據,平臺每獲得一個數據包就給予一定的獎勵。這種激勵機制的優點是粒度比較細,能夠有效地針對應用的需求來招募數據收集者。但是,這種方式也存在著不足:由于參與數據感知的移動設備數量眾多,協商的成本超過了報告數據的成本。(2)數據收集策略所采用的激勵策略與方法。數據需求者通常以是否能收集到合適的數據為判斷依據。不論是數據采集、傳輸、獲取都會要求數據收集者付出一定的精力、時間、能量等方面的成本。如果數據收集者沒有得到足夠的激勵,其參與數據收集的積極很低,造成數據需求者并不能滿意地完成該任務。數據需求方,主要目標是在支付代價最小或者支付代價可控的情況下既要激勵更多的參與者,提高參與者參與水平,又要保證參與者的感知數據是高質可靠的。合適的激勵辦法對于群智感知數據具有重要意義。(3)保證服務質量,降低數據收集開銷。在群智感知激勵機制中,僅通過招募大量參與者并不能保證感知任務被高質量地完成。在提高參與率的同時,還要保證一定的任務完成質量。保證構建應用的服務質量的關鍵在于保證數據收集的覆蓋率。但是在保證數據覆蓋率的同時,往往意味著成本的增加。為了保證數據的覆蓋率,往往會有冗余數據的產生。如何突破傳統數據收集模式的限制,是群智感知應用迫切需要解決的問題。(4)群智感知數據采集技術。在群智感知中數據采集技術中,有的源自多種異質傳感器,有的源自復雜社會網絡。根據數據結構的不同,可以分為結構化的數據表格和非結構化的數據;根據數據形式的不同,可以分為文本數據、視頻數據、音頻數據等。這些數據在為時空分析帶來豐富數據源的同時,也增加了時空可視化分析數據的復雜性。由于數據規模越來越大,數據可視化所需的資源包括數據存儲、可視化計算資源的需求也越來越大。群智感知數據對社會性、隨機性、突發性、實時響應要求高,事前無法預知其規模與地域,因而需要采用計算資源虛擬化技術來支持數據處理的研究與應用。(5)平臺構建。基于應用場景的感知任務管理可視化云服務系統平臺可在現有分布式基礎設施的基礎上,通過虛擬化以及云服務資源管理與調度技術形成支持任務管理的IaaS(InfrastructureasaService)服務;通過云-端快速感知技術,調用云存儲服務實現對物理世界和網絡世界感知數據的快速獲取;通過對海量數據的組織與管理,把各類數據按照時空特點中心組織,以PaaS(PlatformasaService)的形式進入云服務池;通過模型服務于封裝技術,支持多類型時空可視化感知模型的封裝,以PaaS的形式進入云服務池;以公共SaaS(SoftwareasaService)的形式提供服務;通過任務系統快速構建技術,面向特定目標構建任務軟件系統,以專有IaaS的形式提供服務。為不同任務類型的個性化需求提供擴展的服務接口,形成多種數據訪問標準。對于空間數據,采用OGC(OpenGeospatialConsortium)標準,它制定了數據和服務的一系列標準,建立任務管理空間數據集成標準。在此標準下,提供UDDI/WMS/WCS/WFS/WPS等多種空間地理數據服務。對于具有隱性空間屬性的文本,通過geo-coling云服務方式進行數據整合。(6)群智感知數據收集的組成。首先是數據收集者。它一般指裝備傳感設備的人或者設施,如車輛、智能手機、工業現場裝備的監控傳感設備。然后是數據需求者。數據需求者是需要數據的一方,也稱為任務發布者。數據需求發布應用需要采集數據的具體需求,并向數據報告者支付一定的酬勞來激勵他們去收集相關的數據。數據需求者的酬勞并不是直接支付給數據收集者,而是通過平臺來獲取滿足自己需求的數據。最后是應用平臺。應用平臺在群體感知網絡中起主導作用和調度作用。平臺需要依據市場的需求來制定滿足市場需求的大數據應用。應用對數據的需求可以定義為一組依賴于位置的感知任務。數據傳感任務將時間劃分為一系列的時隙。在每個時隙中,被選中的數據報告者執行指定的數據感知任務并且將感知到的數據報告給平臺。大量基于數據的應用都可以通過群體感知來滿足應用的數據需求。為了降低數據收集成本,保證數據收集質量,應用平臺需要制定能夠優化的選取數據收集者的數據收集策略,即選擇那些使系統付出的成本最小并且能夠保證構造應用質量的數據收集者。(7)海量異構數據特征提取。運用特征提取技術排除冗余或無關因素是高效數據收集的基礎。針對傳統特征提取技術難以處理海量異構數據的問題,使用基于并行計算智能方法的特征提取技術。將所提出的異構數據首先在標準數據測試集上進行實驗。其實驗結果與有文獻可考的方法進行比較,以驗證新技術有效、可靠。

2.3高效數據收集策略

(1)任務發布者功能。群智感知系統通過群體感知系統平臺發布相應的感知任務后獲取數據,并對數據進行篩選、提煉和加工等操作。通過收集到的數據來構建符合市場需求或者是特定要求的應用。任務發布者需要承擔在數據收集過程中可能產生的相應開銷。感知平臺分配感知任務,選擇合適的數據收集者參與且通過平臺來對這些數據收集者進行相應的激勵支付。數據收集者是智能設備的持有者。這些智能設備主要是裝載了傳感器的車輛、手機、平板、可穿戴設備等。(2)數據收集者的策略選擇。在群智網絡應用中,不同智能設備對于所收集到的數據的報價并不一定能夠真實地反應出設備的實際工作量和對應用的貢獻。在對數據收集者進行選擇的時候,必須要對數據收集者進行全面的考察。對于數據收集者,其收集到的所有數據的個數可以表示為:N=∑∑dimji=1Tj=1(1)在采集數據的時候,數據收集者只能提交一個位置上的數據,可以表示為:∑dimji=1≤1,(2)因此,對于單個數據收集者來說,在數據收集的時間段內,其最多能夠收集到數據個數是數據收集者持有的智能設備在每個單位采樣時間所提交的數據。而對于單個數據收集者言,需要定義一個能夠衡量其效率高低的標準。可以定義其數據收集效率為:F=NT=∑∑dimji=1Tj=1T∈[0,1](3)式(3)中,N是數據收集者收集到的數據的個數;Σ是數據收集者提交一個位置上的數據集和;T是在數據收集時間段內最多能夠收集到數據個數;F是數據收集效率;j是數據收集者的活動時間,j∈[1,T];i、m是數據采集軌跡位置收集到的數據,i∈[1,m];dij=0ordij=1:表示數據收集者在時間T能到達位置。數據收集效率體現了數據收集者的活躍程度。如果數據收集者在每個單位采樣時間都提交數據,則該數據收集者的效率為1,該數據收集者為比較活躍的數據收集者。但是不同的數據收集者在收集數據時所產生的開銷是不同的,如果僅根據數據收集效率來選擇,則有可能產生較高的成本。而且,如果選擇的標準只有數據收集效率,對于效率相同的兩個數據收集者,無法選擇出開銷更低的一方。系統需要一個選擇標準,能夠在數據收集效率與數據收集開銷方面綜合對數據收集者進行評定,來提供綜合較優的選擇。(3)應用數據恢復技術。采用傳統的數據收集模式,無法突破理想情況下數據收集的局限性。突破傳統數據收集模式的關鍵在于能夠通過某種方式在保證數據覆蓋率的前提下,降低數據的收集量。而將數據恢復技術應用在數據收集的過程中可以較好地彌補傳統數據收集模式的問題。矩陣填充技術是一種較為成熟的數據恢復技術。將其應用在數據收集中可以有效地減少需要采集的數據量。(4)構建能量消耗模型。節能降耗是數據收集技術的重要研究內容。通過挖掘群智感知環境中的數據時空相關性,可以減少數據傳輸量,有利于節省能耗,延長網絡生命周期。在群智網絡中,由于匯聚效應,sink節點附近的數據量急劇增加,從而形成網絡瓶頸。使用移動sink,可以避免多跳傳輸導致的匯聚效應。采用移動sink覆蓋所有節點,可能會存在移動sink路徑過長等問題。可以考慮動態路由結合的壓縮感知機制[4],通過將壓縮感知技術和隨機路由技術結合,可以提高網絡拓撲結構動態變化的自適應能力。相對于傳統樹形或者簇型結構,它還可以延長網絡生命周期。壓縮感知技術要求所有測量結果最終到達服務器端,用于數據恢復。然而傳統隨機游走無方向性,可以是路由到網絡中的任何一個節點。目前有兩種思路可以解決存在的不足之處。思路一是在隨機游走路徑之后,增加一個靜態路由樹,用于傳輸壓縮感知測量結果到sink節點。這樣會增加額外的多跳傳輸開銷。思路二是構建一個有向的隨機游走,即每一跳,都選擇離sink更近的點。但是各節點需要知道所有節點的全局性的位置信息。在大規模無線傳感器網絡中這類全局性信息獲取成本過高,且存在有向隨機游走匯聚效應導致的空間分布不均勻等問題,會降低壓縮感知恢復性能。可以應用精細的微積分數學分析方法來解決這個問題。建立依據節點通信半徑,將網絡劃分為多個圓環,然后依據節點與sink的距離對不同圓環內節點計算相應的數據量,再依據數據量可以得到節點的能量消耗。對于網絡中的任意區域,可以通過選定一定距離、一定角度的扇形區域積分得到其能量消耗與總體延遲。對于靜態傳感器網絡的能量消耗、承擔的數據量、參數間的關系采用了數學上的精細微積分方法進行分析,可得到更加準確與細微化的結果,從而得到更加準確的節點能量消耗模型[5]。(5)眾包(CrowdSourcing)。眾包是一種公開面向互聯網大眾的通過群體智慧分布式求解問題的新型模式,通過整合互聯網上未知的大眾,使用傳統的人本計算來完成計算機難以完成的任務[6]。眾包質量直接體現在眾包問題的答案的質量。在數據庫與信息檢索領域,基于眾包借助人類智慧來實現面向機器難問題的復雜查詢處理已經成為了一個新的研究熱點。Skyline查詢是一種基本的偏好查詢類型,可以用來解決多目標優化問題以及支持用戶在復雜情況下進行決策的重要手段,在數據探索、信息檢索、數據挖掘與可視化等方面具有不可替代的作用。眾包環境下執行查詢處理需要考慮質量和開銷金額的問題,面向質量控制的眾包答案聚合模型,從工人篩選、答案聚合兩個方面著手,在滿足聚合答案置信度的條件下最小化參與眾包問題工人人數,從而在保證質量的同時減少單個眾包問題的開銷金額。基于可移性理論的控制關系和偏好關系判斷,既能實現屬性級別,又能實現對象級別來減少眾包問題,從而降低總開銷金額[7]。(6)數據融合技術。在移動群智感知網絡中的數據多源自不同機構,個體各異,來源多樣,格式不同。因此需要將分布在不同地點的多模態數據在統一的可視化平臺進行高效集成融合。由于不同專業的數據格式、語義和展示方式有所不同,在可視化界面的層次上進行數據集成需要解決統一的數據訪問接口、抽象數據類的定義、跨區域的服務聯動與集成以及多來源可視化服務的優化與集成融合。

3總結

高效的數據收集策略是大數據網絡、群智感知網絡和參與式網絡的有效工作的基礎。目前對高質量的群集數據收集策略僅局限于某個特定區域整體數據收集。智能移動感知設備的多維目標的數據收集策略還處于初級研究階段。另外,多維數據收集的冗余量、網絡延遲以及能量消耗也是目前群智感知網絡亟需解決的問題,因此本文研究高服務質量的群集數據收集策略,對于基于數據的基礎應用具有重大意義。

作者:胡同花 單位:永州職業技術學院圖書館網絡中心