&

導語：分布式數據流系統分析論文一文來源于網友上傳，不代表本站觀點，若需要原創文章可咨詢客服老師，歡迎參考。

分布式數據流系統分析論文

1集中式數據流查詢處理及分布式散列表、Chord路由協議的相關說明

1．1數據流查詢處理相關的概念定義以及假設說明

集中式數據流查詢處理的體系結構由兩部分構成，即查詢計劃生成子系統（FRONT－end）以及查詢執行子系統(BACK)。其中兩部分與關系數據庫系統相比均有較大的區別。查詢執行子系統如圖1所示。

通過這種散列，將系統當前的所有查詢映射到節點空間，然后由該節點上的查詢處理器完成到達的查詢。

b)查詢內并行處理方式。在系統的范圍內，由操作符、輸入均輸出記錄隊列、維持操作符狀態的大綱信息構成網狀結構。

c)命名發現機制。參與查詢處理的節點有全局惟一命名participant（如IP地址等）。當在一個節點上面定義一個新的流模式、數據流、操作符，這些實體均隸屬于其命名空間。該實體可以采用下面的命名方式：（participant，entity－name）。為了了解系統中數據流模式的定義、系統中的數據流、數據流的到達（存放）位置、系統中哪一部分查詢執行，就要考慮在catalog中存放必要的數據。其中catalog信息是通過在DHT下分布式存儲的，前面已經分析了catalog信息的存儲問題。

系統中對每一個數據流、每一個查詢、查詢中的算子、算子大綱、節點間輸出隊列均有惟一的命名。查詢處理器位于DHT之上。同查詢相關的數據粒度限定為數據流、輸入數據源（記錄集）、節點間傳輸數據隊列、算子大綱，而不是針對單個記錄而言。對于這些粒度的數據可以通過在DHT中通過put（namespace，object）、get（namespace）、multicast（namespace）消息得到。

對于操作符（算子）在節點間遷移的情況，可以提供遠程算子定義接口。當節點A上查詢執行的下一步join操作要求節點B的查詢執行器完成時，節點B接收到遠程調用請求，初始化join算子，將節點A上發出調用請求算子的狀態信息（大綱，synopsis）作為參數傳遞給B,然后就可以在節點B上進行join算子運算。查詢內并行就是有若干這樣的節點間的算子遷移，使一個查詢計劃得以在多節點的算子之間并行執行。

對于基于滑動窗口的數據流處理的join操作，如果有兩個數據流，查詢處理基于時間的窗口，進行join操作的兩個數據流時間范圍較長，那么要求在一個節點上維護操作符的狀態信息將會變得非常困難，join算子狀態信息存儲要求的內存空間可能非常大，則會進行操作符分割操作。在該節點的近鄰節點上同時進行join操作，最終將各個節點上的狀態信息進行合并操作即可。

算子遷移、算子合并、算子分割等操作在基于DHT的系統上實現具有良好的擴展性。DHT層為數據流處理系統在荷載大的情況下進行負載脫落、查詢計劃間并行、查詢計劃內并行提供了可以隨意擴展的基礎平臺。

3結束語

本文給出了基于structuredoverlaynetwork的分布式數據流查詢處理模型，考慮了對于到達系統的大量數據流的分片存放策略；同時在查詢處理中對查詢內的并行、查詢間的并行、算子在分布式節點的遷移等提供了很好的支持。對系統catalog目錄信息的分布式存放維護，從而消除了單節點查詢處理引擎在資源（CPU、內存）上的約束。本文沒有考慮分布式查詢模型在網絡帶寬資源方面的問題，這將是以后要完善的地方。基于結構化覆蓋網的分布式數據流查詢模型提高了系統性能、查詢服務質量，并且基于Chord實現，具有很好的擴展性。

參考文獻：

［1］BRIANB,SHIVNATHB,JENNIFERW.Modelsandissuesindatastreamsystems[C]//Procofthe21stACMSymposiumonPrinciplesofDatabaseSystems,2002.

［2］BALAKRISHNANH,BALAZINSKAM,CARNEYD,etal.RetrospectiveonAurora[J].VLDBJournal,2004,13(4):370-383.

［3］ABADID,CARNEYD,STONEBRAKERM,etal.Aurora:anewmodelandarchitecturefordatastreammanagement[J].VLDBJournal,2003,12（2）:120-139.

［4］ZDONIKS,STONEBRAKERM,CHERNIACKM,etal.TheAuroraandMedusaProjects[J].IEEEDataEngineeringBulletin,2003,26(1):3-10.

［5］CHERNIACKM,BALAKRISHNANH,BALAZINSKAM,etal.Scalabledistributedstreamprocessing[C]//Procofthe1stBiennialConferenceonInnovativeDataSystemsResearch.Asilomar,California:[s.n.],2003.

［6］ABADIDJ,AHMADY,BALAZINSKAM,etal.ThedesignoftheBorealisstreamprocessingengine[C]//Procofthe2ndBiennialConferenceonInnovativeDataSystemsResearch(CIDR’05).Asilomar:[s.n.],2005.

［7］TATBULN,ZDONIKS.Dealingwithoverloadindistributedstreamprocessingsystems[C]//ProcofIEEEInternationalWorkshoponNetworkingMeetsDatabases(NetDB’06).Atlanta:[s.n.],2006.

［8］Distributedhashtableslinks[EB/OL].

［9］DABEKF,STOICAI,BALAKRISHNANH,etal.Buildingpeer－to－peersystemswithChord,adistributedlookupservice[C]//Procofthe8thWorkshoponHotTopicsinOperatingSystems(HotOS－VIII).2001.

［10］STOICALI,MORRISR,BALAKRISHNANH,etal.Chord:asca－lablepeer－to－peerlookup

摘要：分析了基于結構化覆蓋網的分布式查詢處理模型，支持大量數據流的分布式存儲，連續查詢間、查詢內的并行處理操作，能夠在很大程度上消除資源約束問題（主要是內存），提高了查詢性能、服務質量，并且該查詢模型具有很好的擴展性。

關鍵詞：分布式數據流,分布式數據流系統

分布式數據流系統分析論文

熱門標簽

相關文章

精品范文