淺析網絡安全大數據分析

時間:2022-07-10 03:54:27

導語:淺析網絡安全大數據分析一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

淺析網絡安全大數據分析

一、網絡安全現狀及主要問題

當前移動互聯網、大數據及云技術等更新進程不斷加快,數據量成指數級增長,人們對于大數據時代下網絡安全的相關問題也越來越關注。信息技術創新發展伴隨的安全威脅與傳統安全問題相互交織,使得網絡空間安全問題日益復雜隱蔽,面臨的網絡安全風險不斷加大,各種網絡攻擊事件層出不窮。2016年,我國互聯網網絡安全狀況總體平穩,未出現影響互聯網正常運行的重大網絡安全事件,但移動互聯網惡意程序數量持續高速上漲且具有明顯趨利性;來自境外的針對我國境內的網站攻擊事件頻繁發生;聯網智能設備被惡意控制,并用于發起大流量分布式拒絕服務攻擊的現象更加嚴重;網站數據和個人信息泄露帶來的危害不斷擴大;欺詐勒索軟件在互聯網上肆虐;具有國家背景黑客組織發動的高級持續性威脅(APT)攻擊事件直接威脅了國家安全和穩定。由于大數據網絡安全攻擊事件仍呈高發態勢,而且內容多又復雜,利用大數據分析技術特有的特點,為大規模網絡安全事件監測分析提供計算支撐力量,并且對海量的基礎數據進行深度挖掘及分析處理,及時監測發現網絡安全事件,實現對整體網絡安全態勢的感知。

二、大數據基本概述及分析技術

(一)大數據基本概述

隨著信息技術全面融入社會生活,整個世界的信息量正在不斷增多,而且增長的速度也在不斷加快。所謂的大數據是指無法在一定時間范圍內用常規軟件工具進行獲取、存儲、管理和處理分析的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據的規模之大,其在獲取、存儲、分析等方面已經遠遠超出傳統軟件工具能力范圍,業界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數據的特征,分別是大量化,多樣化,快速化,價值密度低。

(二)HadoopMapReduce大數據技術

Hadoop除了提供為大家所共識的HDFS分布式數據存儲功能之外,還提供了叫做MapReduce的數據處理功能。HadoopMapReduce是一種編程模型,用于大規模數據集(大于1TB)的并行運算。概念"Map(映射)"和"Reduce(歸約)",其來源于函數式編程語言或者矢量編程語言里的特性。Mapreduce是一個計算框架,其表現形式就是具有一個輸入(input),mapreduce操作這個輸入(input),通過本身定義好的計算模型,得到一個輸出(output),這個輸出就是最終需要的結果,計算模型如下圖所示:

(三)Spark大數據分析技術

Spark是一個基于內存計算的開源的集群(分布式)計算系統,Spark非常小巧玲瓏,由加州伯克利大學AMP實驗室的Matei為主的小團隊所開發。使用的語言是Scala,項目的core部分的代碼只有63個Scala文件,非常短小精悍。由于是基于內存計算,效率要高于擁有Hadoop,Job中間輸出和結果可以保存在內存中,從而不再需要讀寫HDFS,節省了磁盤IO耗時,號稱性能比Hadoop快100倍。Spark是繼HadoopMap-Reduce之后新興的基于內存的大數據計算框架,相對于HadoopMapReduce來說,Spark具有一定的優勢。一是計算速度快。大數據處理首先追求的是速度。官方指出“Spark允許Hadoop集群中的應用程序在內存中以100倍的速度運行,即使在磁盤上運行也能快10倍”。二是應用靈活。Spark在簡單的Map及Reduce操作之外,還支持SQL查詢、流式查詢及復雜查詢,比如開箱即用的機器學習算法。同時,用戶可以在同一個工作流中無縫地搭配這些能力,應用十分靈活。三是兼容性好。Spark可以獨立運行,除了可以運行在當下的YARN集群管理外,還可以讀取已有的任何Hadoop數據。它可以運行在任何Hadoop數據源上,比如HBase、HDFS等。四是Spark比Hadoop更通用。Spark提供了大量的庫,包括SQL、DataFrames、MLlib、GraphX、SparkStreaming。開發者可以在同一個應用程序中無縫組合使用這些庫。五是實時處理性能強。Spark很好地支持實時的流計算,依賴SparkStreaming對數據進行實時處理。SparkStreaming具備功能強大的API,允許用戶快速開發流應用程序。而且不像其他的流解決方案,比如Storm,SparkStreaming無須額外的代碼和配置,就可以做大量的恢復和交付工作。隨著UCBerkeleyAMPLab推出的新一代大數據平臺Spark系統的出現和逐步發展成熟,近年來國內外開始關注在Spark平臺上如何實現各種機器學習和數據挖掘并行化算法設計。

三、基于Spark技術的網絡安全大數據分析平臺

(一)大數據分析平臺整體架構

本文提出了基于Spark技術的網絡大數據分析平臺,該平臺分為五層,即數據接入層、解析處理層、后臺分布式數據存儲系統層、數據挖掘分析層、接口層,整體架構圖如圖3。其中,數據接入層提供多源數據的接入。解析處理層負責對接入的多源數據進行解析。后臺分布式數據存儲系統層負責所有數據的存儲、讀取和更新的功能,提供基本的API供上層調用。數據挖掘分析層基于Spark等引擎,實現分布式數據關聯分析、特征提取、統計分析等安全事件挖掘能力,同時提供實時檢索與溯源能力。接口層為用戶可以查詢的功能,其中包括數據上傳、查看、任務的生成、參數設定等。

(二)網絡安全大數據分析平臺實現相關技術

表1網絡安全大數據分析平臺實現相關技術結語總而言之,當前基于大數據下的網絡安全面臨著越來越多的挑戰,因此我們必須高度重視大數據時代下網絡安全問題,應對好大數據分析處理工作。本文從當前網絡安全現狀及面臨的問題出發,淺析HadoopMapReduce和Spark大數據分析技術,提出基于Spark技術的網絡安全大數據分析平臺,實現對海量數據的快速分析,該平臺具有高效、高可擴展性,具有很強的適應性。

作者:陳平陽 單位:國家互聯網應急中心福建分中心

參考文獻:

[1]國家計算機網絡應急技術處理協調中心。《2016年我國互聯網網絡安全態勢綜述》。2016.04.19

[2]鄧坤。基于大數據時代下的網絡安全問題分析。《課程教育研究:學法教法研究》,2016(18):15-15

[3]王帥,汪來富,金華敏,沈軍。網絡安全分析中的大數據技術應用[J]。《電信科學》,2015,31(7):139-144

[4]詹義,方媛。基于Spark技術的網絡大數據分析平臺搭建與應用。《互聯網天地》,2016(2):75-78