版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、近年來,伴隨著信息技術(shù)的發(fā)展,流數(shù)據(jù)這一實時、連續(xù)、無限的數(shù)據(jù)類型出現(xiàn)在人們生活的各個領(lǐng)域中。流數(shù)據(jù)的主要特點是:1)數(shù)據(jù)量大、數(shù)據(jù)產(chǎn)生速度快;2)短暫易逝、快速變化;3)數(shù)據(jù)重要性隨時間而下降。系統(tǒng)監(jiān)控應(yīng)用作為確保大型分布式計算機系統(tǒng)運行的重要模塊,持續(xù)不斷地接收著海量監(jiān)控信息,這些信息具有流數(shù)據(jù)的上述特點。如何保證系統(tǒng)監(jiān)控應(yīng)用能有效處理這些數(shù)據(jù),及時發(fā)現(xiàn)系統(tǒng)異常情況,預(yù)測可能出現(xiàn)的異常并提前采取措施,是一個具有學(xué)術(shù)和現(xiàn)實雙重意義的研
2、究方向。
本文以分布式系統(tǒng)監(jiān)控為背景,從流數(shù)據(jù)處理的角度,針對系統(tǒng)監(jiān)控的特點和當(dāng)前監(jiān)控數(shù)據(jù)處理存在的挑戰(zhàn),研究了提高流數(shù)據(jù)監(jiān)控分析處理能力的幾個關(guān)鍵問題:
(1)每個時刻都有新的監(jiān)控數(shù)據(jù)到達,監(jiān)控應(yīng)用需要處理的數(shù)據(jù)規(guī)模十分巨大。面對有限的計算資源與巨大的數(shù)據(jù)量之間的矛盾,如何選擇需要監(jiān)控的對象至關(guān)重要;
(2)在流數(shù)據(jù)監(jiān)控中,數(shù)據(jù)變化迅速,因此監(jiān)控模型需要對其中出現(xiàn)的異常進行及時檢測和快速高效響應(yīng),并隨時更
3、新模型以應(yīng)對數(shù)據(jù)的變化;
(3)在檢測異常和學(xué)習(xí)異常模式的基礎(chǔ)上,流數(shù)據(jù)監(jiān)控模型需要通過對系統(tǒng)運行指標的預(yù)測,提前推斷異常發(fā)生的概率。如何對系統(tǒng)異常進行準確高效的預(yù)測,在需要確保連續(xù)正常運行的分布式系統(tǒng)中,也是一個重要的問題。
本文主要圍繞以上三點內(nèi)容進行研究,即流數(shù)據(jù)中的特征選擇,異常檢測和異常預(yù)測。
流數(shù)據(jù)特征選擇:本文提出了一種適用于流數(shù)據(jù)監(jiān)控的改進信息值特征提取算法,針對流數(shù)據(jù)監(jiān)控中監(jiān)控特征過多、新
4、的特征會不斷進入的問題,使用信息值(Information-value)算法來進行特征提取。該算法是一種基于閾值判斷每個特征對于最終異常分類重要性的方法。在流數(shù)據(jù)環(huán)境下,特征代表的數(shù)據(jù)不是固定的,因此特征的重要性也會有所改變。傳統(tǒng)的特征選擇方法在這種情況下需要反復(fù)計算所有特征的重要性而后對其進行排序。本文提出的改進后的信息值算法,在保留了原信息值算法通過閾值判斷特征的基礎(chǔ)上,做出了兩點改進:1)考慮了各特征之間的相關(guān)性,去除相互冗余的特
5、征;2)使用相關(guān)性向量來保存特征之間的冗余度,在流數(shù)據(jù)監(jiān)控中僅需對增量數(shù)據(jù)而非全部數(shù)據(jù)進行計算。
流數(shù)據(jù)異常檢測:當(dāng)前的大規(guī)模系統(tǒng)通常采用分布式、層次化的監(jiān)控架構(gòu)。監(jiān)控節(jié)點部署在每個工作節(jié)點上,中心管理節(jié)點收集監(jiān)控節(jié)點的數(shù)據(jù)并匯總后進行分析和管理。隨著節(jié)點數(shù)目的增多,通訊開銷會逐漸增大,中心節(jié)點將會成為數(shù)據(jù)處理的瓶頸。
本文考慮了工作節(jié)點的時間相似特性,提出了基于最窄平行線的流數(shù)據(jù)壓縮算法NPLA,并在此基礎(chǔ)上利用帶
6、有權(quán)重的集成分類模型來對系統(tǒng)異常進行檢測。NPLA算法將監(jiān)控到的流數(shù)據(jù)近似成一些線段,在中心節(jié)點和工作節(jié)點上都記錄流數(shù)據(jù)的近似信息。當(dāng)工作節(jié)點新到達的數(shù)據(jù)與近似結(jié)果之間的誤差小于閾值時,監(jiān)控節(jié)點不向管理節(jié)點更新監(jiān)控數(shù)據(jù)。反之,當(dāng)新到達的數(shù)據(jù)與近似結(jié)果之間的誤差大于閾值時,監(jiān)控節(jié)點向管理節(jié)點更新監(jiān)控數(shù)據(jù)。這樣一來監(jiān)控數(shù)據(jù)更新的頻率大大降低。
在精簡監(jiān)控數(shù)據(jù)的基礎(chǔ)上,中心管理節(jié)點通過聚合集成分類模型進行異常檢側(cè)。利用緩存數(shù)據(jù)塊并使
7、用不同的算法來訓(xùn)練分類器,避免了數(shù)據(jù)變化和錯誤數(shù)據(jù)對異常檢測精度的影響。
流數(shù)據(jù)異常預(yù)測:針對傳統(tǒng)離散時間馬爾可夫使用粗粒度狀態(tài)邊界的缺陷,狀態(tài)周圍波動的數(shù)據(jù)真實值與預(yù)測值相差較大。證據(jù)馬爾可夫算法通過定義模糊的狀態(tài)邊界來解決了這一缺陷。本文在證據(jù)馬爾可夫算法的基礎(chǔ)上提出了適用于流數(shù)據(jù)場景的置信馬爾可夫預(yù)測算法。該算法通過使用基于流數(shù)據(jù)的聚類算法來動態(tài)地產(chǎn)生和維護馬爾可夫轉(zhuǎn)移矩陣,因此只需儲存每一個聚類的均值,而并不需要像證據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 流數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究.pdf
- 動態(tài)數(shù)據(jù)流挖掘關(guān)鍵技術(shù)研究.pdf
- 復(fù)雜數(shù)據(jù)流分析關(guān)鍵技術(shù)研究.pdf
- 流數(shù)據(jù)查詢算法若干關(guān)鍵技術(shù)研究.pdf
- 流數(shù)據(jù)管理關(guān)鍵技術(shù)研究與應(yīng)用.pdf
- 監(jiān)控視頻流分析的關(guān)鍵技術(shù)研究及應(yīng)用.pdf
- 數(shù)據(jù)流挖掘關(guān)鍵技術(shù)研究與實現(xiàn).pdf
- 多數(shù)據(jù)流處理的關(guān)鍵技術(shù)研究.pdf
- 智能視頻監(jiān)控技術(shù)關(guān)鍵技術(shù)研究.pdf
- 隧道監(jiān)控系統(tǒng)關(guān)鍵技術(shù)研究.pdf
- PLC遠程監(jiān)控關(guān)鍵技術(shù)研究.pdf
- 智能監(jiān)控及其關(guān)鍵技術(shù)研究.pdf
- 航空數(shù)據(jù)關(guān)鍵技術(shù)研究.pdf
- 數(shù)據(jù)集成關(guān)鍵技術(shù)研究.pdf
- 面向數(shù)據(jù)處理的流計算關(guān)鍵技術(shù)研究.pdf
- 主機安全監(jiān)控關(guān)鍵技術(shù)研究.pdf
- 轉(zhuǎn)載機監(jiān)控關(guān)鍵技術(shù)研究.pdf
- 無線監(jiān)控系統(tǒng)關(guān)鍵技術(shù)研究.pdf
- IT業(yè)務(wù)系統(tǒng)監(jiān)控及其關(guān)鍵技術(shù)研究.pdf
- 紅外監(jiān)控系統(tǒng)中關(guān)鍵技術(shù)研究.pdf
評論
0/150
提交評論