AI遇見SIEM,白山ATD革新企業安全大腦

gself 發布于2019-06-26 18:24 / 1148人閱讀

摘要：然而在中國，還處于比較初級的階段，很多企業對自身安全問題并沒有系統性的管理。年整個中國市場只有億人民幣的規模，這個數字相比中國經濟對全球經濟的占比是不相符的。

作者簡介：

叢磊，白山合伙人兼工程副總裁
2016年加入白山，主要負責云聚合產品的研發管理和云鏈產品體系構建等。
2006年至2015年就職于新浪，原SAE（SinaAppEngine）創始人，曾任總負責人兼首席架構師，2010年起，帶領新浪云計算團隊從事云相關領域的技術研發工作。
現任工信部可信云服務認證評委。

摘要

SIEM是企業安全的核心中樞，負責收集匯總所有的數據，并結合威脅情報對危險進行準確的判斷和預警。但傳統的SIEM過度依靠人工定制安全策略，不僅僅增加了人力成本，而且整個SIEM的識別準確率和使用效果也都大打折扣。而目前附帶AI功能的SIEM系統也只是把AI當成算法插件作為集成，無法在沒有安全人員介入的情況下獨立的智能工作。

本文將從傳統SIEM組件構成入手，介紹AI對于下一代SIEM的適用性和重要性，并重點闡述當前主流SIEM&AI平臺和全新一代SIEM@AI平臺的區別；隨后將結合實際案例深入討論SIEM@AI的兩個核心技術原理：數據分析和數據關聯；在最后的篇幅，文章會探討SIEM@AI的發展和研究方向。

一、SIEM簡史

SIEM是Security Information Event Management的縮寫，又名安全信息事件管理平臺，作為企業的安全大腦，它可以為企業提供安全數據的收集、整合、分析、關聯、處置和展現等功能，是企業業務安全運營的核心和基礎。

早在10年前，SIEM的概念就已經被提出。SIEM作為企業內部涉及安全的日志管理平臺，提供日志的采集、存儲、分析查詢功能。經過十多年的發展，如今SIEM的產品形態已得到豐富拓展，包括支持多維數據源輸入、威脅情報中心（Threat Intelligence）、策略腳本庫（Playbook）等，同時外部威脅數據的共享和獲取也使得SIEM系統不斷被完善。

圖1：SIEM市場規模預測（來自Gartner 2017年報告）

SIEM在美國一直保持著較快發展，根據Gartner相關市場報告，SIEM在全球（主要是美國）最近每年都保持著10%的增長速度，預計在2020年市場規模可達200億人民幣。然而在中國，SIEM還處于比較初級的階段，很多企業對自身安全問題并沒有系統性的管理。2017年整個中國市場只有3.17億人民幣的規模，這個數字相比中國經濟對全球經濟的占比是不相符的。不過可喜的是，SIEM中國市場最近每年都保持著近20%的增長速度，說明越來越多的中國企業已經意識到了SIEM的重要性。

但并非所有企業都需要SIEM，處于初期發展階段的企業數據流和業務量單一，面臨的安全威脅較少，安全設備和軟件的需求也相對較小，依靠獨立的安全產品即可滿足基本需求。當企業發展到中大型規模時，業務線增多，內外網安全環境變得復雜，同時前期使用的安全產品也達到了一定數量，這時就有必要接入SIEM來實現統一的安全運營管理。

二、解構SIEM

圖2：SIEM整體架構圖

SIEM平臺的主要架構由5個層次組成：

1.采集層：系統數據入口。SIEM大多支持多種數據輸入，這些數據從來源劃分，包括終端用戶設備、網絡設備、服務器、存儲設備等；從OSI模型劃分，包括了數據鏈路層、網絡層、傳輸層、應用層的網絡流量；從系統角色劃分，包括不同的業務系統、中間件系統、負載均衡系統等。這些數據或以推送的方式或以拉取的方式向SIEM平臺輸送，供SIEM進行后續的分析計算。
采集層使用的技術主要分為兩類：“侵入式”和“無侵入式”。“侵入式”一般采用部署Agent程序，或者用戶在自身代碼邏輯中添加程序探針等方式采集數據；“無侵入式”一般則采用旁路鏡像流量或者輸入日志等方式采集數據。兩種模式各有優缺點，“侵入式”有利于企業增加定制化功能，并結合SIEM平臺的多維特性深入貼合業務，但弊端在于外掛式的Agent一旦不穩定，就會影響用戶自身業務，甚至導致系統宕機，我自己就遇到過好幾個客戶向我抱怨自身的服務被廠商的嵌入SDK搞的不穩定。“無侵入式”則可以完全避免對業務系統的影響，一方面提升系統穩定性，另一方面保護系統數據安全。在技術成熟的情況下，對用戶來說，“無入侵式”采集方式顯然更加友好。

2.存儲層：采集后的數據除了供給后面的計算分析外，還會進行存儲。存儲層有兩個目的：一是對原始采集數據進行存儲，二是對計算分析完成的結果進行存儲。
存儲可選擇的技術棧一般包括數據管道（中間數據傳輸），熱存儲（存儲常用數據查詢、更新），冷存儲（存儲不常用的數據）。嚴格說，數據管道不算是存儲，但在實際上為了防范后端數據丟失或堆積，一般也會將經過管道的數據進行臨時存儲，比如互聯網公司最常用的Kafka隊列就是將中間數據落地在磁盤上。
冷熱分級存儲的目的在于，保證熱數據操作速度的同時，在一定程度上降低企業存儲成本。對于冷存儲而言，比性能更大的技術挑戰是可靠性和可用性，支持多IDC、甚至多Zone的大型分布式存儲技術系統是企業首選；而對于熱存儲，更關注的是讀寫速度以及如何被計算單元使用，所以一般會選擇帶有Sharding能力的分布式存儲。

3.計算層：SIEM平臺的核心。分析準不準、全不全、快不快都依賴這層的計算單元。目前主流的計算模式包括實時計算平臺和離線計算平臺。
海量數據的離線計算平臺起源較早，早在10多年前就出現在Google的MapReduce系統中，MapReduce底層先利用GFS將海量數據分片存儲，解決了單點設備的IO吞吐瓶頸。每個計算節點再依賴調度器或執行Map任務或執行Reduce任務，不斷將海量計算任務分解、歸并，最終輸出期望的計算結果。實時計算平臺算是海量數據計算的后起之秀，包括了以Storm為代表的實時流處理和以Spark steaming為代表的微批次處理兩種技術實現方式。
在實時性上，實時流處理模式的處理速度更快，但從實際的使用經驗來看，這種模式也要求更高的技術運維經驗。無論是實時計算平臺還是離線計算平臺，都要求支持任務的Partition，這樣可以在某些主機宕機的情況下，仍然保證計算順利完成。
計算平臺最核心的并不是計算框架，而是算法部分的計算邏輯。計算邏輯對流量、用戶請求、系統交互信息等不同類型的數據進行計算。目前絕大部分SIEM平臺的實現都是基于規則引擎，如Drools，這就需要依賴使用者制定大量的規則，一旦使用者制定的規則有錯誤或者有遺漏，就會造成錯判漏判。

4.輸出層：計算層分析的結果最終傳導至輸出層。傳統SIEM的輸出方式有很多，包括展現層面、報表層面、報警通知層面、實時阻斷層面等，企業可以根據不同業務部門的不同需求選擇合適的輸出方式。SIEM的輸出結果不僅僅和安全部門或業務部門有關，還可能涉及到其他業務單元，比如資產管理、組織管理等。
從事件處理的生命周期來看，處理方式可以分成自動方式和手動方式，自動方式可以對計算層分析出的安全威脅事件進行自動處理，包括通知、預警、上報甚至阻斷，而對于不能自動處理的情況，就需要手動方式，這時可以借助工單系統進行后續處理跟蹤，最終保證安全威脅被處理。

5.情報中心：情報中心為SIEM計算層提供額外的數據支撐，從而提高威脅和異常行為識別的準確率。情報中心的數據來源一般有三種渠道，第一種是來自公開輸出的威脅情報，如X-Force Exchange、ThreatBook、Shodan等；第二種是來自自身搜集的威脅情報數據，如通過蜜罐采集、API調取或者交換購買等方式取得有價值的威脅情報；第三種就是來自跟業務自身相關的輔助數據，如用戶注冊信息，企業資產信息、組織信息等等，這些信息看似和安全威脅關聯不大，但是當多種數據聯合分析時，就可以為最終的結果輸出提供有效參考。
情報中心數據的內容包含多種形式，常用的如IP庫、設備指紋庫、黑卡庫、漏洞庫等。使用或依賴情報中心要注意情報的實時性，因為目前云化和共（zu）享（yong）經濟的普及，很多資源并不是獨占的，而是在一定時間后就被回收，并交由其他用途，這樣的話如果情報更新不及時就會適得其反。

三、SIEM、態勢感知和SOC安全運營中心

SIEM、態勢感知和SOC安全運營中心有著緊密關系。其中態勢感知范圍很廣，主要聚焦在感知過去、理解現在、預測未來三個層面，這和SIEM的采集并計算分析給出結果進而感知預測是高度吻合的。一些企業發布的態勢感知系統其實就是簡化的SIEM或者是SIEM的超集。SOC安全運營中心則在SIEM的基礎上突出了人的作用，強調了人和平臺以及軟件之間的聯動，通過類似Ticket系統的任務追蹤機制，配合SIEM提供的數據分析結果，用人對業務和資產進行全面的安全管理。

總之，SIEM對于企業的整體安全分析是非常重要的，通過SIEM可以打通多種數據流的信息，形成對于安全威脅的事前、事中、事后處理，最終保證企業的整體資產及業務安全。

四、AI遇上SIEM

如果說IT技術有風口的話，那么AI無疑是最前沿并且最落地的，AI整體發展分為三個階段：

1.識別階段，解決What的問題，這是最基礎的AI問題。目前的AI通過大量有監督學習，提取標注樣本的表象或內在特征，形成一個或多個分類器，分類器對樣本數據特征進行學習訓練，最終對新的輸入進行準確識別，從而解決什么是什么的問題。比如什么是小狗、什么是色情圖片等。

典型的應用包括驗證碼識別、語音識別、垃圾郵件識別等。人們熟知的AlphaGo也是識別問題，深度學習通過對成千上萬個已經標注好輸贏的棋局進行訓練，利用頭幾層的神經元網絡，越過表象特征挖掘出人都很難理解的深層次特征，形成了對于棋局的“感應”能力，從而對某個棋局是更有利于黑方還是白方做出判斷，再結合αβ search或MCTS等算法，給出下一步走法的最優解。應該說識別是應用AI最成熟的領域。

2.理解階段，解決Why的問題，這是在識別的基礎上進一步的AI問題。比如一段文字想表達的情感是什么？一個電影講述的故事是什么？一段語音的問題是問什么等等。最典型的應用場景就是人機對話，其基礎是理解人說的是什么，想表達什么意思。

理解問題最原始的解決辦法就是構造各種語義模板，用來做情感標注，變相把理解問題轉換成識別問題。但隨著深度學習的普及，已經出現了很多新的技術以突破模板定義的限制進而試圖真正理解內在含義。但是通過蘋果手機Siri的例子就可以看出，目前的AI對于理解問題的能力還遠遠沒有到成熟的階段。

3.反饋階段，解決How的問題。How本質是在識別的基礎上，理解了對方的信息內容后，做出恰當的反饋。反饋是AI的最高境界，是實現真正人機互動的關鍵，有了反饋互動的能力，AI就可以像真人一樣在一些領域部分代替人類，甚至完全代替人類。但很明顯，目前AI的發展階段離這個目標還相距甚遠。

從AI的三個發展階段看，目前AI還主要處于“識別”和“理解”的初期，離真正的“代替人類”還有很長遠的路要走，當下真正已經成熟使用的技術基本集中在“識別”問題。同時我們觀察安全領域就會發現，安全領域里的問題恰恰就是非常典型的"識別"問題，通過SIEM里的各種輸入數據進行分析，只需要識別這個事件或這個用戶是否存在威脅即可，整個過程無關理解也無關反饋。

圖3：主流SIEM系統AI工具示例

應該看到，目前的新型SIEM已經集成了AI的能力，比如有的SIEM平臺，集成了常用的AI算法，比如異常檢測、線性預測，這些算法以插件的方式集成進平臺，用戶可以基于這些算法分析自身的數據。

五、從SIEM&AI到SIEM@AI

目前主流SIEM平臺的最大缺點是：他們僅僅是SIEM&AI（以AI作為工具），把AI僅僅當成是SIEM平臺的一個附屬插件或工具，而沒有把整個SIEM平臺構建在AI技術上面。這樣帶來的影響是，企業使用SIEM時需要花費大量的時間、精力、人力去學習、配置和使用這些AI工具，另外，SIEM&AI還要求企業具有一定的特征工程經驗，而這對于很多企業而言是不現實的。我見過很多企業客戶，當我問到他們使用SIEM&AI類產品的的AI部分的體驗時，都是一臉茫然，仿佛花了大價錢買了高級玩具卻沒玩起來。

而企業真正需要的是：SIEM@AI（以AI作為平臺），無需很多成本甚至完全無需學習成本，即可使用AI技術從海量的輸入數據流信息中發掘威脅事件，并自動使用AI技術對不同業務、不同維度的數據進行智能關聯，建立內在聯系，并最終自動的對威脅事件進行處置處理。

六、AI賦能數據分析

數據標注難題

如前所述，在安全領域，大部分問題都是“識別”問題，從數據分析的角度，可以將問題最終歸為分類問題。通過建立算法模型，預測進行中的事件甚至還未到來的事件是否存在威脅，也就是把它們分成有威脅和無威脅兩類。但是安全領域在使用AI時存在一個巨大的困難，即樣本標注難。對于經典的圖片識別問題，企業可以使用較低的人力成本批量制作標注樣本，然后送入深度神經網絡訓練。但是安全問題則不同，從大量雜亂的信息數據中識別是否存在威脅、是何種威脅，需要專業的安全人員，甚至多個部門跨部門協作才能完成。

無監督學習化解標注難題

標注難問題可解嗎？答案是肯定的，那就是利用無監督學習。無監督學習可以將正常事件聚在一起，同時也會將異常事件聚在一起，從而方便算法識別出異常威脅。而整個威脅識別的過程無需標注樣本，也大大降低了人工參與的程度。

無監督學習是機器學習中一個非常重要的分支，不同于有監督學習需要依賴大量標注好的樣本才能讓分類器進行學習，無監督學習可以在沒有任何標注樣本的情況下由分類器自主學習。只不過目前市場上絕大多數產品都集中在有監督學習上，導致無監督被長期忽略了。

圖4：聚類示意圖

白山ATD（Advanced Threat Detection，深度威脅識別，新一代的SIEM@AI系統）產品大量使用了無監督學習技術來進行威脅事件識別，無監督學習的本質是將數據進行聚類，而根據聚類實現的過程不同又主要分為三種算法：

距離聚類

核密度聚類

層次聚類

距離聚類

距離聚類是最常見的聚類算法，本質是EM算法，通過對于距離中心點的不斷迭代修正，最終將所有事件進行歸類，那么有威脅的事件自然會被歸到一簇或者幾簇，而正常的事件也會因為更相似的距離而歸到一簇或者幾簇。當然這是理想情況，在現實場景中實施算法還需要做很多的加工工作。距離聚類的最大困難一是距離計算方式的選擇，二是聚類簇數量的選擇。

距離計算選擇主要包含兩個方面：

如何規定事件邊界：繁雜的海量數據輸入中，一個事件的邊界從哪里開始，到哪里結束，包含哪些數據。這需要按照不同的應用場景做不同的處理，常見的方式有按照時間段，也有按照事件切分點。

如何制定事件間距離：事件有很多不同的描述維度，對于最常見的維度——時間、地點而言，記錄時間有可能是UNIX時間戳，記錄地點有能是GEO IP或者MAC地址，那么如何把UNIX時間戳和IP地址放在一個向量空間模型里比較距離就是一個問題了。這里ATD采用的Z-Score算法進行距離映射，使得映射后的數據具有完全的正太分布特征。

簇的數量選擇對于無監督學習的算法效果至關重要，一旦初始簇的數量選擇不合適，就有可能導致聚類的結果完全錯誤。

圖5：聚類示意圖

如上圖，紅色異常點是我們需要識別出來的，顯然聚類簇數為2的效果比聚類簇數為3的效果要好，因為3將正常的事件點也分為了兩類。ATD使用一系列算法在聚類前預判準確的聚類簇數量，最好的情況下可以提升200%的聚類效果。

核密度聚類

核密度聚類不需要事先指定聚類的簇數，而是根據初始的密度值進行聚類選擇，所有與核距離過遠的事件都會被標記為離群點，這些離群點從安全角度看可能就是威脅事件。

密度聚類的前提是需要選擇合適的初始密度值，如果選擇不當將導致離群點錯誤，最終使威脅事件誤判。另一方面，控制離群點的數量和純度對最終的識別效果也很重要，因為在實際生產環境中，很有可能出現大量的離散點其實也是正常的事件。所以有時候也需要在第一次聚類后，調整事件的特征選擇算法，針對離群點進行二次聚類。

層次聚類

層次聚類的原理是先將所有事件看成樹的葉子節點，每個葉子節點自成一類，然后根據相互的距離，自下而上逐層合并，最終形成一個根。

層次聚類可以根據需要，按照最終聚類的簇數進行層層歸并，最終聚成的小簇我們可以認為是某種離群點，即有可能是一些威脅事件。可以看出，層次聚類的核心仍然是距離計算模型的選擇。

智能分析風險

利用無監督學習，可以在無需標注樣本和無人工介入的前提下，發現很多異常的威脅風險。下圖是一個被ATD系統識別出的實際例子：

圖6：ATD無監督學習示例結果

這是一個ATD對企業電商業務無監督學習的實際案例，案例顯示大部分用戶的訪問路徑集中在
登錄頁=》授權頁=》訂單頁的訪問趨勢，通過無監督學習就可以將正常用戶的行為聚在一起。反觀刷單的惡意行為則會繞過授權頁直接訪問訂單頁，這樣在無監督學習過程中就自然形成了離群點，這樣我們就可以幫助企業識別出刷單的威脅風險。

七、AI賦能數據關聯

橫向關聯

AI威脅數據分析，分成縱向的數據分析和橫向的數據關聯：

圖7：數據的縱向分析和橫向關聯

縱向分析指的是對于事件群體按照時間軸學習規律，以此進行對于已有的威脅識別和對于未來的態勢感知。橫向關聯指對空間上不直接相關的不同事件群體，通過算法挖掘它們的深層次關聯關系，最終形成更準確的威脅識別或者便于對威脅事件進行更全面的回溯。

對于大多數SIEM產品，只要附帶AI工具功能的，便可以完成諸如異常點檢查、趨勢預測等任務（盡管他們當中絕大多數都是有監督學習，這也就意味著客戶需要提供大量標注好的威脅事件和正常事件的樣本），不過這些任務都是縱向分析，并不是橫向關聯。因此，對于新一代SIEM@AI系統來說，比起無監督學習進行縱向分析，更有挑戰的任務是在表層不相關的海量數據中建立潛在關聯，從而實現真正的深度威脅識別。

事件的相關運算

常見的事件關聯場景基本上可以分為這兩種：

A，某一作用域（如某一時間段內）的事件集合，挖掘事件之間的關聯關系，如：

上圖就是兩個完全由不同系統統計輸出的事件，我們需要用算法分析是否存在關聯，這個過程實際可以轉換為：按行分析相關性。

B，同一類型事件，挖掘構成的因素是否存在關聯關系，如：

上圖所示，全部“ERP系統不能訪問”的事件中，各個因素間是否存在關聯，這個過程實際可以轉換為：按列分析相關性。

由此可以看出，無論是不同事件的關聯分析，還是同一類事件的內在因素關聯，本質可以轉換為矩陣的行相關或列相關。對于列相關，通過對于矩陣轉置運算，也可以轉換為行相關，即：

我們只需要分析K1和K2是否在某種程度存在相關。

對于這種關聯分析，最常見的方式是用類似KNN算法中，通過計算兩個事件元素的夾角來判斷相關性：
θ=acos(K1?K2/(|K1||K2|))

當夾角越小時，表示兩個事件越相關，而當夾角互相垂直（即正交）時，表示兩個事件完全無關。
當然，我們還可以使用其他的方式計算相關性，比如Jaccard距離：
J(K1,K2)=|K1?K2|/|K1?K2|

當J值越大時，表示兩個事件越相關，反之則越不相關。

夾角距離計算方式更適用數值型的事件向量，而Jaccard距離計算方式更適合枚舉字符串類型的事件向量。當然事實上，我們可以把任何字符串類型的事件，通過word2vec或者simhash等算法方式轉變為數值型事件向量，然后再進行夾角計算。

啤酒與尿布

說到數據關聯，不得不提的經典故事就是“啤酒與尿布”了，沃爾瑪在做數據關聯分析時發現啤酒和尿布在購物單上是相關的，這是怎么回事？原來妻子經常會囑咐丈夫下班以后要為孩子買尿布。而丈夫在買完尿布之后又要順手買回自己愛喝的啤酒，因此啤酒和尿布的銷售行為上具有相關性。

從數據關聯算法復雜性的角度看，啤酒和尿布的關聯屬于比較簡單也相對直接一些的關聯，Apriori算法就是解決這個問題的簡單可實現的算法之一。Apriori算法通過不斷的篩選頻繁項并且不斷的產生新關聯規則的方式，最終得到關聯性最強的事件元素。

圖8：Apriori算法示意圖

深入Apriori算法的過程就會發現，其實Apriori整個計算過程和計算事件間的Jaccard距離十分類似，本質都是比較兩個事件的相似因素后進行篩選。不過Apriori算法在實現上比兩兩比較效率更高，因為在其中有剪枝縮小范圍的過程。

更隱晦的事件關聯

其實，在ATD給客戶服務的實際應用場景中，上文提到的“啤酒，尿布”還都算是比較簡單的事件關聯模型。更為復雜的是，如何發現從人的感知認識角度看并不是那么直接的關聯關系。比如空氣的霧霾指數和城市用電量的關系，從人的感知角度，這兩個并不是特別的直接相關。但當我們在兩個事件中引入一個橋梁，即室內人數占比，就會發現這樣的概率關系：
P（用電量/霧霾）=>P（室內人數增加/霧霾）* P（用電量增加/室內人口增加），其中P（A/B）表示B事件發生情況下發生A事件的概率

如果可以列舉出霧霾導致的所有核心事件，就可以使用全概率公式推導出霧霾和用電量的關系（所以這里我并沒有使用等號=而是使用了=>）。

從威脅識別的角度，通過這種中間的橋梁事件，同理也可以構建出兩個看似不相關的事件之間的關系。比如在我們給某家電企業部署的ATD運行中，就發現了一次疑似的CC攻擊實際是和后端某業務線數據庫變更操作有關：
P（疑似CC攻擊/業務線數據庫變更）=>P（疑似CC攻擊/接口訪問飆升） P（接口訪問飆升/504占比） P（504占比/請求阻塞）P（請求阻塞/數據庫阻塞）P（數據庫阻塞/數據庫變更）

解決這種復雜隱晦的事件關聯的前提是首先要把所有信息（不管認為是否相關）都收集進來（這也是文章開始階段提到的SIEM的采集層需要解決的），盡可能多的采集各種數據，因為只有采集到數據才有可能建立關聯。當海量的數據采集進來后，我們往往在做下一步相關分析時會發現一個難題，即：因為數據太多，導致分析的性能很低。如果威脅事件分析的不及時，很可能會影響后續的處理，所以整個分析過程的低延遲至關重要。

數據降維

如何保證處理速度呢？那就需要對數據進行降維分解，從而降低計算空間，這里面有兩種做法：

有監督降維

如果企業本身有大量標注數據，那就可以使用有監督降維，最經典的有監督降維就是PCA（Principal Component Analysis，主成分分析），其原理是選擇一種最優的數據投射方式，從高維空間投射到低維空間，并且保證投射后有較好的區分度。

無監督降維

在沒有大量標注數據的情況下就可以使用無監督降維，這也正是ATD所使用的數據降維方式。有很多種算法都可以進行無監督降維，ATD最早使用的是LDA（Latent Dirichlet Allocation）主題發現模型進行降維，通過LDA先將數據按照主題相關性聚類，降低每一類中數據的數量和維度，從而減少后續計算的復雜度。

這里，我想介紹另外一種數據降維的方式，也是我們目前正在嘗試的——SVD（Singular Value Decomposition）分解。

圖9：對威脅事件進行SVD分解

上圖所示，我們先對于一個海量的事件集進行了SVD分解，分解的結果是三個矩陣的乘積，然后通過對于中間Σ矩陣的元素進行篩選，就可以降低整個事件集群的復雜度，同時找到同一個隱含主題下的關聯事件和關聯因素。隱含主題的數量本質上就是事件矩陣的秩。

從更深的角度講，無論是LDA還是SVD，其實本質都是去尋找事件矩陣的秩，利用秩找到構成事件的最核心因素，比如對于一個入侵事件，可能的核心因素是用戶的屬性（內/外部用戶、是否授權、相應職級等等）、入侵時間、侵入的業務類型，而其他的因素，諸如員工的年齡、當時的服務器負載等等其他因素有可能就會被算法自動識別為非關鍵因素而忽略掉。通過這種方式就可以在茫茫信息中發現關鍵因素，從而為后面的事件關聯大大降低運算量。

總之，數據的橫向關聯是一個極富挑戰性的任務，其中最重要的先決條件是通過SIEM的采集層收集足夠的數據，其次是選擇合適的算法對數據進行加工處理，最后是通過AI算法對數據進行關聯分析。在ATD客戶的實際使用中，我們成功地發現了外網的接口攻擊和內網數據庫變更之間的關系，也發現了某郵件系統的Exchange日志事件和內網SSH事件之間的關系。這種關聯分析不僅僅對于已知威脅的回溯有幫助，也對未來的安全態勢感知有重大意義。

八、關于未來方向的探究

從SIEM&AI模式到SIEM@AI模式，我們不再將AI看成是插件或者工具，而是將系統運行在一個完全由AI驅動的智能平臺上。在這個平臺上，我們無需標注數據，無需大量人工介入，也無需定制規則，而是通過以無監督學習為主導的機器學習算法自動對異常威脅事件進行識別，自動的為各個復雜事件建立內在關聯，提高識別的準確率和召回率的同時，解放安全工程師的人力并提高其效率，最終實現對于企業外網、業務、內網的三層智能防御。

白山ATD產品就是一套全新的SIEM@AI系統，我們過去花費了大量時間和精力去研發基于無監督學習的AI算法來代替目前的傳統企業安全產品，這種模式的有效性在企業實踐中已經得到了驗證。未來，ATD還會在兩個方向做進一步探索研究：

1.通過主動學習引入人的參與

引入無監督學習的目的是不依賴標注的樣本，因為在安全領域，標注樣本的獲取成本非常大，但是這并不代表可以完全不依靠人工。在可預見的時間范圍內，有經驗的安全專家對威脅風險的識別、對于算法的修正以及對于整個AI系統的魯棒性維護都是非常重要的。但是，安全專家的時間精力畢竟有限，如何在準確全面識別安全威脅的前提下，降低安全專家的時間成本就顯得十分關鍵。

對此，我們引入主動學習算法，它是一種特殊的半監督學習，依靠安全專家對少量的AI識別出的結果進行人工校驗，從而不斷對原有算法進行微調，直到最終收斂。主動學習里有兩個因素非常重要，一是如何挑選供給人工校驗的識別結果，二是對于識別結果的糾正如何反饋到算法模型中。通過主動學習，我們就可以構建不斷學習、不斷演變的SIEM系統，進而隨著與人的磨合，系統會變得越來越智能，越來越準確。

2.通過深度學習識別非直觀威脅

有些威脅或者異常本身不具備直觀表述性，甚至不能被向量化、離散化，最直接的例子就是加密流量。加密后的流量本身是人不可表述的，只是一層二進制輸入流。還有些安全事件由于關聯業務太多，很難用語言來表述為什么當初這個問題被判定為異常。對于這些問題，都可以嘗試使用深度學習的算法來解決，不過深度學習要求有大量的標注樣本，只有在這個前提下，才能保證算法的效果。這就要求企業在平時的SIEM系統運行中，就不斷增加對于威脅事件判定的積累，當數據積累到一定程度后，就可以使用深度學習算法進行分析。

AI作為安全領域的顛覆性技術，與SIEM的結合將構建一個完全基于AI的、充分智能的、低人工甚至無需人工介入的新一代SIEM@AI平臺，這將改變目前安全產品依靠策略設定的固有模式，成為新一代企業安全大腦。

云服務器 GPU云服務器 ATD SIEM 技術革新 php 常遇見的問題

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/19735.html

AI遇見SIEM,白山ATD革新企業安全大腦

摘要：然而在中國，還處于比較初級的階段，很多企業對自身安全問題并沒有系統性的管理。年整個中國市場只有億人民幣的規模，這個數字相比中國經濟對全球經濟的占比是不相符的。 showImg(https://segmentfault.com/img/bV9xRN?w=865&h=950);作者簡介：叢磊，白山合伙人兼工程副總裁2016年加入白山，主要負責云聚合產品的研發管理和云鏈產品體系構建等。20...

leanote 2019-06-21 16:43 評論0 收藏0
AI重新定義Web安全

摘要：在不便中，一直蘊藏著技術革新的機會這時，機器學習來了機器學習是解決安全問題的金鑰匙機器學習其實早已到來。正因為安全問題本質是特定領域內的識別問題，所以從理論上講，機器學習非常適合應用在安全領域，是解決安全問題的金鑰匙。作者簡介： showImg(https://segmentfault.com/img/bVXnOA?w=279&h=306); 叢磊白山合伙人兼工程副總裁。叢磊先生2...

617035918 2019-06-26 18:18 評論0 收藏0
阿里云安全肖力：從RSA2019看安全技術發展的十個機遇

摘要：各廠商紛紛推出各種零信任安全產品。身份認證將成為企業新的安全邊界。過去一年從企業數據泄漏事件來看，數據安全技術和方案還需要提升成熟度。云安全成為最熱焦點今年安全廠商涉及云安全，云安全成為各廠商最熱點話題。又一年RSA大會歸來。每一年參會，總會有一些不同的感悟，或是發現全球安全行業的新趨勢，或是找到志同道合的新伙伴，或是看到很多人也相信我們相信的安全技術新方向。今天在回國的航班上提筆寫...

willin 2019-06-21 16:54 評論0 收藏0
為給“城市大腦”裝上眼睛，他探索了近20年

摘要：日前，因他為衢州城市大腦所作出的貢獻，被授予衢州市榮譽市民稱號。城市大腦提出初期，質疑聲一片。城市大腦上線后，得到客戶明確的認可時，華先勝感慨萬分。 9月19日杭州云棲大會上，阿里云正式發布了杭州城市大腦2.0，城市大腦已成為杭州新的基礎設施，一年管轄范圍擴大28倍。杭州市公安局局長金志表示：‘城市大腦’的嘗試，讓我們看到了云計算與大數據在城市管理上的巨大能量和廣闊前景。阿里巴巴集團...

Coly 2019-06-26 18:35 評論0 收藏0
為給“城市大腦”裝上眼睛，他探索了近20年

摘要：日前，因他為衢州城市大腦所作出的貢獻，被授予衢州市榮譽市民稱號。城市大腦提出初期，質疑聲一片。城市大腦上線后，得到客戶明確的認可時，華先勝感慨萬分。 9月19日杭州云棲大會上，阿里云正式發布了杭州城市大腦2.0，城市大腦已成為杭州新的基礎設施，一年管轄范圍擴大28倍。杭州市公安局局長金志表示：‘城市大腦’的嘗試，讓我們看到了云計算與大數據在城市管理上的巨大能量和廣闊前景。阿里巴巴集團...

lushan 2019-06-21 16:49 評論0 收藏0