當機器學習遇上資安防禦,數據分析如何讓威脅無所遁形
有些企業現在用機器學習、資料科學,甚至會去訓練自己專屬的大型語言模型來強化他們的資料分析策略——這做法聽說對於提升威脅偵測,還有了解那些組織可能面臨的風險,可能會帶來一些進展。其實,公司裡的資料分析平台和裡頭放著的資訊,好像一直以來都算是資安主管得顧好的重要資產,但偶爾大家也討論到,這些數據本身又能反過來幫忙安全團隊找出、解決那些潛在風險。
最近人工智慧、機器學習各種技術發展速度也蠻快,有時候讓人覺得,比起以前,現在網路安全負責人好像更容易抓到攻擊的一點蛛絲馬跡。這樣一來,他們處理問題的腳步,也許能比從前快上一些。
密西根大學創新科技學院那位教授Timothy Bates倒是提過一句話,大致意思是:「現在安全管理不全靠傳統防禦手段,更關鍵的是會不會善用那些數據。」Bates老師之前在通用汽車待過一陣子,那時候印象中公司推了一個全球性的資安運營中心——不是很確定細節,不過應該就是要從被動轉成比較主動防禦吧。他們還採用了入侵檢測工具,加上某種集中的事件管理系統,把分布在不同地方的日誌都拉到一起分析。
但到底這套方法每家公司能不能直接複製?其實還是看情境,也有人認為效果大概只有部分體現。不過整體說起來,只要搭配其他手段,有沒有可能早點掌握異常狀況,或許也值得再觀察看看。
最近人工智慧、機器學習各種技術發展速度也蠻快,有時候讓人覺得,比起以前,現在網路安全負責人好像更容易抓到攻擊的一點蛛絲馬跡。這樣一來,他們處理問題的腳步,也許能比從前快上一些。
密西根大學創新科技學院那位教授Timothy Bates倒是提過一句話,大致意思是:「現在安全管理不全靠傳統防禦手段,更關鍵的是會不會善用那些數據。」Bates老師之前在通用汽車待過一陣子,那時候印象中公司推了一個全球性的資安運營中心——不是很確定細節,不過應該就是要從被動轉成比較主動防禦吧。他們還採用了入侵檢測工具,加上某種集中的事件管理系統,把分布在不同地方的日誌都拉到一起分析。
但到底這套方法每家公司能不能直接複製?其實還是看情境,也有人認為效果大概只有部分體現。不過整體說起來,只要搭配其他手段,有沒有可能早點掌握異常狀況,或許也值得再觀察看看。
從被動到主動,通用汽車如何用行為基準線攔截千萬美元攻擊
數據分析這件事,真的有時候會帶來一些出乎意料的發現。Bates提到,他們團隊得每天處理下來可能是數十億筆紀錄(大概就是非常龐大的資料量),然後慢慢地建立起一種行為基準線,好像就比較容易即時察覺那種不尋常的變動。有一次,他們在製造相關網路裡頭注意到好像登入跟指令操作有點怪怪的,說不上哪裡不對,但總之和過去的模式不太一樣。這讓他們還沒等問題惡化,就及時發現原來有人在用某些憑證做嘗試攻擊,如果再晚一點,損失或許會蠻嚴重——估計應該會超過幾百萬的損害吧。不過,誰也說不準嘛。
AI、機器學習、數據科學那些,其實在需要處理大量資訊時,看起來算是挺有幫助。LogicGate那位負責人Nick Kathmann就表示,目前雖然效果還在慢慢進步,不過如果把那些海量安全資料和風險管理結合,其實已經能看到一些成果了。有趣的是,光是持續收集安全相關訊息,再丟給AI或各種分析工具運作,也未必保證都順利。反倒是企業裡面的安全團隊,大概還是要遵循某些比較合適的方法才行。
話說回來,要怎麼讓這些資料真正派上用場?其實也沒有完全標準答案,有的人會建議幾個方向,但每間公司狀況都不同,有些做法可能成效不是很明顯。不過目前看起來,只靠技術本身並不足夠,人力判斷還是挺重要的。
AI、機器學習、數據科學那些,其實在需要處理大量資訊時,看起來算是挺有幫助。LogicGate那位負責人Nick Kathmann就表示,目前雖然效果還在慢慢進步,不過如果把那些海量安全資料和風險管理結合,其實已經能看到一些成果了。有趣的是,光是持續收集安全相關訊息,再丟給AI或各種分析工具運作,也未必保證都順利。反倒是企業裡面的安全團隊,大概還是要遵循某些比較合適的方法才行。
話說回來,要怎麼讓這些資料真正派上用場?其實也沒有完全標準答案,有的人會建議幾個方向,但每間公司狀況都不同,有些做法可能成效不是很明顯。不過目前看起來,只靠技術本身並不足夠,人力判斷還是挺重要的。
Comparison Table:
主題 | 結論 |
---|---|
數據湖與SIEM平台整合 | 有效整合可提升機器學習模型的資訊判斷能力,協助辨識潛在威脅。 |
跨部門合作 | 資安團隊與資料科學家的協作有助於根據組織特性調整模型,提供更具針對性的防護措施。 |
異常檢測方法 | 應關注細微變化,例如奇怪的登入時間和陌生設備操作,以便提早發現威脅。 |
資料品質管理 | 持續清理、校正和標準化資料能提高分析準確度並降低模型偏移風險。 |
AI在資安中的角色 | 客製化的大型語言模型(LLM)可用於事件預處理,提高資料質量,優化社會運作中心(SOC)的效率。 |

為什麼單純收集海量安全數據還不夠,關鍵在於這三個字
有些時候,大家討論資安監控平台(SIEM)和機器學習模型的結合,好像已經不是什麼新鮮事。Bates就提到過一個做法:把日誌蒐集回來,用ML去找規律。通常,一天的日誌數量多得難以想像,可能是數不清的紀錄在那邊流動。據說,他們會先為不同部門建立一種行為基準線,然後再用ML去盯著看,看有沒有什麼異常突然跑出來。
光靠那些日誌,好像也很難直接知道哪裡出了狀況;但如果能發現某些模式,好像就比較容易釐清問題。Bates自己好像描述過,這類分析方法對於辨識GM那次憑證塞爆攻擊還挺有幫助——雖然當時那些活動表面上和內部管理操作相似,但仔細看還是有點微妙的不一樣,結果他們系統就發現了這個偏差。
其實,在BairesDev,也曾有人說過,這種ML資料分析的方式讓他們更快看到一些可疑徵兆。不過究竟是不是每家公司都適合,也許還要看情境。有的人覺得這給安全團隊帶來不少便利,但也聽過有人說效果沒有想像中明顯,大概就是這樣吧。
光靠那些日誌,好像也很難直接知道哪裡出了狀況;但如果能發現某些模式,好像就比較容易釐清問題。Bates自己好像描述過,這類分析方法對於辨識GM那次憑證塞爆攻擊還挺有幫助——雖然當時那些活動表面上和內部管理操作相似,但仔細看還是有點微妙的不一樣,結果他們系統就發現了這個偏差。
其實,在BairesDev,也曾有人說過,這種ML資料分析的方式讓他們更快看到一些可疑徵兆。不過究竟是不是每家公司都適合,也許還要看情境。有的人覺得這給安全團隊帶來不少便利,但也聽過有人說效果沒有想像中明顯,大概就是這樣吧。
給SIEM裝上AI大腦,讓機器學習從日誌噪音中提煉行動洞察
據說,像Pablo Riboldi這樣的資安長在軟體開發公司裡,好像會常提到機器學習怎麼協助保護網路。有些人形容,系統會根據網路流量、用戶行為還有裝置活動去「猜」什麼算正常,然後遇到可疑狀況就即時提醒。其實這種早期警示,不一定完全能阻止所有問題,但某些時候確實讓團隊能更快注意到內部威脅或帳號可能被盜用,甚至駭客在網路裡偷偷摸摸移動的狀態也比較容易被察覺。
聽說ML工具現在連很難纏的釣魚攻擊,有時候都能抓個七七八八,比傳統過濾多補一層。不過效果好不好,大概還是要看平常餵了多少新資料,因為駭客手法變來變去,要不斷更新模型才跟得上。Riboldi也有提過,久而久之這類系統誤報率應該會慢慢降下來,安全人員可以把重心放在真正危險的地方——當然這也不是說所有弱點都一樣嚴重,有些事對商業影響比較大,用機器學習去排優先順序或許比較合理。
講到這,其實「學習」這兩字滿重要的。模型只靠舊資料,很可能就跟不上形勢,所以必須三不五時重新訓練一下。總之,相關技術進步雖然明顯,但落地情境和成效還是有很多變數;不少專家建議搭配其它手段一起用,也許才能發揮出較好的防護效果吧。
聽說ML工具現在連很難纏的釣魚攻擊,有時候都能抓個七七八八,比傳統過濾多補一層。不過效果好不好,大概還是要看平常餵了多少新資料,因為駭客手法變來變去,要不斷更新模型才跟得上。Riboldi也有提過,久而久之這類系統誤報率應該會慢慢降下來,安全人員可以把重心放在真正危險的地方——當然這也不是說所有弱點都一樣嚴重,有些事對商業影響比較大,用機器學習去排優先順序或許比較合理。
講到這,其實「學習」這兩字滿重要的。模型只靠舊資料,很可能就跟不上形勢,所以必須三不五時重新訓練一下。總之,相關技術進步雖然明顯,但落地情境和成效還是有很多變數;不少專家建議搭配其它手段一起用,也許才能發揮出較好的防護效果吧。

釣魚郵件越來越難辨認?看ML系統如何自我進化揪出偽裝者
Riboldi倒是有提到,這些什麼機器學習模型,好像真的會越用越靈光。不過,得靠大家多給點意見才行。比方說,有時候分析師好像可以自己標記那些事件、微調一下設定,這樣下來,準確度就常常會變得比較高。有些人覺得這種持續回饋的方式還不錯,但是不是每個情境都一樣有效,好像也說不準。
資料來源也是蠻重要的啦,不只是單純從電腦裡撈出來那幾筆。大概需要各式各樣的東西混著用——有人會從雲端拉,有人看登入系統,也有別的管道。至於資料品質嘛,如果能保持安全又多元,大致上表現會好一些。但實際上,每間公司狀況都不太一樣,有時候遇到舊系統或各種限制,資料就沒那麼齊全,只能盡量補足。
整體來講,要讓模型慢慢變聰明,好像就是要靠大家一起動手修修改改,再加上一些還算可靠的數據來源。這個方法目前在不少地方看到有在嘗試,不一定處處都完美,但大致效果還行吧。
資料來源也是蠻重要的啦,不只是單純從電腦裡撈出來那幾筆。大概需要各式各樣的東西混著用——有人會從雲端拉,有人看登入系統,也有別的管道。至於資料品質嘛,如果能保持安全又多元,大致上表現會好一些。但實際上,每間公司狀況都不太一樣,有時候遇到舊系統或各種限制,資料就沒那麼齊全,只能盡量補足。
整體來講,要讓模型慢慢變聰明,好像就是要靠大家一起動手修修改改,再加上一些還算可靠的數據來源。這個方法目前在不少地方看到有在嘗試,不一定處處都完美,但大致效果還行吧。
別讓你的AI模型變笨,資安團隊必須持續餵養的學習秘訣是什麼
有些人說,數據湖或是SIEM平台如果整合得還不錯,機器學習模型通常能拿到更多有用的資訊來判斷狀況。Riboldi這麼提過。然後Bates好像也講過類似的話,他覺得別老是盯著那些已知的惡意事件,模型應該慢慢學會分辨某些「哪裡怪怪的」情境,有時候根本沒人提前標註過。其實很多比較棘手的攻擊,好像都沒照常理出牌,也不會主動觸發什麼明顯警示。反而是一些很細微的小變化——比方奇怪時間點有人登入、開發腳本突然從陌生機器執行——這種看起來不起眼卻又說不上來有什麼問題的地方,才常常被認為可能暗藏威脅。
然後企業裡頭啊,數據分析團隊和資安部門通常各做各的,本來就不是一體。他們之間隔著不少溝通障礙。不過Bates倒是建議說,其實可以把SOC(資安監控中心)跟懂公司結構的資料科學家湊在一起比較好。因為這樣子調整模型時,比較能根據組織自己的情境,而不是只依賴那些教科書上的規則去做判斷。
現在資安工作其實已經不像早年那樣單純靠防火牆或防毒軟體了——Bates感覺大致上就是個關於數據處理與分析的新遊戲吧。有些專家觀察到,這趨勢可能還會持續下去,只是到底怎麼做最適合,每家公司狀況又不太一樣罷了。
然後企業裡頭啊,數據分析團隊和資安部門通常各做各的,本來就不是一體。他們之間隔著不少溝通障礙。不過Bates倒是建議說,其實可以把SOC(資安監控中心)跟懂公司結構的資料科學家湊在一起比較好。因為這樣子調整模型時,比較能根據組織自己的情境,而不是只依賴那些教科書上的規則去做判斷。
現在資安工作其實已經不像早年那樣單純靠防火牆或防毒軟體了——Bates感覺大致上就是個關於數據處理與分析的新遊戲吧。有些專家觀察到,這趨勢可能還會持續下去,只是到底怎麼做最適合,每家公司狀況又不太一樣罷了。

當數據科學家搬進SOC戰情室,會碰撞出什麼樣的火花
在GM那時候,網路安全專業和資料建模結合,好像就讓我們能夠蠻精準地即時反應,不必等到事後才來補救。LogicGate的Kathmann有提過,如果一家企業裡面,做資料科學的團隊能跟資安人員搭配得好,感覺會比那些只靠外面廠商提供工具的組織,領先不少。不過這種說法,有些情境下比較明顯吧,畢竟現在大家都講究系統互聯、不想被某個品牌綁死。Kathmann也說了,要有跨部門合作才比較可能達到目標。
然後,要怎麼讓這些數據真的有助於資安?ISG的Anay Nawathe大概意思是:最好還是從資料品質抓起,還要讓各種來源能整合在一起。舉例來說,他認為持續去清理、校正、標準化資料,其實對分析結果的準確度提升不少,也許還可以降低模型慢慢偏掉(好像叫model drift)的風險。他提到,把不同地方蒐集來的資訊串起來之後,資安團隊就不只是看到一個單點異常,而是多層次、多角度理解一些複雜威脅。話又說回來,其實偵測威脅也不能只盯著所謂「邊界」,更有效的方法或許是把這類機制拉進整個企業內部,多處佈局才容易發現端倪。
至於要怎麼收集、儲存數據?Nawathe給過一個方向,就是讓負責資料的人了解公司的最終需求,再找資安團隊協作,把需要的東西整理進資料倉庫或湖泊裡頭。有時候流程很繁瑣,但這樣下來,大概才能確保那些分析與AI工具派上用場。不過,每間企業狀況不同,有些方法可能只有在特定條件下適用;整體上,看得出大家越來越傾向於跨域合作,而不是只靠單一外部解決方案。
然後,要怎麼讓這些數據真的有助於資安?ISG的Anay Nawathe大概意思是:最好還是從資料品質抓起,還要讓各種來源能整合在一起。舉例來說,他認為持續去清理、校正、標準化資料,其實對分析結果的準確度提升不少,也許還可以降低模型慢慢偏掉(好像叫model drift)的風險。他提到,把不同地方蒐集來的資訊串起來之後,資安團隊就不只是看到一個單點異常,而是多層次、多角度理解一些複雜威脅。話又說回來,其實偵測威脅也不能只盯著所謂「邊界」,更有效的方法或許是把這類機制拉進整個企業內部,多處佈局才容易發現端倪。
至於要怎麼收集、儲存數據?Nawathe給過一個方向,就是讓負責資料的人了解公司的最終需求,再找資安團隊協作,把需要的東西整理進資料倉庫或湖泊裡頭。有時候流程很繁瑣,但這樣下來,大概才能確保那些分析與AI工具派上用場。不過,每間企業狀況不同,有些方法可能只有在特定條件下適用;整體上,看得出大家越來越傾向於跨域合作,而不是只靠單一外部解決方案。
企業最常忽略的數據治理陷阱,原來高品質情報要這樣煉成
有些時候,Bates會提到像是SOC這種安全運作中心得更深入地融入企業日常,尤其是那些跟工廠自動化或雲端系統相關的場域。不曉得是不是因為過去曾發生過事故,他總覺得威脅者很懂得鑽漏洞。你說,有幾個人真的會把注意力放在舊設備、偏遠小廠或者軟體開發流程那邊?反正那些地方平常就沒什麼人管。有一回,他們好像就是靠著能即時看到這些角落的異狀,才勉強攔下了某些麻煩,不然後果可能不太妙。
說到資安手段,好像最近有越來越多公司開始試著用定制的大型語言模型(LLM)來輔助防禦工作。Nawathe觀察到:只要組織裡的資安團隊夠專業,需求又特別複雜,就會想自己弄點客製方案來搭配現成工具一起用。不過大部分情況還是混合著走啦。他還順口提過,有些單位會拿這種語言模型做風險視覺化或量化,內容都挺貼近自身狀況。可能有七八成都是根據各自需求微調的吧,只是到底效果如何,還真不好說,每家做法也都不太一樣。
說到資安手段,好像最近有越來越多公司開始試著用定制的大型語言模型(LLM)來輔助防禦工作。Nawathe觀察到:只要組織裡的資安團隊夠專業,需求又特別複雜,就會想自己弄點客製方案來搭配現成工具一起用。不過大部分情況還是混合著走啦。他還順口提過,有些單位會拿這種語言模型做風險視覺化或量化,內容都挺貼近自身狀況。可能有七八成都是根據各自需求微調的吧,只是到底效果如何,還真不好說,每家做法也都不太一樣。

客製化LLM正在改寫遊戲規則,連安全工具都能吃上乾淨資料
有些人最近聊到,像LLM這類模型經過客製化訓練後,其實能拿來處理那些原始感測器或日誌資料。Christopher Walcutt,好像是DirectDefense這家安全服務公司的CSO,他就提到說,做完這些事之後,送去給主流安全工具的資料會乾淨很多,不像以前那麼雜亂。SOC裡面的人員,有時候也會邊用AI邊學怎麼把查詢寫得更好,順便讓AI多認識一些現場脈絡吧——這樣累積起來的那些元資料,也許對後續自動化防禦行動會有點幫助。
Walcutt還補充了一句,大致意思是,用客製過的LLM來驅動AI,有些功能還挺明顯有效,其中一個比較常被提到就是預先處理事件和日誌內容。AI在辨識行為群組時能抓出某些細節,可能比傳統那種靠規則或者老式機器學習的方法要靈敏一點,所以最後丟進其他工具的資料品質也就高了不少。
然後還有人提到文件挖掘。有時候分析那些結構很亂、不太規整的數據,其實對網路安全團隊多少帶來幫助。例如說,公司內部的一些管理文件、政策流程、甚至保護系統運作和安全的檔案,只要用AI慢慢整理、分析,也許可以找到不錯的切入點。當然啦,這類應用目前看起來效果如何或適合哪些情境,大家心裡都有點數,但總歸一句話,就是只要方法選得對、有耐心去調整,大概能從中挖掘出不少線索。
Walcutt還補充了一句,大致意思是,用客製過的LLM來驅動AI,有些功能還挺明顯有效,其中一個比較常被提到就是預先處理事件和日誌內容。AI在辨識行為群組時能抓出某些細節,可能比傳統那種靠規則或者老式機器學習的方法要靈敏一點,所以最後丟進其他工具的資料品質也就高了不少。
然後還有人提到文件挖掘。有時候分析那些結構很亂、不太規整的數據,其實對網路安全團隊多少帶來幫助。例如說,公司內部的一些管理文件、政策流程、甚至保護系統運作和安全的檔案,只要用AI慢慢整理、分析,也許可以找到不錯的切入點。當然啦,這類應用目前看起來效果如何或適合哪些情境,大家心裡都有點數,但總歸一句話,就是只要方法選得對、有耐心去調整,大概能從中挖掘出不少線索。
還在人工翻閱SOP?讓AI當你的合規文件偵探與速讀專家
文件紀錄這件事,在企業裡通常扮演著一種微妙但又不可或缺的角色,特別是跟符合法規有關的那些流程。有人說它像個安全網,讓各種管理措施有跡可循。LogicGate 的 Kathmann 提過一件挺新鮮的小事——用人工智慧來處理資料,像是讀讀、歸納一下那些繁雜得讓人頭疼的政策規範,有時候確實比以前省事不少。她舉了例子:資訊安全相關的人員其實可以靠 AI 工具來瀏覽、抓重點,比對不同風險管理框架之間到底差在哪裡,還有那堆風險分析報告,大致上也能快速看出端倪。
至於領導層呢?他們如果想找些什麼「不太妥當」的內部流程或做法,有些人會考慮訓練一個模型,把全公司的標準作業程序丟進去,然後試著找出疑似不合規或未達標準的地方。偶爾也會碰到需要梳理供應商給的一大疊安全性報告,那些內容常常又長又細碎,其實利用現成技術大致能協助掃描和檢查異常。不過這類科技目前主要還是在輔助階段,有時候結果也沒有想像中那麼精確,只能說在某些場合下確實減輕了不少負擔。
順帶一提,好像現在很多電子報都主打什麼「專家編輯推薦」,基本上填個信箱就能收到最新消息,但大家到底是不是每次都看完,其實也很難說得準。
至於領導層呢?他們如果想找些什麼「不太妥當」的內部流程或做法,有些人會考慮訓練一個模型,把全公司的標準作業程序丟進去,然後試著找出疑似不合規或未達標準的地方。偶爾也會碰到需要梳理供應商給的一大疊安全性報告,那些內容常常又長又細碎,其實利用現成技術大致能協助掃描和檢查異常。不過這類科技目前主要還是在輔助階段,有時候結果也沒有想像中那麼精確,只能說在某些場合下確實減輕了不少負擔。
順帶一提,好像現在很多電子報都主打什麼「專家編輯推薦」,基本上填個信箱就能收到最新消息,但大家到底是不是每次都看完,其實也很難說得準。