ADK自動化解決管線錯誤提升球鞋電商營運效率

你可以這樣做 - 立即強化ADK自動化管線，減少球鞋電商營運風險

定期檢查所有ADK代理與腳本設定，每週至少1次。
提前發現潛在錯誤源，降低突發管線中斷機率。
啟用異常即時通報，Slack或郵件延遲不得超過10分鐘。
錯誤訊息快速傳遞，有助於團隊即刻反應搶救訂單流。
為每個核心資料流程設置自動補救腳本，覆蓋率達90%以上。
遇到多數常見失敗場景可自動修復，不需人工介入停滯。
*每月*針對Prompt及知識分流策略進行優化測試至少2輪。
*持續調教提升AI判斷準確度*，避免重複踩雷、資料混亂。

零碎的背景、第一次玩ADK就碰到大麻煩

# 我如何用 Agent Development Kit (ADK) 拼湊出一套資料管道事件處理系統（對，蠻拗口）

這個月啊，我報名參加了**[Agent Development Kit Hackathon with Google Cloud]**。坦白講，原本只是想說去玩玩看吧，也許會遇到什麼怪事。這活動其實是…嗯，要怎麼說，給你一個在真實場合能碰觸到**AI agent**開發的契機，很久沒那種「第一次動手摸新東西」的緊張感。

好啦，講重點。我做的專案，就是為黑客松提案嘛，它叫做——唉名字真的太長了——**AI Agent–Driven Data Pipeline Incident Resolver**。簡單來說，是資料管道壞掉時幫你自動補洞的東西？嗯，其實沒有那麼神，但方向是這樣。我第一次深入碰 ADK，一路上跌跌撞撞，有時候覺得自己是不是走錯棚。不過也學到不少。

突然想到，其實我常常在還沒寫完就亂分心。話題回來……這篇文章，我就稍微梳理一下：有關應用場景、整體架構到底怎設計、agent 到底是怎麼拼起來的，然後最後加點小建議──主要是寫給那些也被 ADK 吸引的人看的啦。

---

## 應用情境：讓資料管道自己找到自救辦法？

專案背景設定是在一家假想公司——名字有點土氣喔──叫 **GlobalSport Emporium**。這間企業據說是一間規模很大的線上零售商，不過完全杜撰的角色啦。他們每天都要靠無數雜七雜八的資料流才能維持運作，有夠煩瑣。有時候我真的搞不懂，為什麼現代企業光一條資訊流通都要搞得像迷宮一樣複雜？

欸差點忘記主題。他們之所以需要我的系統，是因為整個營運流程嚴重依賴複雜又層層堆疊的資料整合管道，所以任何小毛病都可能導致業務癱瘓。我只能嘆口氣，好像永遠修不好似的。不過，把 AI agent 拉進來後，也許可以讓它們遇事先自行判斷、甚至自動處置異常，而不是每次都等工程師心累地半夜修 bug ——大概就是希望給他們裝個腦袋吧。

賣球鞋的公司為什麼資料管線一直壞掉

這些資料處理流程會引入國際銷售數據，然後再套用匯率什麼的，最後就會產出每日營收監控等等那種對業務來說超級重要的報表。嗯，有時候我真的會想，這一切看起來很流暢，可實際上企業內部運作嘛，怎麼可能不出狀況？像是資料異常啦、DAG（有向無環圖）壞掉、API 又突然報錯……欸，其實故障真的是家常便飯。有時候忙到焦頭爛額，整個數據團隊跟著亂成一團，也害決策進度被拖延。唉，我講太多廢話了。不過這其實就是我的 AI 智能代理大顯身手的時刻：它們可以自己發現問題，自動診斷還有處理事故。更扯的是，還能自動寫**事後檢討報告**，以後要查也方便——好吧，聽起來好像救世主。

## 什麼是 Agent Development Kit (ADK)？

**Agent Development Kit** 啊，就是 Google 推出的開源框架，有點像給你一組工具箱那種感覺，可以讓開發者直接用 Python 或 Java 去定義、協調所謂的「多智能體 AI 系統」。我老是記不起那些專有名詞，不過總之這些智能體能串連在一起，一個接一個，也能同時合作幫你解題。嗯……其實也不是每個場景都適合，但以下這幾種應用特別對胃口，比如：

- 數據處理

- 客戶支援

- 工作流程自動化

- 還有前面提到那種事故處理與解決

我剛剛差點岔題聊開了，其實重點就是 ADK 能讓你比較彈性地搭建複雜任務分工，而且不用每次都從零開始瞎摸索啦。

失敗，然後自動補救？AI代理小隊上線

在 ADK 裡面，每個代理各自都分得一清二楚的職責範圍。欸，想一下，有時候真的覺得大家都像是被分配到自己的小房間那種感覺——然後呢，他們要嘛透過共享記憶體，要嘛用訊息來互相聯絡。說到這裡我突然想到，剛剛喝的咖啡好像有點太苦了，但算了，還是繼續寫。總之，所有這些代理最後都是在 Google Cloud 上頭，由 Vertex AI Agent Builder 去運行。

什麼又是 Agent Starter Pack 啦？

Agent Starter Pack 提供一套現成的環境，可用於本機開發和測試代理，或將其部署至 Google Cloud。內容包含：

- 基礎專案結構

- 用於測試的代理 playground

- 部署腳本

- 範例代理及後端

有人就講說，用這個作為起手式，好像生產力會直接跳起來。不過我有時候也會懷疑，是不是只是心理作用？但…系統裡面預設已經幫你把那些必要元件都弄好了，所以你基本上可以馬上進去開始建東西，不用一直卡在那些無聊的小錯誤跟煩人的樣板程式碼上浪費時間。有點偷懶又有效率的感覺。

ADK是啥？多工合作還有一堆腳本檔案

這個系統啊，其實就是靠三個主要代理程式在那裡跑來跑去，感覺有點像三人小組互相拋接球。嗯，我有時會想，如果哪天其中一個罷工會怎樣——唉，好像離題了。總之，它們是透過 ADK 彼此協作的，不然資訊早就亂成一團。

首先，有個叫知識代理程式（Knowledge Agent）的傢伙，工作內容說穿了就是到處翻文件——內部文件已經丟進 Vertex AI Search 做索引啦；還要上網或從之前發生過的事件中，挖掘解決方案。嗯，我偶爾也很羨慕它能輕易找到東西，但現實就不是這麼簡單。

再來修復代理程式（Remediation Agent），其實聽起來很厲害，可是每天都在幫忙自動執行那些腳本、SQL 查詢什麼的。我常常懷疑它到底會不會累，但沒人管它情緒吧？不過重點啦，是它負責解決問題，只要發現什麼狀況馬上出手。

最後嘛，就是事後回顧代理程式（Post-Mortem Agent）。嗯，名字聽起來有點像醫生，不對，我又扯遠了。這位是在每次問題收尾後才登場，會把整件事做個詳細摘要記錄下來，以備未來可以查閱。雖然我有時候覺得誰真的會看那些紀錄？但據說，有需要還是能派上用場。

Starter Pack開箱心得，省時又不踩雷

這些代理會怎麼觸發？嗯，這個啊，其實也沒什麼玄妙的。比如說——Slack 訊息那邊，如果有人在 Slack 上標註機器人，然後又出現錯誤訊息時，就會啟動相關代理。唉，我自己有弄一個 Cloud Run 處理這塊，雖然細節在這裡就先不展開了啦。如果真的很想知道細節，也許哪天可以聊聊？我不太確定你們是不是對這種東西有興趣。

好像扯遠了，拉回正題。在 Cloud Composer 裡面，如果 DAG 跑失敗，那狀況其實挺常見的——尤其是在趕專案或是改環境參數時。不過話說回來，我是用一個蠻陽春的 webhook 來做這件事啦，就是讓它直接把錯誤訊息丟到 Slack 上。老實說，有時候凌晨看到一堆紅字跳通知還蠻煩人的，但不用再特地去查 logs 也算省事吧。

[專案的一般架構]

## 深入探討代理！

[代理架構]

整個系統基本上就是 Python 打底啦，再加上 ADK 格式。有時候我都懷疑自己為什麼要跟格式死磕，但沒辦法嘛——習慣成自然。簡單講一下每個腳本在幹嘛：嗯等等，我剛剛是不是差點忘記提醒？【注意事項】, 嗯，不重要，反正現在先不管那段，只管重點內容就好了。我想大部分人看文件只會關心哪些腳本負責哪些功能而已吧，有誰真的把每行註釋都讀完呢？

總之，每支腳本都有自己的定位，比如資料處理、觸發通知、還有和外部服務串接那些。我偶爾會覺得，把所有功能拆分到不同檔案雖然麻煩，但遇到出 bug 的時候找起來比較快（不過如果命名亂七八糟就另當別論）。噢對了，如果看到什麼奇怪的副檔名或路徑，也不要太介意，大概只是我拖延症發作暫存而已吧。

三個主要Agent誰在扮黑臉？Slack與Composer亂入

agent.py 裡頭，其實主要就是那種老生常談的代理設定跟介面，對，就是你每次都得搞那一套。嗯……這句話說得有點沒耐心喔，不過真的，每次寫都很煩。然後，知識型代理（就是 knowledge_agent.py 啦），會用 Vertex AI Search 還有 Google Search 去掃那些文件——唉，我自己有時候也分不清楚到底誰負責什麼，但總之只要出現錯誤訊息，它就會試圖丟回一個看起來還算合理的解決方案吧。有點像是，欸？電腦壞掉我也只能先查一下網路問大家。

接下來 remediation_agent.py 這個角色就更明確了。當知識型代理已經找到可能能修的辦法後，就輪到這傢伙負責後續處理，其實我每次看到「remediation」這詞，都覺得它很像醫生開藥方。話說，有時候想事情會突然想到別的，不過拉回正題，他們三個大致上就是協同合作，各司其職這樣。【注意事項】嘛，雖然講了很多細節，但本指南只是幫助寫文章而已，你千萬不要把它直接複製進內容裡面。不然感覺怪怪的，也容易被人發現不是純內容啦——好吧，就醬子。

細節：Python程式拆解，每個agent其實各懷鬼胎

它可能會做什麼？唉，我想一下，腦袋突然空白了。嗯，大致上，它會執行 BigQuery SQL 腳本。然後，還有…對，它也能動手去改 GCS 裡的檔案——這點挺麻煩，有時候我都會擔心資料被搞亂，不過好像只能信任它。欸，對了，它還會傳送確認訊息，這種自動回報其實挺冷漠的，但有時候又覺得很安心。喔，我剛剛差點忘記重點，拉回來講。

### postmortem_agent.py
這個元件嘛，就是專門負責把日誌跟代理的一些動作收集起來，有時候看著那些紀錄會覺得人到底算什麼。有點離題了，其實它的主要功能就是用 Gemini 或者提示模板去生成事後分析報告。而且這些輸出的內容最後都會存到 Vertex AI Search 裡面，據說是為了以後能學到教訓吧，誰知道呢。

### agent_engine_app.py 及 multi_agent_system.py
啊，好像進入比較複雜的部分了。我常常看到這兩個模組在那邊定義代理之間怎麼協同合作，其實偶爾也分不太清楚細節。嗯……總之，他們主要是靠順序式 Workflow Agent 來調度流程，所以就像一群人在排隊領便當一樣，每個代理按照次序完成自己的任務。有時候流程卡住真的讓人很煩躁，不過反正規則就是這樣定的吧。

出錯時自救流程示意，不怕再踩同樣地雷嗎？

欸，說真的，在部署前那個什麼 Starter Pack 裡的 playground，你還是多用一點比較保險啦——很多時候就是少測幾下，結果後面 debug 一直爆炸，唉，每次都想偷懶但最後還是得繞回來。這種省時間的小撇步大家都知道，可是真的有人會乖乖照做嗎？嗯…好像也很難。

然後你看，我最近拿 Gemini Cloud Assist 在微調指令，加上用 adk playground 快速除錯，其實現在 agent 比以前聰明多了，也不會一直卡住。它可以自己查內部文件、跑去 Google 搜尋錯誤原因，然後就直接給出解釋（有時候解釋太長我其實沒耐心看完），而且該備份的步驟也都有顧到喔，不會偷懶亂改。嗯…話說回來，有時候還是怕資料全毀，真希望能更自動一點。

舉個例好了，我故意在 sql 檔案裡搞了一個怪異的 cast 錯誤——欸對，就是那種很明顯不能轉型的那種，結果 Agent 還真的跑去查 Vertex AI Search 匯進來的內部文件（裡面有每個欄位正確型別），才終於判斷要怎麼修。想到這裡忽然餓了…啊不對，所以它就會根據那些資訊判斷要採取什麼操作，最後把問題修掉。這樣講不知道是不是太囉唆？

喔對，我覺得有些歷程建議滿重要的啦，就是你不要只想概念或理論什麼鬼東西——直接從現場情境出發比較實在，有商業需求在推專案才有力道。不過這句話我自己也常忘記，真糟糕。而且 Gemini Code Assist 的確蠻方便的，在優化提示詞跟驗證 agent 指令那塊有幫助吧，大概算是流程順暢度提升的一環。但老實說，有時還是被自己的腦袋打敗。

建議跟坑：Prompt調教、知識分流跟雲端奇技淫巧

**Agent Starter Pack = 基礎必備**這個方案，其實說穿了，運作起來算是還蠻順的啦。基本上，只要你開始啟用，它就很快能把那些你覺得「欸我現在好像什麼都缺」的資源一股腦給你送上來，完全不拖泥帶水。唉，有時候反而會想，我是不是太依賴這些現成東西了？嗯，不重要，拉回正題——對於剛開始的人來說，這就是那種讓你不用煩惱細節的起點包。

再講到 Vertex AI Search，就有一點點麻煩。操作嘛，比較棘手。不是那種隨便亂按都行的（不然世界也太美好了）。知識跟邏輯得硬生生分割開來丟給不同子代理去設定。其中有一個專門對付 Vertex AI Search 這傢伙，另一個則負責所有網路雜事。偏偏如果你哪個環節搞錯了，整套流程就會卡住。所以老實說，每次碰到要配置這部份，都會頭皮發麻，大概吧。不過，我又扯遠了，總之分工協作真的很重要。

Google Cloud 的整合優勢……唉，有時候想到全部雲端服務都被綁在同一地方，其實既安心又有點小壓力，但多數情況下還是利大於弊啦。Cloud Run、BigQuery、Vertex AI 還有 Secret Manager 全都攪和在一起，用戶端看起來系統複雜度直線下降。偶爾會懷疑，是不是哪天出了問題反而全軍覆沒，不過話又說回來，目前為止集中管理確實省下很多時間。

## 下一步規劃

其實啊，眼前這專案現在才算剛開始走第一步而已——離完成還遠著呢。有好多發展路徑可以選，比如增加安全防護機制或什麼確認系統之類的（每次一提安全，就忍不住想電腦是不是永遠都不夠安全），但先暫且不吐槽。

主動監控也是未來重點方向之一啦，就是打算嵌入異常偵測功能，希望代理能在任何重大錯誤爆發之前就自己叫警報，而不是等到全世界都知道才修補。不過計畫總是追不上變化，也許明天我又改主意？嗯，好吧，但目前就是往這幾個方向慢慢推囉。

下一步？未來功能想像和感謝詞

- **UI Dashboard**：說到這個，反正就是你可以有個網頁介面嘛，然後直接在上面按一按就能去啟動或管理那些代理程式的會話了。嗯，有時候還想偷懶不看細節，它還會把日誌跟狀態什麼的用圖表顯示出來，蠻直觀啦。不過我剛才差點忘記這是核心功能之一，其實自己也常分心，拉回來。可視化那部分真的很方便，不用再苦哈哈翻console log。</code></pre>

- **CI/CD Integration**：另外一件事就是，把代理程式擴充一下吧，讓它不是只能盯著資料管線，而是也可以監控CI流程裡的那些log、或者基礎架構層級的東西。我不知道是不是大家都需要，但偶爾工程師好像會很在意這些細節。唉，我每次寫到這種自動化整合都覺得腦袋快打結，好像永遠弄不完似的。

如果你對那種真的能幫忙執行任務、甚至和別人協作的智慧AI代理感興趣——嗯，大概現在就挺適合試試ADK囉。其實，我也是被黑客松團隊跟Google Cloud推了一把才開始搞這套東西，中間卡住不少次但總算走到這一步。有興趣的人可以看看[link]，就是專案代碼庫在那邊啦 #adkhackathon。