我在亞馬遜發現AI正悄悄改變一切:商業進化的震撼現場

生成式AI如何悄悄改變亞馬遜的商業運作模式

生成式AI在企業營運這一塊,應用的方式其實滿多元的。像是有些人可能會先想到聊天機器人啦,例如Amazon那個Rufus,或者Amazon Seller Assistant這類比較常見。可是,背後真正發揮影響力的應用,其實往往不是大家看得見、互動得到的那些。有種自動化流程,其實也算是生成式AI很厲害的一環,只不過它們大多數都不會直接跟用戶對話,就是默默地幫忙處理大量事務、資料整理、還有內容生產等等。

這種非對話型的應用,好像在很多行業都有一點蹤跡。有時候它們被叫做「代理流程」吧,就是靠大型語言模型,按照既定目標自己跑步驟,不需要人在旁邊一直看著。聽起來好像就單純一點,不過其實因為沒有人隨時監督,所以檢查和防呆措施要加強不少,比方說品管流程就變得更細緻。跟那種即時回饋的聊天工具相比,這類系統可以容許比較長時間延遲,也比較適合一次處理好幾批東西,比如說能善用快取之類。不過該怎麼設計安全機制,大概每個產品都還在摸索。

就以Amazon.com舉幾個例子來說,有一些場景還挺特別。像商品上架跟商品資訊校正這件事,用了LLM協助賣家或平台補齊或優化商品描述,看起來是有讓內容品質提升一些。然後藥局那邊也有試著把生成式AI放進去,感覺那是一個蠻嚴格控管的場域,所以他們把複雜任務拆解成一小步一小步交給AI去執行——好像就是所謂代理流程吧。此外評論摘要也能看到AI身影,就是利用比較傳統機器學習混搭小型語言模型,把大量評論抓下來做批次整理,用起來成本會壓低不少。另外廣告部門則是在圖片和影片素材創作上嘗試讓AI參與設計,而且還蠻重視怎麼負責任地使用技術。

每個案例展現出來的挑戰點都不太一樣,有的是架構問題,有的是操作細節;但總歸一句,大部分都是靠AWS旗下那些服務撐場面,例如Bedrock、SageMaker等等。整體經驗下來,好像也累積出一些共通心得。

舉例來說,在Amazon.com新增商品這件事,以前賣家得手動填寫很多欄位,每次光是輸入資料就夠麻煩了。今年推出的新工具(大約2024年),基本上就是讓賣家可以丟網址、圖檔或表格進去,由系統主動去網路各處找資料,再自動組合成完整資訊。不只是產品名稱、介紹文,就連規格細項都一起包辦,而且據說絕大多數草稿內容只要稍微調整一下就能直接上架了——差不多有七八成左右不用怎麼改。如果想要新建商品,只要給出初步訊息,剩下大致由系統根據不同來源幫你補齊,最後再請賣家確認沒什麼大問題就行。不過具體情況可能依品類和來源有所差異啦,有些地方效果明顯,有些地方還在觀察當中。

讓賣家輕鬆上手的產品頁面自動生成術

其實,這套系統大致上是在現有商品頁面中,盡可能找出那些還可以多補充資料的產品。有聽說 Amazon 的團隊用了一些看來蠻複雜的連結器,把內外部來源的數據串進來——大致靠著 Amazon Bedrock 跟一些 AWS 服務,然後就讓這些資訊混進 Amazon.com 後台。像這樣要整合種類繁多、內容又很雜亂的資料,難度並不低;每個商品屬性,不論是文字敘述還是數字規格,加起來好像超過五十種,有的人記得只有四十幾種,但其實也差不了多少。

LLM(大型語言模型)處理這類電商細節時,好像常常搞錯重點。比如「容量」,在刀具收納座裡,它偏偏會被誤會成長寬高尺寸,其實人家只是講插槽數量;還有什麼「Fit Wear」,本來是品牌名稱,結果卻被誤認成款式描述。針對這類狀況,他們聽說下了不少功夫去調 prompt 和微調模型,不斷測試修正。

關於生成和驗證,那個流程據說走了好幾步。首先 LLM 先產生內容,再另外一組模型負責檢查對不對——就好像一邊寫、一邊自己審稿那樣。不少人覺得這能減少所謂「幻覺」問題,尤其產品安全或技術數值,一旦出錯麻煩可就大了。他們甚至設計了一些自我反省的技巧,希望產生和校驗兩端能互補,不太會打架。有人畫過圖解釋過,大致就是生成與驗證都由模型輪流負責。

但品質保證真的只靠機器嗎?倒也不是。Amazon 那邊還安排站內專家參與初步把關,再加上賣家自己的意見,有些地方需要修改他們也都會回饋一下。這種雙向回饋據說效果不錯,也方便後續慢慢優化 AI 模型。另外,自動測試也是不可或缺的一環,有時候用傳統機器學習,有時候乾脆直接再丟給 LLM 過濾一下。如果哪個商品頁沒過,就重跑一遍;過了之後還得繼續接受下一輪檢查。

最後,他們偶爾會借助因果推斷方法,看看到底哪些特徵最影響商品表現,有沒有什麼隱藏能強化描述的地方。不過具體哪些因素作用最大,好像目前還沒完全定論,只能說每次更新總歸有些發現吧。

Comparison Table:
結論觀察建議
廣告主創作素材困難約70%的人感到創作素材特別吃力,尤其是小品牌缺乏設計資源考慮使用AI生成工具降低生產門檻
AI生成圖像提升點擊率使用AI生成圖像的活動參與度顯著提高,點擊率略高於傳統方式鼓勵更多廣告主嘗試這類工具以提升互動性
技術演進與安全性保障新模型Amazon Nova Canvas提供商用水準的照片,內建內容審查機制確保安全性持續優化流程並加強監控,以維持質量和合規性
混合式架構的靈活運用不同任務分開處理,提高效率和品質控制,且根據需求選擇適當模型組合推廣混合型解決方案以平衡成本與效果
專業團隊的多樣背景促進創新各領域專家合作使得技術落地更有效,但仍需注意具體問題解決及品質穩定培養團隊間的合作精神和工程習慣,以驅動持續創新

讓賣家輕鬆上手的產品頁面自動生成術

當AI遇上處方箋:亞馬遜藥局如何把關用藥安全

大致來說,商品上架資料只要通過品質檢查,又獲得賣家夥伴同意,就會被公布在前台。這樣一來,消費者看到的資訊通常會比較完整,也不容易出錯。流程圖有畫出整個測試、評估到監控的路徑──就是那種從測試走向正式上線的感覺。不過細節有點多,有人可能記不太住。

其實為了把準確度跟內容豐富度顧好,團隊後來弄了一套比較複雜的實驗機制。裡面自動化系統會一直嘗試各種不同的LLM模型、提示詞或流程腳本,有時還搭配幾種AI工具一起跑。基本上,他們是希望能抓到那些對業績指標(像成本這些)比較有利的組合。一邊做測試,一邊自動評分,再慢慢微調,所以生成商品資訊這件事就能兼顧效率和花費,而且如果AI圈又冒出什麼新玩意,好像也能很快應用進來。這樣弄下來,不只是消費者找東西方便,就連賣家處理上架也變得省力不少。

然後類似的人機混合流程,在亞馬遜藥局那邊又被用在別的地方。有提過他們做了一款給藥師助理用的小型聊天助理(詳細內容好像可以去看SageMaker那篇文章),但這次重點放在處方箋自動處理。如果想知道整個流向,可以翻翻“處方的一生”或者Nature期刊上的某篇研究。

亞馬遜藥局那套系統算是建立在Bedrock和SageMaker之上,大概可以說是協助藥局技術員更精確、更有效率地解讀醫囑方向。裡頭設計其實挺細膩,既有人力,也有大型語言模型參與校對,比如說資料輸入人員、藥師都會參加,但AI主要負責提出建議或回饋。一開始會先靠某種知識庫預處理,把原始醫囑文字格式整理一下存在DynamoDB裡;接著再讓經過特殊訓練的小型語言模型找出關鍵元素——像劑量啊、頻率等等。

圖示分成幾段:有一塊是資料技術員跟藥師互動工作流,另外兩塊分別是建議模組和標記模組,看起來每個環節彼此補位。不管是哪一小段,都還是讓專業人士主導,只不過生成式AI輔助下,人力可以靈活調整,準確性也相對容易維持。有個方向組裝系統帶著安全防線,用於產生給技術員參考的初版指示;如果中間哪裡怪怪的,標記模組就跳出糾正或提醒,那些反饋最後還是要靠人確認沒問題才算定案。

等於說,每一步都拆得很碎,各自都有任務,比較容易追蹤誰做了什麼。工程師和科學家常常把大流程切割成很多步驟,再用小型模型逐步優化,其實這樣安排可能比純人工審核更穩妥。但話說回來,要是真的遇到很罕見或特例狀況,還是需要專家最後拍板吧。

海量商品評論怎麼讀?AI幫你畫重點的秘訣

有時候啊,在做資料處理時,像是命名實體辨識這種比較傳統的機器學習技術就會派上用場。除了這些還有用小型語言模型(SLM)和一些回歸模型去估算信心分數,反而讓整個流程跑得比以往快了一點點,至於安全性嘛,大概因為每一個步驟都設了檢查,所以就算用的是組合流程,也能穩穩地顧好該注意的細節。這套系統被拆成好幾段,每段都有自己要專精的小事,各自獨立又彼此搭配著往共同目標努力。這樣切割後的方式,比那種從頭到尾交給大模型的方案來說,好像更靈活,也允許針對某些任務微調小語言模型。

團隊挑了 AWS Fargate 去安排工作流,主要是因為本來他們的後端架構裡就已經有這東西在跑。如果你想深入瞭解類似作法,其實網路上可以翻到關於「怎麼把複雜任務拆解、結合小型 LLM 讓 AI 價格親民」或 Amazon Pharmacy 案例分析之類的內容。

再講回數據治理和隱私,那邊要求可不低。尤其醫療產業嘛,要符合法規,比如 HIPAA 就很嚴格。所以,他們採取了一種混合式做法,一方面用 Bedrock API 微調 LLM,一方面把 Amazon OpenSearch Service 拉進來,用 RAG 技術查找所需知識,兩邊協同下來,不只速度還不差,而且子任務也比較精確。為了防止幻覺(尤其醫療領域超忌諱搞錯),團隊不是只靠訓練大資料集,而是專門在 Bedrock Guardrails 上加上醫療相關檢查,再配一點人工審核(HITL),想要多一層保險。有聽說藥師會即時給意見、也一直在拓展不同格式處方箋的支援範圍,不斷修正系統。

其實這些做法並不只是追求效率,也希望能真正輔助臨床工作者,減少出錯可能,但最後決定權還是在專業人員手上。

然後話題換一下——如果你曾經在 Amazon 上看商品評價,大概會發現現在有個新功能,就是 AI 生成的評論摘要。據說一年下來評論量有將近兩億條吧,要全都讀完應該沒人辦得到。他們就是用 SLM 跟傳統 ML 還有那套分工明確的流程,一次批次處理海量資料,把共通觀點整理成短短幾句重點摘要。不管是好壞評、有疑慮、或介於中間那種感受,都試圖抓到一部分消費者心聲。

購物頁面上現在多了那種可以根據產品細節選擇主題(比如畫質、遙控器操作、安裝簡單與否),然後看到綠色勾勾就是偏正面感受,橘色符號代表有人負評,中立則是灰色標記,看起來蠻直觀。一些原始評論內容依然留著,有興趣的人還能繼續深挖下去,只是變得不用像以前那樣辛苦全看完才抓得到重點。聽起來對購物決策多少有幫助啦,但每個人需求不同,有時候真的需要多看看其他買家的親身經驗再判斷。

海量商品評論怎麼讀?AI幫你畫重點的秘訣

廣告素材不用愁!看AI如何玩轉圖片影片創作

有時候,產品的評論中會跳出一些跟噪音有關的小重點。那個圖裡,好像就是抓了幾句類似這樣的內容。不過話說回來,有個團隊,他們搞了一套聽起來還算划算的混合架構,把傳統機器學習和專門調整過的小語言模型湊在一起用。大致是這樣:像情感分析、關鍵字萃取這種比較標準的工作,他們就交給舊有的機器學習方法;遇到需要比較靈活生成文字的時候,再請優化過的小型語言模型上場。據說這麼做,表現會穩定一點,而且資源也沒花到太誇張。

流程看起來也不複雜,就是兩邊各自負責自己的事,然後結果湊起來用。他們還用了一種非同步處理方式——好像是SageMaker那邊的批次轉換服務吧——基本上可以讓成本壓低不少,不必即時運算省下很多錢。有趣的是,他們乾脆把已經分析好的資料先存著,下次別人要查詢時就直接丟現成的結果出來,反應速度就變快,也不用每次都重新計算。同時間好幾個人查也不會卡住。

新評論出現怎麼辦?他們是分批慢慢加進去,不用全部數據重跑一遍。硬體方面,聽說他們選擇EC2裡面某種特定型號(應該是Inf2系列),比其他方案便宜將近一半左右,用在批次作業可能還挺合適。總之,在處理超大量產品和評論時,他們這套組合工具,大約能維持效率又不至於預算爆表。

前面講的大多都是純文字AI應用,其實最近廣告領域開始玩多媒體生成功能。例如Amazon Ads現在弄得滿多影像、影片生成,可以拿來做推廣素材。他們底層核心也用了Amazon Nova那邊出的創意生成模型——細節嘛…暫時只提一點,以後再細談好了。

為什麼任務拆解是提升AI效率的關鍵步驟

如果要說廣告主遇到什麼麻煩,之前亞馬遜在二零二三年初做過一次調查,大概有七成多的人覺得在創作廣告素材時特別吃力。尤其是那些沒有自己設計團隊,也沒請代理商的小品牌,好像更容易被卡住——畢竟做一張像樣的圖片、影片,專業和費用都不是小問題。
後來亞馬遜廣告那邊推出了一套工具,等於讓這些視覺內容的產生門檻變低了許多,不管你公司大或小都能動手試試。有趣的是,用上 AI 生成圖像去做品牌廣告的這群人,他們好像點擊率有比傳統用戶略高一些,大致有八到九成的人提交的活動數量也明顯增加了——雖然不同類型商品效果可能會有落差。
回頭講講技術細節,其實去年 AWS 的部落格就寫過怎麼自動生成圖像,但最近聽說他們已經改採 Amazon Nova Canvas 當底層基礎。這種新模型,可以直接輸入文字或圖片描述,就生出很接近商用水準的照片,而且還能調整顏色、版面什麼的。如果要進一步玩短影音,二零二四年九月新增了一個功能,就是能把產品照轉成短影片——背後其實是靠 Bedrock 提供的大型模型來運算,用自然語言控制畫面風格、鏡頭移動節奏等等,看起來流程是先規劃分鏡再正式產出。
安全性方面倒是一向很重視,比如說內容會加浮水印、也內建內容審查機制,要確保 AI 不亂來。技術架構則比較碎片化:從 Step Functions 到 Lambda 負責協同處理,再把生成好的圖跟影存在 S3 裡面,相關資訊記錄進 DynamoDB;API Gateway 則讓外部用戶可以存取這些服務。此外現在也會加上 Bedrock Guardrails 防護機制,同時還保留原本 Rekognition 跟 Comprehend 的檢查步驟,多一道保險。
回想起來,最早要批量做出品質不錯又符合品牌調性的素材還挺難搞,各種產品線、行銷情境千變萬化,不一定每個人都有時間慢慢學怎麼用這些工具。所以現在線上系統背後還搭配 Ground Truth 做人工標註與校正,一直在優化影像和影片質感。不過嘛,目前這套解決方案主要就是希望降低大家創意上的門檻,有助於讓更多廣告主願意嘗試自製行銷內容,也方便針對不同產品快速產出合適素材。未來會不會繼續進化其實不好說,但整體看起來已經為部分需要快速製作高品質視覺內容的人提供了新的選擇,只是每個人感受可能不一樣吧。

為什麼任務拆解是提升AI效率的關鍵步驟

傳統機器學習與大語言模型的完美混搭方程式

不少非對話式應用好像對延遲沒有那麼敏感,這也讓人比較敢嘗試批次處理或者快取之類的機制。當然啦,這類系統本身自動化程度高,好像就更需要嚴格一點的驗證和防呆措施。這些觀察不只適用於非對話AI,有些討論其實也跟對話式場景有關。

像是複雜任務被拆解成幾個小步驟,大概算是滿常見又有效的方法。專業領域的人會把大問題切細,每個小部分交給最合適的小模型來處理,有點像拼積木。例如Amazon藥局在處方箋流程裡頭,好像就有針對劑量判讀等單一步驟訓練過的小語言模型。每一段都能設計明確的檢查點,維護起來不至於太亂,也比較容易抓出錯誤來源。

賣家上架流程也是分好幾段,不同任務分開跑。一開始由傳統機器學習做前處理,然後才進到大型語言模型生成,再經過額外驗證步驟。這樣分工似乎有助於控管成本,而且更容易掌握整體品質。其實某些環節原本可能想直接交給LLM,但最後發現傳統ML效率還是不錯,就保留了下來。

混合式架構現在越來越多團隊採用,很多時候不是所有事情都丟給大型語言模型解決。有些場合會根據需求選擇大小不同的模型組合著用,比如Amazon藥局那邊聽說除了標準RAG之外,也會微調特定模型以符合領域規範。再加上資訊擷取或情緒分析什麼的,多半還是靠傳統方法跑得比較順手。

說到效能優化,其實他們做法挺靈活。有批次運算、資料快取降低重複消耗,也有人挑專門型號伺服器(聽說AWS Inferentia、Trainium之類),甚至會根據業務量級調整方案。例如評論精選系統採漸進式處理方式,把負載切成幾個階段慢慢消化;廣告部門則結合自家Nova基礎模型產生創意內容,達到省成本又能控制品質目的。不過具體效果還需依照情境評估,各種作法目前看起來各有利弊吧。

沒有真人把關行不行?談AI應用的品質防線

好像現在的品質把關,不再只是單靠一套東西。Amazon那邊,有時候會用到Bedrock Guardrails這種專門設計來做領域限制的工具;然後,他們還會混合自動測試跟真人檢查,聽說有不少層次。像是在賣家商品資訊產生這塊,有人就提過所謂「雙模型」策略,就是一個模型寫內容,另外一個模型來檢查,有助於減少那些莫名其妙的錯誤。偶爾還會加上自省機制,據說這樣子準確率有提升,但到底有多明顯也很難說。

Amazon Nova那群負責創意的團隊,好像內建了一些負責任AI相關控管。持續做A/B測試,每隔一陣子就量一下表現怎麼樣,這種方式比較適合規模稍大的情境,也許能讓成本跟風險都壓得比較低吧。

人工審核這部分,其實層級挺多的。有些場合是藥師等專業人士來看,某些則讓賣家自己反饋意見。不過聽說他們自己也在摸索怎麼拉平自動化與人工干預之間的分寸,要看狀況、風險高低再決定人力要介入多少。

至於負責任AI與法規遵循,有看到有人提過他們針對比較敏感或受限的環境,在內容進入系統前就設了把關程序。例如HIPAA這類規範,他們多少都有注意。此外,面向使用者端的應用也會結合內容審核,像是摘要評論時會附上原始資料來源給大家查驗,看起來透明度還不算太差。監管和數據治理也是一直在跑,只是做到什麼程度外界不容易完全掌握。

整體來講,他們採取的方法偏向疊加式——不是只仰賴技術本身,而是搭配一些流程、組織架構和各種AWS服務一起運作。如果說一定有效倒也未必,但至少目前看起來能支撐起規模需求,同時兼顧品質和合規。不過老實講,有沒有更理想方案,大概還要持續觀察才知道吧。

沒有真人把關行不行?談AI應用的品質防線

省錢又高效!亞馬遜這樣優化AI運算成本

下一步會怎麼走呢?這裡舉了幾個來自亞馬遜網站的例子,談到生成式AI能發揮的價值,其實遠超過單純聊聊天這類助理工具。剛才那些案例有點意思,像是把不一樣的模型和工作流程搭在一起用,有時候效果還挺不錯的。比較起來,好像是那種結合多步驟或分工合作(有人說是Agentic workflow吧)的做法,特別容易找到一些亮點。

但真要說技術落地,也不是只挑個模型就好——從一開始摸索、測試,到最後上線還得持續看著運作狀況,每一步其實都少不了細心琢磨。有些人可能覺得選對服務最重要,不過工程方法、團隊協作和業務判斷力加起來,可能才構成了比較完整的成功條件。

講到結論時,大致上可以看到:生成式AI應用現在慢慢往許多產業蔓延,很難再只當它是聊天機器人那種簡單角色。看起來,有不少組合AWS雲服務和良好工程習慣,再搭配對產業需求的掌握後,在某些情境下確實帶動了一些創新跟效率提升。不過事情沒那麼絕對,大部分情形下還是需要針對具體問題去解決,並且盡量顧及品質穩定與責任感等原則吧。

至於相關人員,他們背景也挺多元。例如Burak Gozluklu這位在波士頓工作的資深AI/ML架構師,負責協助大客戶導入AWS和各種生成式AI方案。他據說學歷橫跨航空太空、系統工程、甚至MIT那邊也有短暫研究經歷。閒暇時間聽說他蠻熱衷瑜珈。

然後Emilio Maldonado,是亞馬遜內部負責產品知識領域的主管,好像主要目標就是讓電商目錄資料更有組織感,同時利用生成式AI推敲出比較精確的商品資訊給賣家和買家參考。他念的是某間墨西哥的大學計算機科學,加上美國東岸名校MBA背景。平常喜歡帶團隊,也重視夥伴關係。

最後Wenchao Tong,目前在矽谷附近負責廣告部門的技術工作。他主導開發創意內容與成效優化方面的新型AI應用,希望幫助品牌或賣家提升曝光與銷售表現。據了解他碩士是在中國讀計算機專業,下班以後偶爾會去爬山、玩桌遊或陪家人。不一定每次都聊到正事,但這些碎片信息拼湊起來,就是現在很多科技公司裡頭人的日常寫照吧。

從實驗室到商業應用,這些經驗教你避開AI地雷

亞馬遜裡頭有些工程師和科學家,背景各有不同。像Alexandre Alves,他職稱挺高的,主要是圍繞著機器學習、優化那一塊,然後還會關心分散式系統這類話題。有人說他參與到健康服務相關的工作,好像比較偏向讓人們在健康這件事上能多一些正向體驗。到底怎麼做,其實細節可能也不是每個人都很清楚。

另一位Puneet Sahni,名字聽起來蠻印度的。他在亞馬遜其實也是資深等級,專注於商品目錄裡頭資料品質提升。不過他對於商品資訊如何改善顧客經驗這件事似乎特別執著。有趣的是,他好像是在印度理工學院主修電子工程,有碩士學位。私底下就比較生活化了,感覺跟孩子相處或是出門旅遊時總能找到樂子。

Vaughn Schermerhorn目前則是負責亞馬遜購物體驗中某一大塊業務——什麼顧客評論啦、內容審核、甚至網站導航,都在他的管轄範圍內。他領導的團隊成員很多元,不只是工程師,也有產品設計、科學研究背景的人一起合作。據說,他們常常需要用點子去處理信任度相關問題,比如怎麼靠機器學習模型去過濾或整合數據,有時候還得運用多種方式來搜尋資訊,有些架構聽起來複雜到一天要支持全球數以億計(也有人說將近半數)的消費決策。不過技術細節未必公開,很難一句話講明白。

Vaughn的求學路其實跨了不少地方,好像在美國念過幾所大學,包括東岸西岸都有涉獵。據說他曾經待過德國和阿根廷,不確定是不是跟工作有關;閒暇之餘則喜歡讀書、旅遊,偶爾陪陪家人。

再看看Tarik Arici,他是主攻應用型科學的,也是博士背景(畢業於美國南方一間知名理工校),目前投入到選品和商品目錄管理領域。最近似乎熱衷於把生成式AI帶進資料品質強化裡頭。他私下愛游泳和騎單車,那些休閒活動倒挺貼近日常。

總結下來,這群人在專業領域各自有所突破,但實際影響可能還有待更長時間觀察;如果哪天遇到他們本人,大概聊的不只技術,也許連日常趣事都能扯上一點邊吧。

Related to this topic:

Comments