用最新 AI 工具強化研究草稿,抓住搜尋關鍵點更快完成報告
- 先設定 1 個明確目標,每次搜尋不超過 3 個關鍵詞,這樣能聚焦重點內容。
能減少雜訊,3 天內整理出有效摘要—看你在這段時間內筆記重複率有沒有明顯降低。
- 每次用 GPT-Researcher 或 TTD-DR 實驗時,別超過 5 條自訂指令,這樣容易比較效果差異。
限制參數比較不會亂掉,7 天後看哪個方法產出被你留用的段落超過 2 段。
- 每篇草稿至少做 2 輪 denoising with retrieval,找出前 5 筆檢索資料交叉驗證。
多一輪精修,能明顯減少誤用舊資訊—1 週內重查時錯誤率降到 10% 以內。
- 每隔 3 天,檢查草稿有沒有用 component-wise self-evolution 優化至少 1 個模組邏輯。
能讓流程自動變聰明—3 天內看模組提出新修正建議超過 1 次就算達標。
認識 Google TTD-DR AI 打破傳統研究限制
最近Google又默默推出了一款AI系統,據說在部分領域表現甚至還壓過OpenAI的頂尖研究員,蠻讓人驚訝。跟以往那些只會聊聊天的模型不太一樣,這個新系統好像真能模擬人類那種遇到問題時會糾結、來回思考的創造力歷程。有些科技媒體觀察之後都覺得,它產出的結果居然帶著很特殊的深度感,而且還頗有一氣呵成的連貫性,令人眼睛一亮。
其實,目前市面上的主流AI模型處理資訊的本事是很強沒錯啦,但用戶大多應該都遇過:它們要嘛就給你超級簡短摘要,不然就是敷衍幾句、沒什麼內容。如果今天要這些AI針對複雜議題寫出像研究報告那樣細緻又深入的東西 - 老實說,本來是需要長時間整理海量資料,再來歸納分析,而且邏輯架構還得持續優化。現在絕大多數AI交出來的稿子,就是內容比較零散,重點常常模糊,加上邏輯有斷層,總是少了一種真的下過功夫、不浮於表面的專業感。所以想靠這些模型替代深度寫作,說穿了,目前可能還辦不到。
其實,目前市面上的主流AI模型處理資訊的本事是很強沒錯啦,但用戶大多應該都遇過:它們要嘛就給你超級簡短摘要,不然就是敷衍幾句、沒什麼內容。如果今天要這些AI針對複雜議題寫出像研究報告那樣細緻又深入的東西 - 老實說,本來是需要長時間整理海量資料,再來歸納分析,而且邏輯架構還得持續優化。現在絕大多數AI交出來的稿子,就是內容比較零散,重點常常模糊,加上邏輯有斷層,總是少了一種真的下過功夫、不浮於表面的專業感。所以想靠這些模型替代深度寫作,說穿了,目前可能還辦不到。
發現現有 AI 深度報告瓶頸與搜尋流程
早安 - 或者說,這其實是我邊揉眼邊開電腦的時間啦。最近 Google 公開了一份標題叫「Deep Researcher with Test-Time Diffusion」的新論文,他們試著顛覆我們過去習慣那種 AI 只會大量撈資料、猛灌數據,然後吐個現成答案出來的套路。你沒看錯,這次不是單純拚速度,而是在於他們很有意思地想要讓 AI「學會像人一樣研究」,思緒稍微發散點、有些小混亂,但反而關鍵細節不會漏掉。
至於為什麼這套新方法一出就變得超有話題,得先聊一下現行主流方案都哪裡卡住了。例如現在網路上大受歡迎的那些所謂開源智慧代理(像 GPT-Researcher 或 Open Deep Research),其實基本玩法差不多 - 通常先丟一份精心規劃好的問題清單(Plan),再用自動化工具去同時追查每道問題的解答(Search)。這步驟可說蠻制式,也就是機械地先規劃好任務清單、再依序或同步搜尋答案,不太能像人類那樣因應狀況轉彎或冒出新的想法。不過,我也不敢說完全沒意外,只是目前真的多半都是這路數啊。
至於為什麼這套新方法一出就變得超有話題,得先聊一下現行主流方案都哪裡卡住了。例如現在網路上大受歡迎的那些所謂開源智慧代理(像 GPT-Researcher 或 Open Deep Research),其實基本玩法差不多 - 通常先丟一份精心規劃好的問題清單(Plan),再用自動化工具去同時追查每道問題的解答(Search)。這步驟可說蠻制式,也就是機械地先規劃好任務清單、再依序或同步搜尋答案,不太能像人類那樣因應狀況轉彎或冒出新的想法。不過,我也不敢說完全沒意外,只是目前真的多半都是這路數啊。

比較 GPT-Researcher 與 Open Deep Research 線性思維問題
第三步就是把全部檢索到的資訊做一個整合,讓它變成最後要給大家看的報告。這樣聽起來很理所當然,但你有沒有覺得哪裡怪怪的?其實,這還真不是一般人在處理複雜知識時的習慣路線 - 畢竟,我們很少只是簡單「收集」然後就自動整理成篇大報告啦。有趣的是,這一種「逐條收集、彙總」的方法常常會斷裂全域脈絡。舉個例子,如果你每次都只專注查一小段、然後把所有筆記疊加在一起,過程中彼此內容幾乎無法交錯呼應。於是等人工智慧真正要寫文章時,桌上就剩下東拼西湊、排列未經精緻規劃的資料卡片而已。
Google 之前有發表論文談這主題,其中附上的圖示超直觀,蠻值得參考。那張圖清楚地對照了幾種模式:從(a)、(b)到(c),基本上都是依著結構化流程,一步步搜尋再最後組合出結論,看起來好像很工整。但到了(d)階段,也就是 Google 推的新策略時,你就會發現他們真的走出了明顯不同路徑。
至於這些差別細節,其實比表面上看到的還複雜。有可能某些時候我們以為系統只是在兜答案,但底層機制早就換了一種做法。不過,我老實說,有些地方官方細節描述也沒有全揭露,只能用「推測」兩字。所以如果有進一步消息,我會再更新分享嘿!
Google 之前有發表論文談這主題,其中附上的圖示超直觀,蠻值得參考。那張圖清楚地對照了幾種模式:從(a)、(b)到(c),基本上都是依著結構化流程,一步步搜尋再最後組合出結論,看起來好像很工整。但到了(d)階段,也就是 Google 推的新策略時,你就會發現他們真的走出了明顯不同路徑。
至於這些差別細節,其實比表面上看到的還複雜。有可能某些時候我們以為系統只是在兜答案,但底層機制早就換了一種做法。不過,我老實說,有些地方官方細節描述也沒有全揭露,只能用「推測」兩字。所以如果有進一步消息,我會再更新分享嘿!
探索人類類比式迭代研究流程優勢
說到研究或面對某種問題,迴圈真的就是整個關鍵環節欸。你知道嗎,有時我們搞學問或想破頭找答案,腦袋裡其實根本不可能自帶那種什麼「全攻略流程圖」。大多數情況下,我們手上只有一個勉強說得過去的大致輪廓,就開始摸索前進。
然後呢?通常是邊動筆寫點東西出來 - 老實講,那份初稿往往有夠陽春、甚至亂七八糟。不過先別在意。隨著資料陸續查到,又會突然察覺原本好像哪裡怪怪的(唔,好像寫錯了什麼),於是回過頭開始推倒重練,把一些內容改掉。接下來修訂後的版本,大概又冒出了更奇特或深入的小疑問吧 - 喔!這反而促使我們搜尋更多新材料,完全打開新的探究方向。
等於是在資料、想法、疑惑中繞啊繞,一直處於這種修正-再發現-再追查的小回饋循環。每走一輪,腦海中的圖就精緻一點;雖然這路徑彎來繞去,其實才最像人類自己「掙扎前行」的樣貌啦!
然後呢?通常是邊動筆寫點東西出來 - 老實講,那份初稿往往有夠陽春、甚至亂七八糟。不過先別在意。隨著資料陸續查到,又會突然察覺原本好像哪裡怪怪的(唔,好像寫錯了什麼),於是回過頭開始推倒重練,把一些內容改掉。接下來修訂後的版本,大概又冒出了更奇特或深入的小疑問吧 - 喔!這反而促使我們搜尋更多新材料,完全打開新的探究方向。
等於是在資料、想法、疑惑中繞啊繞,一直處於這種修正-再發現-再追查的小回饋循環。每走一輪,腦海中的圖就精緻一點;雖然這路徑彎來繞去,其實才最像人類自己「掙扎前行」的樣貌啦!

了解 Test-Time Diffusion 讓 AI 學會草稿修正循環
Google 的研究人員最近弄出了一套叫 Test-Time Diffusion Deep Researcher(TTD-DR)的系統,據說他們是把報告寫作這件事情整個看成一種「擴散過程」。其實蠻有意思的啦 - 他們的想法大概是,你本來就只能先丟出一份很模糊、像灑滿「雜訊」的草稿(有可能亂七八糟),然後一步步讓內容逐漸變明確。
對於這個過程,他們設定了兩個主要運作重點。首先就是起始草稿扮演相當關鍵的角色:裡頭核心的方法是用「檢索」的方式來除雜。話說回來,TTD-DR剛開始只靠自己的內部知識寫出那種相對簡陋、略顯粗糙的大致草案;而這份稿子不單純只是會混進雜訊,資訊常不齊全、有時還藏著一些小錯誤呢。不過嘛,很巧的是,正因為如此 - 這樣未完成又充滿缺陷的開端反倒變成後續專案推進與逐漸完備架構的重要骨幹,也可謂必要之惡。
對於這個過程,他們設定了兩個主要運作重點。首先就是起始草稿扮演相當關鍵的角色:裡頭核心的方法是用「檢索」的方式來除雜。話說回來,TTD-DR剛開始只靠自己的內部知識寫出那種相對簡陋、略顯粗糙的大致草案;而這份稿子不單純只是會混進雜訊,資訊常不齊全、有時還藏著一些小錯誤呢。不過嘛,很巧的是,正因為如此 - 這樣未完成又充滿缺陷的開端反倒變成後續專案推進與逐漸完備架構的重要骨幹,也可謂必要之惡。
利用 denoising with retrieval 實作草稿精進過程
這個流程大致是這樣的:它讓 AI 根據現有草稿自動偵測內容空白、未驗證地方,接著很自然地生成一條搜尋指令,用這個查詢去找相關資訊。找到東西之後,AI 會立即用最新資料修正或更新原本那段文字,因此每次修改都越來越符合需要,也變得更聚焦啦。然後經過這種反覆的「吸收—強化」循環後,那份原本雜訊不少的草稿最終會變成一份清楚且較完整的新版本。
說到 TTD-DR 系統,它裡面很多元件自己也一直在優化耶。舉個例子,像是那種專門負責產出初步研究提案的代理角色,又或是設計查詢問題那個模組,每一小塊都是各自獨立提升自己的表現,蠻有意思的。
說到 TTD-DR 系統,它裡面很多元件自己也一直在優化耶。舉個例子,像是那種專門負責產出初步研究提案的代理角色,又或是設計查詢問題那個模組,每一小塊都是各自獨立提升自己的表現,蠻有意思的。

觀察 component-wise self-evolution 促進模組自我升級
測試時擴展(test-time scaling)其實蠻有意思的。它主要的做法,就是讓每個模組──比如專門從搜尋結果中挑答案的那一位,還有最後幫你彙整報告的寫手型代理──每執行一次工作,自己就進行一輪小幅升級。這個過程其實滿像腦內自我審核:系統會提出好幾種不同版本的結果(像是多種檢索方式),再交由AI充當評分員幫忙打分與給意見,隨即修正產出內容。
與其說是某個單獨研究員拼命寫稿,不如比喻為頂尖高手們各自腦力激盪後才拿出東西。反覆迴圈思考,只求內容愈發精粹而無遺漏,也就是「人人都在用自己的大腦重新琢磨一遍」吧!所謂測試時擴展嘛,就是在用戶丟問題來時,下足功夫、額外調動更多計算資源,在原架構不變下極限壓榨潛力,產出的效果自然比單純砸更大的模型要精細許多。
另外針對效能方面,有趣的是原文直接提到,其實該技術早已被放到現有產業指標來比較過了,例如 OpenAI Deep Research、Perplexity Deep Research 甚至 Grok DeeperSearch 這些大名鼎鼎的系統都上榜。不用懷疑,目前初步看到部分場合真的能測得出明顯表現提升,而且情境切換下也頗為彈性。我想,具體怎麼應用未必一次就全部搞定,但看到這裡總覺得還挺讓人期待會有哪些新火花冒出啦!
與其說是某個單獨研究員拼命寫稿,不如比喻為頂尖高手們各自腦力激盪後才拿出東西。反覆迴圈思考,只求內容愈發精粹而無遺漏,也就是「人人都在用自己的大腦重新琢磨一遍」吧!所謂測試時擴展嘛,就是在用戶丟問題來時,下足功夫、額外調動更多計算資源,在原架構不變下極限壓榨潛力,產出的效果自然比單純砸更大的模型要精細許多。
另外針對效能方面,有趣的是原文直接提到,其實該技術早已被放到現有產業指標來比較過了,例如 OpenAI Deep Research、Perplexity Deep Research 甚至 Grok DeeperSearch 這些大名鼎鼎的系統都上榜。不用懷疑,目前初步看到部分場合真的能測得出明顯表現提升,而且情境切換下也頗為彈性。我想,具體怎麼應用未必一次就全部搞定,但看到這裡總覺得還挺讓人期待會有哪些新火花冒出啦!
檢驗 Google TTD-DR 與 OpenAI、Perplexity 的競爭表現
如果說TTD-DR最近在LongForm Research和DeepConsult這兩項長篇、綜合報告的評測中表現驚人,其實我一點也不意外 - 成績分別比OpenAI家的agent多出69.1%跟74.5%的優勢,數字一擺出來還真挺有說服力。這種成績老實講不是些微差距,反倒是那種「很明顯贏」的狀態。
然後,進階需要多步推理,以及凝練答案挑戰的HLE與GAIA基準中,TTD-DR依然壓過OpenAI和同等級技術其他玩家,表現穩定沒掉鏈子;如果去看相關論文裡的圖表內容,那個(b)圖其實抓住核心重點,有夠直接──當你給TTD-DR多一些「思考時間」(latency),它效率飛速提升,相較之下別家進展就明顯慢很多。
比較各類系統架構時也看得出端倪,一開始僅用「Backbone DR Agent」作基礎沒啥特別,但一加入所謂「Self-Evolution」,再疊加上終極招式「Diffusion with Retrieval」,曲線整個直接往上跳躍。不誇張,這現象擺明不是單純強化,而是將智能發揮到效率與增強雙重兼顧,可說十分高竿啦。
然後,進階需要多步推理,以及凝練答案挑戰的HLE與GAIA基準中,TTD-DR依然壓過OpenAI和同等級技術其他玩家,表現穩定沒掉鏈子;如果去看相關論文裡的圖表內容,那個(b)圖其實抓住核心重點,有夠直接──當你給TTD-DR多一些「思考時間」(latency),它效率飛速提升,相較之下別家進展就明顯慢很多。
比較各類系統架構時也看得出端倪,一開始僅用「Backbone DR Agent」作基礎沒啥特別,但一加入所謂「Self-Evolution」,再疊加上終極招式「Diffusion with Retrieval」,曲線整個直接往上跳躍。不誇張,這現象擺明不是單純強化,而是將智能發揮到效率與增強雙重兼顧,可說十分高竿啦。

明白目前 TTD-DR 在網頁搜尋應用的侷限性
最近這陣子,TTD-DR 的應用狀況其實還蠻侷限的。說真的,從相關研究人員分享的內容來看,它目前就專精在網路搜尋這個功能上。其它那些蠻重要的工具,例如能直接和網站互動的網頁瀏覽模組啦,或者支援做數據分析、甚至各種運算模擬,其實都還沒整合進來 - 這個部分說不定日後才會補上吧。所以要直接叫它是全自主 AI 科學家?現在可能有點太早了。不過呢,只要碰到需要從海量網路裡搜羅並歸納知識、彙整資料的研究任務,我覺得 TTD-DR 應該已經算很能打,也算是在領先梯隊裡頭了。
換個方向來看好了,這種進展其實對那種主要靠資訊收集與報告撰寫過生活的人,是一件大事情。像是科學工作者、市場研究人員、還有學生這些朋友,在不久之後或許不用再熬好幾週,就能輕鬆搞出內容充實又邏輯分明而且資訊正確的各類報告,只花短短幾分鐘就能完成(天啊想想真羨慕)。坦白講,對他們而言這簡直可以拿來當作親身體驗「通用人工智慧(AGI)」時刻的小預覽啦。而同一時間,TTD-DR 也讓我意識到,要推動強人工智慧系統往前衝,不能只是迷信把語言模型做更巨大;更應該認真去思考多元技能要怎麼串接起來,用設計提升效率,把真正派得上用場的新能力帶給大家。
換個方向來看好了,這種進展其實對那種主要靠資訊收集與報告撰寫過生活的人,是一件大事情。像是科學工作者、市場研究人員、還有學生這些朋友,在不久之後或許不用再熬好幾週,就能輕鬆搞出內容充實又邏輯分明而且資訊正確的各類報告,只花短短幾分鐘就能完成(天啊想想真羨慕)。坦白講,對他們而言這簡直可以拿來當作親身體驗「通用人工智慧(AGI)」時刻的小預覽啦。而同一時間,TTD-DR 也讓我意識到,要推動強人工智慧系統往前衝,不能只是迷信把語言模型做更巨大;更應該認真去思考多元技能要怎麼串接起來,用設計提升效率,把真正派得上用場的新能力帶給大家。
思考人機協作新格局下深度 AI 報告未來價值
其實這一段最有意思的地方,就在於它把重點放到系統和工作流程的設計上 - 不是單純只看模型本身,反而強調周邊架構也同樣舉足輕重。在人工智慧的推進歷程裡,不只算力、資料量在競賽,連怎麼串接流程與回饋也很關鍵。坦白說,論文主要給我的衝擊倒不是技術突破,而是一種有點像哲學層面的覺醒:真正能讓機器展現超越人類水準的祕訣,很可能就是模仿人腦自然那種亂中帶序、不斷返工和細部修正的思考習慣。你看,我們自己也是常常丟出個粗胚,然後不斷打掉重練 - 其實這不僅不是錯誤,反而成了很多創新與極致表現的發源地。所以現在AI也逐漸有辦法做到這件事,其實還挺奇妙啦。如果你認同我這種方式解析複雜話題,也歡迎幫我買杯咖啡,用行動支持創作。