AI Daily Digest

📰 每日 AI 彙整

2026-05-28  ·  共 29 則報導
T1 爆炸重要T2 值得關注T3 一般資訊T4 參考用T5 可略過
T2
T2
快手 Keye2.0 多模態模型開源

快手(就是中國版 TikTok 的開發商)推出並開源了 Keye-VL-2.0-30B-A3B,這是一個擁有 300 億參數的多模態大語言模型(能同時理解文字、圖片和影片的 AI)。這次最大的技術亮點是把 DSA 稀疏注意力(一種讓 AI 在處理超長內容時,自動跳過不重要部分、大幅節省計算資源的方法)首次引入多模態場景,讓模型處理長達數小時的影片時,計算成本直接降低 50%,而且不會隨影片加長急劇膨脹。除了影片理解,模型還內建 Agent 框架(讓 AI 能自動規劃步驟、呼叫外部工具來完成任務的機制),在程式碼生成和軟體工程任務上也拿出強力成績。這個模型已完全開源到 HuggingFace 和 GitHub,支援 256K 超長上下文(等於能一口氣讀進約 20 萬字的資料),任何開發者都可以免費取用。

假設你有一部 2 小時的會議錄影,想找出「哪幾分鐘在討論預算」並剪成一段片段。舊做法是請人工逐一翻看,或用傳統逐幀分析工具,不僅費時,一般工具也不支援超過十幾分鐘的影片。用 Keye-VL-2.0 則可以把整部 2 小時影片丟進去,下一句指令「找出討論預算的時間段」,模型透過 DSA 稀疏注意力快速略過無關畫面,精確定位到時間戳,吐出像 `45:12 ~ 47:38` 這樣的具體結果。在業界長影片基準測試(ActivityNet-TimeLens)上,Keye-VL-2.0 的得分(58.5)超越 Google 旗下的 Gemini-2.5-Pro(58.1)及 Gemini Flash,而且這是一個完全開源、30B 參數的模型,研究者和開發者可以直接下載、自行部署或微調。

T2
AI 數學突破與睡眠式記憶壓縮

這篇文章匯整了 AI 研究領域近期三項重要進展。首先是「能力隱藏」現象:有數學家實測 Claude Mythos(Anthropic 的頂尖 AI 模型)成功解決了 Erdős 問題 #90(這是數學界幾十年沒解決的懸案),而且 AI 找到的證明方式比過去 OpenAI 的解法更簡潔乾淨。研究者指出,這說明現有 AI 模型擁有大量「潛在但未展現的能力」——用普通的聊天介面只能問出冰山一角,但透過精心設計的自動化流程(harness,就像給 AI 加上一套工作架構,讓它能反覆思考、自我驗證),就能讓 AI 解出以前做不到的難題。其次是一篇新論文《語言模型需要睡眠》:AI 在執行需要大量步驟的長期任務時,需要不斷「記住」前面做過的事,但這些記憶(KV cache,即 AI 的短期暫存空間)越來越大,會拖慢速度甚至撐爆。論文提出仿照人類睡眠的「鞏固機制」——趁 AI 閒置時把短期記憶壓縮寫入永久參數,清空暫存空間,讓下次運作時仍保持快速。最後是 QUEST,一批新發布的開源「深度研究代理」(能自主上網查資料、核實引用來源、產出長篇報告的 AI 程式),參數規模從 20 億到 350 億都有,適合各種算力環境使用。

假設你是科學研究員,需要讓 AI 代理持續追蹤某領域的論文、每天自動更新文獻綜述。舊做法是每次啟動新對話都要重新貼上所有背景資料,因為 AI「重啟」後什麼都忘了,且對話一長就開始遺漏前面的資訊。用《語言模型需要睡眠》論文的機制,AI 會在每個任務批次結束後「睡眠鞏固」——把「昨天已查過的 50 篇論文的重點」壓縮存入模型內部,清掉暫存空間;第二天繼續工作時記憶仍在,速度也不受龐大暫存拖累。搭配 QUEST 開源研究代理,AI 可以自動上網搜尋新論文、查核引用的真實性、輸出帶有確切文獻連結的報告——整個流程跨越數百個步驟,卻不再因「記憶空間滿了」而中斷或遺忘。與過去相比,研究員每週能省去大量手動整理的時間,得到的報告也附有可驗證的原始來源,而不只是 AI 信心滿滿地瞎猜。

T2
MiniMax M3 開源、微軟圖像搶前三

這週 AI 圈有幾件值得注意的事同時發生。首先,MiniMax(中國 AI 公司)宣布要開源他們的新模型 M3,採用了新的「稀疏注意力」設計——簡單說就是讓 AI 在讀超長文件時,不必每個字都細看,只選最重要的部分快速處理,大幅省去計算力。在一次處理 100 萬個字元(大約兩三本厚書的篇幅)的場景下,前置讀取速度比上一代 M2 快 9.7 倍、輸出速度快 15.6 倍,這個差距在業界算非常顯著。其次,微軟推出了圖像生成模型 MAI-Image-2.5,在全球圖像生成排行榜「Image Arena」(由用戶投票選出最好的生圖結果)直接殺入第三名,打破了 OpenAI 和 Google 長期佔據前排的格局,得分 1,254 分。另外,PrismML 開源了 Bonsai Image 4B,這是一個只有 40 億個參數(參數可以理解為 AI 的「記憶量」,越多通常越強但也越耗資源)的視覺模型,連 1-bit 超輕量版也有,整個模型只需約 3GB 空間,可以直接在筆電甚至手機上跑,不需要連到雲端。最後,Google 的 Gemini 3.5 Flash 實測輸出速度達每秒約 280 個 token(可以理解成每秒約 280 個字),在需要 AI 自主執行多步驟任務(例如:幫你一步步查資料、整理報表、寫信)的情境表現也有明顯提升,但代價是費用比上一代 Gemini 3 Flash 貴了約 5 倍。

假設你要讓 AI 一口氣讀完一份 500 頁的法律合約,然後回答「第 10 章違約條款中,哪些情況需要賠償金額超過合約總額的 20%?」這種複雜問題。舊模型碰到這麼長的文件時,光是「把全文塞進記憶」這個動作(技術上叫 prefilling)就要花十幾秒甚至更久,讓人等得焦躁。MiniMax M3 的新設計讓這個步驟快了 9.7 倍——原本要等 20 秒的事,現在大約 2 秒就能開始回答。對每天需要用 AI 審閱大量合約、法規、研究報告的企業來說,這種速度差距直接決定一天能處理多少件,商業意義很明確。而如果你只是想在自己電腦上玩圖像辨識或生成,Bonsai Image 4B 的出現意味著不需要高端顯示卡、不需要付雲端費用,下載 3GB 就能跑,適合開發者在本地測試或個人使用。

T2
Robinhood 開放 AI Agent 交易股票

Robinhood(美國知名股票交易 App,類似台灣的永豐或富果)宣布讓 AI agent(AI 自動執行任務的軟體程式,你給它目標,它自己想辦法完成,中途不需要人一直盯著)能夠代替使用者進行股票買賣。使用者可以建立一個「專屬 AI 交易帳戶」,預先放入一筆資金,AI agent 就在那筆錢的範圍內自行判斷進出場。背後採用的是 MCP(Model Context Protocol,一種讓 AI 程式連上外部服務的標準介面,類似 USB 插頭的規格統一,讓 AI 不用每次都重新學怎麼接各種資料來源),讓 agent 能讀取投資組合、分析風險集中度,再執行交易。部分金額較大或風險較高的交易仍需使用者手動批准,Robinhood 也設有詐騙偵測團隊專門審查可疑交易。目前功能在測試階段,只支援股票,未來計畫擴展到期權、加密貨幣和期貨。

我想嘗試「每當科技股整體下跌超過 3%,就自動分批買入我的自選清單」這個策略,但我沒辦法整天盯著盤。用 Robinhood 的 AI agent 功能,我先開一個獨立交易帳戶、存入 5 萬元,告訴 agent 這個觸發條件和清單,agent 會透過 MCP 介面即時監控市場、判斷是否達標,達標就自動下單。整個過程我主帳戶的錢完全不會被動到(因為 agent 只能用那個獨立帳戶的 5 萬元),如果 agent 的某筆大單看起來異常,系統會攔下來等我確認。對比過去,我只能靠「設定停損單」或「手動下單」兩種方式,agent 讓策略執行可以更靈活、更接近人工判斷。

T2
微軟 MAI-Image-2.5 文生圖排名第三

MAI-Image-2.5 是微軟(Microsoft)最新推出的「文字生成圖片」AI 模型——也就是你輸入一段文字描述,AI 自動畫出一張圖的那種工具。它在 Arena(一個讓大量真實用戶投票、公平比較各家 AI 圖像生成模型好壞的公開排行榜,類似消費者評比)上拿下第三名,是 AI 圖像生成領域的重大突破。相比上一代 MAI-Image-2,新版在三個方向明顯進步:「視覺推理」(AI 能理解圖中各物件的空間關係,例如前景背景、遮擋關係)、「場景結構」(整體構圖更合理、畫面元素排列更自然)、以及「商業插圖製作」能力。最值得一提的是它的「文字渲染」能力——當你要求 AI 在圖片中加入特定文字(例如廣告標語、招牌),新版能更清晰、正確地呈現,而這向來是其他圖像 AI 的痛點。

假設我是設計師,要製作一張台灣手搖飲品牌的廣告圖,需求是:珍珠奶茶的特寫,背景是夜市霓虹招牌,招牌上要寫「明日美好」四個字。用舊版圖像 AI(如早期 Midjourney 或 DALL-E 3)時,招牌上的文字往往扭曲、缺筆甚至變成亂碼,需要反覆嘗試或後製修圖才能過關。用 MAI-Image-2.5 改進後的文字渲染能力,相同的提示詞下,招牌文字出現機率更高、字形更完整可辨;同時場景中的光影質感和霓虹燈背景構圖也更協調,大幅減少重試次數,讓設計師能更快完成初稿。

T2
Anthropic 三層防護 AI Agent 安全

Anthropic(就是開發 Claude 的公司,是 OpenAI 的主要競爭者)最新公開了一篇工程部落格,揭露他們如何在不同的 Claude 產品中控制 AI 可能造成的危害。AI agent(就是能自己上網搜尋、執行程式碼、讀寫檔案的自動化 AI 助手)越來越普遍,但如果 AI 被攻擊者操控、或者 AI 自己出了差錯,可能導致重要資料外洩或系統被破壞。Anthropic 採用「三層防護」策略:首先在執行環境層做沙箱隔離(就是讓 AI 在一個封閉的容器裡運行,就算出事也出不來),其次在模型行為層面設限,第三則是過濾外部輸入的惡意指令。他們特別強調:環境隔離比調整 AI 的行為模式更可靠,因為 AI 的行為難以預測,但容器的邊界是工程可保證的。這篇文章還罕見地公開了幾個曾發生的真實安全事故及修復過程,是目前 AI agent 安全領域最完整的第一手工程案例之一。

以 Claude Code(一個能幫你寫程式的 AI,可以直接讀寫你電腦上的檔案和執行命令)為例:早期設計讓用戶自己審批 AI 的每個操作——讀檔免審,寫檔、執行命令需要按確認。結果 Anthropic 統計到 93% 的操作用戶都直接按「同意」,反而形成「確認疲勞」(用戶煩了就一路確認,失去防護意義)。他們的解法不是繼續靠用戶審批,而是加了作業系統層的沙箱:macOS 用系統的 Seatbelt 機制、Linux 用 bubblewrap 工具,讓 AI 即使想執行危險操作也被作業系統本身擋住,不需要靠用戶每次按確認。結果:需要跳出確認提示的操作減少了 84%,用戶體驗更順暢,安全性反而更高——這正是「先把牆蓋好,再談 AI 聽不聽話」這個設計原則的體現。

T2
Claude Mythos 解出 1946 年老難題

Anthropic(就是做 Claude AI 的公司)最新研發的模型 Claude Mythos,成功解開了一道自 1946 年就懸而未解的數學難題——「Erdős 單位距離猜想」(一個關於幾何點陣排列的組合數學(把點放在平面上,研究它們之間距離規律的數學分支)問題)。更早之前,OpenAI 的 AI 模型已先行解決了同一問題,被數學界視為 AI 驅動數學研究的重大里程碑。Mythos 的解法被 Anthropic 工程師形容為「簡潔、漂亮的證明」,雖然數學家評估 Mythos 的方案稍遜於 OpenAI 的解法,但 Mythos 後來也被報導成功找出了 OpenAI 的解法。值得注意的是,Mythos 所用的方法是讓多個獨立的 AI 實例(可以想像成多個 AI「工作站」同時各自思考問題),分頭探索不同解題路徑、最終彙整成果——這套分散式(把任務拆分給多個獨立單元同時進行)的解題框架,讓 AI 能頻繁找到與 OpenAI 模型不同的解法路徑。研究者認為,這波進展顯示 AI 在數學發現方面還有相當大的「待爆潛力(目前已有實力但尚未全面釋放的能力)」。

假設你是一位數學系學生,要挑戰某道已知「應該可解但還沒人解出來」的幾何猜想。傳統做法:你翻閱幾十年的論文、自己推導幾個月,最終可能還是卡關。現在,用 Claude Mythos 的做法:系統自動開啟多個獨立的 AI 工作站,每個工作站都接到同一道題目,各自獨立發展不同的解題思路。其中一個工作站發現了一條「簡潔路徑」(就是這次的「cute, simple proof」);另一個最終甚至推導出和 OpenAI 相同的解法。人類研究員只需在最後審核 AI 匯整的解題方案即可——原本需要數十年的懸案,AI 可能在短時間內給出多條可行解法。

T2
法律 Agent 基準 Opus 4.7 奪冠

Harvey 是一家專門幫律師事務所開發 AI 工具的公司,他們設計了一套「法律 Agent 基準測試」(Legal Agent Benchmark,就是一套測量 AI 在真實法律任務上能力的考試題組)。這次測試採用最嚴格的「全通過」標準(all-pass),意思是 AI 必須在每一項評分標準上都完整達標才算合格,只要有一項沒過就算失敗——比一般只看平均分的測試嚴格許多。測試結果:表現最好的是 Anthropic 的 Claude Opus 4.7(就是目前 Anthropic 最頂級的 AI 模型),合格率也只有 7.1%;其次是 Claude Sonnet 4.6(5.4%)、Claude Opus 4.6(4.2%)、OpenAI 的 GPT-5.5(2.1%)、Google 的 Gemini 3.5 Flash(0.8%)。這組數字清楚說明,目前最先進的 AI 在「能完整處理真實法律工作」這件事上,遠遠沒有達到可以取代律師的程度。

假設你把以下任務交給 AI:「審查這份合約,找出每一條對我方不利的條款,列出條文號碼並給出具體修改建議」。依照 Harvey 這套嚴格標準,AI 必須做到「每一項要求都完整完成、不漏判、不誤判、不給含糊建議」才算過關。結果是,即便是目前最強的 Claude Opus 4.7,在類似的完整法律任務下,大約 100 份合約裡只有 7 份能全部標準都通過。對比之下,舊做法是讓資淺律師花幾小時逐條審閱——AI 雖然速度快,但在這套最嚴格的「每一項都要對」標準下,準確率和完整性仍遠低於有經驗的人類律師。對開發法律 AI 工具的團隊來說,這份測試劃出了一條清楚的進步目標線。

T3
T3
Agent 生態取代流量護城河

傳統網路時代,企業靠「流量」——也就是有多少人點進你的 App 或網站——建立競爭護城河。但螞蟻集團 CEO 韓歆毅在近期論壇提出一個新觀點:中國有 14 億人,未來 AI Agent(自主代理人,就是能自己規劃、呼叫工具、自動執行任務的 AI 程式)可能會有 1400 億個,數量是人口的 100 倍。這意味著商業競爭的核心正在根本性轉移——未來決定勝負的不再是「有多少人打開你的 App」,而是「有多少 AI 代理人願意呼叫你的服務」。配合這個趨勢,Google 已推出 A2A 協議(智能體對智能體,讓不同廠商的 AI 程式互相溝通的標準規範),OpenAI 和 Stripe 也推出 ACP(讓 AI 代理人自動完成購物等商業交易的協議),整個 AI 生態正快速往「Agent 互連互呼叫」方向建構基礎設施。

假設你想安排一趟出差,傳統做法是:自己上旅遊網站搜尋機票、再上另一個平台訂飯店、再找接送交通,每個步驟都要你手動點選、比價、填表。Agent 時代的做法是:你只跟 AI 助理說「下週三飛上海出差,幫我安排機票、飯店、接送,預算 8000 元」,AI 代理人會自動呼叫多個服務的 API(就是讓程式之間互相溝通的標準介面),自動比價、確認、付款,全程你不需要打開任何網站。這對企業意味著:你的訂房平台不再需要花大錢在搜尋引擎買廣告讓「人」搜尋到你,而是要讓你的服務符合 A2A、ACP 這類協議標準,確保 AI 代理人在規劃任務時能「發現你、信任你、呼叫你」——誰的服務被更多 Agent 選用,誰才有未來的競爭優勢,與傳統靠廣告搶流量的邏輯完全翻轉。

T3
VGGT-Edit 3D場景編輯120倍加速

VGGT-Edit 是由北京大學、香港中文大學、上海 AI Lab 及台灣大學聯合提出的「原生 3D 場景編輯」AI 框架。3D 場景(就是遊戲、AR 擴增實境、機器人模擬所使用的立體空間模型)的編輯,過去的做法是先把 3D 轉回 2D 影像再處理,費工之餘還容易出現「在某個角度刪掉的物件,換個拍攝角度又冒出來」的穿幫問題,也就是多視角不一致。VGGT-Edit 改為直接在 3D 空間裡操作,透過「殘差場預測」機制(意思是:AI 只學習「改了哪裡」的局部差異,而非重算整個場景,讓改動更精確省力),搭配深度融合的文字指令理解,讓模型能讀懂「把桌上的杯子移到窗邊」這樣的描述,就能精準、一致地完成修改。實測單次編輯僅需約 5 秒,比舊方法最高快 120 倍,首次讓 3D 編輯接近即時互動水準。

想像一位工程師正在設計工廠機器人的模擬環境——3D 場景裡有輸送帶、機械手臂和零件箱。他想測試「把最右邊的零件箱移到輸送帶末端」的新配置,用舊方法 AI 要把整個場景先退化成多張 2D 圖,逐一修改再重組 3D,動輒等幾分鐘,不同視角還可能留有殘影。改用 VGGT-Edit,他輸入文字指令「把最右邊的零件箱移到輸送帶末端」,系統直接在 3D 空間計算出零件箱消失與重現的局部殘差,5 秒內從所有角度都得到正確且一致的新場景,可立刻繼續測試下一個配置——完全不需要等待重建流程。

T3
AI代寫99%論文,作者只花2小時

DeepSeek(一家開發了多個頂尖對話 AI 的中國公司)的研究員陳德里,開發了一套叫做 DeliAutoResearch 的自動化研究工具。這套工具能讓 AI Agent(就是能自主執行一連串任務的 AI 程式,類似給 AI 一個目標、它自己規劃步驟去完成)全程幫忙撰寫學術論文,包括蒐集文獻、整理架構、撰寫內容、設計圖表。陳德里用這套工具產出了一篇46頁的學術論文,包含103篇已驗證的參考文獻、7個圖表、4個表格,AI 大約完成了99%的工作。最關鍵的是:整份論文陳德里本人實際動腦的時間加起來不到2小時,而以往做同等規模的研究,通常至少要花一個月。

陳德里想寫一篇整理「AI 自主研究代理人的自主程度分類(L1到L5分級)」的學術綜述。以往要完成這樣一篇46頁論文,研究者需要幾週時間翻找論文、整理筆記、起草大綱、反覆修改——至少一個月工時。現在他啟動 DeliAutoResearch,設定好研究主題後,系統自動執行:AI 查找並驗證文獻、起草各章節、呼叫 GPT-Image2(一個能根據文字描述自動畫圖的 AI)生成圖表、反覆修改直到第6版定稿。整個流程總共調用了約108輪 AI 對話、消耗64.8萬個 token(token 是 AI 處理文字的最小單位,大約每750個英文字算1000個 token)、自動生成了2234行 LaTeX 代碼(學術論文常用的排版格式)。整個過程歷時6天,但陳德里只需在少數關鍵節點介入,實際動腦不到2小時——等於把一個月的研究工作壓縮到幾乎全自動。

T3
AI 推論與開發工具多項性能更新

這則新聞整理了近期 AI 開發工具和基礎設施的多項重要更新。最值得注意的是 vLLM(一個廣泛用於部署 AI 語言模型的開源推論引擎,就是讓 AI 模型跑得快、同時接受大量使用者請求的底層軟體)合併了一個用 Rust 語言(以高速和安全性著稱的系統程式語言)寫的新前端模組,在相同硬體上將處理能力從每秒約 162 個請求暴增至 837 個請求,提升了約 5 倍。W&B(Weights & Biases,讓開發者記錄、追蹤 AI 訓練過程的知名工具)推出了 MCP 伺服器(MCP 是一種讓 AI 助理可以直接呼叫外部工具的標準協定),讓 coding agent(會自動幫你寫程式的 AI)能直接查看過去的訓練實驗紀錄,不需人工手動翻報表。Unsloth(可以在自己電腦上跑開源 AI 模型的本地工具)新增支援 GPT、Claude 等商業雲端 API,讓使用者在同一個介面裡就能同時使用本地模型和雲端 AI。OpenRouter(一個可以統一呼叫各種 AI 模型 API 的中介服務)宣布完成 1.13 億美元融資,且六個月內每週處理量從 5 兆 token(token 是 AI 處理文字的最小計量單位,大約一個英文單字是 1~2 個 token)成長至 25 兆,反映 AI 應用部署需求快速爆發。

假設你是公司工程師,負責架設讓幾千名員工同時使用的內部 AI 問答系統。過去用 vLLM 舊版 Python 前端,可能需要 5 台 GPU 伺服器才能應付流量高峰。換成新的 Rust 前端後,同樣流量理論上只要 1 台伺服器就能撐住,直接省下大量雲端租賃費用。如果你同時有在做 fine-tuning(用自己公司的資料微調 AI 模型),W&B 的新 MCP 伺服器讓你的 AI coding agent 可以直接存取歷次訓練紀錄,你只需問 AI:「上次訓練哪裡出問題、要怎麼調參數?」AI 就能自己查報表、給出建議,不再需要工程師手動比對好幾份實驗結果。

T3
vLLM 推出 Rust 前端解決 API 瓶頸

vLLM(一套讓工程師在自己伺服器上架設 AI 對話 API 的熱門開源工具,許多公司用它來自建類似 ChatGPT 的服務)最近把它的 HTTP 前端層從 Python 換成了 Rust。HTTP 前端就是「負責接收外部請求、排隊、再轉給 AI 模型處理」的那層程式;過去用 Python 寫,當同時湧入大量請求時,Python 本身執行速度的限制會成為瓶頸。Rust 是一種執行速度接近 C 語言、同時兼顧記憶體安全的程式語言,非常適合處理高流量 API。這次改寫讓 vLLM 在高吞吐量場景(同時服務大量使用者)下,API 伺服器的 CPU 消耗大幅降低,可以用同樣的硬體處理更多請求。

假設你是公司工程師,用 vLLM 自架了一套內部 AI 問答 API,平時有 100 個同事同時在使用。舊版 Python 前端在高流量時,CPU 會先被 Python 的 overhead 吃掉一大塊——導致 GPU(真正跑 AI 運算的晶片)明明還有閒置容量,整體每秒能處理的請求數(QPS)卻上不去。換成 Rust 前端後,API 接收與排隊那層的 CPU 使用率顯著下降,同樣的伺服器硬體可以服務更多同時使用者,不必加機器也能撐住更高的流量峰值。

T3
ElevenLabs 音樂 AI 可中途換曲風

ElevenLabs(一家專做 AI 語音和音樂生成的公司)在 2026 年 5 月推出第二代音樂生成模型 Music v2。這個 AI 最大的特點是「中途換曲風」——同一首歌可以從歌劇風突然切到重金屬、再切回來,聽起來不突兀。更實用的是分段編輯功能:你可以只選歌曲某一段(例如副歌),用文字描述重新生成那段,其他部分完全不動——就像 Photoshop 可以只修圖片某個區域、其餘保持原樣一樣。ElevenLabs 還特別強調,這個模型的訓練資料全部擁有版權授權、商業使用合法,迴避了 Suno、Udio 等競爭對手因未授權訓練資料而遭唱片公司提告的法律風險。

假設我要替一支廣告製作背景音樂:開頭需要輕柔古典鋼琴、中段突然轉為電子舞曲(EDM,一種讓人想跳舞的電子音樂風格)帶出高潮感、結尾再回到溫柔原聲木吉他。以前的 AI 音樂工具只能整首歌維持同一曲風,要切換就得重新生成整首,或手動在剪輯軟體裡拼接三段音檔再細調過渡點。用 Music v2,我可以先生成開頭的古典段,再框選中段用文字提示「改成 EDM、節奏加快、加入電子合成器」重新產生那段,結尾再另外生成木吉他版——三段各自微調、分別生成,最後拼在一起,風格轉換自然流暢,省去大量後期剪輯工夫。

T3
YouTube 自動標記 AI 真實影片

YouTube(全球最大影片平台,就是大家每天看影片、聽音樂的那個網站)從 2026 年 5 月起推出新機制:自動偵測並標記那些使用大量「AI 生成逼真畫面」的影片,不再單純依賴創作者自行申報。所謂 AI 生成逼真畫面,是指用電腦自動產生、看起來像真人或真實場景的影像。以前,AI 標籤只出現在展開說明欄後才看得到;現在,標籤會直接顯示在影片播放器正下方,或疊加在 YouTube Shorts(短影片,類似台灣的抖音)畫面上,讓觀眾一眼就能識別。另外,用 YouTube 自家 AI 工具(Veo、Dream Screen)製作的影片,標籤是永久貼上、創作者無法移除的。值得注意的是,這個標籤不會影響影片的推薦排名或廣告收益。

假設你是一位 YouTube 創作者,用 AI 工具做了一段看起來像真實新聞播報的影片——AI 合成的主播臉孔、配上像真人說話的聲音——但你沒在說明欄勾選「此影片含 AI 生成內容」。在舊規則下,觀眾不點開說明欄根本不會知道這是 AI 做的。在新規則下,YouTube 系統自動偵測到大量逼真 AI 畫面,直接在播放器下方顯示 AI 標籤,觀眾不需要任何動作就能看到。相反地,如果你做的是明顯幻想風格的動畫(例如龍跟機器人打架),就不需要標籤,因為觀眾一眼就知道不是真實畫面。這個改變對現有影片的廣告收益和推薦完全沒有負面影響,只是多一個透明度標示。

T3
中國 AI 升級百萬監控鏡頭

中國警方正在把數百萬支舊型監控鏡頭升級為 AI 智慧相機。海康威視(Hikvision)和華為等製造商現在出貨的相機內建了電腦視覺(讓機器「看懂」畫面、識別人物和行為的 AI 技術)和語言模型(就像 ChatGPT 一樣可以用文字對話的 AI)。這些相機能自動偵測人群聚集、可疑行為或未授權進入等情況,完全不需要人工查看錄像。警察只需打一段文字查詢,系統就能在海量影像中自動找出符合描述的畫面。人權觀察(Human Rights Watch)警告,這種做法創造了史無前例的大規模行為監控能力,遠超以往任何國家的監控規模。

舊系統下,如果警察要追查某天下午在廣場出現的可疑人物,需要派人坐在螢幕前一段一段快轉查看錄像,費時費力,搜查範圍也有限。換成新的 AI 系統後,警察直接輸入文字查詢,例如「昨天下午三點,主廣場附近徘徊超過 10 分鐘的男性」,AI 自動掃描所有聯網相機的畫面,幾分鐘內回傳符合條件的影像片段和地點軌跡。系統甚至會主動標記「群眾異常聚集」或「某人反覆出現在同一敏感地點」等情況,無需任何人主動觀看——從人工盯螢幕,變成 AI 主動推警報。

T3
NVIDIA CompileIQ 自動調校 GPU 效能

NVIDIA(英偉達,全球最大 GPU 晶片公司)在最新的 CUDA 13.3(CUDA 是讓 AI 程式能跑在 GPU 上的核心開發工具包)中整合了 CompileIQ 這個新功能。CompileIQ 使用「演化式演算法(一種模仿生物進化、讓程式自動反覆試錯並改良的 AI 技術)」來自動調整 GPU 編譯器(負責把 AI 程式碼翻譯成 GPU 能直接執行的機器指令的工具)的各種參數設定。有別於傳統「套用固定規則」的編譯方式,CompileIQ 會針對每個特定的運算任務找出量身訂製的最佳化設定,讓 AI 推論(讓訓練好的 AI 模型回答問題、產生內容的過程)和訓練(從大量資料教 AI 學習的過程)在已高度優化的基礎上還能再多擠出最多 15% 的效能。此外,開發者可以自訂優化目標,例如同時考量執行速度、耗電量和編譯時間之間的取捨,非常適合像大型語言模型(就是 ChatGPT 這類會對話的 AI)推論這類高要求的應用場景。

假設你是一家公司的 AI 工程師,正在用 NVIDIA GPU 伺服器跑大型語言模型的推論服務,每天有數百萬筆用戶請求要處理。你已經做過標準優化,但伺服器電費和硬體成本還是很高。啟用 CompileIQ 後,你設定優化目標為「在不增加功耗前提下最大化每秒可處理的請求數量」,CompileIQ 會自動對你的模型跑多輪實驗,找到在你這張特定 GPU 型號上最適合這個模型的編譯器設定組合。實際結果:相同硬體、相同耗電量下,每秒可多處理最多 15% 的請求,等於伺服器成本降低約 13%——而你完全不需要手動研究複雜的編譯器旗標或自己寫調校腳本,CompileIQ 自動完成所有實驗。

T3
DeepSWE 推出防作弊 AI 程式能力評測

DeepSWE 是一套全新的評測基準(就是用來客觀打分、比較各種 AI 寫程式能力的標準考題庫),專門設計來測試 AI 能不能處理又長又複雜的真實軟體工程任務。現有的評測工具(例如 SWE-Bench Pro)有一個大問題:各家 AI 的得分都擠在一起,難以分出真正的高下。DeepSWE 針對這個問題做了四大改進:題目全部來自 AI 沒有「偷看過」的程式庫(避免 AI 是靠背答案得高分)、任務難度貼近真實工作場景(不是特別簡化過的考試題)、橫跨 5 種程式語言共 91 個不同開源專案、並且採用更可靠的自動驗證機制來確認 AI 是否真的解對了。這讓研究者和開發者能更清楚分辨哪個 AI 程式助理真的比較厲害。

假設你是一家公司,手上有兩個 AI 程式助理(例如 GitHub Copilot 新版和競品),想決定要導入哪一個給工程師使用。用 SWE-Bench Pro 測,兩個模型得分可能都落在 45%–50%,根本看不出差異。改用 DeepSWE 測,因為題目跨越 91 個真實大型開源程式庫、難度反映實際工作複雜度,結果可能一個拿到 52%、另一個只有 38%,差距一目瞭然,決策就有依據。更重要的是,DeepSWE 的題目保證 AI 訓練時沒看過,所以高分代表 AI 真的懂得如何推理和解決新問題,而不是從記憶裡把答案背出來。

T3
原生多模態 AI 模型研究路線圖

這是一個 GitHub 上公開的研究資源整理庫,專門蒐集「原生多模態 AI 模型」(Native Multimodal Model,簡稱 NMM)相關的學術論文、開源模型與技術報告。「多模態」的意思是:AI 能同時處理文字、圖片、聲音、影片等不同型態的資訊,而不只是單純的文字問答。傳統做法是各自訓練文字 AI、圖片 AI,再用一個薄薄的「轉接層」拼起來(就像把不同工廠出來的零件硬組裝),稱為「模組化多模態」;而「原生多模態」是從訓練一開始,就把所有感官型態都融合在同一個深層架構(Transformer,就是 ChatGPT 這類 AI 的核心運算引擎)裡面,讓 AI 對不同資訊的理解從根基就連成一體,而非各自為政再拼接。這個資源庫還附有配套路線圖論文,把收錄內容分三大類:只輸出文字的(M2T)、能生成影像或影片的(M2G)、以及真正的多模態輸入輸出(M2M),涵蓋 Chameleon、Emu3、HunyuanVideo、MiniCPM-o 等知名模型論文,方便研究者依需求一站查找。

假設我要做一個「會議助理 AI」,它要同時聽現場說話聲音、看投影片畫面,最後輸出完整的會議摘要。用傳統模組化做法:先跑一個語音辨識模型(例如 Whisper)把聲音轉成文字,再跑一個視覺模型(例如 CLIP)分析投影片內容,最後把兩份輸出文字丟給 GPT 整合。三個模型串聯,中途每次「格式轉換」都會損失資訊,AI 也完全感知不到「講者說到『這個數字』的同一瞬間,投影片畫面剛好顯示 42%」這種聲畫同步的意涵。如果改用原生多模態模型(如 Emu3),聲音和畫面一起進入同一個 Transformer 做深層運算,模型從訓練時就學到「聲音訊號與對應畫面同時出現代表什麼」,不需中途翻譯成文字再拼,理解更完整、語境更準確。這個 GitHub 資源庫整理了數十篇走這條路線的論文,研究者可直接依分類篩選最新進展,省去在 arXiv 和各大 GitHub 分頭搜尋的工夫。

T3
SpaceX 雙線佈局 AI 算力

SpaceX 在其 S-1 文件(就是公司準備上市前、向投資人公開的財務說明書)裡同時講了兩個 AI 算力故事。「算力」就是拿來跑 AI 程式的電腦運算能力,現在愈來愈值錢。第一個故事是地面線:SpaceX 正在花數十億美元蓋資料中心,目前已揭露的客戶是 Anthropic(就是開發 Claude 這款 AI 助理的公司),合約金額高達每月 12.5 億美元,合約到 2029 年 5 月,這條線已有實際收入。第二個故事是太空線:SpaceX 宣稱 AI 推論(讓 AI 模型實際「思考」並輸出答案的運算過程)的未來屬於軌道衛星,而他們已是唯一解決「把通訊衛星升級為 AI 算力衛星」技術挑戰的公司。兩條路線並行,彼此不互相否定。

假設我想在沒有地面網路的偏遠地區(例如深海船上或高山研究站)即時跑一個大型 AI 模型,今天的做法是不行的——需要連回地面資料中心,延遲高、成本貴、訊號不穩。若 SpaceX 衛星算力計畫成真,Starlink 衛星本身就能在軌道上跑 AI 推論,船上設備只需傳送問題、接收答案,不用繞回地球的資料中心。相比之下,AWS 和 Google Cloud 目前沒有衛星算力計畫。地面那條線(Anthropic 合約)則說明另一件事:AI 公司為了算力,每個月願意付出約台幣 400 億的金額,規模已大到讓火箭公司變身算力供應商。

T3
Claude 新增 AI 使用技能評分卡

Anthropic 計劃在 Claude 裡推出一個叫「AI Fluency Scorecard(AI 流暢度評分卡)」的功能,讓使用者可以了解自己跟 AI 互動的技能高低。系統會分析你在 Claude 上的對話紀錄,從三大能力方向(委派任務、描述需求、辨別品質)評估你在 11 個具體行為上的表現,然後給一個像「7.5/11」這樣的分數,並告訴你哪裡可以進步。這是全球主要 AI 實驗室中,少數嘗試評分「人類這一端」對話能力的產品功能,而不只是評估 AI 本身的回答品質。目前確切推出時間和適用哪些方案(免費還是付費)尚未公佈,功能將整合在 Claude 應用設定頁面中。

假設你是個每天用 Claude 處理工作文件的上班族。以前你每次請 Claude 幫你寫報告,結果常常跟想的不一樣,你也不確定是 Claude 不夠好,還是自己問法有問題。有了 AI Fluency Scorecard,你點開 Claude 設定頁面、要求生成評分卡,系統掃描過去對話後發現:你很少在提問時說「目標受眾是誰」或「我想要什麼格式」,這兩項指標拿了低分。Claude 就建議你下次開頭先說「這份報告是給非技術背景的主管看的,用條列式輸出,大約 300 字」。改了之後拿到的結果馬上對味多了。跟以前靠自己摸索相比,這功能相當於幫你做了一次「提問習慣健康檢查」。

T3
Claude Cowork 工程師的 AI 日常

Felix Rieseberg 是開發 Claude Cowork(Anthropic 推出的 AI 協作工具,類似把 ChatGPT 這類 AI 整合進日常工作環境)的首席工程師,他最近公開分享了自己平時怎麼用 AI 處理生活與工作的雜事。他的核心心法是:每次發現自己在做枯燥重複的事,就停下來問 AI 能不能幫忙,然後再往上想一層——讓 AI 自己判斷該怎麼做,而不只是照指令機械執行。他把幾十年的購物收據電郵餵給 Claude(Anthropic 出品的 AI 助理),讓它自動解析、建立個人家具庫存清單,再從清單生成可互動的 3D 家居平面規劃器。他還串接 Spotify、Gmail、行事曆,讓 AI 全天自動更新個人儀表板,完全不用手動整理。他認為用 AI 最大的障礙不是技術問題,而是心理上從沒想到 AI 能幫忙解決這些日常小麻煩。

假設你想整理家裡的家具擺設,想做一個 3D 平面規劃圖。舊做法是手動量每件家具的尺寸,再用 SketchUp 這類設計軟體一件一件拉圖,費時費力。Felix 的做法是:先讓 Claude 掃描他歷年購買家具的收據電郵,自動解析每件家具的型號與尺寸,存成一份「個人家具資料庫」;再把這份資料交給 Claude,生成一個可以即時拖拉調整的互動式 3D 平面規劃器。原本要花好幾小時手動整理的資料,AI 幾分鐘搞定,最終產出的是可以實際操作的工具,而不只是靜態示意圖。對比舊做法的差距:舊做法要先知道有哪些家具、手動查尺寸,AI 版本從電郵自動挖資料,跳過了最耗時的資料收集步驟。

T3
Google 開源 AI Agent 執行引擎

Google 推出了一個叫做「Google Agent Executor」的開放原始碼執行環境,專門設計讓企業能在正式生產環境中穩定、大規模地運行 AI 代理(Agent,就是能自動執行多步驟任務的 AI 程式,例如自動查資料、發郵件、操作系統)。這個工具解決的核心問題是:AI 代理在執行長時間任務時,途中一旦斷線或出錯,過去很難從斷點繼續,通常只能整個重跑。Google Agent Executor 提供「耐久性、可恢復執行」功能,讓任務中斷後可以從上次停下的地方繼續,不會白費已完成的工作。除此之外,它還包含安全沙箱(讓 AI 代理在獨立安全空間執行,不會誤動其他系統)、分散式工作階段一致性(多個代理並行工作時保持資料同步)、斷線自動重連,以及「軌跡分叉」(Trajectory Branching)功能,讓你可以在同一任務上測試不同的執行路徑,找出最佳方案後再正式上線。

假設一家電商公司要用 AI 代理自動處理客戶退款申請——代理需要依序查訂單系統、驗退款資格、發通知信、更新財務記錄,整個流程可能耗時幾分鐘。用舊方法,若第三步「發通知信」時網路瞬間斷線,整個任務就失敗了,必須從頭重跑,有時還可能因為重複執行而造成資料錯誤(例如重複退款)。改用 Google Agent Executor 後,任務斷線會自動從「發通知信」那步恢復,不需重來;安全沙箱確保代理就算出現異常也不會誤刪財務紀錄;軌跡分叉還能讓開發者事先測試「先查訂單再驗資格」vs「先驗資格再查訂單」哪個路徑更快更穩,測完再決定正式上線哪條路徑——比起過去只能憑感覺或直接在正式環境試錯,風險大幅降低。

T3
Claude 新增 28 項企業安全整合

Anthropic(就是開發 Claude 這個 AI 的公司)宣布為 Claude 新增 28 項整合,涵蓋資安、法規遵循(確保公司有按規定行事的機制)、身分驗證、DLP(Data Loss Prevention,防止機密資料外洩的工具)、SIEM(Security Information and Event Management,集中收集和分析所有資安警報的平台)以及 AI 治理(管控 AI 在公司內部使用方式的制度)等各類企業平台。這讓大型企業的資安團隊能直接透過他們原本就在用的監控工具,追蹤和管理員工使用 Claude 的狀況,不需要再開一個全新的後台。這個動作代表 AI 助理正在從「個人生產力工具」演變成「跟 Office 365 一樣受企業 IT 部門統一管理的正式軟體」。對企業來說,這意味著可以把 Claude 的使用直接納入現有的資安政策與稽核流程,讓法遵和資安部門都能交代。

假設我是一家上市公司的 IT 主管,公司員工開始大量用 Claude 處理內部文件。在沒有這些整合之前,我的資安儀表板(那個統一顯示所有系統警報的大螢幕)完全看不到 Claude 的使用紀錄——我不知道有沒有人把機密文件貼進去問 AI,事後也無法稽核。現在有了這 28 項整合,公司原本用的 SIEM 工具(例如 Splunk 或 Microsoft Sentinel)可以直接收到 Claude 的活動日誌:誰在什麼時間問了什麼、有沒有觸發 DLP 規則(例如有人把信用卡號碼貼給 Claude 就會被攔截並留下記錄)。這樣我就能把 Claude 的管控和其他企業軟體放在同一套流程裡,符合法遵要求,稽核師也滿意。

T3
Salesforce 企業 Agent 治理平台架構

Salesforce(一家大型企業軟體公司)發表了一篇工程文章,分享他們如何設計「企業 AI 代理(Agent,就是能自動執行任務、在多個系統間穿梭的 AI)」的統一管理平台。傳統上,每個 AI 代理都要自己管理身份驗證、資料存取權限和 API 呼叫規則,既麻煩又容易有安全漏洞。Salesforce 的做法是把這些管控全部集中到一個平台層,讓所有 AI 代理共用同一套規則,不再各自為政。這套架構解決三大問題:一是「身份傳播」——當 AI 代理在多個系統間跳躍時,確認每個請求是誰授權的;二是「資料存取管控」——無論 AI 代理怎麼問、透過什麼路徑,都只能存取它被允許看的資料;三是「API 與 AI 模型治理」——統一管理所有外部呼叫並留下完整稽核紀錄。

假設一家公司部署了三個 AI 代理:客服代理、銷售分析代理、財務報告代理。舊架構下,每個代理要分別設定「能看哪些資料、能呼叫哪些 API」,員工離職或權限變動時要逐一修改,容易遺漏。用 Salesforce 這套平台層方法,三個代理的身份驗證與存取規則全在平台集中設定:財務代理只能讀財務 DB,客服代理只能看 CRM 客戶資料。當請求進來時,平台自動驗證「這個代理是誰授權的、背後員工有沒有權限」,全程記錄。稽核時直接查平台日誌,不用翻每個代理的程式碼。相比舊做法(分散設定、容易遺漏),這套方式讓企業能在 AI 代理快速增加的情況下,仍維持一致的安全管控。

T3
Chrome 內建 AI 三大實戰案例

Google 在 2026 年 I/O 大會上分享了 Chrome 瀏覽器內建 AI(直接整合在瀏覽器裡、不需要連外部伺服器的 AI 功能)的實際應用案例。這項功能的特點是低成本、執行速度快,而且可以完全離線使用(不需要網路就能運作),因此能有效保護使用者的隱私(所有運算都在自己的電腦上完成,資料不會送到雲端)。目前已有多個知名企業採用:Drupal(一款廣泛使用的網站管理系統)透過摘要 API(Summarizer API,自動幫文章產生重點摘要的功能)為 SEO(搜尋引擎最佳化,讓網頁在 Google 上排名更高的技術)標籤自動生成建議;Yahoo! Japan 則利用提示 API(Prompt API,讓開發者直接向 AI 下指令的功能)來自動審核社群留言是否違規;旅遊平台 Trip.com 也用 AI 摘要幫助使用者理解複雜的機票選項。這些案例說明,Chrome 內建 AI 正從實驗性功能演變為可實際部署的生產工具。

假設我在一家新聞媒體工作,網站用 Drupal 管理文章,編輯每天要手動為每篇文章寫 SEO 標籤(就是關鍵字描述,讓 Google 搜尋能找到文章)。舊做法:編輯需花 5-10 分鐘閱讀全文、想出適合的關鍵字,再填入 CKEditor(文章編輯工具)的 SEO 欄位,或者呼叫付費的外部 AI API(如 OpenAI),每次查詢都要花錢。新做法:Drupal 整合 Chrome 的 Summarizer API(摘要 API)後,編輯只要點一下按鈕,AI 就直接在瀏覽器裡分析文章、自動建議 SEO 標籤,編輯確認後一鍵套用。具體差異:舊做法每篇 5-10 分鐘、需付 API 費用、文章內容還會送到外部伺服器;新做法幾秒完成、零費用、所有資料都留在使用者自己的電腦上,更便宜也更安全。

T3
Stack Overflow 靠 AI 資料授權重生

Stack Overflow 是全球最大的工程師問答社群,過去十幾年來程式設計師有問題都會去那邊找答案或發問。但自從 ChatGPT(就是那種你用對話就能問程式問題的 AI)在 2022 年底爆紅後,Stack Overflow 論壇的問題數量急速下滑——2024 年 1 月每月只剩約 6,866 則問題,跌回 2008 年剛創站的水準,廣告收入也跟著崩。然而,公司非但沒有倒閉,年收入反而翻倍到 1.15 億美元、虧損從 8,400 萬縮到 2,200 萬美元。關鍵轉折是:他們學 Reddit 的做法,把自己累積十幾年、人工審核過的數百萬則程式問答,授權賣給 AI 開發商當訓練資料(就是讓 AI 公司用這些真人對話來教 AI 怎麼回答技術問題)。另外也推出 Stack Internal 企業產品,讓 25,000 家公司內部用 AI 搜尋自己的知識庫。

假設你是一家公司的 IT 主管,公司內部累積了大量技術文件和解決過的問題紀錄。以前工程師要找「三年前同事解過的 nginx 設定 bug」,只能靠全文搜尋或問人。現在透過 Stack Overflow 的 Stack Internal 產品,工程師問「我的 nginx 反向代理為什麼會 502」,AI 會直接在公司內部文件庫中找到最相關的歷史紀錄,給出有根據的回答,而不是像一般 AI 憑空捏造。對比舊做法:搜尋引擎只能配對關鍵字,AI 能理解問題語意、跨文件整合答案——這就是 Stack Overflow 把「可信任的人工審核資料」轉化為企業 AI 產品的具體價值。

T4
T4
AI SDR 多數做法都錯了

AI SDR(SDR 是「業務開發代表」,就是負責主動聯絡潛在客戶、篩選是否值得跟進的業務角色;AI SDR 就是用 AI 自動執行這些工作的系統)目前市場上大多數產品都走錯了方向。這些工具通常只是把傳統的冷信件(Cold Email,就是沒有事前聯繫就寄出的業務開發信)變得更自動化、更大量,但根本沒有解決背後的核心問題。正確的 AI SDR 需要是一個端到端的完整系統——從找到潛在客戶、驗證是否符合目標客群、持續跟進對話,一路到確認是否值得轉交業務——而不只是一個「比人工更快發信」的工具。Krazimo 這家公司提出的解法是把 AI SDR 設計成一個有完整情境理解、能存取內部資料與工具、並且持續監控效能的連接式系統,目標是減少反應延遲和隨時間產生的效能衰退。

假設我是一家 B2B(企業對企業)軟體公司的業務主管,想用 AI SDR 自動開發新客戶。傳統方法是批量生成個人化開發信然後大量發出去——看起來有效率,但 AI 根本不知道這個潛在客戶是否真的符合我們的目標客群(例如公司規模、行業別、有沒有痛點)。結果大量回覆湧進來,還是得人工一封一封篩選誰值得跟進,省下的時間非常有限。正確的端到端 AI SDR 設計會讓 AI 在發信前先查詢 CRM(客戶關係管理系統,就是記錄所有客戶資料的資料庫)確認潛在客戶資料、發信後自動追蹤回覆並判斷對方是否符合資格,再決定是否安排後續會議——整個流程人工只需要在最後「要不要談」這步介入,大幅減少中間的人工篩選負擔。

T4
AI 硬體優化正關閉突破之窗

工程師 Maxim Khailo 在這篇部落格文章提出一個值得深思的論點:整個 AI 產業正把資源大量投入優化「開放迴路學習」(open-loop learning,指 AI 模型訓練完就凍結、不再自動更新,就像一本印好的書,學完就不再改變),這個趨勢卻讓另一種更像人類大腦的「閉合迴路學習」(closed-loop learning,AI 邊使用邊學習、邊犯錯邊修正,就像人每天從生活經驗中累積)越來越難被研究。文章從硬體說起:從 CPU 到 GPU,到現在大量生產的 ASIC 推論晶片(專門跑固定 AI 模型、不能重新設計的客製晶片),每一代硬體都預設「模型參數是不會變的」,並針對這個假設做極致優化。這樣做對現有靜態模型效率很高,但也從硬體層面把動態自我更新的可能性堵死了。作者呼籲:應先打造像 FPGA(一種可彈性重新設計電路的晶片)這樣的靈活基板,讓研究者實驗閉合迴路 AI;但產業正忙著優化現有系統,這扇實驗之窗正在悄悄關閉。

假設你要開發一個客服 AI,希望它能從每次對話結果(顧客滿意與否)中自動學習改善。用現在的主流 LLM(就是 ChatGPT 這類大型語言模型)方案,模型是凍結的——你必須定期收集對話資料、人工標注好壞答案、重新送去訓練(可能要跑好幾天、耗費大量算力費用),才能讓模型「學到」這次的教訓,而且每次更新都是一次大工程。如果有閉合迴路學習,AI 可以邊服務邊即時更新自己,就像新員工每天從錯誤中快速修正。問題在於:現在的 ASIC 推論晶片是專門為「讀取固定參數、做矩陣乘法」優化的,硬體設計上根本不支援參數被即時修改;作者的論點是,產業繼續沿這條路走,短期效率雖高,但長期可能讓 AI 發展越走越窄,錯過更接近人腦學習方式的可能性。