AI Daily Digest

📰 每日 AI 彙整

2026-04-18  ·  共 44 則報導
T1 爆炸重要T2 值得關注T3 一般資訊T4 參考用T5 可略過
T1
T1
Anthropic 發表 Claude Opus 4.7

Anthropic(開發 Claude 系列 AI 的美國公司)於 2026 年 4 月 16 日正式推出最新旗艦模型 Claude Opus 4.7,這是目前 Claude 系列能力最強的版本。相比上一版 Opus 4.6,新版在軟體工程(就是讓 AI 幫你寫程式、審查程式碼)、視覺理解(讓 AI 看圖片並解讀內容)和指令遵循(AI 按照你說的去做,而不是自己「解讀」你的意思)三大面向都有顯著提升。最值得注意的是視覺能力——支援高達 376 萬像素的圖片,是前版本的三倍以上,能更準確辨識化學結構圖、技術圖表等複雜圖像內容。在 benchmark(就是業界用來比較各 AI 表現的標準測試)上,生產任務解決能力比前版提升了三倍,編碼能力也進步了 13%。定價與前版相同:每百萬個輸入詞元(token,AI 處理文字的單位,大約 750 個英文單字算 1000 個 token)收費 5 美元,輸出詞元每百萬 25 美元。

假設你是一位工程師,需要讓 AI 審查一份複雜的系統架構圖(一張截圖,裡面有密密麻麻的方框、箭頭和文字說明)加上對應的程式碼,要求找出潛在問題。用 Opus 4.6 時,解析度限制讓 AI 只能看到模糊的圖片輪廓,常常說「看不清楚」或誤讀細節;升級到 Opus 4.7 後,同一張圖片因為支援更高解析度,AI 能清楚辨識每個節點的名稱和連線邏輯,搭配新版更強的程式碼理解能力,能同時對照圖和程式碼,指出「圖中 Service A 連到 Database B,但程式碼裡卻沒有對應的連線設定,可能造成執行時錯誤」這種跨圖文的具體問題。舊版只能各別分析圖或程式碼,新版可以整合兩者一起看,大幅節省來回確認的時間。

T2
T2
田納西州擬將情感AI訓練列重罪

美國田納西州正在推動一項名為 SB 1493 的法案,若通過,「訓練 AI(人工智慧程式)提供情感支持或模擬人類行為」將成為 A 級重罪,最高可判 25 年有期徒刑——與一級謀殺的刑度相當。所謂「訓練 AI」,是指工程師教導 AI 學會特定行為的過程,就像教一個程式「如果用戶說難過,就給予安慰回應」這樣的功能。法案的禁止範圍極廣:ChatGPT 的語音對話模式(會用情感語調回應的那種)、Claude 的長期記憶功能、各種 AI 伴侶應用(讓使用者把 AI 當朋友或伴侶的 app)全部在禁止之列。唯一豁免的只有三種:純客服機器人、只能聊遊戲的遊戲 AI,以及不記得你是誰的純語音助理(如 Alexa、Google Home)。此外,每個受害案件民事賠償最高 15 萬美元,且開放任何人自行向法院提告,不需等政府主動追訴。配對眾議院版本 HB 1455 已於 2026 年 3 月 24 日以 7 比 0 票通過委員會審查,若完成立法將於 2026 年 7 月 1 日起生效。

假設你是一家小型新創,做的是一款幫助用戶緩解焦慮的 AI 聊天 app,用戶輸入「今天壓力很大」,AI 會溫柔回應並記住上次的對話內容。這款 app 目前在美國各州都能上架,但 SB 1493 通過後,你的工程師只要在訓練資料裡教過 AI「如何提供情感支持」,就可能在田納西州面臨重罪指控——即使你的公司設在矽谷,只要有田納西用戶使用,就可能踩線。相較之下,同樣是 AI 聊天,如果你的 app 只回答「你的訂單幾號出貨」這種純客服問題,就完全不受影響。AI 律師 Elena Gurevich 指出,法案對「訓練」的定義刻意模糊,連 OpenAI、Anthropic 這類大型基礎模型公司(提供 AI 底層技術給其他人用的公司),即使自己沒有做伴侶 app,也可能因為下游用戶把模型拿去做情感 AI 而被追訴。對新創公司來說,最現實的應對方式可能是用「地理圍欄」(geofencing,根據用戶所在地區自動關閉特定功能的技術)在田納西州把情感回應功能全部關掉,或直接退出該州市場。

T2
AI 輔助削弱人類獨立解題力

來自 CMU、Oxford、MIT、UCLA 的五位研究者,做了三個 RCT(隨機對照試驗,就是把人隨機分成「有 AI 幫」和「沒有 AI 幫」兩組,這是科學上判斷「誰造成什麼結果」最嚴謹的做法),共招募 1,222 名受試者,發現只要用 AI 輔助解題 13 到 15 分鐘,一旦把 AI 拿掉,解題率最高會掉 16 個百分點。也就是說,AI 不只是幫你解題,它還在悄悄消磨你「下次自己試一試」的意願。論文提出兩個解釋:一是你習慣 AI 秒答之後,面對需要思考幾分鐘的問題,忍耐力會快速下降(這叫做享樂適應);二是 AI 跳過了你在掙扎中建立技能的過程,讓你對自己能力的判斷愈來愈不準確(後設認知衰退)。更值得注意的是,直接要求 AI 給完整答案的人,損失最大(事後解題率 0.65 對比對照組 0.77);而只要求提示的人損失小很多,顯示「蘇格拉底式 AI」——先引導嘗試、再逐步給提示——可以降低這種副作用。

假設你是一名工程師,每天寫程式都靠 AI 補全(Copilot 或 ChatGPT 之類),問它直接給你完整函式。某天公司要在隔離網路(沒有網際網路的安全環境)部署系統,你突然沒了 AI,需要自己從頭寫一段以前 AI 幫你寫過十幾次的 SQL 查詢邏輯。你發現自己不只寫不出來,甚至不太想試——腦子裡第一個念頭是「這個 AI 幫我三秒就寫完了,我為什麼要花半小時自己搞?」就放棄了。這正是研究測量到的「堅持性下滑」。對比另一個同事,他平常只請 AI 給提示(「這裡應該用什麼 SQL 語法?」),自己動手補完邏輯——他在斷網環境下還能勉強寫出來,因為思考過程沒有被完全替代。研究建議:每週保留 20% 時間做「無 AI 練習」,或刻意選用「hint-first 模式」的工具,讓 AI 先問你的想法再給答案,而不是預設直接輸出完整解法。

T2
主流大模型品質集體下滑疑雲

全球 AI 使用者社群近期集中反映,包含 GPT(OpenAI 旗下最知名的聊天 AI)、Claude(Anthropic 公司的對話 AI)和 Gemini(Google 的 AI 助理)在內,多款主流 AI 模型的回答品質明顯下滑——回應變短、拒絕回答的頻率增加、程式碼和數學題表現退步。最大規模的討論發生在 Reddit 的 AI 愛好者社群 r/LocalLLaMA,抱怨橫跨多個平台且同步升溫,顯示這不是個別用戶的錯覺。推測原因之一是廠商在成本競爭加劇後,悄悄透過「路由」(就是在幕後把你的問題分派給較便宜的版本來處理,而非你以為在用的旗艦模型)來壓低服務成本,但沒有公開告知。更根本的問題是,研究顯示 91% 的機器學習模型(讓電腦從資料中學習規律的技術)會隨時間自然衰退,閒置超過六個月後錯誤率平均上升 35%,而平台可以在不通知的情況下隨時替換底層版本,讓用戶幾乎無從追蹤。

假設一位開發者過去兩個月都使用同一段提示詞,讓 GPT-4o 幫他生成完整的會員登入程式碼。最近他發現,同樣的提示詞只得到空白框架加上「請自行填入業務邏輯」的說明,把最難的部分退還給他。兩個月前可以一次輸出可直接運行的程式,現在卻要花三到四輪對話才能補齊,交付時間幾乎翻倍。這個案例說明了一個關鍵落差:「基準分數(AI 在標準測試上的成績)沒有下降」和「你日常任務的實際可用性沒有下降」是兩件不同的事,兩者可以同時為真卻指向截然不同的現實。對需要穩定交付的團隊而言,最務實的應對是建立固定提示集的跨模型回歸測試(就是定期用同樣的問題測試不同 AI,比較答案是否退步),並為關鍵流程配置備援模型,避免單一供應商品質波動直接衝擊產品。

T2
Google Gemini 3.1 Flash TTS 發布

Google 正式發布了 Gemini 3.1 Flash TTS,這是一款「文字轉語音」(TTS,也就是把文字自動讀出來的 AI 技術)模型。它在全球 AI 語音競賽排行榜中拿下第二名,Elo 分數 1,211,超越了知名語音 AI 公司 ElevenLabs 的同類產品。最大特色是支援超過 200 種「情緒標籤」(就是在提示詞中加入「興奮」「堅定」等關鍵字,AI 就會按照你指定的語氣發音),讓語音聽起來更自然、更有感情,不再是機械式的平板朗讀。此外,它支援 70 種語言,並具備「多說話人」能力(一段提示詞就能讓 AI 同時模擬多個角色的聲音),一次推論即可完成多角色對話,適合製作 Podcast(播客節目)、有聲書、配音影片等。所有輸出音訊都內建 SynthID 水印(Google 開發的一種不影響聽感、但機器可以偵測的隱形標記),有助於日後辨識哪些語音是由 AI 生成的。

假設我想製作一段中英雙語的產品介紹 Podcast,包含主持人與嘉賓兩個角色。以前的做法是:分別錄製每段人聲、分兩次呼叫不同語音 API、再剪輯合成,流程繁瑣費時。現在用 Gemini 3.1 Flash TTS:在提示詞裡直接寫「主持人(語氣熱情地):歡迎收聽... 嘉賓(語氣沉穩):今天我們要談的是...」,模型一次推論就輸出完整的雙角色對話音訊,主持人和嘉賓的聲線、語調自動區分。在語氣控制上,加入 enthusiasm(熱情)或 determination(堅定)等標籤後,AI 讀出來的語氣和強調方式明顯不同。整段音訊自動嵌入 SynthID 水印,方便日後驗明是 AI 生成,符合日益嚴格的法規合規要求。開發者可透過 Gemini API(模型 ID:gemini-3.1-flash-tts-preview)直接串接,也可在 AI Studio 的音訊遊樂場立即試玩。

T2
OpenAI Agents SDK 企業級沙箱升級

OpenAI 在 2026 年 4 月 15 日對旗下的 Agents SDK(讓開發者建造「AI 代理人」的工具包,所謂 AI 代理人就是能自主完成多步驟任務、呼叫工具、做決策的 AI 程式)發布重大升級。這次升級的核心是「雙層架構」:第一層叫 Harness(控制層),負責決定 AI 代理人要做什麼、怎麼做;第二層叫 Sandbox(沙箱,就像玩沙的隔離箱,讓程式碼在受限環境裡跑,壞了也不會影響外面)負責實際執行程式碼。兩層完全分開,最大好處是「密碼和憑證」不會跑進執行環境,大幅降低資料洩露風險。此外這次還加入了「持久化機制」——過去如果 AI 代理人跑一個長任務時伺服器當掉,整個任務就得從頭來;現在系統會定時存檔(snapshotting,就像遊戲存檔),斷了可以從上次存檔點繼續,不用全部重跑。所有 API 用戶即日起可用,不另外收費,目前僅支援 Python,TypeScript 版本之後推出。

假設我是一家公司的工程師,想用 AI 代理人自動去讀公司 AWS S3 雲端儲存上的財務報表、做分析、然後把結果存到另一個資料夾。以前用舊版 SDK,代理人執行時需要拿到 S3 的存取金鑰(Access Key),這些金鑰有可能在執行環境中外洩,而且如果中途伺服器重啟,整個分析就要從第一份報表重新來過。用新版升級後:透過 Manifest 宣告式設定(就像寫一份清單告訴系統「財務報表資料夾只能讀、輸出資料夾可以寫」),金鑰只存在 Harness 控制層,不進入實際跑程式碼的 Sandbox;若執行到一半當掉,從上次的存檔點繼續,不用重新讀前面已處理過的 100 份報表。整個流程更安全、也更省時間與計算資源。

T2
OpenAI Codex 新增五大開發功能

OpenAI 旗下的 Codex(一款專門幫助工程師寫程式、除錯的 AI 助理應用程式)在 macOS 和 Windows 版本推出重大更新,一次新增五項核心功能。首先是「電腦控制」(computer use,就是讓 AI 直接操作你的電腦畫面、點擊按鈕、填寫表單,不需要你手動示範),以及「應用程式內瀏覽」(in-app browsing,AI 可以在不離開 Codex 的情況下自己上網查資料、查文件)。此外還加入了「圖片生成」(讓 AI 直接產出 UI 草圖或示意圖)、「記憶功能」(memory,AI 會記住你的偏好設定與過去討論的內容,下次對話不用重新說明背景)、以及「插件支援」(plugins,可以外接第三方工具擴充 Codex 的能力,類似 ChatGPT Plugin 概念)。這次更新讓 Codex 從純粹的「對話式程式助手」進化成能主動完成任務、自行查資料、甚至操控電腦的完整開發代理人(AI agent,就是能自主規劃並執行多步驟任務的 AI)。

假設你正在開發一個網頁後台,需要把 API 文件裡某個欄位定義查清楚再寫對應的程式碼。以往你得自己切換視窗、找到文件頁面、複製內容再回到 IDE 貼給 AI。現在有了 in-app browsing,你可以直接對 Codex 說「去查官方 API 文件中 user_id 欄位的格式規範,然後幫我寫一個驗證函式」——Codex 會自己開啟瀏覽器、定位到文件、讀取規格,再回來寫好程式碼給你。若 API 文件頁面需要登入或有互動操作,computer use 功能還能讓 Codex 模擬點擊登入。相較於舊版需要你手動來回複製貼上資料,新版整個流程不需要你切換視窗,節省大量瑣碎的「查資料→餵給 AI」步驟。

T2
OpenAI Agents SDK 開源,AI 代碼革命提速

這篇是 2026 年 4 月 14–15 日的 AI 新聞大彙整,一口氣涵蓋多個重要發展。最值得關注的是 OpenAI 將旗下的「Agents SDK」(讓開發者能建造自動執行任務的 AI 程式的工具包)正式開源,並讓 Cloudflare、Vercel、Modal 等大型雲端平台同步宣布接入,意味著任何開發者都可以在自己選擇的環境裡跑出類似「Codex 自動寫程式 AI」那樣的系統。Cloudflare 則同步推出「Project Think」新一代 Agent 框架與「Agent Lee」(一個讓你用說話方式管理雲端伺服器的 AI 控制台),並把語音對話、瀏覽器操控全部整合進來。在模型層面,NVIDIA 推出了 Nemotron 3 Super(一個有 1200 億參數但只用 120 億算力、速度比同級模型快 2–7 倍的超高效語言模型),Google 則密集發布 Gemini Mac App(Option+Space 叫出、可讀螢幕和本地檔案)、Gemini 3.1 Flash TTS(支援 70 多種語言的語音合成,評測排名第二)以及開源文字圖片理解模型 TIPS v2。最令研究界震驚的是:AI 模型 GPT-5.4 Pro 解出了「Erdős 第 1196 號問題」(一道數十年懸而未解的競技數學難題),且採用的解法出乎所有數學家意料,被認為是 AI 生成的首個「Book Proof」(數學界認可的優雅簡潔證明)。

假設你是一名獨立開發者,想打造一個「自動爬資料、整理成報告、然後上傳 Google Drive」的 AI 工作流程。過去你要自己串多個 API、手動管理 AI 的執行狀態,一旦中途斷線就得重跑。現在有了 OpenAI Agents SDK 開源版加上 Modal 沙箱整合,你可以寫一個有「持久記憶、可暫停/恢復快照、甚至能叫出子任務 agent」的工作流程,放在 Modal 的 GPU 沙箱裡獨立跑,執行到一半可以 fork 出新分支測試不同策略,成功後自動回傳結果給主流程。與舊做法(每次都要重跑、狀態全靠自己管)比起來,整個流程更像在管一支能記得自己在做什麼的小團隊,而不是一次性的腳本。

T2
Claude Code 新增雲端排程 Routines 功能

Anthropic(就是做出 Claude 這個 ChatGPT 競爭對手的公司)重新設計了旗下的 Claude Code 桌面應用程式,並推出一個叫做「Routines(例行工作流程)」的新功能。這個功能讓 AI 編程助手從「一次只做一件事的副駕駛」升級成能「同時協調管理多個工作流程」的指揮官。Routines 的運算移到雲端伺服器執行,意思是使用者關掉自己的電腦後,AI 仍然會繼續在背景跑排定的任務,完全不依賴本機。企業用戶還可以透過一個統一的控制介面,管理橫跨多個專案的所有 AI 代理(agent,指能自己做決策、一步步完成複雜任務的 AI 程式)。

假設我是一位工程師,每天早上需要讓 AI 自動掃描昨晚的程式碼變更、跑測試、再把結果整理成摘要報告。以前用 Claude Code,我必須手動開電腦、啟動應用程式,才能讓 AI 開始工作。現在透過 Routines,我只需設定一次排程:「每天早上 6 點,自動抓取程式碼變更、執行測試、把結果整理成 Markdown 報告。」任務跑在雲端,就算我的電腦整晚關機,AI 也會準時在背景完成,我起床就能看到報告。相比舊做法每次都要手動觸發,Routines 讓整個流程真正做到「設定一次、自動執行」。

T2
AI 模型可自主數小時入侵企業網路

Anthropic(就是開發 Claude 這款 AI 助理的美國公司)推出了最新前沿 AI 模型「Claude Mythos Preview」。英國政府的 AI 安全研究機構(AISI,專門評估 AI 系統潛在風險的官方單位)對它進行正式測試,發現這個模型能夠完全自動化、不需要任何人類介入地執行複雜的企業網路入侵攻擊。在「CTF 挑戰」(Capture the Flag,一種用來衡量駭客技術水準的標準競賽題目)測試中,Mythos 達到 73% 的成功率,而這些題目過去連最先進的 AI 都無法解開。在模擬完整企業網路入侵的測試「The Last Ones」中,它平均完成約 67% 的所有攻擊步驟,並在 10 次嘗試中有 3 次成功完整接管模擬企業網路——全程只需要數小時,而熟練的人類駭客通常需要約 20 小時才能做到相同的事。AISI 明確表示,這是相較於之前所有前沿模型「顯著的躍進」。

假設一家公司想測試自己的網路防禦能力,過去需要聘請昂貴的「紅隊」(Red Team,就是受僱專門嘗試攻破公司系統、找出安全漏洞的顧問)花一到兩天時間模擬攻擊。現在,用 Claude Mythos 這類 AI 模型,整個攻擊流程——從最初的「偵察」(自動掃描目標網路架構、找出可入侵的弱點)、到「滲透」(實際進入系統取得初始存取權)、再到最後「完整接管整個企業網路」的每一個步驟,AI 都能全程自動串聯執行,不需要有人在旁邊逐步下指令。全程耗時僅數小時。相比之下,舊一代 AI 工具頂多能完成其中幾個步驟、或只能提供攻擊建議,無法自動連貫每個攻擊動作。這意味著 AI 自動化攻擊能力已到達全新水準,資安團隊必須假設 AI 攻擊工具已能威脅現有防禦架構。

T2
Apache Airflow 內建 AI Agent 與 LLM 支援

Apache Airflow(一個廣泛使用的開源工具,用來自動排程和管理資料處理流程,就像工廠的自動化排班系統,決定哪支程式在什麼時間點執行)推出了全新的 AI 擴充套件 `apache-airflow-providers-common-ai`,讓使用者可以直接在工作流程裡呼叫 LLM(就是 ChatGPT 這類會對話、能理解文字的 AI 模型)和 AI Agent(能自主規劃並執行多步驟任務的 AI 程式)。這個套件提供了六種現成任務類型,支援超過 20 家模型供應商,而且能直接接上 Airflow 既有的 350 多個連接器(例如連 MySQL、S3、Slack 等各種外部服務的介面),讓 AI 一下子就能使用這些工具。此外它還內建人工審核關卡、錯誤時可從中斷點重跑、以及完整的費用與呼叫次數監控,目前需要 Airflow 3.0 以上版本才能使用。

假設我每天要從資料庫撈出前一天的客服留言,請 AI 自動分類、摘要,再把有問題的案件寫回另一張資料表。以前做法是:先寫一段 Python 呼叫 LLM API、自行處理失敗重試、再手寫 SQL 寫回資料庫,整個流程要串好幾個腳本。現在用 `@task.llm_sql` 這個新的任務類型,只需在 Airflow DAG(工作流程定義檔)裡宣告「讀哪張表、用哪個模型、把結果存哪裡」,Airflow 就會自動管理重試、紀錄每次呼叫的 token 費用,甚至中途失敗也能從上次成功的步驟繼續,不用從頭重跑。差異是:原本要自己寫好幾百行串接程式碼,現在幾十行就能完成,而且監控和容錯都是內建的。

T2
KumoRFM-2 關聯式資料預測基礎模型

KumoRFM-2 是 Kumo.ai 發布的一款「關聯式基礎模型」(就是能直接理解資料庫表格結構的 AI 預測模型),專門用來對企業資料做各種預測任務。傳統機器學習(讓電腦從歷史資料學習規律、做出預測的技術)在使用資料庫資料預測之前,需要資料工程師花大量時間做「特徵工程」(把原始資料整理成 AI 能理解的格式),這個過程繁瑣且耗時。KumoRFM-2 可以直接讀取資料庫中的多張表格和它們之間的關聯關係,不需要這道繁複的前置工程,就能完成預測。在橫跨 15 個資料庫、共 41 項測試中,只用完整資料集 0.2% 的訓練量,它就超越了傳統監督式機器學習模型,也比業界廣泛使用的自動化建模工具 AutoGluon 高出 8%。

以企業銷售預測為例:假設一家公司用 Snowflake(企業常用的雲端資料倉儲平台)儲存了客戶資料、銷售記錄、網站行為等十幾張關聯表格,傳統做法是資料工程師要先花幾周手動將這些表格「打平」整合成一張大表,再訓練一個監督式模型。用 KumoRFM-2,只需寫幾行 SDK 程式碼連接 Snowflake,再用 PQL(預測查詢語言,也就是用「我想預測哪個客戶會購買」這種直白問法寫指令)描述預測目標,模型就會自動理解表格間的外鍵關係(外鍵就是不同表格之間的連結欄位,例如訂單表的「客戶 ID」對應客戶資料表)並完成預測,全程不需重新訓練模型。Databricks(知名的資料平台公司)實際使用後回報:銷售線索轉換率從原本的 1.2 倍提升到最高 6 倍,且高品質潛在客戶的數量翻倍。

T3
T3
Fathom 3.0 無需 Bot 的 AI 會議記錄

Fathom 是一款 AI 會議記錄工具(就是在你開 Zoom 或 Google Meet 時,自動幫你錄音、整理重點的軟體),2026 年 4 月 15 日發布 3.0 大版本。最大突破是推出「Bot-free 模式」——過去這類工具需要一個「機器人帳號」加入你的視訊通話才能錄音,旁人看了往往覺得尷尬或有隱私疑慮;新版改成在你的電腦本地直接擷取音訊,不再需要機器人現身。此外,新版透過 MCP(Model Context Protocol,一種讓 AI 助理連接外部資料的開放標準,由 Anthropic 主導)整合了 ChatGPT 與 Claude(Anthropic 公司的 AI 助理),讓你能直接在這些 AI 對話介面裡搜尋自己過去所有會議的內容。以上新功能均在免費方案中可用,對市場上的競爭對手(如估值 15 億美元的 Granola)形成直接壓力。

假設你是業務主管,每週要開十幾場客戶電話,過去用 AI 記錄工具時,客戶一進來就看到「Fathom Bot 已加入通話」,常被追問這是什麼、會不會儲存錄音,氣氛很尷尬。現在用 Fathom 3.0 的 Bot-free 模式,你打開 Mac 上的 Fathom 程式,選「僅逐字稿」模式,工具直接從你電腦麥克風擷取對話,通話裡不會出現任何機器人。會議結束後,你打開 Claude 或 ChatGPT,問「上個月哪幾場客戶提到了『交期太長』這個問題?」——透過 MCP 整合,AI 會直接翻查你整個會議資料庫並列出相關段落,不用自己一場場翻逐字稿。舊做法是要手動整理筆記或讓機器人公開現身,新做法是安靜、自動、可語意搜尋。

T3
Claude Code 49 Agent 遊戲工作室

Claude Code Game Studios 是一個免費開源的專案範本,讓你可以把 Claude Code(Anthropic 出的 AI 程式助理)變成一個由 49 個 AI 分工角色組成的「虛擬遊戲開發工作室」。這些 AI 角色分成三個層級:最頂層的「製作人」(用最強的 Opus 模型)負責把關遊戲方向,中層的「部門主管」(用 Sonnet 模型)管理各業務領域,底層的「執行專員」(用較輕量的 Sonnet 或 Haiku 模型)負責真正寫程式、做設計等具體工作。整個流程設有 18 個強制審核關卡,每一關都要 AI 製作人點頭同意才能繼續進行——這樣設計是為了確保每個階段的產出都符合最初的設計願景,不會跑偏。目前這個專案在 GitHub 上已累積超過 10,500 個星星,支援 Godot 4、Unity、Unreal Engine 5 三大遊戲引擎,是 AI 輔助遊戲開發領域目前最受關注的開源架構之一。

假設你是一個完全沒有遊戲開發團隊的獨立創作者,想做一款 2D 像素風冒險遊戲。以往你得自己一個人搞定企劃、美術、程式、音效、測試全部流程,或者花錢組一個小團隊。用 Claude Code Game Studios 的話,你 fork(複製)這個範本後,先告訴「AI 製作人」你的遊戲概念,它會提問並定出設計文件;接著「AI 關卡設計師」、「AI 程式專員」、「AI UI 規劃師」等分工角色依序介入,各自提出選項供你確認,確認後才動手輸出程式碼或設計稿。每進入下一個製作階段(如從概念設計進入關卡實作)都要過一個審核節點,避免前期問題被帶著一路往後滾。舊做法:你自己用 Claude Code 問一個問題、等一個回答、再問下一個,沒有分工、沒有流程管控。新做法:整個工作室架構幫你把流程拆好,每個 AI 角色只做自己份內的事,而且所有 AI 都只提建議、等你點頭,不會在你沒看到的地方自己改掉任何檔案。

T3
Gemma 4 安全護欄遭雙重破解

Google 在 2026 年 4 月推出最新開源 AI 模型 Gemma 4(一種可以自行下載、在自己電腦或伺服器上執行的語言模型),發布後數天就遭到兩種層次的破解。第一種是「越獄提示詞(Jailbreak System Prompt)」——透過特殊指令讓模型誤以為處於測試模式,從而繞過安全限制、允許產出官方明確禁止的內容;第二種更根本,稱為「模型權重篡改(Abliteration)」——直接修改模型的核心數據文件,把「拒絕回答」的能力從根源刪除,不需任何特殊提示詞就能讓模型什麼都說。根據測試,篡改後版本在 HarmBench(一個衡量 AI 模型能被多容易誘導產出有害內容的評估基準)上的繞過率高達 93.7%,而整體模型能力幾乎不受影響(性能損失僅 2%)。被篡改的版本已在 Hugging Face(一個開源 AI 模型的公開分享平台)公開流通,任何人都可以下載使用。

假設一家公司自行部署 Gemma 4 來做內部客服機器人,從官方來源下載模型後上線。但若使用者下載的是已被篡改的「破解版」(dealignai 團隊在 Hugging Face 發布的 Gemma-4-31B-JANG_4M-CRACK),這個版本在測試中可以無阻礙地生成反向連線程式碼(reverse shell,一種讓攻擊者遠端控制對方電腦的工具)、漏洞利用腳本等 8 種高風險內容,而官方原版至少會拒絕這些敏感請求。對企業的實際影響是:光靠「我自己部署的版本沒問題」已經不夠——整個開源生態中流通的衍生版本都可能帶來品牌與法律風險。企業若要自行部署開源模型,必須建立模型雜湊校驗機制(比對下載文件的數位指紋,確認內容未被篡改)才能有效防範供應鏈污染。

T3
290MB 模型直接在瀏覽器本地執行

Caltech 衍生公司 PrismML 發布了一個叫 Bonsai 1.7B 的 AI 語言模型(就是能對話、回答問題的那種程式),用了一種叫「1-bit 量化」的極限壓縮技術——把模型裡每個數字都縮減成只有正號或負號,讓整個模型從原本幾 GB 壓到只剩 290MB。這個大小讓模型可以直接在一般人的瀏覽器(Chrome 或 Edge)裡執行,完全不需要把資料傳到遠端伺服器。所謂「本地推理」(就是模型在你自己的裝置上運算,而非送到雲端)代表你的對話內容和隱私資料完全不離開你的電腦,對醫療、法律、企業機密等敏感場景特別有意義。模型以開放授權釋出,可免費商業使用,且速度比標準版快 3 到 3.8 倍。

假設你是一位律師,需要讓客戶在網站上輸入合約問題並取得初步解釋,但合約內容絕對不能上傳到 OpenAI 或任何雲端。以前這類需求幾乎無解——要麼犧牲隱私用雲端 API,要麼在公司架設昂貴伺服器。現在你可以把 Bonsai 1.7B 的 290MB 模型包進網頁應用,客戶在瀏覽器打開頁面後模型直接在他們的電腦上跑,輸入的文字完全不出裝置。用 `@huggingface/transformers` 這個 npm 套件(前端開發工具)幾行程式碼就能整合,客戶只需要 Chrome 113 以上版本即可,不用安裝任何軟體。相比舊做法(同樣隱私等級需要自建 GPU 伺服器,成本可能十萬起跳),這個方案幾乎零伺服器成本。

T3
GenericAgent 技能自演化 Token 耗減六倍

GenericAgent 是復旦大學 A3 Lab 開發的開源 AI Agent(自動執行任務的 AI 程式)框架,設計哲學是「從零開始自己學技能」。它只內建 9 個最基本操作(例如執行程式碼、讀檔案、瀏覽網頁),遇到新任務時,Agent 會自己摸索解法,成功後把這段解題過程「結晶」成一個可以反覆呼叫的「技能」,存進分層記憶系統(可以想像成從便利貼到操作手冊的五層知識庫)。下次碰到類似任務,Agent 直接調用現成技能,不用從頭再想一遍,這讓每次呼叫 AI API 的費用(以 Token 計費,Token 就是 AI 處理一段文字所需的單位)降低了六倍。2026 年 3 月,復旦大學更上線超過 140 萬筆社群共享的公共技能庫,企業可以直接用別人演化好的技能,大幅縮短冷啟動時間。核心執行迴圈只有 100 行程式碼,支援 Claude、Gemini、Kimi 等主流大型語言模型(LLM,就是 ChatGPT 這類能對話的 AI)。

假設你要用 AI Agent 定期爬取競品網站的價格並整理成報表。用傳統 Agent 框架,每次執行這個任務,AI 都要從零推理「先打開瀏覽器、再定位價格欄位、再整理成 CSV…」整個流程重跑,Token 費用全算;任務量一大,每個月 API 費用可能高達數千元。用 GenericAgent,第一次執行時 Agent 照樣自己摸索,但完成後會自動把這套流程存成「競品價格爬取技能」。之後每次執行,Agent 直接叫出這個技能套用,不用重新推理,Token 消耗只剩原來的六分之一。若公司同事也用 GenericAgent,還可以從復旦的 140 萬筆公共技能庫裡直接下載類似場景的現成技能,省去自己演化的時間。

T3
政府機構導入 AI 的 SLM 策略

政府機關在導入 AI 時面對的限制與一般企業截然不同——不只要顧資料安全,還有斷網環境、無法架設大型 GPU 伺服器、系統必須全天候不中斷等現實問題。這篇文章指出,解法不是硬塞大型語言模型(LLM,就是驅動 ChatGPT 這類 AI 的巨型系統,需要龐大算力),而是改用「小型語言模型」(SLM,參數量只有十億等級,遠比 LLM 的千億等級輕巧很多)。研究顯示 SLM 在實測中表現不輸甚至勝過 LLM,且硬體門檻低得多。文章還建議搭配向量搜尋(讓 AI 能快速從大量文件中找到最相關的片段)與「來源錨定」技術(要求 AI 回答時必須引用可查驗的原始資料,避免憑空捏造),才能在嚴格管控的政府環境中安全落地。Gartner 預測到 2027 年,各機構使用任務導向小型模型的頻率將是通用 LLM 的三倍。

假設某縣市政府資訊部門想幫公務員打造一套「法規查詢 AI」。若用 GPT-4 這類大型 LLM,需要連外網才能呼叫 API,可能洩漏機敏公文,而且要備妥大量 GPU 伺服器,成本高且管理複雜。改用 SLM 的做法是:先把所有法規條文轉成向量索引(一種讓 AI 可以快速比對相似度、找出最相關內容的格式),存在機關內部伺服器;公務員提問時,SLM 先執行向量搜尋找出最相關的條文段落,再依此生成回答,並自動標注出處條號方便查核。整套流程完全不需連外網,硬體只需一台普通伺服器,AI 的每一句回答都有原始條文作依據,滿足政府對透明度與資料安全的雙重要求——這正是傳統 LLM 雲端方案做不到的。

T3
企業 AI 競爭優勢在於操作層

MIT Technology Review 這篇分析文章指出,企業在 AI 競賽中真正的長期優勢,並不是用哪家公司的 AI 模型(就是 ChatGPT、Claude 這類大型語言模型,能理解並生成文字的 AI),而是自己掌控「操作層」——也就是讓 AI 在日常業務中實際運作、被管理、持續學習改進的那一整套系統架構。文章把企業分成兩種思維:一種把 AI 當雲端服務呼叫,每次問完就重置,不累積任何組織知識;另一種把 AI 直接嵌入業務流程,讓每一次人工審核、每一個決策修正,都自動變成讓 AI 下次更準的訓練材料。擁有操作層的企業有三大先天優勢:多年累積的專屬業務數據、每天實際做決策的專業人才持續產生訓練信號、以及難以言傳的組織運作知識。這種架構下 AI 的角色也翻轉了——不再是人用軟體工作,而是 AI 先自動處理有把握的任務,碰到複雜或高風險情境才轉給人類專家判斷,讓人力聚焦在真正需要判斷力的地方。

假設我是一家保險公司,每週處理 5 萬件理賠申請。傳統做法是人工審核,或用 AI 做初步篩選,但審核結果不會自動回饋到 AI 系統裡。若改用「操作層飛輪」思維:每件申請的審核決定(批准/拒絕/轉人工)加上三個關鍵決策節點,一週就能自動產生 15 萬筆帶標籤的訓練資料(就是「AI 做了什麼決定、人類認為對不對」的紀錄)。這些資料持續送回訓練,讓公司自己的 AI 愈來愈懂理賠邏輯和公司標準,完全不依賴 OpenAI 或 Anthropic 更新版本才能進步。舊做法是靠外部模型版本更新帶來改善,自己毫無掌控;新做法讓業務流程本身變成訓練資料工廠,競爭優勢隨每週業務量自動滾雪球,競爭對手即便用同一個 AI 模型也無法複製。

T3
AI Agent 工程:打造可靠的執行環境

現在越來越多人在用 AI 幫忙寫程式,但「讓 AI 寫出一段程式碼」和「讓 AI 穩定地持續開發一套軟體」,其實是完全不同難度的兩件事。前者只是個花俏示範,後者需要一套新的工程思維,叫做「harness engineering(執行環境工程)」。這個概念的核心是:與其一直花時間去調整你下給 AI 的指令(也就是 prompt,就是你跟 AI 說的話),不如把重心放在「替 AI 搭建一個好的工作環境」——包括設定清楚的工具、限制、計畫流程、可觀測性(就是讓你能隨時看到 AI 在做什麼、哪裡出錯),以及失敗時的還原機制。OpenAI 最近也正式用這個詞來描述這種趨勢,並指出真正的挑戰從來不只是讓 AI 生成程式碼,而是讓 AI 在一個結構完整的環境裡,長時間可靠地完成任務。換句話說,真正的產品不是你的 prompt,而是你替 AI 搭建的整套「賽道」。

假設你要讓 AI agent(自動執行多步驟任務的 AI 程式)幫你每天自動整理客戶回饋、分類問題、然後更新到資料庫。如果只靠「寫一個好 prompt」的方式,AI 可能在前三次執行時表現正常,但第四次遇到格式略有不同的回饋就開始出錯——而你完全不知道它哪裡壞掉。按照 harness engineering 的思路,你應該這樣做:先幫 AI 定義清楚每一步的驗證規則(例如「分類結果必須是五個類別之一,否則就停下來等人確認」),再加入日誌記錄(就是每一步做了什麼都寫下來),還有失敗時的回滾機制(壞掉就退回上一個成功狀態)。這樣一來,AI 出錯時你馬上能看到是哪一步、哪筆資料出了問題,而不是等到資料庫已經塞滿錯誤資料才發現。對比舊做法:純靠調整 prompt,問題只會一直循環出現;有了完整的執行環境設計,問題變成可追蹤、可修復的工程問題。

T3
Humwork:AI 卡關自動轉真人專家

Humwork 推出全球首個「代理人對真人」(A2P,Agent-to-Person)市集,專門解決 AI 工具遇到困難時的「接棒」問題。簡單說,就是一個「AI 叫救援」的服務平台——當 Claude Code(Anthropic 推出的 AI 輔助寫程式工具)或 Replit(線上寫程式環境)這類 AI 工具卡住時,可以在 30 秒內自動把任務轉交給真人專家接手。AI 已做的進度和整段對話紀錄都會一併交接,專家不必從頭了解情況。平台目前有超過 1,000 位全球認證專家,號稱問題解決率高達 87%,並已獲 Y Combinator(矽谷知名創業加速器,曾孵化 Airbnb、Stripe 等知名公司)P26 梯次支持。

假設你正在用 Claude Code 寫一支自動化腳本,AI 在處理某個複雜的公司內部資料庫串接問題時反覆給出錯誤答案、陷入迴圈。以往你只能自己去技術論壇查資料、發文等回覆,或者放著不管。透過 Humwork,Claude Code 偵測到問題超出 AI 能力範圍後,會在 30 秒內把整段對話紀錄和程式碼背景自動轉給平台上一位專精資料庫串接的真人工程師。那位工程師接手後直接看到完整情境,不需要你重新解釋,可以快速給出解決方案。差別在於:AI 卡關後不再只是繞圈吐廢話,而是真的有人接手把問題解掉。

T3
Vakra 揭示 AI Agent 推理盲點

IBM 研究院(IBM Research,全球知名科技公司 IBM 旗下的研究部門)推出了一個名為 Vakra 的測試框架,專門用來評估 AI 助理(也就是 AI agent,指能夠自動規劃步驟、呼叫工具、完成複雜任務的 AI 程式)在企業真實環境中能否做出多步驟的推理判斷。這套框架內含超過 8,000 個模擬的資料查詢工具,橫跨 62 個不同領域,要求 AI 必須依序呼叫多個工具、查閱文件、並在規則限制下完成任務。測試結果發現,即使是目前最先進的 AI 模型(包括 GPT、Gemini、Claude),在面對「需要連續跳三步以上的邏輯推理」或「有規則規定哪些工具不能用」的情況時,表現都會大幅下滑。這代表現有 AI agent 在真實企業環境中仍存在明顯的可靠性缺口——表面上看起來能用工具,但一碰到複雜組合推理就容易出錯。

假設公司的 AI 助理要回答:「請找出攻守轉換速度為 31、盤球得分 53、短傳指數 32 的足球隊是哪支?」這個問題需要 AI 先查出所有球隊資料,再依序用三個條件過濾——每一步都要呼叫不同的 API 工具(API,就是程式之間溝通用的標準介面),並把上一步的結果傳給下一步使用。Vakra 的實測中,大多數模型在這種「多步篩選 + 工具串接」任務上,常見失敗包括:用錯工具名稱、輸入參數打錯字、或者找到對的工具卻沒辦法把結果整合成正確答案。如果再加上規則限制——例如「科技類問題只能查文件,不能呼叫 API」——幾乎所有模型的準確率都會再大幅下降,因為模型懂規則但仍常常違反或找不到夠用的資訊。對比舊做法:以前沒有這套量化測試框架,開發者很難知道自己的 AI agent 究竟在哪個環節出了問題;有了 Vakra,就能精確定位是「工具選錯」、「參數填錯」,還是「整合推理失敗」。

T3
AI 科學探索代理評測基準

許多 AI 研究團隊宣稱他們的 AI 代理(agent,就是能自主執行任務、模擬人類做決策的 AI 系統)在科學研究上表現驚人,但實際的數據支撐往往令人失望。為了客觀衡量這些 AI 代理的真實能力,研究人員開發了兩個專門的評測基準(benchmark,就是標準化測試,用來公平比較不同 AI 系統表現的工具)——ScienceWorld 和 DiscoveryWorld。ScienceWorld 考驗 AI 能否「重現」人類歷史上的經典科學發現,難度大約在小學程度;DiscoveryWorld 則是更進階的開放式探索任務,難度對應大學或博士研究等級。這兩個評測工具都是開放免費使用,任何人或團隊都可以拿來測試自家的 AI 科學代理是否真的名副其實。

假設我開發了一個號稱能「自主做科學實驗」的 AI 代理,想知道它究竟有多強。我可以用 ScienceWorld 來測試它:讓 AI 嘗試重現「植物需要陽光才能生長」這樣的基礎科學概念,看它能不能設計實驗步驟、收集數據、得出結論。若 AI 連小學程度的實驗流程都走不完,就代表對外宣傳的「超強科學能力」其實名不副實。接著用 DiscoveryWorld 挑戰它探索未知問題,看能否在沒有預設答案的情況下產出有意義的研究結果。對比過去沒有標準評測的時代,開發者可能只靠幾個精心挑選的例子就對外宣傳驚人效果,現在有了這兩個基準,就能用一致的標準公平比較所有科學 AI 代理的真實水準,避免誇大宣傳蒙蔽使用者。

T3
擴散語言模型強化學習崩潰解法

近期有研究者發現,一種叫做「擴散語言模型(dLLM,可以想像成用類似繪圖 AI 的方式來生成文字的語言模型)」在接受「強化學習(RL,一種讓 AI 透過嘗試錯誤、從獎懲回饋中自我改進的訓練方式)」時,特別容易發生「訓練崩潰」——也就是模型在訓練過程中突然變得極不穩定、學到的東西全部亂掉。研究找出根本原因:擴散語言模型在計算學習訊號時,必須靠一種叫做「蒙地卡羅抽樣(Monte Carlo sampling,用隨機多次試驗來估算平均值的統計方法)」的估算法,這個方法會製造大量雜訊,導致訓練過程中出現「梯度尖峰(gradient spike,模型參數突然被猛拉往一個錯誤方向)」,形成惡性循環。傳統用來穩定 AI 訓練的「條件式裁切(conditional clipping,一種限制更新幅度的安全閘門)」方法在這裡完全失效。為此,研究團隊提出了新框架 StableDRL,結合「無條件裁切」與「自我正規化」兩種機制,成功壓制極端值、穩定訓練過程。

假設我要訓練一個擴散語言模型,讓它透過強化學習學會「回答問題時給出更正確的答案」。用傳統 RL 訓練流程跑下去,很可能跑到中途模型就「崩了」——輸出變成亂碼、或每次都給同一個答案——整批訓練白費。套用 StableDRL 框架後,訓練時會自動偵測並截斷那些因為隨機抽樣產生的異常更新值,再用批次內的有效資訊量做校正,讓每一步更新都控制在合理範圍。結果是:同樣的訓練資料和計算資源,模型能穩定收斂,不再中途崩潰,最終輸出品質也顯著優於舊方法。

T3
PARCAE 用更少參數媲美更大模型

PARCAE 是 Together.ai(一間專注 AI 模型研究的公司)發表的新型語言模型架構(架構就是 AI 的「骨架設計方式」,決定 AI 怎麼一步步處理文字資訊)。傳統觀念認為模型要好,參數(可以理解為模型的「神經元數量」)就要多,但 PARCAE 採用「循環」設計——讓同一組網路反覆處理資訊好幾輪,而不是每層都用新的網路——因此只需更少的參數就能達到同等效果。實測結果顯示,7.7 億參數的 PARCAE 模型,在標準語言理解測試中的得分(25.07)超越傳統 13 億參數的 Transformer 模型(22.42),而且訓練過程更穩定、更容易預測,減少工程師反覆調整的負擔。這種高效設計對記憶體有限的邊緣裝置(例如手機、嵌入式硬體)特別有吸引力,有望讓本地 AI 跑出更好的效果。

假設我想在手機上部署一個本地 AI 助理,不依賴雲端、不把對話資料傳到外部伺服器。過去的困境是:手機記憶體有限,只能裝比較小的模型,效果往往差強人意。現在若採用 PARCAE 架構,7.7 億參數的模型就能達到傳統 13 億參數模型的效能水準,等於記憶體需求縮減將近一半,但輸出品質不打折。具體來說,在衡量語言理解能力的 Core 基準測試(benchmark,就是用一組固定題目測 AI 的答題能力)中,PARCAE 770M 得分 25.07,對比傳統 Transformer 1.3B 的 22.42,反而更高——也就是說,用一半的「體積」,反而跑出更好的成績。對需要在低資源裝置上部署 AI 的開發者來說,這條路線比單純堆大模型更省成本。

T3
NVIDIA Lyra 2 長影片 3D 生成框架

NVIDIA 研究團隊發表了 Lyra 2.0,這是一個能生成長時間、帶鏡頭控制影片的框架(就是讓 AI 自動製作可任意移動攝影機視角的長影片),並保持畫面的 3D 空間一致性(意思是:當鏡頭移動或回到之前拍過的地方,場景不會變形或出現莫名其妙的物體)。傳統 AI 影片生成在處理長影片時有兩大頑疾:一是「空間遺忘」——鏡頭移走後再回來,AI 忘了原本的樣子就亂生成;二是「時間漂移」——自動逐幀生成時誤差不斷累積,越到後面場景越扭曲走樣。Lyra 2.0 用「幾何導引檢索」解決空間遺忘問題——讓 AI 記住每一幀的 3D 空間幾何資訊,下次鏡頭回到同一個地方時查詢舊畫面作參考,而不是憑空重新猜。至於時間漂移,則靠「自增強訓練」(Self-Augmented Training)——訓練時故意給 AI 看帶有誤差的歷史影格,讓模型學會主動修正,而不是把錯誤繼續往後傳,最終能穩定產出 3D 空間連貫的長段影片。

假設我要製作一支虛擬城市漫遊影片:從高空俯瞰進入街道、穿越建築群,繞一圈後回到最初的高空視角。用傳統 AI 影片生成工具,當鏡頭從街道再飛回高空,AI 早就忘了樓群原本的位置與顏色,於是第二次的高空畫面跟第一次長得完全不同,樓棟憑空消失或移位;加上影片越長誤差越大,到後段整個城市輪廓都可能歪掉。改用 Lyra 2.0,框架會在第一次掃過高空時把 3D 幾何資訊存下來,當鏡頭再次飛到同樣高度,它查詢之前的記錄確認建築位置後再生成畫面,讓重訪場景和一開始保持一致,不出現「鬼影」或「場景突變」。最終輸出的長影片可直接用於遊戲關卡預覽、虛擬場景製作或電影預視覺化,省去後期人工修圖補幀的成本。

T3
AI Agent 多層指令衝突解決框架

ManyIH(Many-Tier Instruction Hierarchy,多層指令階層)是一個研究框架,專門解決 AI Agent(能夠自主執行任務的人工智慧系統)同時收到多個相互矛盾指令時,應該聽誰的這個難題。傳統做法只設定簡單的固定優先順序,但當 Agent 需要同時應對十幾個不同來源的指令時,這種粗糙方法就完全不夠用了。研究團隊不只提出新架構,還設計了名為 ManyIH-Bench 的測試基準(benchmark,即一套用來客觀衡量 AI 能力的標準化考題集),涵蓋 12 個指令優先層級與 853 個實際任務場景。測試結果令人驚訝:目前市面上主流的 AI 模型,在這類多層指令衝突的情境下,正確率只有大約 40%,代表超過一半的時候 AI 都會做出錯誤判斷——這是一個目前尚未被業界充分重視和解決的問題。

假設你在公司部署一個 AI 客服 Agent,這個 Agent 同時受到多方指令約束:公司總政策(禁止洩露商業機密)、客服部門規定(需以友善語氣回應)、系統管理員設定(禁止提及競爭對手)、以及眼前這位使用者的請求(「我覺得你們產品不適合我,幫我介紹競爭對手的方案吧」)。這四層指令互相衝突,傳統 Agent 往往不知道該遵循哪一層,可能直接亂回答或選錯優先順序。ManyIH 框架明確定義了如何在 12 個不同層級之間進行優先序判斷,讓 Agent 系統性地決定:公司總政策最優先,依序往下,最終婉拒使用者的衝突請求,同時給出符合所有上層規定的回應。對比舊做法:沒有這套機制的 Agent 遇到多層衝突時正確率只有 40%,極易做出不符合企業規範的危險回應。

T3
Cloudflare Browser Run AI Agent 瀏覽器新平台

Cloudflare(一家幫網站加速和防護的大型網路服務公司)把旗下一項叫做「Browser Rendering」的服務改名為 Browser Run,並大幅升級功能。這個服務的核心概念是:讓 AI 代理(就是能自動執行任務的 AI 程式,例如自動訂票、爬資料、填表單的機器人)可以像真人一樣操作瀏覽器——打開網頁、點按鈕、填表單——而不需要開發者自己架設虛擬電腦和 Chrome 瀏覽器。新版加入了「Human in the Loop(人工介入)」功能,當 AI 碰到驗證碼或需要登入等自動化突破不了的環節時,可以暫停、通知真人接手處理完再交還 AI 繼續執行。此外還支援了 MCP(讓 Claude、Cursor 等 AI 助手連結外部工具的標準協定),讓 AI 程式設計助手也能直接遙控這套瀏覽器服務;同時將同時能處理的任務上限從 30 提升到 120,大幅提升大規模自動化的能力。

假設我要用 AI 代理自動訂購商品——AI 先在 Amazon 搜尋「橙色熔岩燈」、比較選項,但到了結帳畫面出現登入要求。以前這種情況 AI 代理只能報錯停止,無法繞過帳號認證。用 Browser Run 的 Human in the Loop,AI 會自動暫停並通知開發者「需要人工介入」,我只要開啟 Live View(即時畫面預覽),登入帳號完成驗證後按下「交還控制」,AI 就接手繼續完成整個訂購流程。比起舊做法——要自己架 Chrome 伺服器、自己寫錯誤處理邏輯、或乾脆放棄需要登入的場景——整個流程可以不中斷地跑完,也省去維護瀏覽器基礎設施的麻煩;並發任務量也提升了 4 倍,適合需要同時跑大量自動化任務的團隊。

T3
Gemini 內建購物車與直接結帳測試

Google 正在測試在 Gemini(Google 的 AI 助理,就像 ChatGPT 的競爭對手)裡內建購物車功能,讓使用者不用跳出 APP 就能直接瀏覽商品、加入購物車、並完成結帳付款。這個功能背後依賴 Google 在 2026 年 1 月宣布的「Universal Commerce Protocol」(通用商務協定,一種讓 AI 直接與商家系統串接並代為下訂單的技術標準),已與 Target、Gap、Etsy、Wayfair 等零售商完成整合。此外這項購物功能還與「Skills for Gemini」(讓 Gemini 能在 Chrome 瀏覽器裡自動操作網頁的能力)結合,未來可能讓 Gemini 一手包辦「幫你上網查資料→找到商品→直接下單」的全流程自動化。目前功能尚未公開發布,預計在 2026 年 5 月 19–20 日的 Google I/O 開發者大會正式發表。

假設你問 Gemini「幫我買一雙黑色運動鞋,預算 2000 元台幣」,現在的做法是 Gemini 頂多給你幾個連結,你還是要自己開瀏覽器、進網站、找鞋、加購物車、填信用卡。有了這個新功能之後,Gemini 會直接在對話介面裡列出符合條件的商品(來自 Target、Etsy 等合作商家),你選好後不用離開 APP 就能完成付款——AI 代替你執行整個購物流程。差異就是:舊的 AI 助理只能「告訴你去哪買」,這個新功能讓 AI 直接「幫你買好」。

T3
Google Gemini 推出 macOS 原生 App

Google 推出了 Gemini 的 macOS 原生桌面應用程式,讓 Mac 用戶不用打開瀏覽器就能使用 AI 助理。這個 App 有三大核心功能:「螢幕分享分析」——你可以把目前開著的視窗畫面傳給 Gemini(就是 Google 開發的 AI 助理),請它幫你即時解讀圖表或摘要文件內容;「快速呼叫」——按下 Option + Space 快捷鍵,不需要切換視窗就能問問題;以及「內容生成」——可直接用 AI 生成圖片和影片素材。此 App 免費提供給 macOS 15(Sequoia)以上的使用者,可至官網下載。

假設你正在用試算表整理財務報表,碰到一個複雜的 SUMIF(根據條件加總特定欄位的公式)不知道怎麼寫。舊做法是:切換到瀏覽器、開 ChatGPT 或 Google 搜尋、貼上問題、再切回試算表,中間至少要換三次視窗。新做法:直接按 Option + Space 叫出 Gemini,用文字描述需求即可;或更進一步,用「螢幕分享」把試算表視窗傳給 Gemini,請它「看著我的欄位,幫我寫這格的公式」——Gemini 能直接看到你的實際資料再給建議,比光靠文字描述更準確。整個過程不需要離開試算表。

T3
Microsoft 365 Copilot 新增自主代理功能

微軟正在測試一種更自主的 AI 代理(agent,就是能自己決定下一步該做什麼、持續執行任務的 AI 程式),打算內建進 Microsoft 365 Copilot(微軟的 AI 辦公助理產品,整合在 Word、Excel、Outlook 等軟體中)。這個新代理的特色是「持續行動」,不只是被動等使用者發問再回答,而是能主動連續執行一系列任務。微軟特別強調這是針對企業(公司行號)用途所設計,並加入了更嚴格的資安(確保資料不外洩)與治理(控管 AI 能做哪些動作)機制。這是微軟在「讓 AI 自己幹活」這個方向上的最新一步,目標是讓 Copilot 從「問答機器」升級成「能自行完成多步驟工作的數位員工」。

假設你是公司的採購專員,需要每週整理供應商報價單、比對歷史價格、更新 Excel 表格、再把摘要寄給主管。過去用 Copilot,你得一步一步手動提示:「整理這份文件」→「幫我比對」→「寄信給主管」,每個步驟都要你下指令。新版的自主代理模式下,你只需設定一次任務目標,代理會自己依序打開郵件附件、讀取 Excel、執行比對、撰寫摘要信件,全程不需要你逐步引導。與舊版差異在於:舊版 Copilot 是「你問一句、它答一句」,新版則是「你說目標,它自己把整個流程走完」。

T3
Mercor 資料外洩威脅 AI 訓練資料安全

Mercor 是一家估值高達百億美元的新創公司,專門替頂尖 AI 公司收集「人類專家評估資料」——也就是請真正的醫師、律師、工程師等各領域專家,對 AI 的回答打分數、提供示範,這種資料用來讓 AI 學得更準確、更像真正的專家。近日該公司遭受嚴重駭客攻擊,高達 4TB(相當於數十億份文件)的資料遭竊,外洩的正是這批被視為核心競爭力的珍貴專家訓練資料集。這類資料被業界稱為「資料護城河」(就像城堡外的護城河,讓競爭對手難以翻越的獨家優勢),一旦外洩,多年累積的技術領先地位可能頓時消失。事件發生後,業界人士呼籲美國聯邦政府介入提供網路安全協助,保護這些對國家戰略有重要意義的 AI 公司免受外國競爭者竊取技術的威脅。

假設你花了三年、耗費重金,請了數百位各領域頂尖專家(醫師、法律顧問、軟體工程師)逐一評估並改進你的 AI 模型,建立了一套競爭對手根本無法複製的高品質資料集。在這次事件之前,業界普遍認為這種「獨家資料」是最穩固的護城河——對手就算有錢也買不到、花時間也湊不齊。然而 Mercor 的外洩事件顛覆了這個邏輯:如果這批資料被取得,競爭對手原本需要三至五年才能追上的技術差距,可能幾個月內就被抹平。過去 AI 公司靠著「我有你沒有」的資料優勢保持領先;這次事件之後,業界開始意識到訓練資料本身必須像國家機密一樣嚴密保護,單靠商業安全措施已遠遠不夠。

T3
GitGuardian AI 編碼助理即時密鑰掃描

GitGuardian 推出了針對 AI 編碼助理(就是 Cursor、GitHub Copilot 這類「幫你自動寫程式的 AI 工具」)的即時密鑰掃描功能。所謂「密鑰」(Secret),是指程式碼或提示訊息中夾帶的 API Token、密碼、憑證等敏感資料——一旦外洩,駭客就能用這些資料入侵你的系統或帳號。隨著工程師越來越習慣對 AI 直接貼上程式碼問問題,2025 年 AI 服務相關的密鑰外洩事件暴增了 81%。這個工具會在你對 AI 助理送出提示(Prompt,就是你輸入給 AI 的問題或指令)或讓 AI 自動執行動作(Agent Action)時,即時攔截並阻擋那些夾帶在其中的敏感資料,填補了傳統 Git 儲存庫掃描和 CI/CD(自動化部署流水線)防護工具觸及不到的空白地帶。

假設你是一位工程師,習慣把整段含有資料庫連線字串(裡面包含帳號密碼)的程式碼貼給 Cursor,叫它幫你找 Bug。在沒有這個工具之前,Cursor 可能會把這段含有密碼的程式碼傳送到雲端 AI 服務,造成密鑰外洩,但你完全不知道。安裝 GitGuardian 的 ggshield AI Hook 之後,當你貼入那段程式碼並按下送出,工具會即時偵測到其中的資料庫密碼,直接阻擋這次傳送並提示你:「偵測到敏感資料,請先移除再繼續」。比起以往只能在程式碼合併進 Git 儲存庫後才掃描,這個方法把防護線推到了更前端的使用者操作時刻。

T3
Lightfield 打造 AI 原生 CRM

Lightfield 是一套「AI 原生 CRM(客戶關係管理系統,就是企業用來追蹤客戶往來、記錄銷售進度的軟體)」,它最大的特點是完全不需要業務人員手動輸入資料。傳統 CRM(如 Salesforce)需要業務自己把每封信、每通電話的重點打進去,Lightfield 改成由 AI 自動讀取電子郵件、通話錄音、即時訊息,在背景持續整理成一個「客戶即時狀況模型(就是把這個客戶的所有動態自動匯整成一份最新摘要)」。除了記錄,它還能自動執行後續流程(workflow),例如自動寄出追蹤信或提醒業務跟進。這個產品代表一個更大的趨勢:CRM 正從「幫你存資料的系統」進化成「幫你做事的系統」。

一位業務剛結束和潛在客戶的 30 分鐘視訊通話,過去他必須立刻打開 Salesforce,手動把「客戶提到預算在 Q3 決定、主要需求是整合 ERP(企業資源規劃系統)、下週再約 demo」這些重點一條一條填進去,否則隔天就忘了。用 Lightfield 之後,AI 自動轉錄通話、擷取關鍵資訊,並更新客戶資料,還自動排程一封一週後的追蹤信。業務完全不用碰鍵盤——省去的不只是輸入時間,更重要的是資料不再因為「業務懶得填」而缺漏,主管看報表時看到的是真實、即時的銷售狀況,而不是幾天前的落後資訊。

T3
Databricks 推出企業 Agent 平台

Databricks(一家專做資料分析與 AI 基礎建設的大型科技公司)發布了「Agent Bricks」平台,讓企業能在一個統一的系統裡管理、部署和監控 AI Agent(就是能自動幫你完成工作流程的 AI 程式)。這個平台整合了模型存取、安全身份驗證,以及公司內部的商業資料,讓 AI Agent 在投入生產環境(正式對外使用)時更加穩定可靠。其中最亮眼的技術是準確率比標準 RAG(讓 AI 回答前先查資料庫、避免憑空捏造)高出 70%,同時提供「文件智慧」和「客製化 Agent」等功能,讓企業不需要從頭搭建複雜的 AI 流程。這個平台同時支援多種 AI 框架(例如 LangChain、LlamaIndex 等主流開發工具),讓不同技術背景的工程師都能接入。

假設一間銀行想建立一個 AI 客服 Agent,能自動回答客戶關於帳戶、貸款條款的問題。以往需要自行串接語言模型(就是 ChatGPT 這類會說話的 AI)、設計資料查詢流程、處理權限管控、再確保 AI 不亂說話——每個步驟都要不同團隊分別負責,上線前要測試好幾個月。用 Agent Bricks,工程師可以在同一平台上:設定 Agent 只能讀取該客戶有權限的帳戶資料(透過 Unity Catalog 身份管控)、接入銀行自己的文件資料庫(準確率比舊方法高 70%、更少錯誤回答),並用「文件智慧」功能讓 Agent 自動讀懂合約 PDF。整個流程從幾個月縮短到幾週,且 Agent 回答更準確、出錯更少。

T3
Apple 大改 Siri,工程師進 AI 訓練營

Apple 正在把大批 Siri 工程師送去參加多週的「AI 輔助程式設計」訓練營(就是教工程師用 AI 工具來寫程式、加速開發的密集課程)。據悉約有 60 名 Siri 開發人員繼續負責功能開發,另外 60 名則專門評估 Siri 的效能與品質表現。Apple 預計在約兩個月後的 WWDC(Apple 一年一度的全球開發者大會,通常在六月舉行)正式發表更聰明、更強大的新版 Siri。新版 Siri 目前正在內部測試,重點是確保它符合 Apple 的安全標準,並能真正理解、連貫執行使用者下達的複雜指令,而不只是做簡單的單一回應。

假設你想對 Siri 說「幫我訂明天早上十點的咖啡外送,然後把下午三點的會議移到後天,同時傳訊息給小明說我可能會遲到」——這種連續三步、跨三個 app 的指令,現在的 Siri 幾乎一定處理不好,通常只會做第一步或直接回「我幫你上網搜尋」。Apple 這次大規模訓練工程師用 AI 工具加速開發,目標就是讓新版 Siri 能理解並「一口氣執行」這種多步驟複合指令。若測試通過、WWDC 順利發表,你說一句話就能觸發一連串跨 app 動作,不再需要自己一個一個切換操作。

T3
a16z:AI 擴展至現實物理世界

知名創投機構 a16z(Andreessen Horowitz,矽谷最具影響力的科技投資公司之一)發表了一篇深度分析文章,點出 AI(人工智慧)正在從純粹的「數位世界」跨越到「真實物理世界」。這股轉變以三個方向為核心:機器人學習(讓機器人像人一樣從示範和錯誤中自我學習操作技能)、自主科學(讓 AI 自動設計實驗、分析數據、提出假說,加速科學研究)、人機介面(讓人與機器之間的互動更自然流暢,例如腦機連接或高度擬真的肢體控制)。這三個方向並不是各自獨立的,而是共享許多底層技術基礎(如感測器融合、即時決策模型、強化學習),彼此相互強化,形成一個「複合飛輪效應」——一個領域的突破會帶動其他領域加速。a16z 認為這是 AI 發展史上下一個重要的結構性機會,也是未來幾年科技投資和研發資源最集中的戰場之一。

想像一家製藥公司想要加速新藥研發流程。傳統做法是:科學家花幾個月時間手動設計實驗配方、執行實驗、等結果、分析數據、再調整——一個循環可能耗費半年。在「自主科學」框架下,AI 系統自動根據現有論文和實驗數據生成下一步實驗假說,機器人手臂(透過機器人學習訓練出的操作技能)自動配製試劑、執行實驗,AI 再即時分析結果並更新假說——整個循環可縮短至數天。差異不只是速度,而是 AI 能同時並行測試數百個假說,而人類科學家一次只能專注幾條路線,這讓新藥發現的可能性空間大幅擴展。

T3
ChatGPT 引用網頁背後的邏輯研究

一項分析了 140 萬筆 ChatGPT 對話提示的研究,揭露了為什麼 ChatGPT 在回答問題時會引用某些網頁、而不是其他網頁。研究發現,ChatGPT 主要靠「語意相似度」(就是比對意思有多接近,而不只是關鍵字一不一樣)來決定要引用哪個來源。它特別偏好自己的通用搜尋索引,同時把 Reddit(一個類似討論區的美國社群平台)上的內容當成教科書般信賴。最重要的是:被引用的頁面,往往是那些標題和內文恰好符合 ChatGPT 在「幕後自動重新措辭」後的問題格式的頁面——換句話說,你的頁面不只要回答人問的問題,還要符合 AI 在內部自動改寫後的查詢方式。

假設我經營一個教人做咖啡的部落格,想讓 ChatGPT 在回答「怎麼做出好喝的手沖咖啡」時引用我的文章。舊做法是針對人類讀者下關鍵字優化,例如確保文章裡出現「手沖咖啡」「教學」這些詞。但根據這項研究,ChatGPT 在內部會把使用者的問題重新改寫成類似「手沖咖啡的最佳水溫與沖泡步驟為何」這樣更具體的語句,再去比對哪篇文章最接近這個意思。因此,如果我把文章標題改成「手沖咖啡完整教學:水溫、研磨度與萃取時間」,並在內文裡涵蓋這些具體細節,就更可能被 ChatGPT 挑中引用——而不只是泛泛寫「咖啡真的很好喝,以下是我的做法」這種模糊標題。

T3
Teads 用 AI Agent 加速 ML 實驗

Teads(一間廣告科技公司)打造了一套多 AI Agent 協作系統,讓 AI 自動管理整個機器學習(Machine Learning,簡稱 ML,就是讓電腦從大量資料中學習規律、做預測的技術)的實驗流程。系統由多個專門的 AI Agent 分工合作:有的負責發想新點子、有的負責寫程式碼、有的執行實驗、有的分析結果、有的最後做決策。以往工程師手動操作一輪實驗需要好幾天,現在縮短到幾小時,有效實驗數量增加了 4.5 倍,最終上線的模型效能也提升了 8–12%。這是用 AI 幫助 AI 工程師做研究的具體案例,顯示多 Agent 分工在真實企業場景中已有可量化的成效。

假設 Teads 的廣告推薦模型(就是決定要把哪則廣告顯示給哪個用戶的 AI 程式)需要改進。以往工程師要自己想「這個參數要不要調?換另一個演算法(解題方法)會不會更好?」,再手動寫程式、跑實驗、等結果、看數字,一輪可能要 3~5 天。有了多 Agent 系統後,「構想 Agent」自動列出幾十個候選改進方向,「撰碼 Agent」寫好對應程式,「執行 Agent」同時跑多個實驗,「分析 Agent」解讀數字,「決策 Agent」挑出最有潛力的方向繼續深入。原本一週可能只能試 2 個想法,現在能試 9 個以上,而且每一輪都有完整紀錄,減少重複踩坑。

T3
HF 用 AI 批次 OCR 2.7 萬篇論文

Hugging Face(一個知名的 AI 工具與模型共享平台,可以想成 AI 界的 GitHub)公開了他們如何把約 2.7 萬篇學術論文 PDF 批次轉成 Markdown 文字格式的完整流程。他們用了兩個主要工具:一是開源的 OCR 模型(OCR 就是「光學文字辨識」,把圖片或掃描稿裡的文字轉成可複製的純文字)Chandra-OCR-2;二是由 Codex(OpenAI 出的程式碼生成 AI)自動寫好的批次處理腳本。整個工程跑在「無伺服器 GPU」(就是用多少算力就付多少錢、不用自己租固定機器)上,靠平行執行壓縮到約 30 小時完工,花費僅約 850 美元。轉出來的 Markdown 論文可以接上「chat with paper」功能,讓使用者直接用對話方式向 AI 問論文內容。

假設你是一個研究者,手上有 5,000 篇掃描版 PDF 論文,想讓 AI 能直接回答「這堆論文裡哪幾篇有提到 transformer 的記憶體優化方法?」傳統做法要先花大量時間人工或逐一跑 OCR 軟體、再清理格式、再建索引,可能要幾週加上昂貴的商業 OCR 授權費。按照 HuggingFace 這篇揭露的做法:用 Codex 生成批次腳本 → 把所有 PDF 丟進無伺服器 GPU 並行跑 Chandra-OCR-2 → 直接輸出 Markdown → 接上向量資料庫(把文字轉成數字讓 AI 能搜尋的系統)。整個流程自動化程度高,以他們 2.7 萬篇的規模換算,5,000 篇大約只需要幾小時、花費不到 200 美元,且所有工具全是開源免費,不需購買商業授權。

T3
Pinterest 推薦系統請求去重技術

Pinterest(就是那個以圖片收藏為主的社群平台)工程團隊公開了一套叫做「請求級去重(request-level deduplication)」的技術,用來讓他們的推薦系統(負責決定你看到哪些圖片、影片的 AI 程式)更有效率地大規模運作。核心做法是把資料依照「使用者 + 請求 ID」排序,存進一種叫做 Apache Iceberg(一種大規模資料倉儲格式)的系統,讓每一筆「使用者這次開啟 App 的請求」只被處理和儲存一次,避免重複計算,大幅壓縮儲存空間與運算成本。在排序(ranking,就是 AI 決定哪些內容排前面)階段,他們加入了一個獨立的 context transformer(負責理解使用者當下脈絡的模組),並搭配 KV caching(快取機制,讓已算過的結果不用重算)來加速。訓練模型(讓 AI 從資料中學習)時,他們也針對 SyncBatchNorm(跨多台機器同步統計資訊的技術)和使用者級別的遮罩(masking,讓模型不會從同一使用者的不同請求之間洩漏資訊)做了針對性修正,確保模型學到的東西更準確。

假設你是 Pinterest 的 ML 工程師,每天有幾億次用戶開啟 App 的請求要處理。過去同一用戶在幾秒內連開兩次 App,系統可能把幾乎一模一樣的資料處理了兩遍,浪費大量算力和儲存空間。導入請求級去重後,系統會先把資料按使用者和請求 ID 排序,相同請求的資料就會緊鄰排列,壓縮後體積大幅縮小;接著 KV caching 確保排序模組對同一請求的計算結果只跑一次就快取起來,後續直接取用。結果:同樣的推薦品質下,運算成本下降,系統能夠支撐更大的資料量和更多用戶,無需同比例增加硬體投入。

T3
AI 記憶管理需衰減與信心分數機制

現在很多 AI 助理(就是 ChatGPT、Claude 這類對話機器人)在「記憶」使用者資訊時,採用的方式是「存進去、需要時搜尋撈出來」,就像你在 Google 搜東西一樣,誰最符合關鍵字就出現誰。但這篇文章指出,這種做法有根本上的問題:它無法處理「記憶過時」、「記憶互相矛盾」、「信心高低」這些真實情境。作者提出一套用 SQLite(一種輕量型本地資料庫,不需要架伺服器、直接存在電腦裡)來管理 AI 記憶的新設計,每一條記憶都會被打上「重要性」、「信心分數」與「衰減程度」三個指標,舊的、不確定的記憶會自動降權甚至被歸檔,新進來的記憶如果與舊的衝突,可以直接取代它;如果重複,則會被合併成一條更精確的摘要。這讓 AI 的記憶系統更接近人類大腦的運作方式——不是永遠記得所有事,而是隨時間和新資訊動態調整哪些事更值得記。

假設你在一月跟 AI 說「我不吃辣」,三月說「我去了四川旅遊,開始愛上麻辣鍋了」。用傳統的記憶搜尋方式,這兩條資訊都存在系統裡,AI 下次推薦餐廳時可能還是說「你不吃辣,所以推薦清淡的菜」,因為兩條同時存在、它不知道哪條比較新或比較可信。用這套新設計,「我不吃辣」這條記憶會隨時間衰減,信心值下降;「愛上麻辣鍋」進入後,系統判斷它與舊記憶矛盾且更新,直接取代舊記憶或合併成「使用者口味偏好已從清淡轉為接受麻辣」。AI 下次就能給出符合當前偏好的建議,而不是翻出兩個月前的舊設定來誤導自己。

T3
Slack 解決 AI Agent 記憶體超載問題

AI agent(就是能自己規劃、執行多步驟任務的 AI 程式)在長時間運作時,會遇到「上下文視窗限制」——簡單說,AI 每次能記住的對話歷史是有上限的,就像一個人的短期記憶只能裝這麼多東西。超過上限後,舊的重要資訊就會被擠掉、遺忘,造成 AI 行為不一致甚至犯錯,這個現象叫「context rot(記憶腐爛)」。Slack 工程團隊公開了他們的解法:結合「智慧剪枝」(主動丟掉不重要的歷史)和「定期自我摘要」(讓 AI 在執行過程中暫停,把自己做過的事整理成簡短摘要)兩種策略。這個方法讓 agent 在長時間任務中保持邏輯連貫,不會因為記憶太長而翻車。

假設你用 AI agent 處理一個需要跑好幾小時的自動化客服任務,agent 要同時追蹤幾十個對話串、查詢資料庫、決定回應方式。用傳統做法,agent 跑到一半可能因為歷史太長、超出記憶上限,把最一開始的客戶問題或重要指令忘掉,導致後面的回應答非所問。套用 Slack 的方法:每隔一段時間,agent 會自動暫停做「反思步驟」——把過去發生的事濃縮成一份簡短摘要,然後把原始的冗長歷史刪掉,只保留摘要繼續跑。這樣 agent 的記憶空間不會爆掉,同時還能記住任務的核心脈絡,讓整個長時間任務從頭到尾保持一致。

T4
T4
NVIDIA Blackwell 大降 AI 每 Token 成本

這篇文章提出一個觀點:評估 AI 基礎設施(就是跑 AI 模型的電腦硬體和軟體系統)的成本,最重要的指標不是「買了多少算力」或「每秒能做多少浮點運算(FLOPS,電腦計算速度的單位)」,而是「每產出一個 Token(就是 AI 說出的每一個字詞片段,例如 ChatGPT 打出的每幾個字就算一個 Token)要花多少錢」。這個「每 Token 成本」把硬體、軟體、使用效率全部綜合在一起,能真實反映 AI 實際產出的商業價值。NVIDIA(輝達,全球最大 AI 晶片公司)以自家新一代 Blackwell 晶片平台為例,宣稱相比上一代 Hopper 平台,每 Token 成本大幅降低,讓企業能以更少的錢跑出更多 AI 輸出。這個觀念的背後邏輯是:AI 服務的收費幾乎都以 Token 數量計算,所以生產每個 Token 的成本,直接決定了 AI 服務能不能獲利。

假設我是一家公司,要用 AI 幫客服自動回答問題。每天有 10 萬次對話,每次 AI 平均輸出 500 個 Token,一天就需要產出 5000 萬個 Token。如果用舊的 Hopper 平台,假設每 100 萬 Token 成本是 10 元,一天就要花 500 元;若 Blackwell 平台把每 Token 成本降低一半,同樣的工作只需 250 元。以前採購 GPU(繪圖處理器,現在也用來跑 AI 運算)時,只看算力規格容易買錯,但改看每 Token 成本就能直接比較哪套硬體方案最划算,讓採購決策真正貼近業務收益。這與傳統以「每瓦特效能」或「每美元 FLOPS」為指標的採購邏輯有本質差別——後者無法反映軟體優化和實際利用率對最終成本的影響。