AI Daily Digest

📰 每日 AI 彙整

2026-06-15  ·  共 23 則報導
T1 爆炸重要T2 值得關注T3 一般資訊T4 參考用T5 可略過
T1
T1
Anthropic 推出 Claude Fable 5,安全與能力分離

Anthropic(開發 Claude 系列 AI 的美國公司)本週同時發表兩款新模型:Claude Fable 5 與 Claude Mythos 5。這兩款模型的核心突破在於,它們共用完全相同的底層模型(AI 的核心大腦),差異只在「安全管控政策」——白話說就是決定哪些人可以問哪些問題的規則。Fable 5 面向一般大眾,碰到網路安全、生物、化學等高風險話題時會自動攔截,改由較舊的 Opus 4.8(Anthropic 上一代旗艦模型)回答;Mythos 5 則開放給通過嚴格審核的資安(網路安全)專家,在「Project Glasswing(玻璃翼計畫)」框架下可以不受限制地使用完整能力。在 SWE-Bench Pro(業界用來衡量 AI 能否自動解決真實軟體工程問題的標準考試)上,新模型拿到 80.3% 的成績,比上一代 Opus 4.8 高出超過 10 個百分點,比 OpenAI 的 GPT-5.5 更高出逾 20 個百分點。這標誌著 AI 發展進入新階段:「模型能做什麼」和「你被允許用哪些功能」,正式拆開來分開管理。同一週,Apple 在 Tim Cook 主持的最後一屆 WWDC(蘋果年度開發者大會)上發表全新 Siri AI,底層據報採用 Google 的 1.2 兆參數 Gemini 模型(參數可以想像成 AI 大腦的神經連結數量,越多通常越強);Elon Musk 的 SpaceX 則以 1.77 兆美元估值完成史上最大 IPO(首次公開募股),計畫在繞地軌道衛星上部署 AI 訓練與推理算力;Jeff Bezos 旗下的 Prometheus 更宣佈完成 120 億美元融資,目標打造能設計噴射引擎、藥物分子等實體工程系統的「人工通用工程師」AI。

假設我是一名在政府機關任職的資安研究員,需要 AI 協助分析一段疑似駭客留下的惡意程式碼(malware,就是用來偷取資料或癱瘓系統的壞程式)。以前,不管你是誰,AI 一遇到「網路攻擊手法」這類敏感詞就會保守回答甚至拒絕,讓真正有需要的安全人員拿不到完整分析。現在,通過 Project Glasswing 身份審核的資安專家可以使用 Mythos 5,直接提問「這段程式碼利用了哪些系統漏洞?攻擊者如何取得控制權?」——AI 會回傳完整技術報告,包括漏洞類型、觸發條件與對應防禦建議,不再受到限制。反之,若同樣的問題由一般用戶透過 Fable 5 提問,AI 自動切換至較保守的 Opus 4.8 回答或直接拒絕。舊做法是「一套模型、一種限制,所有人一視同仁」;新做法是「同一顆大腦、依身份給不同存取權限」——AI 的強大能力不再只是「技術上能不能做到」的問題,而是「誰有資格使用」的問題。

T1
Anthropic 推出旗艦模型 Fable 5

Anthropic(就是開發 Claude 系列 AI 的美國 AI 公司)在 2026 年 6 月同時發布了兩款新模型:Claude Fable 5 和 Claude Mythos 5。Fable 5 是目前 Anthropic 推出功能最強的通用模型,可透過 API(讓開發者把 AI 接入自家產品的程式介面)公開使用,定價為每百萬輸入 token(token 是 AI 處理文字的最小單位,大約 1000 個 token 等於 750 個英文單字)10 美元、輸出 50 美元,Claude Pro 等訂閱方案也將在 6 月 22 日前全面開放。Mythos 5 是移除了部分安全限制的進階版本,因為能力更強、潛在風險也更高,僅向 Anthropic Project Glasswing 的特定合作夥伴及生物醫學研究機構開放,一般用戶無法取得。這次發布最引人注目的是 Fable 5 在工程效率上的突破——Stripe(全球知名支付公司)實測發現,它把一個需要整個工程團隊花兩個月完成的大型程式碼遷移任務(處理 5000 萬行 Ruby 程式碼)壓縮到幾天內完成。在安全機制上,Fable 5 配備了新一代 AI 分類器(就是一個自動判斷請求危險程度的過濾系統),當偵測到有人嘗試讓它協助網路攻擊或生化武器設計時,系統會自動降級切換成防護更嚴格的 Claude Opus 4.8 來回應,1000 小時的外部紅隊測試(就是讓安全專家想辦法「攻破」AI 防線的壓力測試)均未發現通用繞過方式。

假設我是軟體工程師,負責把公司一個以 Ruby 撰寫的老舊後臺系統(5000 萬行程式碼)升級到新框架。過去這需要整個工程團隊花整整兩個月——逐段分析舊程式邏輯、改寫為新版本、逐模組測試驗證。現在把整個程式碼庫交給 Fable 5,它能利用「超長上下文記憶」(就是一次可以讀入並記住海量資料的能力,比舊模型大幅擴展)持續追蹤跨檔案的程式依賴關係,同時用自己建立的筆記整理改寫進度,幾天內就能產出完整的遷移成果。舊做法:兩個月人力、工程師大量時間花在機械性改寫;新做法:幾天出初稿,工程師只需專注在架構決策和最終測試驗收。這是 Stripe 在真實內部任務中的測試結果,而非理想化的 benchmark 數字。

T2
T2
HRM 模型千五美元訓練媲美 7B

HRM(Hierarchical Recurrent Model,層級遞迴模型,一種完全取代現有 Transformer 技術的新 AI 架構——Transformer 就是 ChatGPT、Claude 等幾乎所有主流 AI 背後的核心設計)由 Sapient Intelligence 公司開源發布。這個 1B 參數(參數是 AI 學習的知識量單位,數字越大通常越強)的小模型,訓練成本僅約 1500 美元、16 張高階 GPU 耗時 46 小時,在多項標準測試中達到了 Llama 3.2(3B)、Gemma 3(4B)、OLMo 3(7B)等參數量是它 3 到 7 倍大模型的相近效能,訓練成本差距達數百倍。HRM 的設計模仿人腦皮層的分層結構:高層模組(H-module)負責整體語義策略,低層模組(L-module)處理局部細節,推理過程在「潛空間」(模型內部的連續向量空間,不需要把思考步驟寫成看得到的文字)進行,省去傳統思維鏈(讓 AI 把推理步驟一步步寫出來)消耗的大量 token。量化後(一種壓縮技術,讓模型體積縮小同時保留大部分能力)整個模型只有 0.6 GiB,理論上可直接在智慧型手機上運行、完全離線。這項研究已獲得 HuggingFace(全球最大 AI 模型共享平臺)執行長 Clem Delangue 個人公開推薦,以及圖靈獎(AI 界最高榮譽)得主 Yoshua Bengio 的研究團隊在其 GRAM 論文中正式採用此架構,是本週社群討論度最高的技術突破之一。

假設你是 App 開發者,想在用戶手機裡內建一個能即時回答問題的 AI 助理,同時又不希望用戶的資料傳到遠端伺服器(涉及隱私疑慮與網路延遲)。過去這幾乎行不通:即使是最輕巧的 3B 模型量化後也需要 1.5–2 GiB 空間,手機 GPU 算力不足,回應慢到難以使用。改用 HRM-Text(1B 參數、0.6 GiB):你到 HuggingFace 下載已開源的模型,整合進行動端推論框架(如 llama.cpp),直接打包進 App 在本機運行。在數學推理基準 GSM8K 上,HRM-Text 得分 84.5%,與比它大一倍的 Qwen 2B 相近——用更小的模型、裝在手機裡、不需要網路連線,就達到了過去只有依賴雲端 API 才能有的回答品質。對比舊做法:以前每次對話都需呼叫 OpenAI 或 Anthropic 的 API,每月費用依用量累積,且一旦 API 斷線或停用則服務中斷;換成 HRM 本地部署後,成本幾乎為零,資料完全不離開用戶設備。

T2
Stanford DELM 去中心化多智能體框架

DELM(Decentralized Multi-agent LLM,去中心化多智能體語言模型框架)是史丹福大學提出的一種新型多智能體(multi-agent,就是讓多個 AI 協同合作完成任務)協作框架,專門解決傳統系統依賴「中央協調者」造成的瓶頸問題。舊架構需要一個「主 AI」負責分派任務並收集所有子 AI 的結果,一旦主 AI 負荷過重或出錯,整個流程就會卡死。DELM 改用「共享驗證情境」(shared verified context,相當於一塊所有 AI 都能查看與寫入的公告板)加上「非同步任務佇列」(asynchronous task queue,類似共享待辦清單,哪個 AI 有空就自己去認領一項),讓每個 AI 獨立搶任務、完成後把精簡的驗證結果貼回公告板,不再需要中央老大居中協調。研究成果顯示,DELM 在軟體工程自動測試與長文本推理兩類任務上,同時達到比現有方法更好的效能與更低的成本。

假設你要用 AI 自動完成「掃描大型程式碼庫、找出所有 bug 並逐一修復」這種大規模任務。在舊的集中式架構下,有一個「主 AI」把工作分給多個「子 AI」,子 AI 做完後要回報主 AI,主 AI 再逐一彙整——主 AI 成了唯一瓶頸,所有子 AI 完成後都在等它,整體速度慢且 API 費用高。改用 DELM 之後,系統建立一份共享公告板,上面列出「掃描 file_A」「掃描 file_B」「掃描 file_C」……等待辦任務,多個子 AI 各自認領一項、完成後把「file_A:發現 2 個 null pointer bug,已修復,變更摘要如下」這種精簡結果寫回公告板,其他 AI 直接繼續認領下一項,完全不需要等主 AI 協調。史丹福的測試結果顯示,這樣的流程不僅完成速度更快,整體花費的 API token 成本也更低,同時在長文本推理任務上準確率也更好。

T2
OpenAI 收購 Ona 強化企業 AI 代理

OpenAI 宣佈收購雲端平臺新創公司 Ona(原名 Gitpod,2019 年創立),將把 Ona 的核心技術整合進 AI 程式助手 Codex(一套能自動寫程式、查資料、幫使用者完成複雜工作的 AI 工具,目前每週超過 500 萬人使用、今年已成長 400%)。Ona 的技術是提供「持久執行環境」——用白話說,就是讓 AI 代理人(AI agent,指能自主一步步執行複雜任務的 AI 程式,不需要人在旁邊盯著)在雲端一個安全的隔離空間裡持續工作,就算你把電腦關掉、任務也不會中斷,且每個操作步驟都有稽核記錄可供企業查帳。收購完成後,Ona 團隊將加入 Codex,讓原本只能做幾分鐘短任務的 AI 助手,延伸成可以獨立跑數小時甚至數天的企業級自動化工作流程。業界分析師指出,這是 OpenAI 針對 Anthropic(另一家主要 AI 公司)在 2026 年 5 月推出「Claude 自建沙盒環境」後的直接回應,雙方正在搶攻企業 AI 自動化基礎設施市場的主導地位。

一家投資銀行的分析師若想讓 AI 代理人自動完成「下載數百份財報 → 清理資料 → 執行統計模型 → 產出投資分析報告」這類需要四到六小時的完整流程,過去用一般雲端工具最大的問題是「任務中斷」——網路斷線、工作站自動睡眠、或者資安政策擋住某個連線,整個任務就失敗,需要人工重啟。整合 Ona 之後,分析師把任務丟給 Codex,然後去開會、下班睡覺;Ona 的雲端持久環境讓 AI 代理人在受控的沙盒(與企業其他系統完全安全隔離的工作空間)裡不間斷執行,隔天早上打開電腦就看到完成的報告,且每一步操作都有時間戳記與稽核記錄可追查,符合金融、製藥等高監管行業的合規要求。相較之前,企業得自己搭建複雜的伺服器基礎設施才能做到這件事;Ona 的企業客戶(含美國大型銀行、歐洲藥廠、亞洲主權財富基金)在 2026 年的 AI 代理人生產性使用量已比年初成長 13 倍。

T2
River AI 讓用戶自主掌控個人 AI

Igor Babuschkin,曾是 Elon Musk 旗下 AI 公司 xAI 的共同創辦人,先前在 OpenAI 與 Google DeepMind 也有豐富資歷,他親手打造了 Grok(xAI 旗下的 AI 對話機器人)以及 Memphis 超級電腦叢集(一座讓業界震驚的龐大運算設施)。2026 年初 xAI 整併進 SpaceX 後,他離開並成立了新公司 River AI,核心理念是「讓每位用戶完全擁有、完全掌控自己的 AI 助手」。現有主流 AI 工具如 ChatGPT(OpenAI 開發的 AI 聊天機器人)或 Gemini(Google 開發的 AI 助手),用戶的資料與對話記錄都存在大公司的雲端伺服器上,用戶幾乎沒有掌控權;River AI 的目標是讓每個人擁有一個 AI agent(AI 代理人,就是一個持續學習你習慣、長期幫你完成任務的 AI 小助手),這個 AI 學的是你個人的行為偏好、工作風格與目標,而且資料主權和控制權都歸用戶本人所有,公司無法任意調用。River AI 目前提供 API(開放給開發者串接的程式介面)讓其他人基於這個平臺開發應用,未來也計劃延伸到硬體,讓連 AI 運行的設備都掌握在用戶手中;團隊成員涵蓋前 xAI 及 Tesla 員工,並據報正在洽談高達 10 億美元、估值 50 億美元的融資輪。

假設你是一名獨立接案的平面設計師,每週要回覆十幾封客戶 Email、整理專案進度、更新報價單。現在的做法是每次打開 ChatGPT,都要重新說一遍「我叫 OO、我的語氣偏好是直接但不失禮貌、這個客戶是長期合作的⋯⋯」,否則 AI 產出的回覆跟你平時的風格差很遠;而且你跟 AI 的所有對話,包含客戶的機密需求,都儲存在 OpenAI 的伺服器上,你沒有辦法拒絕。River AI 的設計是:你的個人 AI 代理人在日常使用幾週後,逐漸學會你的寫作語氣、記住你的常客背景與報價習慣、甚至知道你傾向拒絕哪類低品質專案。下次新詢問進來,它直接起草一封符合你個人風格的回覆,你只需要確認或微調。關鍵差異在於:傳統 AI 工具「每次都要重新說明背景」且「你的資料存在別人的伺服器」;River AI 的目標是「學過一次就記在你自己掌控的環境裡」且「資料不流向 River AI 公司的雲端」,真正實現個人 AI 主權。

T2
Apple 全面重建 Siri 推 AI 助理

Apple(蘋果公司)正式發表名為「Siri AI」的全新語音助理,這是對舊版 Siri 的一次徹底重建,底層採用「Apple Intelligence」(蘋果自家研發的 AI 技術平臺,讓 iPhone、Mac 等裝置能更聰明地理解你的意圖並在裝置本地處理資料,不全靠雲端)驅動。新版 Siri 具備四大亮點:第一,「個人情境理解」——它能記住並整合你的行事曆、訊息、習慣等私人資料,回答更貼近你個人狀況的問題;第二,「螢幕感知」——它能看懂你手機螢幕上正在顯示什麼,進而協助你操作當下畫面;第三,更廣泛的世界知識,可以回答更多一般知識性問題;第四,「Visual Intelligence(視覺辨識)」擴展版,能識別相機或照片畫面中的物體、文字、場景。目前已開放開發者搶先測試,一般使用者的公開 beta(測試版)預計於 2026 年底前推出。

你用 iPhone 在看朋友傳來的一篇 Safari 網頁文章,文章裡提到一家新開的咖啡廳,你想去預訂位子。舊版 Siri 完全不知道你在看什麼,你得自己記住店名、跳出 Safari、開地圖 app、搜尋、再找預訂入口——至少五個步驟。換成新版 Siri AI,它的「螢幕感知」功能讓它直接看懂你目前頁面的內容,你只要喚醒 Siri 說「幫我預訂這篇文章裡那家咖啡廳今晚七點兩人座」,它就能識別文章裡的店名、自動搜尋、然後跳轉到預訂頁面(或甚至直接幫你完成預訂)。對使用者來說,整個流程從五個步驟壓縮到一句話。

T3
T3
Count Anything 開放世界計數模型

清華大學研究團隊於 2026 年 5 月發表了一個名為「Count Anything」的全新 AI 視覺模型(讓電腦「看懂」圖片並自動分析的人工智慧系統),它能透過一段普通的文字說明,自動計算任意一張圖片裡任何物件的數量——從顯微鏡下的細胞、農田裡的作物,到人群、衛星影像、工廠零件,橫跨六大場景,全部支援。過去的傳統電腦視覺系統(就是讓電腦分析圖片的技術)只能計數特定、預先定義的類別:計算細胞的模型無法計數螺絲釘,計算人群的系統不懂辨認農作物,每種用途都要分開建立一套專用工具。Count Anything 採用「雙計數器架構」——一個負責框出大型稀疏物件、另一個逐像素偵測小型密集物件,再以自動融合機制合併兩者結果並避免重複計算。模型建立在 Meta(臉書母公司)發布的 SAM3 基礎模型(一套強大的影像分割底層技術)之上,用自建的 CLOC 資料集(22 萬張影像、619 種類別、超過 1,500 萬個標記案例)訓練,測試結果平均每次計數誤差約 9 個,比 CountGD、CLIP-Count、Grounding DINO 等主要競爭模型的錯誤率低逾一半,且已完整開源在 GitHub 上供開發者免費使用。

假設你在一間農業科技公司,需要評估一塊田地裡的番茄數量以安排採收。以前你需要派人一棵棵手動數,或是花費大量成本、時間訓練一套「只懂辨認番茄」的專用影像辨識模型(Specialized Vision Model)——而這套模型對玉米田或其他作物完全無效。現在用 Count Anything,你只需要拍一張農田的空拍照,在系統輸入文字「成熟的番茄」,模型就會自動偵測並回傳計數結果,平均誤差約 9 顆。下週如果你需要改為計數病理切片(組織樣本在顯微鏡下的影像)裡的特定細胞數量,同樣的一個模型、換個文字說明就能繼續使用,完全不需要重新採購或重新訓練。對比舊做法:每個應用場景都要分別花錢開發或購買專用系統,現在一個開源工具就能跨六大場景通用,大幅縮短從概念驗證到實際部署的時間與成本。

T3
LMCache 加速 LLM 推論最高 15 倍

LMCache 是一個專門為大型語言模型(LLM,就是 ChatGPT、Claude 這類會對話的 AI)推論加速設計的開源工具,2025 年 10 月首次發布,目前已獲超過 8,900 個 GitHub 星星(開源社群的人氣指標)。它的核心概念是優化 KV Cache(KV 快取)——一種在 AI 生成文字時暫存中間計算結果、避免重複運算的記憶機制,是影響推論速度最關鍵的資源之一。傳統做法中這些快取只存在 GPU(顯示卡,AI 計算最主要的硬體)的高速記憶體裡,用完即丟;LMCache 則讓快取可以自動搬到 CPU 記憶體、硬碟,甚至遠端雲端儲存,並且跨請求複用,不限「必須從頭開始相同」。與現有推論框架(如 vLLM、SGLang,都是讓 LLM 在伺服器上高效運行的軟體)相比,LMCache 最高可帶來 15 倍吞吐量提升、2 倍更低首字延遲,並支援 NVIDIA、AMD、Ascend、TPU 等 4 種不同品牌的 AI 晶片。

假設你在公司自架一個使用 Llama 3 模型的客服 AI 系統,每天處理大量類似開頭的問題(例如每個請求都附上相同的公司政策說明段落)。傳統 vLLM 每次都要重新計算這些重複內容的 KV 向量值,白白浪費 GPU 算力。加入 LMCache 後,它的 CacheBlend 技術會把這些共用片段的計算結果快取起來——而且不只匹配「從頭相同的前綴」,請求中任意位置的重複段落都能命中快取、直接複用,不必重算。實際效果是:服務同樣的請求量,GPU 使用量大幅縮減(最高 15 倍吞吐量,意味著原本需要 15 臺機器的工作現在可能只需 1 臺),或同樣硬體下回應速度快 2 倍以上。在 GPU 供貨緊張、溢價偏高的當前市場,搭配 AMD MI300X 的整合還能提供 NVIDIA 以外的替代路徑,有效降低 AI 服務的硬體成本。

T3
AI 普及神話遭數據打臉

美國知名隱私搜尋引擎 DuckDuckGo 的創辦人 Gabriel Weinberg,近期發表一篇文章用數據反駁《紐約時報》「人人都在用 AI 做所有事」的說法。根據微軟調查,美國只有約三成工作年齡人口在積極使用 AI(人工智慧,就是 ChatGPT 這類能對話、能幫你寫東西的工具);蓋洛普(Gallup,美國知名民調機構)的數據則顯示,就連被認為最愛嘗鮮的 Z 世代(大約 1997 年後出生的年輕人),也有近兩成從來不用 AI,且採用率已停滯不前。民眾最常擔心的三件事依序為:AI 搶走工作(42%)、侵犯隱私(35%)、散播假訊息(33%)。相較之下,AI 的「社會正面評價淨分」(即認為有益的人比例減去認為有害的人比例)只有 +8%,而網際網路當年剛普及時這個分數高達 +67%,差距懸殊,顯示現階段社會對 AI 的整體信任度仍相當低落。

假設你是一位要推出 AI 客服助理的新創公司產品經理,內部簡報時常引用媒體說法「現在大家都在用 AI」來說服投資人。但若你看完這篇文章後,改去查微軟與蓋洛普的原始數據,會發現目標客群中至少有三分之一從未主動接觸過 AI 工具,更別說信任它了。這意味著你的產品介面若預設使用者「當然懂怎麼跟 AI 對話」,將有一大批潛在客戶因困惑或疑慮而直接離開。正確做法應該是:在新用戶引導流程中加入「這個 AI 助理是什麼、它怎麼回答你的問題、有沒有真人可以轉接」的簡短說明,並保留傳統真人客服選項,讓有顧慮的用戶仍有退路。若只憑媒體誇大的敘事做產品決策,結果就像十幾年前有人說「人人都有智慧型手機,App 不需要說明書」一樣,最終讓真正有需求的客群流失。

T3
裡約市政 AI 模型宣稱勝出 Qwen3.7

Rio3.5 是由巴西里約熱內盧市政府 IT 部門(由一名志願者主導)開發的 AI 語言模型(就是像 ChatGPT 那種能對話、回答問題的 AI 程式)。這個模型並非從零開始訓練,而是把兩個已公開的大型 AI 模型(Nex-N2-Pro 與 Qwen3.5-397B)合併,再用一種叫「政策規範蒸餾(讓模型向另一個更強的模型學習、把知識壓縮進去的技術)」進一步優化,最後加入 SwiReasoning(一種強化 AI 推理能力的後訓練框架)進行精調。開發者宣稱 Rio3.5 在多項基準測試(就是用標準題目集評估 AI 能力的考試)中超越了中國阿里巴巴旗下的 Qwen3.7 模型,並以開源形式公開發布。不過,Hacker News 社群對此提出強烈質疑,認為針對特定基準微調的模型可能在實際任務中表現並不如分數好看,開發者也坦承曾誤上傳未經蒸餾的舊版本,使數據的可信度打了折扣。

假設你是想用有限資源打造高效能 AI 的開發者。傳統上要訓練一個能媲美頂尖模型的 AI,需要鉅額算力和海量資料。Rio3.5 示範了另一條路:先把兩個已公開的強力模型合併成一個,再用蒸餾技術讓它吸收更強模型的推理方式、去掉冗餘,最後針對推理任務微調——整個流程大幅省去「從頭訓練」的成本。具體結果是:benchmark 分數宣稱超越 Qwen3.7。但對比傳統從頭訓練的差異在於:這種「合併 + 蒸餾 + 微調」做法的弱點是容易過度優化特定測試題,導致實際使用效果與分數不符,因此在採用前需實際測試真實任務,而非只看 benchmark 數字。

T3
裡約市府 Rio3.5 刷榜爭議

巴西里約熱內盧市政府旗下的 IT 公司,發布了一個叫 Rio3.5 的大型語言模型(LLM,就是像 ChatGPT 一樣能理解並回答問題的 AI),聲稱在最新的 benchmark(基準測試——一種用標準題目評比 AI 能力高下的考試)中打敗了阿里巴巴的 Qwen3.7。這個模型擁有高達 3970 億個參數(參數可以理解為 AI 的「記憶容量單元」,數量越多理論上越強),但它並非從零打造,而是把兩個現有的開源模型(Nex-N2-Pro 和 Qwen3.5-397B)合併,再加上 On-Policy Distillation(一種讓 AI 從自己的輸出中反覆學習改進的訓練方式)製作而成。更特別的是,整個計畫不是由正式研究團隊主導,而是來自市政 IT 部門的一位志願者,規模遠小於 Google 或 Anthropic 等大型 AI 公司。AI 社群對此高度存疑,認為這很可能是「benchmark gaming」(刷榜——專門針對考試題目微調模型,讓它在那套題目上得高分,實際通用能力卻未必真的提升)。

假設你是一位開發者,想為市政客服系統挑選一個擅長葡萄牙語的大型 AI 模型。Rio3.5 的出現提供了一個新選項:把兩個現成的開源模型「融合」在一起,搭配 SwiReasoning 框架(一種在模型回答時強化推理步驟的技術,不需修改模型本身即可提升輸出品質),再對更強的模型做蒸餾訓練,最後聲稱超越了 Qwen3.7。這聽起來是低成本之道——然而如果你直接拿它接市民諮詢、處理繳稅或建照申請,可能發現實際表現不如預期。社群的結論很直白:在固定題庫上微調很容易讓分數好看,但換到真實任務就原形畢露。這個案例提醒所有人:挑選 AI 工具時,benchmark 排名只是參考,自行在真實業務場景做測試才是關鍵——高分≠好用。

T3
低成本邊緣板 YOLOv8n 無人機即時偵測

YOLOv8n 是一款專門做「看影片找東西」的 AI 模型(深度學習目標偵測模型),速度快、體積小。這個開源專案讓 YOLOv8n 在 RK3588S(一顆常見於平價單板電腦的晶片,內建 NPU 即神經網路加速器)上跑無人機偵測。透過「三核心並行」技術(同時調用 NPU 的三個核心做 AI 推理),把偵測速度從每秒 31 張提升到 46 張,剛好撞到攝影機自身的極限——意思是 AI 不再是瓶頸,鏡頭才是。整個系統只用約 140 MB 記憶體,可在售價約 90 歐元的最低階 RK3588S 板子上順暢運行,不需要昂貴的工業電腦。除了即時影像偵測,當無人機飛出畫面後,同一顆 NPU 還會切換到 Qwen2.5-0.5B(一個輕量級語言模型,類似縮小版的 ChatGPT)來自動生成自然語言的事件摘要,整個流程完全在板端離線執行。

假設我要在農場或邊境哨站部署無人機入侵偵測系統,預算有限、現場沒有網路。舊做法需要一臺搭載 GPU 的工業電腦(動輒數百至上千歐元),功耗高、體積大。用這個開源專案,只需一塊約 90 歐元的 Khadas Edge2 板(搭載 RK3588S 晶片),接上 MIPI 攝影機後部署這套系統。系統以 46 FPS 持續掃描空域,偵測到無人機時,即時在 HDMI 螢幕或 RTSP 網路串流上標出位置與軌跡;一旦無人機離開,板載的小型語言模型立刻接手,自動生成「無人機於畫面左側進入,停留約 12 秒後向東北方飛離」之類的文字摘要記入日誌。整個推理流程的視訊擷取(ISP)、格式轉換(RGA)、AI 計算(NPU)全部由晶片內建的固定功能電路負責,CPU 幾乎閒置,讓同一套硬體還能同時跑兩路攝影機串流。

T3
AI Agent 推動正式驗證進入實用時代

Jane Street(一家以 OCaml 與嚴謹工程文化著稱的量化交易公司)在官方部落格宣佈成立正式方法(Formal Methods,一種用數學邏輯來嚴格「證明」程式碼沒有錯誤的技術,不同於一般測試靠猜、靠樣本抽查)團隊,改變了他們過去 25 年認為「成本太高、不划算」的態度。他們改變立場的核心原因是 AI 代理程式編碼(Agentic Coding,讓 AI 自動生成並持續修改程式碼、而不只是單次輔助建議)的快速興起。Jane Street 認為 AI 雖然越來越擅長寫出「看起來合理」的程式碼,但這些程式碼與「真的可以放心上線的程式碼」之間仍有很大的品質落差,正式驗證工具正好能填補這個缺口。此外,AI 代理程式在自動改程式時需要即時的明確反饋(讓它知道這樣改對了還是錯了),而正式方法提供的嚴格數學驗證,恰好是最直接、不含糊的反饋機制。

假設你的團隊使用 AI 工具(如 GitHub Copilot 或自建的 coding agent)自動生成一批金融計算邏輯,比如計算衍生品定價公式。AI 能快速產出看起來合理的程式,但你怎麼確定它在所有邊界條件下都正確?傳統做法是寫單元測試(只測你想得到的情況)、做人工 code review(面對 AI 大量產出的程式碼會吃力)。採用「AI Agent + 正式驗證」的新流程是:AI 生成程式碼後,定理證明器(如 Lean、Coq,會嘗試對邏輯做數學層級的完整驗證)自動審查,若發現任何邏輯漏洞立即反饋給 AI,讓它修正再試。如此一來,不再依賴人工肉眼審查,而是讓數學工具擔任「絕不放水的自動審核員」。Jane Street 預期,這個組合能讓正式驗證的普及程度,達到今天靜態型別系統(就是「編譯器幫你抓型別錯誤」那種功能)的水準——不再是少數精英才用的昂貴工具。

T3
Google 差分隱私稽核新框架

Google Research 和 Google DeepMind 的研究人員發表了一篇新論文,提出一套統一的數學框架,用來建立實用的「核方法雙樣本檢定」(Kernel-based Two-Sample Test,一種統計工具,用來判斷兩組資料是否來自同一個分佈、還是有明顯差異)。這套框架以「f-散度」(f-divergence,一種衡量兩個機率分佈之間差距的數學工具)家族為基礎,能更精準地偵測資料中細微、局部的差異。研究特別指出其中一種叫做「Hockey-Stick 散度」的變體效果最佳,非常適合捕捉傳統方法容易漏掉的局部特徵差異。這套框架主要針對兩個 AI 安全領域的實際需求:一是「差分隱私審計」(Differential Privacy Auditing,用來驗證 AI 模型在訓練時是否確實有保護個人資料隱私,符合法規要求),二是「機器遺忘評估」(Machine Unlearning Evaluation,用來確認 AI 模型是否真的移除了某筆訓練資料的影響,用以符合 GDPR 等「被遺忘權」法規)。

假設某電商公司用包含用戶購買紀錄的資料集訓練了一個 AI 推薦模型,後來某位用戶要求依 GDPR 刪除其個資,公司也執行了「機器遺忘」操作——即重新調整模型、讓它「忘掉」那筆資料。問題在於:要如何客觀證明「模型真的忘了」?以前沒有可靠的統計方法來驗證這一點。用這套新的 Hockey-Stick 核方法,可以把「原始模型的輸出機率分佈」和「號稱已遺忘的新模型輸出」做精細的統計比對——若兩者在統計上無顯著差異,就代表遺忘成功;若偵測到局部差異(例如模型對某類資料的預測行為仍有殘留),則表示遺忘不完整,需要重新處理。相較於舊有的統計方法,這套框架對細微差異更敏感、誤判率更低,讓隱私合規驗證更有說服力。

T3
Qwen RACES 強化學習新框架

RACES 是阿里巴巴 Qwen 團隊提出的一套訓練框架,目標是讓語言模型(就是 ChatGPT、Claude 這類會對話的 AI)透過「強化學習(讓 AI 靠試錯、從成功或失敗的回饋中自我改進的訓練方式)」在推理能力上有所突破。核心概念是把「可驗證的環境(指有明確正確答案、可以自動判斷對錯的問題情境,例如數學題或邏輯謎題)」當成樂高積木,透過 SEQUENTIAL(依序串接)和 PARALLEL(並排執行)兩種組合方式,自動拼出結構多樣的訓練題目。這樣的做法讓 AI 接觸到的題目類型更豐富,不只是死記特定答案,而是真正學會舉一反三的通用解題能力。實驗顯示,用 RACES 訓練過的模型,在從未見過的測試集上也能有顯著更好的表現,代表它學到的是「能力」而不只是「答案」。

假設我要訓練一個 AI 模型,讓它能解複合型數學推理題,例如「先算出 A 的值,把結果代入 B 式,再判斷 B 是否大於 C」。傳統方式需要人工設計這些層層嵌套的題型,成本高又難以規模化。用 RACES 框架,可以先定義幾個基本「可驗證環境」(例如:整數加法、不等式比較),再用 SEQUENTIAL 把「先算 A 再算 B」依序串起來,或用 PARALLEL 讓多個子任務同時展開。框架會自動組合出大量結構各異的新題目,模型訓練時就能接觸到各種難度和組合。相比只用固定題庫訓練的模型,RACES 訓練出來的模型遇到全新題型依然能正確應對,而不是隻會「背」已知答案——差異就在於泛化能力(能否用在新情境)的高下立判。

T3
微軟研究降低 AI 代理視覺處理成本

微軟研究院發表了一篇論文,提出名為 REVISION 的新框架,專門用來降低「電腦操控 AI 代理(computer-use agent,就是那種能自己操作電腦畫面、點擊、輸入文字的 AI)」在視覺處理上的成本。這類 AI 代理每執行一個操作步驟,就要擷取一張螢幕截圖並交給 AI 分析,而每張圖片會產生大量的 token(token 是 AI 處理資訊的基本計量單位,token 越多代表運算成本越高、速度越慢)。問題在於:連續多張截圖之間,畫面大部分都沒有變化(例如固定的導覽列、背景),卻還是被全部送進 AI 運算,非常浪費。REVISION 訓練 AI 自動辨識並過濾掉這些「跨截圖重複的視覺區塊」,只保留真正改變的部分,在不損失重要空間結構的前提下,大幅減少累積的 token 數量,讓代理得以處理更長的操作歷史、在複雜任務上取得更高的成功率。

假設我想用電腦操控 AI 代理來自動填寫一份需要 50 個步驟的線上申請表。每個步驟 AI 都要「看」一張螢幕截圖才能決定下一步怎麼做。用傳統方式:每張截圖產生約 1,000 個以上的 token,做到第 30 步時累積 token 已經極為龐大,可能超出 AI 的上下文限制(AI 一次能記住的資訊有上限),導致任務失敗或成本暴增。換成 REVISION 框架後:AI 學會判斷「這張截圖跟上一張相比,90% 的畫面都沒變,只有右下角的表單欄位換了內容」,於是隻送入那 10% 真正改變的視覺區塊做運算,token 累積速度大幅放緩,代理能夠順利完成更多步驟的複雜任務,而不是到一半就因為超出限制而卡住。

T3
Meta FAIR 回饋蒸餾提升定理證明

Meta 旗下 AI 研究院 FAIR 發表了一種名叫「Feedback Distillation(回饋蒸餾)」的新訓練方法,目的是讓 AI 模型更擅長自動證明數學定理。這個方法屬於「後訓練(post-training,就是在 AI 基本能力練好後再進一步針對特定任務精進的階段)」技術。它的核心做法是:讓一個能力較弱的 AI,去模仿更強 AI 在解題時每一步的「思維方式」——具體來說是學習強 AI 輸出每個「token(AI 處理語言的最小單位,大約相當於半個詞)」的機率分佈,而不只是看最終答案對不對。研究團隊在 Lean 4(一種專門用來撰寫嚴謹數學證明的程式語言)的定理證明任務上測試,結果顯示此方法比現有主流技術 GRPO(一種讓 AI 透過獎懲信號自我改進的強化學習訓練法)保留了更多元的解題路徑,並在「pass@k(讓 AI 嘗試 k 次、至少一次成功的比率)」指標上表現更佳;更值得注意的是,它作為後續強化學習(RL)的初始化基礎時,兩者搭配使用效果特別出色。

假設我想訓練一個 AI 用 Lean 4 自動證明數學命題,例如「任意兩個偶數相加仍為偶數」。若用舊方法 GRPO 訓練:AI 主要靠對錯獎懲信號自己摸索,往往只學會少數固定套路,遇到稍有變化的題型便卡住,讓 AI 試 8 次(pass@8)的成功率提升也有限。換成 Feedback Distillation 的做法:先讓一個能力強大的 LLM(大型語言模型,就是 ChatGPT 這類 AI)對每道訓練題目產生詳細的逐步解法,再讓待訓練的小模型「模仿老師的思維過程」——學習強 LLM 在每一步選擇每個字時的機率分佈,而非只看最終答案對錯。結果:訓練出的模型解題策略更多樣,pass@8 明顯提升;接著再對這個模型跑一輪 RL 微調,效果又進一步改善。與舊做法的關鍵差異在於:GRPO 讓 AI 從零靠獎懲摸索,容易走入單一解法的死衚衕;Feedback Distillation 先用「看老師怎麼想」豐富初始能力,奠定多元基礎後再用 RL 精修,兩段協同效果更佳。

T3
Kimi Work:AI 桌面工作自動化代理

Moonshot AI(中國月之暗面公司,就是開發廣受歡迎的 Kimi 對話 AI 的那家)推出了桌面版 AI 代理(AI agent,指能自動幫你完成多步驟任務的智慧程式)叫做 Kimi Work。這款工具不是網頁版聊天機器人,而是直接安裝在電腦上、能主動執行複雜工作流程的「系統級數位員工」。它可以讀取你電腦裡的本地文件、定時自動執行任務(例如每天早上自動整理報告草稿),還能透過內建的 WebBridge 功能像人一樣操作瀏覽器、跨網站蒐集資料。此外,它支援同時派遣多個專門子代理協作,把複雜研究任務分工後各自處理、再匯整成報表或 Excel——目前支援 macOS(Apple Silicon)和 Windows 兩個平臺。

假設我是財務分析師,每週一要整理三份不同產業的市場週報。舊做法:手動上各財經網站查股價和財報、複製貼上到 Excel 再寫摘要,整個流程要花 2~3 小時。用 Kimi Work 的做法:設定一個排程任務,每週一早上 8 點自動啟動——Kimi Work 透過 WebBridge 自動瀏覽 A 股、港股、美股的財報資料頁面蒐集數據,同時協調多個子代理並行分析不同產業,最後把結果整合成一份帶圖表的 Excel 報告放在指定資料夾。我上班打開電腦時報告已就位。對比舊做法,省下 2 小時的重複性操作,也減少手動複製導致的錯誤。

T3
Bezos 旗下 Prometheus 物理 AI 融資 120 億

Prometheus 是由亞馬遜創辦人傑夫·貝佐斯(Jeff Bezos)與 Vik Bajaj 共同創立的「物理 AI」新創公司(Physical AI,指能理解並操控現實世界物理系統的 AI,不只是回答文字問題的那種聊天機器人)。這家公司在 2026 年 6 月完成了 120 億美元(約新臺幣 3,900 億元)的超大規模融資,公司估值達到 410 億美元,躋身全球最高估值 AI 新創之列。Prometheus 的目標是打造一個「通用人工工程師」(Artificial General Engineer,可以理解為「AI 版全能超級工程師」),讓 AI 能夠自動完成複雜物理系統的設計與製造——範疇從噴射引擎(航空發動機)一路延伸到新藥開發,全部涵蓋在內。這標誌著頂級創投資金開始大規模押注「實體世界 AI 自動化」,不再只停留在軟體或語言模型領域。

假設你是一家航太公司的工程師,需要設計一款全新的噴射引擎。傳統做法是:一批機械、熱力學、材料科學工程師各自負責不同子系統,花幾年時間跑模擬、修設計、反覆測試。若 Prometheus 的「通用人工工程師」成熟落地,理論上你可以輸入引擎性能需求(推力、燃油效率、耐熱規格等),讓 AI 自動生成整套設計方案、跑虛擬模擬驗證、輸出製造規格——把原本需要數百人年的工程時間壓縮到數週甚至數天。同樣的邏輯也適用於製藥:輸入目標疾病與藥物特性,AI 協助設計分子結構並預測製造可行性。對比現有工具如 Autodesk 的 AI 輔助設計、DeepMind 的 AlphaFold(蛋白質結構預測工具),Prometheus 的野心是覆蓋從設計到製造的完整流程,而非只解決單一環節——這是目前市場上尚未有人做到的整合規模。

T3
Mirage 賦予影片生成空間記憶

Microsoft Research(微軟旗下的研究機構)與多所大學合作,推出了一個名為 Mirage 的「影片世界模型(一種能生成連貫虛擬 3D 世界影片的 AI 系統)」。傳統的影片生成 AI 在鏡頭移動後,往往會「忘記」剛才拍過的場景——例如鏡頭轉頭往左再轉回來,右邊的場景可能已經亂掉或不一致。Mirage 的突破在於把場景的空間資訊儲存在「潛在空間(AI 內部的壓縮資訊格式,不是真實圖像像素,而是 AI 學到的抽象表示)」裡,而非過去常用的「像素點雲(把場景記錄成大量三維空間中的點,每個點有位置和顏色資訊,計算量龐大)」。這樣做的好處是顯著降低了計算時間與顯示記憶體需求,同時在長距離鏡頭移動後場景依然保持空間一致——也就是說,AI 不會「忘記」轉角後面有什麼東西。目前 Mirage 的限制是還無法可靠地追蹤跨片段移動的物體。

假設你在開發一款 AI 自動生成場景的開放世界遊戲,希望 AI 能生成這樣一段影片:玩家走過一條走廊,轉過彎,繼續走一段路後再轉回頭——原本走廊角落有一張椅子,AI 應該「記得」那張椅子還在原位。用舊方法(像素點雲),計算量龐大,GPU 記憶體容易不足,生成長片段時場景常常前後不一致,椅子可能消失或位置跑掉。改用 Mirage,場景空間資訊以壓縮的潛在空間格式儲存,轉角再轉回來,椅子仍在正確位置,GPU 記憶體用量也比舊方法低。具體差別:舊方法因記憶體瓶頸只能生成短片段,或出現場景穿幫;Mirage 能在更長的鏡頭移動中維持場景一致性,讓 AI 影片世界更可信。

T3
Google Cloud OKF 標準化知識給 AI 用

Google Cloud 發布了一個叫做「開放知識格式」(Open Knowledge Format,簡稱 OKF)的新規格。現代企業的知識散落在各種地方——內部 Wiki 文件、資料庫註解、工程師筆記、程式碼說明——當你想讓 AI 幫你查資料或完成任務時,它必須從四散的來源拼湊答案,而每個開發者都得自己寫一套整合方案,非常浪費時間。OKF 的做法是把所有這些知識統一轉成 Markdown(一種純文字的輕量排版格式,類似 Word 但更簡單)搭配 YAML 標頭(用來標記文件類型、標題、標籤等基本資訊),讓 AI 代理(agent,就是能自主執行任務的 AI 程式)可以直接讀取、理解、跨系統使用這些知識,且不被任何一家廠商綁定。這個格式靈感來自知名 AI 研究者 Andrej Karpathy(前 Tesla AI 負責人、OpenAI 共同創辦人之一)推廣的「LLM Wiki」概念——把人類讀的文件同時寫成 AI 也能高效讀取的格式。

假設你是某公司的資料工程師,公司在 Google BigQuery(一種雲端大規模資料分析平臺)上有大量資料集,但每個資料集的說明文件散落在不同的資料目錄、Wiki 頁面和工程師筆記本裡。當你想讓 AI 自動回答「哪個資料表包含使用者的購買紀錄?欄位定義是什麼?有什麼使用限制?」這類問題時,AI 根本不知道去哪找。使用 OKF 後,你可以用 Google 提供的「enrichment agent(資料豐富化代理)」自動爬取 BigQuery 裡所有資料集的資訊,產出一批統一格式的 Markdown 文件,每份文件開頭標注類型和標籤,內文透過連結形成知識網絡。之後 AI Agent 只需讀取這個標準化的文件資料夾,就能準確回答問題,不再需要為每個系統手刻整合程式。相比以前每個開發者各自寫特製 context(背景知識注入)邏輯,OKF 讓這套流程可以套用在不同資料庫和不同 AI 框架上,一次整理、到處使用。

T4
T4
AI 經濟泡沫幽默諷刺解析

幽默作家 Andrew Singleton 在美國知名文學雜誌 McSweeney's 上,用三道「小學算術題」格式的短文,諷刺 AI 科技公司的財務邏輯。三道題分別影射三種業界常見手法:把短期合約換算成 ARR(年化收入,就是「今年簽了多少錢、假設每年都會續約然後全部加總」的行銷數字)讓帳面看起來超壯觀;靠訂閱費製造收入假象,卻掩蓋掉每次 AI 運算所消耗的驚人推論成本(inference cost,就是讓 AI 思考並產生回答時,消耗的電力與算力費用);以及宣佈天文數字的資本支出計畫,不斷把虧損「推到未來」。雖然是諷刺文學,但背後指向一個真實困境:目前幾乎沒有主流 AI 服務商能證明,他們的訂閱定價能覆蓋每次服務的實際成本。文章結語以「停止提問,勒德分子!」作收,諷刺業界用情緒標籤迴避財務邏輯質疑的集體姿態。

假設你是新創公司技術主管,正在評估要整合哪家 AI API(程式介面,就是讓你的產品呼叫外部 AI 功能的管道)。供應商 A 宣稱年化收入破千億、每月新增百萬用戶,看起來非常穩固。但這篇文章的邏輯提醒你:這些數字可能只是把三個月預付合約乘以四倍膨脹出來的,不代表公司真的在賺錢。你應該問的問題是:「我每呼叫一次 AI 的實際成本是多少?隨著用量增加,這個成本怎麼變?」——因為若該公司本身每服務一個用戶都在虧損,遲早會漲價或倒閉,你的產品就直接受衝擊。舊做法是看訂閱用戶數和 ARR 來評估供應商;這篇文章建議的新做法是要求供應商說明「邊際成本(每多一次呼叫的實際費用)」,讓你用真實數據做採購決策,而不是被行銷包裝牽著走。