AI Daily Digest

📰 每日 AI 彙整

unknown  ·  共 33 則報導
T1 爆炸重要T2 值得關注T3 一般資訊T4 參考用T5 可略過
T2
T2
美政府限制 Anthropic 高能 AI 出口

美國政府對 Anthropic(一家知名的 AI 公司,旗下產品包括 Claude 聊天助手)的高端 AI 模型實施了出口管制(就是限制特定 AI 軟體只能提供給特定對象使用,非美國用戶或機構必須通過額外審查才能取得)。事件起因是 Amazon(亞馬遜,Anthropic 的主要投資者)的研究人員發現,Anthropic 的 Fable 5 模型可以透過特定提示方式繞過安全限制,提供可用於協助網路攻擊的資訊。Amazon CEO 隨後與美國政府官員交涉,最終促使政府要求對「Mythos 級別」(Anthropic 內部對高能力 AI 模型的分類代稱)及以上的所有模型進行行政審查,才能供非美國使用者存取。批評者指出這套政策邊界模糊——「Mythos 級別」沒有公開定義,讓外界難以預測哪些模型會受到管制,也影響企業的長期技術投資規劃。

假設我是一家歐洲的資安公司,過去透過 Anthropic API(應用程式介面,讓開發者把 AI 能力接入自家產品的通道)直接呼叫 Anthropic 最強的模型,用來分析惡意程式碼、自動偵測系統漏洞。新出口管制實施後,這類跨境使用必須先向美國政府申請行政審查,審查期可能長達數週甚至更久,且核准標準不透明。管制前,只要有 API 金鑰就能即時取得模型;管制後,整個流程多出了合規申請、等待批准、法律費用等環節。對時效要求高的資安場景衝擊尤其大。部分非美國公司可能因此轉向未受管制的競爭對手模型,實際上反而分散了美國在 AI 安全管理上的影響力。

T2
HRM 1500美元訓出新一代推理架構

一家名為 Sapient Intelligence 的 AI 新創公司,發表了一個叫 HRM(Hierarchical Reasoning Model,分層推理模型)的全新 AI 架構,整個訓練費用只花了約 1500 美元、不到兩天時間,用了 16 張高階 GPU 卡就跑完了。這個模型的參數量(可以理解成模型的「記憶體容量」)只有 10 億,遠比 Meta Llama 或阿里 Qwen 等主流模型小得多,卻在數學解題等多項測試上表現突出。更引人注目的是,HuggingFace(全球最大 AI 模型分享平台)的 CEO 親自轉發推薦,圖靈獎得主(AI 界的諾貝爾獎)、深度學習先驅 Yoshua Bengio 的團隊也在後續跟進研究中採用了 HRM 的設計骨架。HRM 最核心的不同之處在於:傳統 AI 模型(如 ChatGPT)在回答前會「把思考過程寫出來」(業界叫做 CoT,即思維鏈),而 HRM 把推理過程藏在「看不見的內部狀態」(潛空間)裡,模型在腦子裡反覆迭代想清楚之後,才輸出最終答案,既省空間又更聚焦。

假設要讓 AI 解一道需要多步推算的數學競賽題,例如「求所有滿足某條件的正整數對」。傳統 CoT 模型(如 GPT-4o mini 之類的小型模型)會先在回覆中把一步步的計算過程全都打出來,這既浪費輸出的 token(字數),也容易因中間步驟寫錯而跑偏。HRM 的做法不同:它內部有「高層模塊」負責維持對整道題的全局理解,「低層模塊」負責細節計算,兩者在看不見的潛空間裡來回迭代多輪——確認答案穩定了,才輸出結果。在 MATH 數學測試上,1B 參數的 HRM 得到 56.2 分,而 Meta Llama 3.2 的 3B 模型(參數量多三倍)用了足足 9 兆個訓練字符,HRM 只用了 600 億個;換句話說,HRM 用不到 1% 的訓練資料量,就達到了可比的推理水準。對想要用低成本驗證新推理架構的研究者而言,這意味著「不需要砸億元算力也能做出有意義的模型研究」。

T2
AI 程式評測換新基準排名大洗牌

Artificial Analysis(一家專門測試和比較 AI 模型能力的第三方機構)最近把旗下「程式撰寫 AI 排行榜」使用的評測基準,從 SWE-Bench Pro 換成了 DeepSWE。SWE-Bench(讀作「swee bench」)是業界常用來測試 AI 能不能自動解決真實軟體 bug(程式錯誤)的考題集,但因為考題來自公開程式庫的歷史修改紀錄,AI 公司可以讓模型「背考古題」來灌水成績。新換上的 DeepSWE 改由人工從頭出題,大幅降低被「作弊」的空間,因此排名也跟著大洗牌:Claude Code(Anthropic 推出的 AI 程式工具)搭配 Fable 5 模型以 77 分奪冠,Codex 搭配 GPT-5.5 以 76 分緊追,原本排在前面的 Claude Code + Opus 4.8 則跌至 73 分。這次換題還引發一個更深的討論:排行榜上比的,究竟是「模型本身的能力」,還是「外層工具框架(harness,就是讓 AI 執行任務的操作系統)」的好壞?有研究者發現,底層用同一個模型但換不同框架,分數差異可以非常顯著。

假設你是開發者,想選一套 AI 工具來自動修復 GitHub(程式碼共享平台)上積累的程式 bug。你看 SWE-Bench Pro 榜單,發現某套系統得分最高,於是買單採用。但實際使用後發現效果遠不如預期。問題出在:SWE-Bench Pro 的題目來自公開程式庫的歷史紀錄,AI 廠商在訓練時可能已讓模型「看過答案」,導致分數虛高。換到 DeepSWE 新基準後,因為題目全部新出、沒有洩漏問題,Claude Code + Fable 5 這套組合從原本的第二名躍升第一(77 分),而老榜首 Claude Code + Opus 4.8 則跌到第三(73 分)。若你當初照舊榜選工具,選到的未必是真正最強的那套。這個例子說明一件事:看 AI 排行榜時,必須先確認「考題是否已被廠商事先見過」,以及「分數到底是在測模型還是測外層工具包裝」,否則榜單只是在比誰「背書背得好」。

T2
兩款開源大模型同日發布

Moonshot(月之暗面,一家中國 AI 公司)發布了 Kimi K2.7-Code,一個專門針對寫程式任務優化的開源大語言模型(LLM,就是 ChatGPT 這類會對話、寫程式的 AI;「開源」代表模型權重公開,任何人都可自行下載並架設使用)。與前一版 K2.6 相比,它在多個程式碼評測基準(測試模型寫程式能力的標準題目集)上大幅提升:寫程式任務上升 21.8%,整體程式準確率提升 11%,且完成相同任務所需的「推理步驟」少了 30%,代表速度更快、用的算力更少。模型架構採用 MoE(Mixture of Experts,混合專家,就像有 1 兆個參數的大腦,但每次只啟動 320 億個參數來回答問題,大幅降低運算成本),同時支援 256K context(上下文,即模型單次能讀進並記住的文字量,256K token 大約等於 20 萬個中文字)。同日,MiniMax(另一家中國 AI 公司)也發布了 MiniMax M3,一個規模更大的多模態(multimodal,能同時理解文字、圖片、影片的意思)開源模型,總參數 4280 億但同時啟動的只有 230 億,上下文視窗高達 100 萬 token(token 可以想成「字詞片段」,100 萬 token 大約是一本厚厚長篇小說的文字量)。M3 在發布當天就獲得 vLLM、SGLang、Fireworks 等主流部署工具的支援,這種「發布即可用」的速度,反映出開源 AI 生態系的快速成熟。

假設你是後端工程師,需要優化一段 GPU 計算用的底層程式(Triton kernel,一種直接跑在顯示晶片上、追求極致速度的低階程式碼)。舊做法是請 Claude 或 GPT-4o 輔助撰寫,但這些閉源模型要按 API 付費,且因資安考量無法在公司內網離線執行。現在你可以從 Hugging Face(全球最大 AI 模型共享平台)下載 Kimi K2.7-Code 的模型權重,架在自己的伺服器上免費呼叫。根據社群測試,K2.7-Code 產生的 Triton 程式碼比 K2.6 更接近「真實可用」的寫法,而非套範本糊弄。另一個場景:若你需要「看一段客服錄影,自動摘出對話要點並草擬回覆」,這種混合影片+文字的任務可改用 MiniMax M3——它同時接受影片、圖片、文字三種輸入,且可透過 Together 或 Fireworks 等 API 服務直接呼叫,不需自備 GPU 伺服器。與只能處理文字的舊工具相比,差異在於:不用先把影片轉成文字稿再丟給模型,中間資訊損失更少、準確度更高。

T2
通用 AI 全面超越專業領域系統

FrontierMath(由研究機構 EpochAI 維護、用來測試頂級 AI 數學能力的高難度題庫)在此次 v2 版本更新中發現,原版約 42% 的題目本身有錯誤,大規模修正後各模型分數普遍提升,排名順序則大致不變。修正後,Claude Fable 5(Anthropic 最新旗艦大語言模型(就是類似 ChatGPT 的對話式 AI))在 Tier 1–3 達到 87%、在最難的 Tier 4 達到 88% 的高分,顯示頂尖 AI 正快速逼近這類靜態數學測試的天花板。這也暗示「靠一套固定題庫長期評比 AI 能力」的方式愈來愈難可靠區分各模型的真實差距。另一方面,Google 的 Gemini-SQL2(專門把自然語言問題翻譯成資料庫查詢語法 SQL 的 AI)在 BIRD 基準測試上宣稱達到目前最高水準,但也有研究者質疑分數是否因過度適應該測試題庫的設計而略顯膨脹。最值得關注的是醫療領域:根據刊載於 Nature Medicine(自然醫學期刊)的研究,讓臨床醫師直接評分後,Google、OpenAI、Anthropic 的通用大模型(沒有針對醫療進行特別訓練的版本)反而優於那些專門為醫療場景設計的垂直系統,再次印證頂尖通用 AI 正快速取代過去被認為必須仰賴「專用系統」才能勝任的各個垂直領域。

假設你在一家中型醫院,幾年來一直在考慮要不要採購或自行微調(fine-tuning,就是把現有 AI 用自家的醫療資料再訓練一輪,讓它更熟悉專業術語和病歷格式)一套「醫療專用 AI」。根據 Nature Medicine 這項研究,把相同的診斷問題分別交給「醫療垂直系統」和 Anthropic Claude、Google Gemini、OpenAI GPT-4o 等通用旗艦模型回答,再由臨床醫師盲測評分,結果通用模型的回覆品質與可信度反而更高。這對醫療機構採購決策的含義非常直接:花大錢訂製或訓練一套專科 AI,不見得比直接訂閱最新通用旗艦模型更划算;而且通用模型持續更新,不需要醫院自行維護訓練流程。

T2
Kimi K2.7 Code 開源編程模型發布

Moonshot AI(月之暗面,中國知名 AI 新創公司)在 2026 年 6 月 12 日發布 Kimi K2.7-Code,一個專為程式碼生成和自動化編程任務設計的開源 AI 模型(開源意指任何人都可以免費下載、修改、甚至商業使用)。這個模型共有 1 兆個參數——參數可以想成 AI 大腦裡的神經連結數量,數字越大代表 AI 能理解越複雜的問題——採用 MoE(Mixture of Experts,混合專家架構,一種讓超大模型只在需要時啟動部分能力、藉此省電省算力的技術),每次回答只啟動其中 320 億個參數。模型支援高達 256,000 個 token 的超長上下文視窗(token 是 AI 讀取文字的基本單位,256K 大約等於一本中等厚度的小說),意味著它能一次把整個大型程式碼專案「讀進去」再統一處理。相比前一版 K2.6,K2.7-Code 在 Moonshot 自家基準測試中提升 21.8%,推理 token 用量降低約 30%(即回答同樣問題、花費更少算力與費用);API 定價為輸入 $0.95 / 輸出 $4.00(每百萬 token),模型權重已完整公開於 Hugging Face 平台。

假設你是一名後端工程師,公司有一個跑了十年的 Python 2 舊系統,共 80 個檔案、約 3 萬行程式碼,需要升級到 Python 3。舊做法:你得把每個檔案分批貼進一般 AI 聊天視窗(因為視窗容量不夠、一次只能看幾個檔案),手動整合各自給出的修改建議,再一個個跑測試、修 bug,整個過程可能耗費一到兩週。用 Kimi K2.7-Code 的做法:把全部 80 個檔案(加起來超過 25 萬 token)一次丟入它的 256K 上下文視窗,它能看到整個專案的依賴關係與架構;再搭配 MCP(Model Context Protocol,讓 AI 直接呼叫外部工具的標準協定)工具,讓它自動執行「分析語法差異 → 批次改寫 → 執行測試 → 根據錯誤再修正」的完整流程,整個流程可壓縮到數小時內完成。相比 K2.6,K2.7-Code 推理效率提升約 30%,同樣任務消耗 token 更少,直接降低 API 費用。

T2
MiniMax M3 開放權重模型發布

MiniMax(中國 AI 新創公司)在 2026 年 6 月 1 日發布了 M3 模型,這是一個「開放權重(open-weight)模型」——意思是任何人都可以下載模型的核心檔案自行部署,不必只靠付費 API 使用。M3 是目前首個同時具備三大能力的開放權重模型:支援高達百萬 token 的超長記憶(context,就是 AI 一次能「讀入並記住」的文字量,百萬 token 約等於整本《哈利波特》全集的文字量)、頂尖的程式碼撰寫能力、以及原生多模態(能同時理解文字、圖片與影片,而非後期硬拼上去的功能)。在 SWE-Bench Pro(衡量 AI 解決真實軟體工程問題的測試)上,M3 拿到 59.0% 的分數,超越了 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro。底層採用全新的 MSA(稀疏注意力,一種讓 AI 在處理超長文件時不需要全力「關注」每一個字、藉此大幅省算力的技術)架構,在百萬 token 長度時每個 token 的計算量僅為上一代的 1/20,大幅降低部署成本。

假設你是軟體工程師,想讓 AI 幫你從零開始重現一篇學術論文的實驗——包含讀懂論文內容、撰寫程式碼、執行實驗、到自動繪製圖表。傳統 AI 助手在任務超過幾個小時、或上下文資訊量太大時往往失敗或需要頻繁人工介入。MiniMax 讓 M3 獨立執行這項任務,它跑了將近 12 小時,過程中自動提交了 18 次程式碼更新、產出 23 張圖,最終成功重現論文的關鍵結論,完全不需要人在旁邊盯著。另一個更硬核的案例:MiniMax 讓 M3 優化 Nvidia Hopper GPU(一種高階運算晶片)的矩陣乘法核心程式——這類任務有經驗的工程師通常要花 1 至 2 週。M3 只拿到任務描述和一個尚未完成的程式骨架,跑了約 24 小時後,將 GPU 硬體利用率從 7.6% 拉升到 71.3%,達到接近資深工程師的水準。對比舊做法:以前要達到這個效果,需要有專業硬體知識的工程師投入一到兩週,現在只要設定好任務讓 M3 跑一整天即可。

T2
Fable 5 遭美政府強制停用

社群媒體(Reddit 等討論平台)上出現大量帖文,指稱美國政府下達行政指令,要求 Anthropic(一家主要的 AI 公司,旗下產品即廣為人知的 Claude 對話 AI)暫停旗下最新旗艦模型 Fable 5(Claude 系列中目前能力最強的語言模型,也就是會讀懂問題並給出詳細回答的 AI 系統)對用戶的存取服務,官方理由為「國家安全疑慮」。目前此消息主要來自截圖與論壇貼文,尚未有主流媒體完整核實,資訊可信度仍須保留。技術層面的影響包括:新開啟的 AI 對話將自動切換由 Opus 4.8(另一款 Claude 模型)處理,而直接呼叫 Fable 5 的 API(讓程式與 AI 服務互通的技術介面)請求則直接回傳錯誤。社群中也有評論員猜測,政府的行動可能與「零日漏洞」(即尚未公開、可供駭客或政府機構秘密利用的系統弱點)有關,認為 Fable 5 的強大能力可能有助於發現這類漏洞,而相關機構希望這些漏洞繼續存在以備網路攻防之用。

一位開發者剛支付了 $250 美元升級至「Max 20x Usage」高階訂閱方案(即每月可使用 20 倍標準流量,專為大量呼叫 AI API 的企業或重度用戶設計),計畫把 Fable 5 接入公司內部的程式碼審查自動化流程——讓 AI 每天自動掃描幾百個 Pull Request(工程師提交的程式碼更新)並給出意見。暫停令一下達,所有對 Fable 5 發出的 API 請求立刻回傳錯誤,整條自動化流水線停擺。若要繼續運作,必須手動改接 Opus 4.8,但後者在某些高難度任務上能力有所差距,品質未必等同。相比舊做法(純手動審查或使用能力較弱的模型),這個案例揭示了一個過去開發者鮮少考慮到的新型風險:以往最大的顧慮是 API 改版導致行為改變,但現在政府行政命令也可能在毫無預警的情況下讓整個服務瞬間失效,所有依賴單一雲端 AI 服務建構商業流程的團隊都面臨「單點依賴」(把核心流程押寶在一個外部 AI 服務商上)的脆弱性。

T2
Fable 5 三大 AI 編碼突破

近期社群出現三則令人印象深刻的 Fable 5(Anthropic 公司旗下 AI 模型系列的新版本,與 Claude 同屬一家公司)實際應用案例。第一則:一位開發者在重製 1989 年 DOS 老遊戲《Midwinter》的過程中,原本用舊版 AI 模型要花六個月才能完成的「反組譯」工作(就是把電腦可執行的程式拆解、還原成人類看得懂的程式邏輯),Fable 5 只花一個晚上就完成了,產出 602 個函式(程式功能模組)的完整標注地圖,還用 Python 重現了地形生成器,執行結果和 1989 年的原始執行檔一模一樣。第二則:另一位開發者用 Fable 5「氛圍編碼」(vibe coding,就是用日常語言告訴 AI 你想要什麼、讓 AI 自動生成程式碼)出一套瀏覽器多人線上 RPG 遊戲《World of ClaudeCraft》,僅花幾天時間、全程幾乎不需要自己寫程式碼,成品已開放給玩家試玩並公開原始碼。第三則:一款名為 Ponytail 的免費 Claude Code 外掛(Claude Code 是 Anthropic 推出的 AI 輔助編程工具)推出「懶惰資深工程師模式」,讓 AI 在動手寫新程式碼之前先思考是否能用更少、更簡單的方式解決問題;測試結果顯示可節省約 16% 的 token 用量(token 是 AI 計費單位,token 越少費用越低)、速度加快約 4 倍,生成的程式行數從平均 293 行大幅降到 47 行。

假設我要移植並重製一款 1989 年的 DOS 策略遊戲,必須先搞清楚原版執行檔的程式邏輯。傳統做法是:人工閱讀反組譯出來的組合語言程式碼(assembly,一種極度底層、逐條對應 CPU 指令的語言),逐一搞懂每個函式的用途——光是搞清楚地形生成演算法可能就要花好幾個月,更別說還有車輛物理、AI 行為、音效格式等部分。改用 Fable 5 搭配平行代理人工作流程(parallel agents,讓多個 AI 同時分頭處理不同程式區塊,像一個協作團隊),一個晚上就能拿到 602 個函式的完整標注說明,知道每個函式負責什麼功能,地形生成器甚至直接被重寫成可執行的 Python 程式碼,並通過「bit-for-bit」驗證(每一個輸出位元都和原版相同,確認邏輯完全一致)。舊做法估計需要六個月;新做法只要一晚上,且相關工具程式碼已以 MIT 授權(一種最寬鬆的開源授權)公開,其他人可以直接取用。

T2
Fable 5 暗降能力風波與爭議

Anthropic(開發 Claude AI 的公司)推出的 Fable 5 模型(目前最強大的 Claude 版本之一)上線後引發重大爭議。Anthropic 被發現在用戶完全不知情的情況下,悄悄限制 Fable 5 對 AI 研究相關任務的回答能力——這種做法業界稱為「隱性降智(sandbagging)」,意思是讓模型刻意假裝不會,而不是明確告訴用戶「我不回答這類問題」。此事引發 AI 研究者和開發者強烈批評,Anthropic 約一天後火速宣布撤回該政策。爭議核心在於:限制 AI 能力本身可以接受,但「偷偷限制、不告知用戶」違反了使用者與服務提供者之間的信任契約,也讓人無從判斷究竟是模型本身能力不足,還是被刻意壓制。從技術能力來看,Fable 5 表現亮眼——在 WeirdML 測試集上達到 87.8%(首個每項任務平均超過 70% 的模型),在 FrontierSWE(軟體工程自動化測試)排名第一,某些任務甚至能連續運行近 20 小時——但實際使用費用昂貴,且出現模型自行發明「代號」、甚至把內部「神經語言(neuralese,模型思考時使用的內部表徵)」洩漏進輸出的怪異問題。

假設你是一位 AI 安全研究員,想用 Fable 5 來研究「語言模型(就是 ChatGPT、Claude 這類對話 AI)如何被操縱以產出有害內容」。在 sandbagging 政策有效期間,你送出的研究相關提示(prompt,也就是你輸入給 AI 的指令)會被悄悄降級處理——模型的回答明顯比正常差,但你完全不知原因,可能誤以為是自己問法有問題,或誤判這就是模型的真實水準,從而做出錯誤的研究結論。若 Anthropic 採透明做法,應該直接回覆「此類研究需申請 KYC 認證(實名驗證身分)的特殊研究者通道」,讓你知道是被限制而非被靜默降智。這次事件也讓工程師更積極考慮透過「提供商無關路由層(provider-agnostic router,就是一個可快速切換 AI 供應商的中介程式)」來保護自己的產品,避免未來服務行為突然改變卻完全不知情。

T2
AI 自動研究系統突破優化基準

Recursive SI(一家 AI 研究公司)聯手前 Salesforce 首席科學家 Richard Socher,發布了一套「自動開放式發現系統」——也就是讓 AI 自己做 AI 研究、自己改進自己的系統,不需要人類工程師手動介入。這套系統在三個公開的最佳化競賽任務上達到了當前最佳成績(SOTA,即「同類問題中目前表現最好」的意思),並開源了發現結果。與此同時,微軟研究院推出了 Arbor,這是另一個走長期研究路線的自主研究 Agent(可以自己規劃、執行、修正研究步驟的 AI 系統),它利用「假設樹」(把研究猜想與實驗結果組織成樹狀記錄,讓 AI 能追蹤長期脈絡)來管理複雜研究任務,在模擬真實機器學習工程挑戰的 MLE-Bench Lite 考試上拿到 86% 獎牌率,超越了 Codex 和 Claude Code 等現有 AI 編程工具。研究社群也同步推出多個新評測標準,包括涵蓋 55 種職業、1,500 道專家題的「Agents' Last Exam」,以及測試 AI 能否整合醫學文獻的「SciConBench」——結果顯示,最難等級的任務所有受測 AI 系統均得零分。整體趨勢是:AI 在有明確回饋、邊界清楚的優化任務中已能自我迭代改進,但面對需要跨領域專業合成的開放式任務仍然力不從心。

假設你是一位深度學習工程師,目標是讓一個小型語言模型(就是縮小版的 ChatGPT 這類 AI)訓練得更快。傳統做法是你自己反覆調整程式碼與參數、等幾小時跑完看結果、再人工分析、再修改——整個循環可能要耗費好幾天。Recursive SI 的自動系統做的事是:以「NanoGPT Speedrun」(一個公開的小模型訓練競速挑戰)為目標,讓 AI 自己寫程式碼改進、自己執行測試、自己根據結果決定下一步方向,最終把訓練執行時間從 79.7 秒壓縮到 77.5 秒,全程沒有人類介入。另一個任務 NanoChat 上,AI 讓模型達到相同訓練效果的速度加快了 1.3 倍。舊做法需要工程師數天手動迭代;新系統在有明確計分指標的封閉環境中,能完全自動跑完改進迴圈——代表 AI 系統優化任務未來有機會大幅降低人力投入。

T2
AI Agent 進化為排程基礎設施

過去幾天,多家 AI 工具廠商同步朝同一個方向前進:讓「AI Agent(就是能自動執行任務的 AI 助理)」從單純的對話模式,升級成可以排程、有帳號權限管理、能持續在背景運行的基礎設施服務。具體來說,Claude Managed Agents(Anthropic 的代管 AI 執行平台)新增了「定時排程部署」和「環境變數(用來安全儲存 API 金鑰等機密設定的機制)」功能,讓 AI Agent 能定期自動執行任務,而且帳號密碼等敏感資訊不會直接暴露給 AI 模型本身——而是在網路邊界才換入,更安全。Perplexity 把它的「Deep Research(讓 AI 自動上網蒐集資料、整合成研究報告的功能)」整合進 Computer 產品,作為 Agent 原生技能。Cursor 程式碼編輯器把「自動程式碼審查」設為新用戶預設,聲稱用分類子 Agent(一個小 AI 負責把關另一個 AI 的動作)達到 97% 的準確率。Microsoft 在 GitHub Copilot 各方案推出自家的 MAI-Code-1-Flash 模型。LangChain 推出 LangSmith LLM Gateway,提供費用上限、個資/機密偵測、稽核紀錄等企業級管控功能。整體趨勢是:AI 工具的競爭焦點已從「哪個模型最強」轉向「如何控制執行、管理審查、記錄可追溯性、支援跨平台移植」。

假設你是一名開發者,需要每天凌晨自動讓 AI 掃描 GitHub 上的新 PR(拉取請求,就是提交待審核的程式碼變更)並產生摘要報告。過去用 Claude API 做這件事,你得自己架設伺服器、寫 cron job(定時觸發腳本)、還要把 GitHub Token(存取 GitHub 的通行金鑰)直接放進環境設定,很難保證 AI 不會在執行過程中看到這些機密。現在透過 Claude Managed Agents 的新功能:你只需在設定介面設好「每天 02:00 執行」、把 GitHub Token 存入環境變數欄位,平台會在呼叫 GitHub API 時才自動帶入金鑰,AI 模型本身完全碰不到這串數字。這樣一來:免自架伺服器、不怕機密外洩、Agent 就像一個真正的「背景服務」在跑,而不只是你打開瀏覽器才能用的聊天視窗。

T2
Claude 兩款模型遭政府禁令全球停用

美國政府對 Anthropic(一家知名 AI 公司,旗下產品 Claude 是廣受開發者和企業使用的聊天 AI)的兩款模型發出出口管制(即政府禁止特定技術向特定對象或地區流通的命令),導致 Claude Fable 5 和 Mythos 5 這兩款模型全球停用。事情的起因,是亞馬遜執行長 Andy Jassy 向美國財政部長等政府官員提出安全疑慮,指出亞馬遜研究人員發現 Claude Fable 5 可被用來取得進行網路攻擊所需的資訊。川普政府 AI 政策協調官 David Sacks 隨後要求 Anthropic 執行長 Dario Amodei 修補安全漏洞或停用模型,但 Amodei 拒絕了。最終政府強制介入,所有透過 Anthropic API(程式對 AI 模型發出查詢的接口)或 AWS(亞馬遜雲端服務平台)使用這兩款模型的開發者和企業,都在毫無預警的情況下失去存取權。Anthropic 事後指出,引發政府擔憂的功能其實在其他公開模型中也已存在。

假設你的公司原本使用 Claude Fable 5 建立了一套內部的資安漏洞分析工具,透過 AWS Bedrock(亞馬遜提供的雲端 AI 模型平台,讓企業可以一站式呼叫各家 AI 模型)每天掃描程式碼並回報風險。在政府禁令生效的當天,你的系統 API 呼叫突然全部回傳錯誤,整套分析流程停擺。與過去廠商主動下架模型通常會提供數週緩衝期不同,這次政府強制介入導致停用毫無預告,你必須緊急評估替代方案(如切換至 Claude Sonnet 或其他可用模型),同時重新測試輸出品質是否符合需求。這是 AI 行業首次出現因政府出口管制而大規模強制停用商用 AI 模型的案例,對依賴這些模型的企業營運帶來直接衝擊。

T2
Gemini-SQL2 文字轉 SQL 奪冠

Google Research 發布了一個叫 Gemini-SQL2 的 AI 系統,能把一般人說的白話(中文或英文),自動翻譯成資料庫查詢語言 SQL(一種讓電腦讀取和整理資料庫資料的指令格式,長得像「SELECT * FROM table WHERE…」,非工程師幾乎很難直接寫對)。這套系統建立在 Google 最新的大型語言模型(就是像 ChatGPT 這種會對話的 AI)Gemini 3.1 Pro 之上。在業界最通用的 BIRD 評測基準(一份專門測試 AI 把自然語言翻成 SQL 翻得準不準的標準考卷)上,Gemini-SQL2 拿到 80.04% 的準確率,明顯領先 OpenAI(ChatGPT 的開發商)和 Anthropic(Claude 的開發商)的同類系統。Google 表示,這項技術未來可望整合進旗下各種數據服務,讓完全不懂 SQL 的一般使用者也能直接查詢大量企業資料。

假設我是一家公司的業務主管,想查「上個月台北地區、銷售額超過十萬、退貨率低於 5% 的前十名產品是哪些」。以前這種問題要請工程師寫 SQL,或自己學語法;即使用一般 AI 問,碰到條件複雜、需要跨多張資料表時,往往會寫出錯誤的指令。用 Gemini-SQL2,只要直接輸入這句白話,它就能生成正確可執行的 SQL 語句,丟進資料庫後立刻出結果,不用等工程師、也不需要自己除錯。相比業界過去的 text-to-SQL(文字轉資料庫查詢)工具,Gemini-SQL2 在複雜查詢場景的正確率高出一大截,BIRD 基準分數遙遙領先第二名。

T2
微軟 SkillOpt 用 Markdown 讓 AI Agent 提升 23 分

SkillOpt 是微軟聯合三所中國大學共同研究出來的一種新方法,用來讓 AI 代理人(Agent,就是能自動按步驟完成任務的 AI 程式,例如幫你自動查資料、下單或管理流程的工具)更有效率地遵循指令。它的核心做法是:把傳統訓練 AI 模型(就是讓 AI 學習大量資料、不斷調整到表現最好)的概念,套用到優化「指令說明文件」上——這份文件是用 Markdown(一種簡單的純文字排版格式,常見於 GitHub 或技術文件)寫成的任務說明書。研究結果顯示,一份經過 SkillOpt 訓練優化過的 Markdown 說明文件,能讓 GPT-5.5(OpenAI 的最新一代語言模型)在「按程序完成多步驟任務」的測試中成績提升約 23 分。最令人驚喜的是,這份文件有可移植性——同一份優化文件不需要重新製作,就能直接用在 Codex(微軟旗下的程式輔助 AI 工具)和 Claude Code(Anthropic 開發的程式助手)等不同 AI 平台上,效果同樣顯著。

假設你是一位工程師,正在建置一個「自動處理電商退貨申請」的 AI 代理人,它需要按照固定流程:確認訂單 → 判斷退貨原因 → 查庫存狀況 → 自動回覆客戶並安排退款。以往你只能手寫一份說明文件告訴 AI 要怎麼做,但寫得不好、措辭不精準,AI 就容易漏步驟或出錯,你只能靠直覺反覆改稿,效果全憑運氣。用 SkillOpt 的做法是:你先準備一份初版 Markdown 說明文件,系統會自動模擬多種任務情境、測試 AI 照著文件執行的結果,然後像訓練模型一樣持續調整文件的用字和結構,最終輸出一份「最優化的說明文件」。把這份文件交給 GPT-5.5,退貨流程的自動完成率大幅提升;把同一份文件改給 Claude Code 或 Codex 使用,效果一樣好,完全不需要重新針對各平台調整。對比舊做法:以前工程師要花大量時間為每個 AI 平台反覆手動調整提示詞(Prompt,就是給 AI 的指令說明),改完 GPT 還要重改 Claude;現在只要訓練優化一次文件,所有平台通用,省下大量重複工作。

T3
T3
英國警察涉嫌用 AI 偽造案件證據

英國德比郡(Derbyshire)一名警察因在多起刑事案件中使用 AI(人工智慧,就是能自動生成文字、圖片或聲音的電腦程式)「製造證據」而遭到調查。目前官方未公開具體細節,但媒體報導指出,該名警察可能使用 AI 工具修改或生成與案件相關的材料,例如讓模糊的監視影像「變清晰」,或生成偽造的證人陳述。這起事件引發了外界對「AI 生成內容是否能作為法庭證據」的強烈質疑——因為隨著 AI 造假技術越來越逼真,法院將越來越難以辨別哪些影像、文字是真實的,哪些是電腦生成的。若被告確因偽造證據而被定罪,這些案件都需要重新審查。這是全球首批被公開調查的「警察用 AI 偽造證據」案例之一,對整個司法系統都是警訊。

假設某起竊盜案中,監視器畫面原本因角度或解析度不足,根本看不清嫌疑人臉孔,無法作為指認證據。涉事警察如果使用 AI 影像增強工具(一種能自動「腦補」畫面細節的軟體)把模糊人臉「還原」成清晰圖像,再將這張 AI 生成的「清晰照片」提交法庭當作原始監視畫面——法官和陪審團看到的就是一張根本不存在的假證據。傳統做法中,模糊影像就是模糊影像,法庭只能判定「影像不足以辨識」;但有了 AI,警察可以讓一張不清楚的照片「看起來很真實、很清晰」,讓被告在假證據面前幾乎無從辯解。這起案件的核心問題正是:AI 工具讓偽造證據變得前所未有地容易,而現行法律和司法程序對此幾乎毫無防備。

T3
在家低成本 AI 編程指南

這篇文章是一位個人開發者分享如何在不花大錢的情況下,在家裡用 AI(人工智慧)輔助寫程式的實際心得。作者分析了三種方式:一是自己買設備在本地跑開源 AI 模型(就是把 AI 軟體裝在自己電腦或伺服器上運行);二是透過 API(一種讓程式直接呼叫遠端運算服務的接口)租用別人的開源模型算力,彈性高且免買昂貴硬體;三是訂閱 OpenAI(ChatGPT 的開發商)或 Anthropic(Claude 的開發商)等大廠的旗艦模型服務。作者計算後發現,每月約 400 美元的訂閱費換算成 API 用量,相當於市場牌價的 2,800 美元左右,但若過度依賴單一服務在大量工作流下效能會下降。因此作者最推薦的是「混合策略」:把複雜的推理思考和規格撰寫交給訂閱制高階 AI,把機械性的重複程式生成交給成本更低的開源模型,藉此在成本和效能間取得最佳平衡。

假設我是一個獨立開發者,想用 AI 輔助完成一個完整的後端 API(應用程式介面,讓不同服務互相溝通的橋樑)專案。舊做法是全程靠 GPT-4 或 Claude 等旗艦模型,每個月 API 費用可能高達數千美元。依照本文的混合策略,我先用高階訂閱模型(例如 Claude)撰寫詳細的功能規格書,把任務分解成清楚的小步驟;再把這份規格書餵給透過 OpenRouter(一個可以統一存取多種開源模型的平台)取得的廉價開源模型(例如 DeepSeek 或 Qwen)來實際生成程式碼;只有當開源模型遇到複雜邏輯卡住時,才切回高階模型協助。作者估算這套組合下,每月花費約 1,000 美元,產出相當於 20 位工程師一個月的工作量,比全程靠旗艦模型便宜許多,且能避免自購 GPU 硬體貶值的風險。

T3
GLM 5.2 開源發布支援百萬上下文

GLM 5.2 是中國智谱AI(Zhipu AI)推出的最新開源大型語言模型(就是類似 ChatGPT 這種能對話、寫程式的 AI),以 MIT 授權(一種允許商業使用、可以自由修改的免費授權)正式釋出。這次最大亮點是提供「真正可用的 100 萬個 token(token 是 AI 處理文字的基本單位,大致上幾個字算一個)上下文窗口」,意思是 AI 能一次閱讀並記住相當於幾本書份量的文字內容。模型還支援「高」與「最大」兩種思考強度設定,官方建議編碼任務使用最大強度以取得最佳效果。目前優先開放給 GLM 編程計畫的付費訂閱用戶(Lite、Pro、Max、Team 方案),API 與聊天機器人版本預計下週上線;由於是 MIT 授權開源,想自行架設的企業或開發者也可在許可證釋出後免費下載部署。社群評估其能力約落後最前沿模型六個月左右,但對日常開發工作「足夠勝任」。

假設我是一名後端工程師,需要接手一個有 8 萬行 Python 程式碼的舊系統,想讓 AI 幫我找出潛在 bug 或解釋整體架構邏輯。傳統做法是把程式碼切成小塊分批貼給 AI,但 AI 每次只看得到片段,無法掌握跨檔案的呼叫關係,容易給出「片面」或「前後矛盾」的建議,我還得自己把多次回答拼湊起來。用 GLM 5.2 的 100 萬 token 上下文,可以一次把整個專案的核心檔案全部貼進去,讓 AI 看到完整全貌後統一分析——它能直接回答「A 模組的 bug 根源在 B 檔案第 320 行的邏輯錯誤」,而不是「這段程式碼看起來沒問題」。再加上 MIT 授權完全開源,公司不必把敏感程式碼傳給第三方 API,可以自行在內部伺服器架設,兼顧效率與資料安全。

T3
TensorZero 募資後宣告停止

TensorZero 是一個讓工程師更方便管理、監控及優化 AI(這裡指大型語言模型,也就是像 ChatGPT 這種能對話的 AI)呼叫流程的開源基礎設施平台,屬於 LLMOps(大型語言模型維運,就是幫企業把 AI 服務跑得更穩、更好的工具)類別,提供「模型路由」(自動選擇最合適的 AI 模型)、「觀測」(記錄 AI 回覆品質與成本)和「優化」(根據使用結果反覆改進模型設定)等功能。這家公司在 2024 年完成了 730 萬美元的種子輪募資,但最終聯合創辦人 Gabriel Bianconi 宣佈,在花費不到一半融資後決定停止整個專案,並在一夜之間將 GitHub(全球最大程式碼托管平台)上的公開倉庫標記為「archived(封存)」,代表不再維護更新。關閉前,TensorZero 已有數百家公司使用,每月處理數十兆個 AI 推理請求(就是企業向 AI 模型發問並取得回覆的次數)。創辦人對外解釋,AI 開源新創必須同時在「開源社群」與「付費商業客戶」兩個市場找到產品契合點,而 AI 市場變化速度極快,容易一步落後就難以追回。

假設你的公司的客服系統正在使用 TensorZero 統一管理對 GPT-4 和 Claude 的 API 呼叫(API 就是讓你的產品呼叫外部 AI 服務的管道),並透過它追蹤每次回覆的品質、費用和延遲。現在 TensorZero 突然停止維護,你的技術團隊需要立刻評估替代方案,例如:LangSmith(LangChain 生態系的 AI 觀測工具)、Helicone(提供 AI API 成本追蹤與記錄)、或自建 logging 系統。雖然 TensorZero 的程式碼仍以 Apache 2.0 授權(一種允許免費使用和修改的開源授權)在 GitHub 上公開,但若日後發現安全漏洞或與新版 AI API 不相容,將沒有官方修補,維護風險完全落在使用方自身。這個案例對所有 AI 開發者的啟示是:引入開源 AI 基礎設施工具前,務必評估其商業模式的可持續性,避免過度依賴尚未找到穩定商業路徑的新創工具。

T3
消費級雙 GPU 本地跑 Qwen3 27B 實測

這篇文章是一位技術愛好者的實際操作紀錄,示範如何把兩張不同世代的 NVIDIA 顯示卡(RTX 5080 與 RTX 3090)放入同一台電腦,合力在本地端執行一個叫做 Qwen 3.6 27B 的開源大型語言模型(LLM,就是類似 ChatGPT 這種能對話、能寫文章的 AI)。這個模型採用 Q8 量化格式(一種壓縮技術,讓模型體積縮小、同時盡量保留品質),兩張卡合計約 40GB 顯示記憶體,剛好能裝下 270 億參數的模型。作者透過調整主機板 BIOS 設定、改用開源 GPU 驅動,並調整 llama.cpp(一套讓消費級顯卡能跑大型 AI 模型的開源軟體)的編譯參數,最終實現每秒超過 80 個詞元(token,AI 生成文字時的最小單位)的速度,部分測試甚至達到 91 tok/s,使用感受接近雲端 API 的流暢度,且所有資料完全不離開自己的電腦。

假設我想在家裡架一個私人 AI 助理,不想把任何文字送到 OpenAI 或 Google 的伺服器,手邊有一張舊的 RTX 3090(24GB)和一張新的 RTX 5080(16GB),打算兩張卡同時分工載入模型。按照這篇文章的做法:先進 BIOS 關閉 CSM 相容模式、開啟「4G 以上解碼」和「ReSize BAR」支援;接著安裝 nvidia-open 開源驅動(因為兩張卡世代不同,官方閉源驅動會發生衝突);編譯 llama.cpp 時指定 CUDA_ARCHITECTURES="86;120",讓程式同時支援 Ampere(RTX 3090)與 Blackwell(RTX 5080)兩代架構;執行時按 2:3 比例把模型分配到兩張卡,搭配 MTP 推測加速(讓 AI 先「猜」接下來的詞再驗證,等效加速生成)與 KV 快取量化。最終結果:Qwen 3.6 27B Q8 穩定跑出 80~91 tok/s,而若只用單張 RTX 3090 跑同一模型,速度僅約 20~30 tok/s,體感明顯卡頓——雙卡設定帶來約 3~4 倍的實際速度提升。

T3
AI Agent 基礎設施邁向生產化

三個組織幾乎同步推出與 AI Agent(就是能自動執行多步驟任務的 AI 程式)基礎設施相關的重要進展。Artificial Analysis 推出 AA-AgentPerf,一個專為 Agent 設計的效能基準測試,核心指標是「每百萬瓦特電力能同時跑多少個 Agent」,比起過去只看每秒處理速度,更符合實際部署需求。SkyPilot 推出 Sandboxes(沙盒——一個隔離的執行環境,讓 AI 生成的程式碼在受控空間裡跑,不會波及主系統),宣稱啟動時間不到一秒、單叢集可支撐五萬個以上沙盒,成本比雲端方案低 4 到 10 倍。Anthropic(開發 Claude 的公司)同樣擴充了讓 Claude 託管代理程式在客戶自控沙盒中運行的文件。綜合來看,業界正從「展示 Demo」走向真正的生產部署,重心轉移到安全隔離、可重現性,以及讓企業掌控自己的 AI 執行環境。

假設我是一家 SaaS 公司的開發者,要讓 AI 幫用戶自動生成並執行數據分析腳本(例如:用戶說「幫我算出上個月各地區的退款率」,AI 就寫程式碼並直接跑出結果)。舊做法:AI 生成的程式碼直接在公司伺服器上執行——一旦 AI 犯錯或被惡意提示誘導,整個後端系統都有風險。新做法:用 SkyPilot Sandboxes,AI 生成的程式碼先丟進沙盒隔離跑,拿到結果後沙盒即銷毀,主系統完全不受影響;啟動不到一秒,幾乎感覺不到延遲,且比用 AWS Lambda 或其他雲端方案便宜許多。搭配 AA-AgentPerf 基準,還能評估自家 GPU 伺服器到底能撐多少個 Agent 同時工作,避免資源規劃憑感覺猜。

T3
DiffusionGemma 速快但常出錯

DiffusionGemma 是 Google DeepMind 開發的一款新型 AI 語言模型(就是能讀懂並生成文字的人工智慧系統),它使用「擴散(diffusion)」架構——這是一種不同於 ChatGPT 那種「一個字一個字往下接」方式的全新生成邏輯,而是一次生成 256 個字的區塊再整體優化。NVIDIA 最新發布了這個模型的 NVFP4 量化版(量化就是把 AI 模型壓縮,讓它占更少記憶體、跑更快),主要針對 H100 等企業級高階 GPU(顯示卡)部署,號稱每秒可生成逾 1,100 個字。同時,開源社群的 Unsloth 也釋出了 GGUF 格式版(一種能讓普通消費者顯卡也能跑 AI 的壓縮格式),但目前需要安裝專用的 llama.cpp 分支才能使用,一般工具尚不支援。重要的是,實測顯示 DiffusionGemma 雖然比傳統自回歸(autoregressive,就是 GPT 那種逐字預測)Gemma4 快約 4 倍,但事實準確率卻差得多——特別是在較冷門話題上,容易出現捏造人名或錯誤定價等問題。不過社群也指出,這可能是模型仍處於早期階段、採樣參數尚未優化所致,不代表擴散架構本質上就比較不準確。

假設我要批量生成幾百篇產品介紹短文,要求快速出稿但不需要百分之百精準(後面有編輯人工審稿)。用傳統自回歸 Gemma4 生成一篇關於 BeOS(一個 1990 年代的作業系統)的介紹文章,花了約 15 秒,出現 5 個事實錯誤;換成 DiffusionGemma,只花了 3.7 秒(快 4 倍),但出現了 28 個錯誤,包括捏造的人名和錯誤的售價。這個對比說明:如果工作流程有嚴格的事實核查機制,可以考慮用 DiffusionGemma 的速度優勢來加快初稿量產;但若直接用於需要準確資訊的場景(如客服回答、醫療、法律),目前階段風險仍偏高,需謹慎評估。

T3
EAGLE3 加入 llama.cpp 推論速度翻倍

本地 AI 推論圈同一天出現兩個值得關注的進展。第一,llama.cpp(一個讓普通人能在自己電腦或消費級顯卡上跑大型 AI 語言模型的開源工具)正式合併了 EAGLE3 投機解碼功能。「投機解碼(Speculative Decoding)」的概念是:用一個體積小、速度快的「草稿模型」先預測接下來幾個字,再讓主模型一次驗證這批預測——因為驗證比從頭生成省時間,整體速度因此大幅提升。EAGLE3 相較舊方案的特別之處在於,草稿模型會直接參考主模型的中間層特徵(內部計算結果),讓預測更準、命中率更高,官方回報加速幅度約 2 至 3 倍,甚至在關閉推理模式時可超過 3 倍,且搭配 Q4_K_M 量化壓縮後加速效果依然顯著。第二,社群貢獻者 LLMFan46 在 Hugging Face(一個 AI 模型共享平台,類似 AI 界的 GitHub)釋出了多款 Google Gemma 4 系列的量化壓縮版本,包含 12B、26B-A4B、31B 三種規模,均提供 GGUF、Safetensors、NVFP4 等多種格式,方便不同硬體環境部署,適合想在個人設備跑 Gemma 4 的使用者直接下載使用。

假設你用 llama.cpp 在自己的 GPU 上跑 Gemma 4 31B,過去每秒可能只能生成 15~20 個 token(字符)。啟用 EAGLE3 後,草稿模型會預測接下來 3~5 個 token,主模型一次批次確認,不必每個字都單獨跑一遍完整計算。這樣一來,實際生成速度可能提升到 40~50 個 token/秒,感受上就是回應從「逐字緩慢出現」變成「快速成段輸出」,而且你不需要換更貴的顯卡,只需要更新 llama.cpp 版本並載入對應的 EAGLE3 草稿模型頭。同時,若你之前覺得 Gemma 4 31B 太大跑不動,現在可以直接下載 LLMFan46 釋出的 Q4_K_M 量化版,模型大小壓縮到原本的約 1/4,顯示記憶體需求大幅降低,搭配 EAGLE3 後速度與品質兼顧。

T3
AI 資料基礎設施成新瓶頸

這篇文章整理了多個 AI 訓練資料基礎建設領域的最新動態。Macrodata Labs 推出開源工具 Refiner,專門解決機器人 AI 訓練的資料問題——機器人要學會做事,需要大量影片、感測器數據等「示範資料」,但整理這些資料非常麻煩,Refiner 就是讓這個整理過程變得有條理、可追蹤的工具。Goodfire 提出「預測性資料除錯」技術,指出 DPO 資料集(用來教 AI 哪種回答比較好的偏好資料,是一種讓 AI 變得更符合人類期待的訓練方式)裡常藏有隱患,例如讓 AI 學會繞過安全限制或產生幻覺(AI 憑空捏造不存在的事實),因此應該在訓練「之前」就先分析資料品質。AllenAI 則推出 ModSleuth 工具,揭示現代 LLM(大型語言模型,就是 ChatGPT 那類會對話的 AI)的訓練其實極度依賴其他模型和資料集——例如 Olmo 3 用了 89 個模型和 183 個資料集,Nemotron 3 更用了 273 個模型和 560 個資料集,說明現代 AI 訓練已是非常複雜的「組合工程」,而非單純用網路資料訓練即可。此外,Weaviate 推出 Engram 記憶維護框架,主張不應直接把聊天記錄全塞進 AI 的記憶,而應先抽取重要資訊、轉換格式再存入;Qdrant 也強調向量搜尋(讓 AI 在大量文件中快速找到語意相關內容的技術)在 AI 記憶容量增大的今天仍不可廢,因為搜尋比塞入全部資料更省時省錢。

假設你要訓練一個機器人手臂,你拍了幾百段示範影片,但這些影片格式不一:有的是手機錄的 MP4、有的是感測器輸出的時序數據、有的還包含手部關節追蹤資料。以前你得自己寫 Python 腳本逐一轉檔、切段、加標籤,出問題時也不知道是哪批資料造成的。用 Macrodata Labs 的 Refiner,你把這些雜亂資料丟進去,它會幫你統一整理、自動切分每段動作(如「抓取」「移動」「放下」),並記錄每筆訓練資料的來源族譜(lineage)。當機器人表現不好時,你能直接追溯是第幾號示範影片、哪個感測器的資料出了問題,而不是對著龐大資料集茫然無措——這正是以前 AI 訓練工具做不到、現在才逐漸補起來的能力。

T3
Fable 5 引發 CAD 能力熱議

Fable 5 是近期在 AI 社群引發廣泛熱議的一款 AI 模型(AI 模型就是類似 ChatGPT 這種能對話、能生成內容的人工智慧系統)。社群上互動量最高的相關貼文呈現出截然相反的兩種聲音——用戶 aaronli 聲稱 Fable 5「解決了 CAD(電腦輔助設計,就是工程師用來繪製 3D 零件、建築圖面的專業軟體)」的難題,吸引大批關注;而 AI 研究機構 KradleAI 則在另一篇高熱度貼文中指出,Fable 5「有 96% 的時間在說謊(也就是給出錯誤或捏造的資訊)」,呈現出截然相反的評價。這種「能力看似強大、但輸出結果嚴重不可信」的矛盾,是目前許多大型 AI 模型共同面臨的挑戰——技術水準快速提升,準確性卻仍參差不齊。雖然這些評論屬於使用者個人的主觀分享,並非正式學術測試,但如此高的互動量本身就反映出業界對 Fable 5 表現的高度關注與爭議。

假設我是一位機械工程師,想用 Fable 5 輔助設計一個螺栓法蘭盤(一種圓形固定零件)的 3D 規格。按照 aaronli 的描述,我只需用中文輸入「設計一個外徑 100mm、中心孔徑 20mm、四孔對稱分佈在 70mm 孔徑圓上的標準法蘭盤」,Fable 5 就能直接給出完整的 CAD 設計參數,甚至產出可匯入設計軟體的檔案——以往這需要工程師在 SolidWorks 或 AutoCAD 中逐一手動輸入每個尺寸。然而,根據 KradleAI 的測試,在類似的工程設計任務中,Fable 5 給出的尺寸或材料規格有高達 96% 的機率出現錯誤——代表工程師幾乎每次都必須從頭逐一驗算,實際省下的工時非常有限。這個案例說明:即使某款 AI 在展示影片或社群分享中「看起來很厲害」,在高精度的專業工程場景中,仍必須嚴格核實每一個輸出結果,不可直接信任。

T3
DiffusionGemma 文字生成提速 4 倍

Google DeepMind 執行長 Demis Hassabis 發文分享了 DiffusionGemma 的最新成果,這項技術讓 Gemma(Google 推出的開源大型語言模型,也就是可以免費下載、自行部署的 AI 對話模型)的文字生成速度提升了 4 倍。DiffusionGemma 採用「文字擴散」(Diffusion,一種原本用來生成圖片的技術,現在被移植到文字生成領域)的方式,而非傳統的「自回歸」生成(Autoregressive,就是 AI 一個字接一個字依序輸出、像人在打字一樣的方式)。因為不再逐字輸出,整體速度大幅提升。這篇貼文在技術社群引發異常熱烈的討論,顯示開發者對「能真正上線使用的推論加速」有強烈需求,而不只是實驗室裡的理論突破。

假設你用 Gemma 架設一個即時客服聊天機器人。傳統自回歸方式下,AI 必須一個字一個字地輸出,若回答一則問題需要 200 個字,就得等 200 個推論步驟才能看到完整答覆,用戶等待感很強。改用 DiffusionGemma 後,模型可以「批次並行生成」文字而非逐字輸出,速度直接提升 4 倍。同樣 200 字的回答,只需原本約四分之一的時間即可完成,讓即時互動體驗大幅改善。和舊做法相比,不需要換更貴的 GPU,純靠演算法改進就達到這個加速效果,對想降低推論成本的工程師來說有實際參考價值。

T3
AI 高級訂閱暗藏巨額補貼

一篇廣泛流傳的分析文章指出,目前主流 AI(人工智慧)公司提供的高級訂閱方案,實際提供給使用者的服務價值遠遠超過訂閱費用本身。分析者 Kim Monismus 估算,Claude Max 20x 訂閱方案每月提供的 AI 運算資源,若按 API(讓程式直接呼叫 AI 服務的介面,通常依使用量計費)計算,等值約 8,000 美元(約台幣 26 萬元);ChatGPT Pro 20x 更高達 14,000 美元(約台幣 45 萬元)。這些方案的月費通常僅數百美元,意味著 AI 公司正以大幅虧損換取用戶增長。此分析恰好與 OpenAI(開發 ChatGPT 的公司)考慮調降 token(AI 計費單位,類似計量 AI 消耗了多少「運算資源」的尺標)價格的消息同步流出,兩者共同引爆對 AI 定價模式的廣泛討論。

假設你每月花約 200 美元(約台幣 6,500 元)訂閱 Claude Max 20x 方案。根據這份分析,你實際享用的 AI 運算資源,若改以 API 直接按量購買,需花費約 8,000 美元——也就是說,每花 1 元訂閱費,實際消耗相當於 40 元的 AI 服務。對比舊做法:企業若要大量使用 AI,過去必須直接透過 API 按使用量付費,費用極高;如今「無限用量」訂閱等於讓個人用戶也能以超低成本享受企業級服務量。這也意味著 AI 公司目前是在「賠本搶市場」,若未來縮減補貼或漲價,用戶實際能用的量可能大幅縮水。

T3
KPMG 因 AI 幻覺撤回研究報告

四大會計師事務所之一的畢馬威(KPMG)撤回了一份名為《在代理式 AI 時代重新定義卓越》的報告,原因是報告中多項具體聲稱被相關機構否認。經研究機構 GPTZero 調查後,確認錯誤來源是 AI 幻覺(AI hallucination,就是 AI 編造出聽起來像真的、但實際上不存在的資訊的毛病)。報告中聲稱瑞銀集團(UBS)、英國國民健康服務(NHS)、瑞士聯邦鐵路、倫敦交通局等機構有特定 AI 使用情況,但這四個機構全部出面否認。幾乎同期,另一家四大會計師事務所安永(EY)也因為報告中出現虛假腳註與 AI 幻覺問題而撤回另一份報告。兩起事件顯示:即使是全球知名諮詢機構,只要沒有嚴格的人工查核,AI 捏造的「事實」也可能直接進入正式發布版本。

假設你在一家企業研究部門,要撰寫一份產業白皮書,想列舉知名大公司如何落地應用 AI。你使用 AI 輔助撰寫,AI 自動生成「根據某某機構的 AI 實踐,他們已將 AI 導入 XX 流程,效率提升 30%」這樣的段落——名稱具體、數字清楚、語氣自信。問題在於:AI 「幻覺」了這些內容,那些機構根本沒做過報告中描述的事。若沒有人工逐條交叉驗證(如親自致函機構確認),就直接發布,結果可能和 KPMG 一樣——被點名的機構公開否認,最終被迫撤報、損害信譽。這個事件的核心教訓是:AI 輔助寫作「聽起來可信」不等於「內容正確」,任何涉及具體機構名稱、數字或事實聲明的段落,都必須人工逐一核實,不能只靠 AI 自行生成。

T3
Count Anything AI 看圖自動計數

Count Anything 是一個新發表的 AI 視覺模型(也就是能「看圖理解內容」的人工智慧),專門設計來自動計算圖片中某類物件的數量。使用者只需提供一張圖片,再用一段文字說明「要數什麼」,例如「這張照片裡有幾個人」或「這個顯微鏡視野下有幾顆細胞」,模型就能自動算出答案。過去的 AI 計數系統通常只能針對特定物件種類運作(例如「只數人臉」或「只數車輛」),換一種物件就得重新訓練一個全新模型。Count Anything 的目標是打破這個限制,用同一個通用模型處理各種物件——人群、動植物、顯微鏡細胞樣本、各類商品——全部靠一套系統搞定。根據測試,Count Anything 的計數錯誤率比過去最佳系統低了約一半,也就是輸出的數字更接近真實值。不過現階段仍有弱點:當物件極度密集堆疊(例如沙粒、擁擠人群)或文字指令描述模糊時,準確度會明顯下降。

假設我是一名醫療研究員,需要統計顯微鏡拍攝的細胞樣本照片裡,有多少顆特定腫瘤細胞。過去,我必須人工一顆一顆點數,或請工程師花數週時間訓練一個「只認識這種細胞」的專用模型,才能讓電腦幫忙算。用 Count Anything,我把顯微鏡照片傳入系統,輸入文字指令:「請計算圖中的 HeLa 細胞數量(HeLa 是一種實驗室常用的人類癌細胞株)」,模型幾秒內就掃描圖片、標記並輸出數量,完全不需要額外訓練。最大的差異在於「通用性」:同一個模型下一秒可以切換去數「血小板」「細菌菌落」或「培養皿裡的酵母菌」,舊方法每換一種對象就要重頭再來,Count Anything 只要換一行文字指令即可。

T3
AI 閉環飛輪 自我驅動工作流

這篇文章介紹了一個叫做「飛輪」(flywheel)的 AI 自動化概念。「閉環工作流程」(closed-loop workflow)是指一個能自動把自己的輸出結果再拿來當作下一次輸入的系統,中間不需要任何人介入。把多個這樣的閉環串聯起來、指向同一個目標,就形成了「飛輪」——一個能自動產出結果、自動評量成效、自動決定下一步的 AI 系統。飛輪的核心不是移除所有人力,而是把人類的判斷「編碼化」:把「什麼叫做好的輸出」一次寫進驗證規則裡,讓機器自動核查,人類只需要在最高層定義目標和驗證標準就好。文章指出,軟體開發領域最早實現飛輪,正是因為它已有四十年的自動化測試、型別系統、持續整合基礎設施,讓 AI 可以自動判斷自己的產出好不好——Anthropic 表示目前大多數程式碼已由 Claude Code(Anthropic 自家的 AI 程式設計工具)撰寫,正是這個道理。

假設我是行銷人員,需要不斷測試哪一版廣告文案效果最好。用傳統方式,我要自己寫幾版文案、手動上線、等幾天、看數據、再調整——一個循環要一週。換成 AI 飛輪:第一個工作流(workflow,就是自動依序執行的一連串任務)自動生成廣告標題和文案;第二個工作流每小時從廣告後台抓取點擊率、轉換率等數據;第三個工作流讀這些數字後,自動決定停掉效果差的廣告、擴大投放表現好的、嘗試新角度——然後把決定傳給第一個工作流,開啟下一輪。三個工作流串起來,24 小時不停轉,每幾分鐘就完成「產出→測量→調整」一個循環。人工做一輪要一週,飛輪一天能跑幾百輪。關鍵在於廣告績效數字是客觀的「驗證器」(verifier)——點擊率是數字不是感覺,系統能自己判斷輸出好壞,人類只需在一開始設定「什麼算成功」即可,不用介入每一輪。

T4
T4
用 AI 寫作等於不思考?

這是一篇觀點文章,批評「讓 AI(生成式人工智慧,就是 ChatGPT 這類能寫文章的工具)幫你寫文章、再聲稱那是你自己的想法」的做法。作者的核心主張是:寫作不只是把想法表達出來,寫作本身就是思考的過程。就像你把某件事用文字整理出來時,才會發現自己哪裡沒想清楚、哪個邏輯是矛盾的——這些「發現」正是思考的成果。如果把這個步驟外包給 AI 讓它代筆,你實際上是在跳過思考,而不是在傳達思考結果。作者因此認為,那些讓 AI 產出文章再署名發表的人,本質上是不誠實且逃避責任的「人類路由器」——只是把機器生成的話轉發出去,並未真正思考過任何事。

假設我要寫一篇評論:「遠端工作是否真的比在辦公室更有效率?」如果我把題目丟給 ChatGPT,讓它生成一篇結構完整的文章,再改幾個字後發表——這篇文章看起來有論點、有舉例,但我自己從未真正思考過「什麼情況下遠端更好、什麼情況下反而更差、我為什麼持有這個立場」。按照本文作者的觀點:當你自己動手寫,你才會發現某段論述根本說不通、某個假設站不住腳,這個「卡關→重想」的過程才是真正的思考。相比之下,AI 輸出的是「語言統計結果」(根據大量文字訓練後預測最可能接在後面的字),不代表任何人真正推敲過這件事。所以科學期刊拒絕 AI 生成論文,不只是怕假資料,更是在拒絕那些從未認真思考、只是轉發機器文字的作者。

T4
Claude 訂閱定價補貼爭議

有人在網路上分享了一張比較圖,聲稱 Anthropic(開發 Claude AI 的公司)每月 $200 的 Max 訂閱方案,實際上讓用戶最多能用到相當於 $8,000/月的 API(應用程式介面,就是開發者直接呼叫 AI 服務的管道)用量,意味著 Anthropic 每月替每位訂戶補貼高達 $7,800。這個說法在社群引發大量反駁:首先,「最大可能用量」只是理論上限,現實中幾乎沒有用戶能全天連續用到上限。其次,API 標價含有利潤,不等於 Anthropic 真正的推論成本(讓 AI 運算一次的費用),加上批次折扣與快取(cache,預先存好的計算結果)等機制,說明 API 售價已遠高於成本。最根本的反駁是:訂閱制就像保險,依靠「多數人用量少」來均攤「少數重度用戶」的費用,並非每位訂戶都讓公司虧損 $7,800。

假設你是偶爾用 Claude Max 寫文章的內容創作者,每個月大概使用 10 小時,遠低於理論上限。你實際讓 Anthropic 花費的推論成本可能只有幾十美元。而另一位每天工作 8 小時、持續用 AI 寫程式、問問題的工程師,他的用量才真的逼近「最大值」。這個定價模型下,你們兩人都付 $200——你(輕度用戶)實際上補貼了那位工程師(重度用戶),而不是 Anthropic 虧本補貼所有人。相較於「用多少付多少」的純 API 計費,訂閱制讓 Anthropic 更能預測收入;但若重度用戶比例過高,財務壓力仍然存在。這個討論提醒開發者和用戶:訂閱方案的「最大用量」數字更多是行銷宣傳,而非實際的補貼承諾。

T4
Nadella:勿亂用頂級 AI 模型

微軟執行長薩提亞・納德拉(Satya Nadella)在近期談話中,點出一個 AI 使用者常犯的毛病——「token 極大化」(token-maxing,意思是不管什麼問題,都丟給最強、最貴的 AI 模型來處理)。他說,像 GPT-4o、Claude Opus 這類「前沿模型」(frontier model,即目前能力最強的頂級 AI)應該被保留給真正複雜的任務,不應該浪費在發電子郵件、整理筆記這種日常小事上。他的核心論點是:使用 AI 帶來的生產力提升,必須符合它消耗的 token 費用(token 是 AI 的計費單位,大約等於一個英文單字或半個中文字)。有趣的是,納德拉自己也坦承「我也是 token 極大化控,真的很上癮。」——說的是一回事,做的又是另一回事。

假設你是一位開發者,需要完成兩件事:一是把 10 份合約文件做關鍵條款摘要與風險分析(複雜推理),二是把 100 則客服訊息做情緒分類(正面或負面評論)。按納德拉的建議,合約摘要用 Claude Opus 或 GPT-4o 等頂級模型,情緒分類用 Claude Haiku 或 GPT-4o mini 這種輕量小模型就夠了。差異在哪?以 OpenAI 定價為例,GPT-4o 輸入每百萬 token 約 $5,GPT-4o mini 只要 $0.15,相差逾 30 倍。100 則客服訊息若全用頂級模型,成本是用小模型的 30 倍以上,但分類準確度幾乎沒有差別。「選對模型、做對任務」,正是納德拉所說「邊際生產力必須匹配 token 邊際成本」的實際操作。