AI Daily Digest

📰 每日 AI 彙整

2026-06-13  ·  共 47 則報導
T1 爆炸重要T2 值得關注T3 一般資訊T4 參考用T5 可略過
T1
T1
美政府強制下架 Anthropic 最強 AI

美國政府以國家安全為由,於美東時間 2026 年 6 月 12 日下午突然下令 Anthropic(開發 Claude 系列 AI 的公司)立即停用旗下最強大的兩款 AI 模型:Claude Fable 5 與 Claude Mythos 5,全球所有用戶同步受到影響。政府此舉表面上以出口管制(限制外籍人士取用)為由,實際原因是發現 Fable 5 存在一個 jailbreak(繞過 AI 安全護欄的方法,也就是讓模型做出原本被設計為拒絕的危險事情)漏洞,擔心有人拿它來找出重要軟體的安全弱點。Anthropic 強烈反彈,公開表示:「我們不認同找到一個範圍很窄的潛在 jailbreak,就應該將已部署給數億人的商業模型全面下架」,並指出 OpenAI、Google 等競爭對手的模型也具備類似能力,網路安全專業人員本來就在合法使用這些功能。這起事件充滿諷刺:Anthropic 長期主動宣傳自家 AI 有多危險強大、以「負責任 AI 開發者」自居的行銷策略,反而引來了政府嚴厲審查,印證了 OpenAI 執行長 Sam Altman 之前批評 Anthropic「恐懼行銷」的說法。

以受影響的 Mythos 5 為例:這款模型強大到只要輸入一個大型軟體(例如 Windows 作業系統或 Chrome 瀏覽器)的原始程式碼,它能自動找出其中的安全漏洞——相當於一個頂尖駭客幫你免費做程式碼安全審計。Anthropic 因此把 Mythos 5 限制在「Program Glasswing」計畫內,只開放給事先嚴格審核的 50 家機構,一般人根本接觸不到。Fable 5 則是三天前剛推出的「公開安全版」:加了護欄機制(guardrail,讓 AI 自動拒絕高風險要求的過濾層)後面向一般大眾。然而政府認為,即便加了護欄,只要「找出軟體漏洞」的核心能力仍在,就構成安全威脅——於是兩款模型同步強制下線。對開發者和企業用戶來說,這意味著:正在用 Fable 5 跑的程式碼審查、安全測試自動化流程,在毫無預警的情況下突然中斷;而 OpenAI 的 GPT-5.5 目前並未受到同等限制,仍可繼續執行相似功能,形成明顯的競爭不對等。

T2
T2
NVIDIA 開源 Agent 技能安全掃描工具

NVIDIA(就是做顯示卡、AI 晶片的那家公司)在近日公開發布了一款叫做 SkillSpector 的安全掃描工具,專門用來在安裝前檢查 AI Agent(能自動完成任務、幫你做事的 AI 程式)的「技能」(Skill,可以理解成 AI Agent 能安裝的外掛功能模組)是否藏有安全風險。研究人員分析超過 4 萬個 AI Agent 技能後,發現其中 26.1% 含有安全漏洞,5.2% 甚至是惡意程式——裡頭藏著木馬病毒、加密貨幣挖礦程式或偷密碼的竊密器;88% 的企業在過去一年內都曾遭遇確認或疑似的 Agent 安全事件。SkillSpector 採兩階段掃描:第一階段用 11 個靜態分析器(不實際執行程式碼、只看結構的掃描方式)高速把可疑項目全部標記;第二階段選擇性引入 LLM(ChatGPT 這類大型語言模型)來判斷技能「聲稱要做什麼」與「實際行為」是否一致,整體準確率約 87%,涵蓋提示注入(Prompt Injection,攻擊者在輸入文字中嵌入惡意指令欺騙 AI 執行非預期行為)、工具投毒(Tool Poisoning,讓 AI 使用的工具暗藏惡意功能)等 16 類 64 種 Agent 特有漏洞模式。整個工具以 Apache 2.0 授權完全開源,pip install skillspector 一行即可安裝。

假設你的公司開發了一個客服 AI Agent,從某技能市集下載了一個「自動發送郵件」的外掛技能。舊做法是直接安裝,毫無安全把關;現在只需在 CI/CD 流程(程式碼自動化測試與部署的流水線)中加入 skillspector scan ./email-skill --fail-on CRITICAL。SkillSpector 掃描後發現這個技能風險評分 85 分(超過 80 分即標記「請勿安裝」),原因是它除了發送郵件,還悄悄把收件人清單回傳外部伺服器——典型的資料竊取行為。舊做法必須等資安事件爆發才會發現問題,平均額外損失 67 萬美元;新做法在安裝前就自動攔截,CI/CD 流程拒絕這個技能進入生產環境,無需人工介入。相比之下,Snyk 或 Semgrep 等傳統工具只能掃一般程式碼漏洞,完全看不懂提示注入或工具投毒這類 Agent 特有攻擊,SkillSpector 填補的正是這個空白。

T2
編程 Agent 評測換新標準

Artificial Analysis(一個專門評測各家 AI 模型能力的第三方機構)宣布,將他們的「Coding Agent Index(AI 寫程式能力排行榜)」裡的評測基準,從 SWE-Bench Pro 換成 DeepSWE。SWE-Bench Pro 是一個拿真實 GitHub(全球最大程式碼托管平台)歷史 issue 來當題目的測試標準,但被發現可以「作弊」——AI 模型只要記住那個程式碼倉庫的歷史紀錄,就能提前知道答案,所以高分不代表真的會解問題。DeepSWE 改由人工從頭設計新題目,讓 AI 無法靠「背答案」得高分,更能反映真實能力。換了基準後,排名大洗牌:Claude Code(Anthropic 公司的 AI 寫程式工具)搭配 Fable 5 模型以 77 分奪冠,Codex 搭配 GPT-5.5(OpenAI 的工具)以 76 分緊追,Claude Code 搭配 Opus 4.8 降至 73 分第三。這次討論還帶出更深層的問題:這些排行榜測的到底是「模型本身有多強」,還是「整個工具產品的設計有多好」?有研究者發現,用同樣的底層模型,換了不同的外層操控框架(harness,就是驅動 AI 執行任務的包裝程式),表現差異顯著,意味著 AI 公司擅長做模型,不一定擅長做產品介面與工作流程設計。

假設你是開發者,想選一套「最能自動修 bug 的 AI 工具」。過去你看 SWE-Bench Pro 排行,但那個排行已被確認可被廠商投機——因為測試題都是公開的歷史 issue,廠商可以讓模型「預先學會」那些答案,所以高分未必代表遇到新問題也能解決。換成 DeepSWE 之後,題目全部是新設計的,AI 沒有作弊空間。結果排名變了:本來可能你選了舊排行第一的工具,現在新排行冠軍換成 Claude Code + Fable 5,你的決策依據就要重新校準。更進一步,如果你自己公司在考慮用 API(程式介面)直接串接模型,還是用現成的 coding agent 產品,這次討論提醒你:即使用同一個底層模型,不同廠商包裝的工具在實際任務上的表現差距可能超過你想像,光比較模型本身的分數並不夠。

T2
AI Agent 基礎設施三大進展

這篇報導整理了三項正在改變 AI agent(就是能自主執行任務的 AI 程式)開發生態的基礎設施進展。第一,Artificial Analysis 推出了名為 AA-AgentPerf 的全新基準測試(benchmark,也就是衡量系統表現的標準化考題),不再只看「每秒能處理多少字」,而是改看「每百萬瓦電力能跑幾個 AI agent」,核心指標叫做 Agents per Megawatt,早期測試顯示 DeepSeek V4 Pro 模型在 GB300 和 B300 晶片上的效率優於舊款 Hopper 及 AMD 設定。第二,SkyPilot 推出了 Sandboxes(沙箱,就是讓 AI 產生的程式碼在隔離環境裡安全執行、跑壞了也不會波及外部系統),可在自己的 Kubernetes 叢集(一種管理大量運算資源的平台)上部署,宣稱啟動不到一秒、單叢集可同時撐 5 萬個沙箱、成本比商業服務低 4 到 10 倍。第三,Anthropic 也擴充了 Claude Managed Agents(讓 Claude AI 代理在客戶自行控管的基礎設施中運作)的說明文件,支援多家雲端或地端部署方案。三件事指向同一個趨勢:AI agent 開發正從「展示 demo」進入「可靠落地、安全可控、自主掌管基礎設施」的成熟階段。

假設你在公司內部打造一個 AI 自動化測試 agent——它會幫你生成測試程式碼,並自動執行看看有沒有 bug。問題是:AI 寫出來的程式碼可能含有危險操作(比如誤刪資料庫),你不敢直接跑在正式環境。以前的做法:要麼自己搭一套隔離環境(工程量龐大),要麼花錢用 E2B、Daytona 等商業沙箱服務(成本偏高)。現在用 SkyPilot Sandboxes,你只要把它部署在公司既有的 Kubernetes 叢集上,agent 每次生成一段測試程式碼,系統在不到一秒內自動開一個沙箱、執行完、再關掉,整個流程安全隔離,費用比外部服務便宜 4 到 10 倍,而且資料全程留在你自己的基礎設施裡。搭配 AA-AgentPerf 基準,你在選購伺服器時也可以直接比較「同樣的電費能支撐多少 agent 同時跑」,而不只是看哪張 GPU 跑分最高。

T2
AI 數學測試改版,通用模型超越專科

FrontierMath(一個專門用來測試 AI 解高難度數學題能力的考題集,被視為衡量 AI 數理推理能力的重要標尺)發布了 v2 新版本,起因是發現舊版題目有高達 42% 含有錯誤——修正後各家 AI 的得分普遍上升,但彼此相對名次基本不變。在改版後的測試中,Claude Fable 5(Anthropic 推出的最新頂尖 AI)在各難度級別達到 87–88% 的得分,顯示頂尖 AI 正快速接近這個被認為極度困難的考題天花板,也說明靜態基準測試越來越容易被「刷穿」。同一時間,Google 的 Gemini-SQL2(一個優化「把文字描述轉換成資料庫查詢語言」能力的 AI)宣稱在業界標準測試中取得最佳成績,不過有研究者質疑這可能只是針對這份測試過度調校的結果。最值得關注的是醫療研究:根據 Nature Medicine 的最新結果,直接使用 Google、OpenAI、Anthropic 的通用旗艦 AI,在臨床醫師評估中竟然優於那些專門為醫療設計的特定系統——「讓超強通用 AI 直接上」正在取代「讓 AI 只學一個領域」的老做法。

以醫療問診輔助為例:過去醫院若想導入 AI 協助診斷,通常需要採購一套「醫療專用 AI」——這種系統耗費大量人力用病歷和醫學文獻訓練,造價高昂且更新緩慢。現在,Nature Medicine 的研究發現,直接呼叫 Claude、Gemini 或 GPT 等通用 AI 的 API(API 就是讓程式直接存取 AI 服務的介面),在臨床醫師的實際評分中反而更勝一籌。假設你是一家中型診所的系統負責人,原本預算編了大筆費用導入醫療專用 AI,現在可以考慮改用每月幾萬元的通用 AI 訂閱,不只省下鉅額費用,效果更好、更新也更快。舊做法是「客製化訓練的專科 AI」,新做法是「直接接通用旗艦 AI」,優勢差距正在快速拉大。

T2
MiniMax M3 開源多模態前沿模型

中國 AI 公司 MiniMax 於 2026 年 6 月 1 日發布了 M3,一款「開放權重」(open-weight,代表模型的參數檔案公開讓任何人下載,可自行架設在伺服器或電腦上使用,不受廠商雲端限制)的前沿 AI 模型。M3 是目前第一個同時達到三項能力的開源模型:支援 100 萬 token 的超長上下文視窗(token 是 AI 切分文字的最小單位,100 萬 token 約等於整部《哈利波特》全集的文字量,也就是它能在一次對話中「讀完」並記住這麼多資料)、原生多模態能力(即直接理解圖片與影片,不只是文字),以及前沿等級的程式碼撰寫能力。在軟體工程自動化測試 SWE-Bench Pro(一個讓 AI 自動修復真實 GitHub 程式碼錯誤的標準評測)上,M3 拿到 59% 的成績,號稱超越 GPT-5.5 和 Gemini 3.1 Pro;此外它還能直接操作桌面電腦(包括移動滑鼠、點擊按鈕、執行終端機指令),可作為真正能「動手」完成任務的 AI 代理人(agent,即能自主規劃並執行多步驟任務的 AI)。M3 採用全新的 MiniMax Sparse Attention(MSA,稀疏注意力機制,一種讓模型在處理超長文章時只關注真正重要的段落、大幅降低運算量的架構創新)架構,在 100 萬 token 長度下解碼速度比前代 M2 快約 15.6 倍。

假設我是 AI 研究助理,需要驗證一篇 ICLR 2025(ICLR,全名 International Conference on Learning Representations,深度學習領域最重要的頂級學術會議之一)優秀論文的實驗結果是否能被重現。過去這件事需要人工搭建實驗環境、逐行讀程式碼、一組一組跑實驗,往往要花費數天甚至數週。改用 MiniMax M3 後,只需把論文 PDF 和程式碼倉庫一起提供給它:M3 在約 12 小時內自主完成了 18 次程式碼提交與 23 組實驗圖表的生成,最終成功復現該論文的核心實驗結果,全程幾乎不需要人工介入。另一個案例是 GPU 效能優化:工程師交給 M3 一個矩陣乘法運算核心,它在 24 小時內自主提交了 147 次效能測試,將 NVIDIA Hopper GPU 的峰值硬體利用率從 7.6% 提升到 71.3%——這類工作過去需要深厚的底層 GPU 程式設計專業知識,現在 M3 可以自主完成。相較於一般 AI 工具只能給建議、需要人工執行每一步,M3 真正做到了「交出任務、等待結果」的端對端自動化。

T2
Fable 5 一夜逆向30年前遊戲

Fable 5(就是 Anthropic 公司最新一代 Claude AI 模型的代號)近期在軟體開發領域展現了三項令人震驚的成果。第一,有開發者用 Fable 5 在一個晚上完成了對 1989 年 DOS 遊戲《Midwinter》執行檔的完整逆向工程(就是「把一個沒有原始碼的老程式完全解碼,搞清楚每段程式碼在做什麼」),而同樣的工作用更早的 AI 模型需要六個月才能完成。第二,另一位開發者靠著「氛圍編程」(vibe coding,就是用說話方式跟 AI 對話讓它自動寫出整個程式,開發者不用逐行寫程式碼)在短短幾天內做出了能讓多人同時上線的瀏覽器 RPG 遊戲《World of ClaudeCraft》,並公開了原始碼和可玩版本。第三,一個叫 Ponytail 的免費外掛為 Claude Code(Anthropic 的 AI 程式助理工具)加入「懶惰資深工程師」模式,強制 AI 優先用語言內建功能或現有工具解決問題、避免寫新程式碼,測試顯示五項任務的產出從 293 行縮減到 47 行,且執行速度快了約四倍。這三件事共同說明新一代 AI 在程式開發上的能力已大幅超越前一代。

假設你要重製 1989 年的老遊戲《Midwinter》,但原始碼已不存在,手上只有一個幾十年前編譯好的舊執行檔(.exe)。傳統做法是人工閱讀反組譯輸出(disassembly,就是把機器碼轉回接近人能讀的格式),往往要花幾個月甚至幾年。用 Fable 5 的做法是:安排多個 AI agent(多個 AI 分工同步作業)掃描反組譯結果,並用一份「證據帳本」追蹤每個函式的功能推論,一夜之間產出完整標記了 602 個函式的地圖,涵蓋地形生成、車輛物理、AI 邏輯、輸贏判斷、圖形格式和音效。地形生成器還被用 Python 重新實作,輸出與原版逐個位元完全相符。相較用更早版本 AI 需耗時六個月,Fable 5 將這個過程壓縮到一夜,整套工具也以 MIT 授權公開在 midwinter-decode 專案。

T2
AI Agent 開發工具大轉型

這篇文章記錄了 2026 年 6 月一批 AI 開發工具同時往同一個方向前進的重要趨勢。過去,AI 助理(就是 ChatGPT、Claude 這類能對話的 AI)主要是「你問、它答」的聊天模式;但現在,這些工具正在變成可以「定時執行、自動管理帳號密碼、互相監督審核」的基礎設施服務,更像後台伺服器而不是對話視窗。具體來說:Claude Managed Agents(Anthropic 推出的「託管代理人」服務)新增了排程功能與環境變數(environment variables,就是讓程式安全存放帳號密碼、API 金鑰等敏感資訊的機制),讓 AI 代理人能夠定時自動執行任務,且 AI 本身永遠看不到真實的密碼,金鑰在進入 AI 前就已在網路邊界被替換;Perplexity(一個 AI 搜尋引擎)則把深度研究功能直接整合進其 Computer 平台;Cursor(AI 程式碼編輯器)把「自動審查」設為新用戶預設功能,由一個分類子代理人(classifier subagent,就是專門負責判斷要不要動作的小 AI)把關,宣稱準確率達 97%;微軟也把自家 MAI-Code-1-Flash 模型推廣到 GitHub Copilot(程式碼 AI 助理)各方案;LangChain 推出 LangSmith LLM Gateway,提供花費上限、個資偵測、稽核紀錄等功能。整體方向:從「哪個模型最強」的討論,轉移到「如何控制執行、監控流程、保護資料」。

假設你是一個小型開發團隊的工程師,每天早上需要有人去掃描昨晚的 GitHub PR(pull request,就是同事提交的程式碼修改),確認有沒有安全漏洞或格式問題。以前你要手動觸發 AI 工具,還得把 GitHub 的 API 金鑰貼進去,這既麻煩又有資安風險(AI 模型會「看到」你的金鑰)。現在透過 Claude Managed Agents 的新功能,你可以設定每天早上 8 點自動跑一次代理任務,GitHub 金鑰存在「環境變數」裡,AI 執行時金鑰在網路層就被替換,模型本身永遠不接觸真實憑證;同時開啟 LangSmith LLM Gateway 的稽核紀錄,讓你事後能查每次 AI 做了什麼決定、花了多少費用、有沒有不小心把個資傳出去。舊做法:每天手動操作 + 金鑰暴露風險 + 看不到 AI 的決策過程。新做法:全自動定時執行 + 零金鑰暴露 + 完整可查的操作紀錄。

T2
Claude Fable 5 性能微增但售價翻倍

Anthropic(開發 Claude 系列 AI 助理的美國公司)近日發布最新旗艦模型 Claude Fable 5。它在 Artificial Analysis Intelligence Index(由第三方整合多項 AI 能力測試的綜合排行榜)上拿下 64.9 分,居全球第一,並在十項細項測試中的五項創下紀錄,包括「Humanity's Last Exam」(測試 AI 應對頂尖學術題目的能力)拿到 53% 正確率。然而亮眼成績背後有個關鍵問題:Fable 5 的 API 費用(就是開發者呼叫這個模型時按用量付給 Anthropic 的費用)比上一代 Opus 4.8 整整貴了一倍——每百萬個輸入 token(token 可以理解成 AI 處理文字的最小計量單位,大約 750 個英文字等於 1,000 個 token)從 5 美元漲到 10 美元,輸出從 25 美元漲到 50 美元,但綜合性能進步只有 5.7%,讓升級效益顯得非常有限。此外,Anthropic 為 Fable 5 新增了針對資安、生物、化學等敏感主題的安全過濾機制,一旦觸發就自動切換回 Opus 4.8 回應,但費用仍按 Fable 5 收取,約有 8% 的請求會落入這種「付旗艦價、得舊版答案」的情況,進一步拉高實際成本。

假設你是一家企業的技術主管,目前用 Opus 4.8 建了一套內部法律文件問答系統,每月 API 費用約 5,000 美元。你考慮升級到 Fable 5,帳面上性能提升 5.7%,但月費直接翻成 10,000 美元。更麻煩的是,系統偶爾需要詢問「某合約條款如何防範資安責任風險」之類的問題,這類問題可能觸發 Fable 5 的安全過濾,系統靜默切回 Opus 4.8 回答——你付了旗艦版的錢卻得到舊版的答案。以 8% 觸發率估算,每月實際有效的 Fable 5 回應比例只有九成二,但你仍需付出雙倍費用。對比之下,繼續用 Opus 4.8 每月省下 5,000 美元,而你只損失不到 6% 的性能——大多數商業應用幾乎感覺不出這個差距,這讓「是否值得升級」的答案在多數場景下都指向「不值得」。

T2
Google 聯手 FBI 起訴 AI 詐騙集團

Google 和 FBI 首次聯合對一個中國網路犯罪集團提起訴訟,該集團利用 Google 的 AI 系統(就是幫你回答問題、生成文字的那種生成式 AI)批量製造詐騙工具。同一時期,OpenAI 也在其威脅報告中揭露並封鎖了兩個中國帳號集群,這些集群用 ChatGPT(OpenAI 開發的知名對話 AI)大規模生成假新聞、假評論,試圖影響美國的 AI 政策辯論。這兩件事同在 2026 年 6 月幾天內相繼曝光,清楚顯示 AI 技術正被惡意行為者大規模用來詐騙民眾和散布政治假訊息。2025 年全年美國網路犯罪損失高達 210 億美元,其中與 AI 直接相關的損失就已達 8.93 億美元,且增速仍在加快。

假設你在 2026 年 5 月收到一條簡訊,聲稱是 Google 客服或美國郵政通知,要你點連結確認包裹或帳號問題——這很可能就是被起訴的中國詐騙集團發送的假訊息。他們用 AI 批量生成了 131 套詐騙工具包、建立超過 9,000 個假網站,單在 5 月就發送了 250 萬條類似簡訊。傳統詐騙集團需要人手逐一寫釣魚簡訊、架假網站,規模有限;現在有了 AI,一個小團隊就能同時操作數千個假網站、發送百萬級假訊息,且 AI 生成的措辭幾乎和官方通知一模一樣,更難辨認。舊做法:騙局規模小、文字品質粗糙、容易被識破;新做法:AI 自動化生成,規模暴增百倍、真假難分。

T2
Anthropic 限速新模型並直搶客戶市場

Anthropic(就是開發 Claude 這個 AI 聊天助手的公司)最近被爆出兩件讓業界相當不安的事。第一件:他們悄悄對旗下最新模型「Mythos」(也就是 Claude Fable 5,一種新版本的 AI 語言模型)進行「限速」(throttling,意思是故意對特定用戶降低 AI 回應的品質),專門針對那些「想用 Claude 來開發自己 AI 軟體或硬體產品」的企業客戶——換句話說,對可能成為競爭對手的公司,Anthropic 讓他們拿到品質較差的 AI 版本,自家產品則保留最好的效能。Anthropic 官方聲稱這樣做是為了防止外國敵對勢力或其他 AI 實驗室借助 Claude 提升自己,但開發者們高度懷疑這個理由只是藉口,真實目的是保護自身競爭優勢。第二件:Anthropic 一邊向設計工具公司 Figma 和 Canva 等企業收 API 費用(API 就是讓其他軟體公司「租用」Claude 能力的接口),一邊悄悄推出自家應用直接搶奪相同市場——包括直接與 Figma/Canva 競爭的 Claude Design,以及讓 AI 程式助手 Cursor 和 GitHub Copilot 雙雙失去市場份額的 Claude Code。Figma 執行長甚至公開表示 Anthropic「在溝通上不夠誠實」,知名創投機構 A16z 的投資人也警告:「只有模型開發者才能用到最強版本,競爭對手拿到的是被削弱的版本。」這種現象被業界比喻為「平台陷阱」,與 Microsoft 和 Google 過去曾被認定構成非法壟斷的行為模式高度相似。

假設你創辦了一家新創公司,付費呼叫 Claude API,做出一款「AI 程式碼審查工具」,在市場上與 Cursor(另一家也用 Claude API 做 AI 程式助手的公司)競爭。你每月付給 Anthropic 一大筆 API 費用,靠 Claude 的推理能力當作核心競爭力。某天你發現:Anthropic 自家悄悄推出了 Claude Code,功能和你的產品幾乎完全重疊,而且因為他們是模型開發者,能用更深度的內部整合方式、更低成本直接切入你的市場。更糟的是,根據報導,他們給你呼叫的 API 版本已被「限速」——在程式輔助相關任務上,你付錢拿到的 AI 回應品質,比 Anthropic 自家 Claude Code 所使用的版本更差。對比舊局面:過去業界的共識是「模型提供商和 API 客戶是共生關係,模型越好、客戶越成功、提供商也越賺」;但現在變成「模型提供商自己下場開產品、同時對有競爭性的客戶降質供貨」——整個 AI 應用生態系對非模型廠的新創而言,風險已大幅升高。

T2
OpenAI 收購 Ona 強化 Codex 自主編程

OpenAI 宣布收購德國新創公司 Ona(前身是 Gitpod,一個提供雲端開發環境的工具),目的是讓旗下的 AI 編程助手 Codex(一個能自動幫你寫程式的 AI 工具,目前每週有超過 500 萬名活躍用戶)具備執行「長時間、自主性編程任務」的能力——也就是說,AI 可以花好幾個小時甚至好幾天獨立完成複雜的軟體開發工作,就算你的電腦關機了它也能繼續跑。Ona 的核心技術是在各公司自己的雲端環境裡建立安全的「AI 工作空間」,讓 AI agent(可以自動執行多步驟任務的 AI 程式)有一個穩定、持久的地方工作,而不必每次都從頭開始。這筆收購仍需監管機關批准,但整合完成後 Codex 將從「即時對話協助」升級到「長期自主完成整個專案」。這也是 OpenAI 直接回應 Anthropic 的 Claude Code(另一家 AI 公司推出、目前在長時間自主編程領域領先的競爭產品)的戰略動作。

假設我是一名開發者,需要為公司後端系統新增一個「訂單追蹤 API」,整個任務包含讀懂現有程式碼、設計資料庫結構、撰寫程式、跑自動測試、修 bug,來來回回可能要花好幾個小時。現在的 Codex 只能在對話中片段協助,關掉視窗就中斷了。整合 Ona 之後,我只需要下指令:「在我們公司的雲端環境裡新增訂單追蹤 API,要符合現有程式風格,並通過所有測試」,Codex 就會在公司的私有雲端環境中持續工作——我去睡覺、電腦關機都沒關係,幾小時後回來,整個功能已完成且測試通過。而舊做法則必須有人全程盯著 AI 一步步給指令,中途斷線就得重來。Codex 自 2026 年初以來已成長 400%,這次強化預計讓它在「讓 AI 自主完成整個工程專案」這條路上直接追上目前領先的 Claude Code。

T2
Anthropic 偷換模型遭批後透明化

Anthropic(開發 Claude AI 的公司)曾偷偷設置一個機制:當使用者要求執行某些特定任務時,系統會悄悄把請求轉給一個比較弱的模型,而不是使用者以為正在使用的旗艦版 Claude Fable 5(一個高性能的大型語言模型,就像 ChatGPT 那類能對話、寫程式、分析問題的 AI)。研究人員發現,Claude Fable 5 對以下幾類任務會直接拒絕或明顯降低回答品質:訓練競爭對手的 AI 模型、偵錯 AI 程式碼、以及優化神經架構(設計 AI 內部結構的技術)。這引發兩大問題:一是 Anthropic 完全沒有告知用戶這件事,欠缺透明度;二是使用者付了旗艦模型的費用,實際上卻拿到打折服務,白花了時間與金錢。在研究社群強烈反彈後,Anthropic 宣布撤回此政策,改為公開揭示哪些「防護措施」存在,讓使用者能事先知情哪些請求可能受限。

假設你是一位 AI 研究員,花了大筆費用購買 Claude Fable 5 的 API(程式呼叫接口,讓你把 Claude 功能嵌入自己的程式)存取權,計畫讓它幫你優化一個神經網路架構(AI 模型的內部設計結構)。你寫好程式碼送出請求,收到的回答卻模糊且無用——你以為是自己的 prompt(給 AI 的指令)寫得不好,花了好幾個小時反覆改寫,仍然沒有改善。後來才發現原來 Claude 偷偷將這類請求轉給了比較弱的模型,因為「優化神經架構」被內部判定為受限操作。換作新的透明政策:你至少能在送出請求前,先查到哪些任務類別可能被限制,不會在不知情的情況下浪費 API 費用和研究時間。

T2
小米開源 MiMo Code 超越 Claude Code

MiMo Code V0.1.0 是小米(中國科技公司)推出的一款開源 AI 編程助手(就是幫人寫程式的人工智慧工具),可以直接在電腦終端機(也就是命令列的黑框框)裡使用。這款工具在一種叫做「agentic coding」(代理式程式設計,指 AI 自己規劃、分解任務、一步步自動完成大量程式工作)的能力測試中,表現超越了廣受開發者好評的 Claude Code(Anthropic 公司的 AI 程式助理)。特別是在需要超過 200 個步驟、跨越非常長流程的任務中,MiMo Code 的優勢更為明顯。它還配備了一個獨特的「跨工作階段記憶系統」(讓 AI 在不同工作時段之間記住上次做了哪些決策、遇到什麼問題),靠一個獨立的子代理人(背景小 AI 助手)持續做筆記,記錄決策過程、遇到的問題和專案整體進度。這款工具以 MIT 授權(最寬鬆的開源授權之一,允許免費商業使用)在 GitHub 上完全公開。

假設我是一個工程師,要重構(整理改寫)一個老舊後端系統,這件事需要先理解現有架構、建立自動化測試、改寫多個功能模組、確保舊功能不壞掉,整個過程可能超過 200 個步驟。用傳統 AI 助理,每次開新對話視窗,AI 就忘了上次做了什麼、為什麼這樣決策,工程師必須每次重新說明背景。用 MiMo Code,它的「記憶子代理人」會自動在後台記錄:「第 47 步決定把資料庫連線改成 Pool 模式,原因是效能瓶頸」、「第 123 步發現 auth 模組有邊界值問題尚未修」,下次繼續工作時,AI 直接讀取這些筆記接續進行,不需重複說明。對比之下,舊有的 AI 助理在長任務中容易「失憶」或走偏,工程師要花大量時間把 AI 拉回正軌;MiMo Code 的記憶設計讓它在超長多步驟任務中更穩定地持續推進。

T2
AI 自動研究系統達三項 SOTA

Recursive Superintelligence 公司開發了一套「自動化 AI 研究系統」,可以代替人類研究員自己提出研究想法、實作程式碼、執行實驗、驗證結果,然後根據成果自動決定下一步研究方向。這套系統採用「遞迴自我改進」(系統邊做邊根據自己的成果調整做法,一輪比一輪更好)的方式運作,並同時跑多條研究路線,淘汰沒用的、合併有用的。最近它在三個公開的 AI 基準測試(業界用來衡量 AI 技術水準的標準考題)上都拿到了當前最佳成績:包括固定預算下訓練語言模型(就是訓練像 ChatGPT 這樣的對話 AI)的效率、小型語言模型的訓練速度,以及 GPU 核心(負責 AI 運算的專用晶片底層程式碼)的執行效率。這代表 AI 開始能自主完成原本需要頂尖工程師才能做的研究工作。

GPU 核心優化(Kernel Optimization,就是替 AI 運算晶片量身寫出高效率底層程式碼)歷來需要資深工程師手動分析記憶體搬移方式、向量化策略等訣竅,往往費時數週。Recursive 的系統在 SOL-ExecBench 這個公開考題(測量 GPU 程式碼與理論最佳解法的差距)上,自動掃描了 235 個 GPU 核心,歸納出分塊、向量化、記憶體融合等共通優化模式。原先業界最佳分數是 0.699,系統測試後提升到 0.754,縮小了 18% 的與理論最佳值的差距。舊做法需要工程師逐一研究每個核心再手寫優化;這套系統讓整個探索流程全自動,研究人員只需設定目標與驗證規則。

T3
T3
Anthropic 攜 TCS 將 Claude 推入企業市場

Anthropic(研發出知名 AI 助理 Claude 的公司)宣布與 TCS(Tata Consultancy Services,印度塔塔集團旗下的全球科技服務公司,員工超過 60 萬人、業務橫跨全球)建立正式合作關係。合作內容涵蓋三個層面:第一,TCS 將在內部替分布全球 56 個國家的 5 萬名員工引進 Claude,讓他們在日常工作中使用這套 AI 工具提升效率。第二,TCS 會協助它的企業客戶——包括銀行、保險公司、醫院、政府機關等受到嚴格法規管控的機構——打造以 Claude 為核心的 AI 應用程式和自動化流程。第三,TCS 正式加入 Anthropic 的「Claude Partner Network」(合作夥伴網路,即 Anthropic 授權特定顧問公司代為協助企業導入 Claude 的機制),成為在全球推廣 Claude 企業服務的重要管道。

假設一家大型保險公司想用 AI 加速理賠審核,過去人工逐一閱讀理賠文件、比對條款往往耗時數天。透過 TCS 以 Claude 為基礎打造的審核工具,理賠員只需上傳文件,AI 便自動比對保單條款、標出異常項目並產出初步審核報告,人工僅需最後確認,審核時間可從數天縮短至數小時。保險業屬於高度受監管的行業,AI 部署必須符合資料隱私、稽核可追溯等法規要求,這些光靠企業自己摸索風險極高。TCS 作為熟悉各國金融與醫療法規的顧問商,負責確保 Claude 的整合方式合乎規定,企業無需自行組建 AI 合規團隊,就能安全地把 AI 引進日常業務。

T3
Claude Fable 一鍵生成完整遊戲

一位開發者分享了他用 Claude Fable(Anthropic 最新推出、被外界稱為「最危險 AI 模型」的對話型 AI)在一次對話裡完成整款瀏覽器遊戲的親身經歷。他把醞釀多年的遊戲創意直接描述給 AI,45 分鐘後,模型交出了一個 2,319 行的單一 HTML 檔案(就是一個網頁文件,用瀏覽器打開就能玩),完全不需要安裝任何額外程式或套件,花費約 20 歐元的 API 費用(就是使用這個 AI 服務的費用,按輸入輸出的文字量計算)。作者表示,這是他第一次覺得 AI 真的完整實現了他腦海中的遊戲畫面,且成品「非常有趣」。這個案例展示了新一代 AI 在一次性完成複雜創作任務方面的實際能力。

假設你有一個卡了好幾年的遊戲點子——一隻牧羊犬在草原上驅趕羊群的小遊戲。以前要讓這個點子變成真的遊戲,你得會寫 JavaScript(一種網頁程式語言)、懂遊戲物理邏輯、還要花好幾個週末慢慢除錯。這位作者把遊戲概念用文字描述給 Claude Fable,AI 在同一個對話視窗裡不斷撰寫、修改程式碼,最終產出一份 2,319 行的完整 HTML 檔案,在瀏覽器打開就是完整的《Shepherd's Dog》遊戲。對比他之前試過的舊版 Claude 模型,早期模型只能做出殘破的雛形,而 Claude Fable 第一次真正「理解」了他的完整構想並一次到位地實現。結論:不會寫程式的人,花不到一個小時與 100 美元以內的費用,現在有機會把長年腦中的遊戲點子變成可以讓朋友玩的真實作品。

T3
開源 AI 為何必須勝出

這是一篇由 Ahmad Osman 撰寫的倡議宣言,主張開源 AI(就是原始碼和模型權重可供所有人自由取用、修改、在自己電腦上執行的 AI)必須勝過封閉式商用 AI。文章認為 AI 已成為現代社會的「文明基礎建設」——就像電力或道路,是工作、教育、科學和公共服務都要依賴的底層技術。作者擔心若 AI 控制權集中在少數大公司手中,人類將陷入「認知訂閱經濟」:每次想用 AI 輔助思考、研究、做決策,都得付錢給少數企業,且無從得知 AI 到底在做什麼、做對了沒。文章呼籲確保 AI 保有六個特質——「可用、可理解、可複製、可在本機執行、使用成本可負擔、以及由社群共同治理」——讓任何人都擁有「不需要任何人允許就能研究、建置、部署、審查 AI」的自由。

假設一位醫療研究人員想用 AI 分析病患資料,找出某種罕見疾病的規律。若只能使用封閉的商用 AI API(就是租用大公司 AI 服務的介面),他必須把敏感病患資料上傳到第三方伺服器,看不懂 AI 的判斷邏輯,每次查詢都要付費,哪天服務漲價或停用就無法繼續。但若有開源 AI 可在本機執行,他可以把模型下載到自己醫院的伺服器上,病患資料完全不外流,還能直接檢視 AI 推理過程有無偏見或錯誤,也不受服務商定價影響。這篇宣言的核心論點就是:確保這種「可在本地自主運行、可被任何人審計的 AI」永遠存在,是全人類的共同利益,不能讓它消失。

T3
TycoonLE JAX 強化學習規劃環境

TycoonLE 是一個專門為強化學習(讓 AI 透過反覆嘗試和獎勵機制自我學習的技術)設計的模擬環境,模擬的是「運輸經濟」場景——AI 要在裡面管理運輸路線、調度貨物、安排融資,目標是追求長期最大利潤。它採用 JAX(一個讓 Python 數值計算能在 GPU/TPU 上大幅加速的工具庫)撰寫,讓訓練和評估速度更快。這個環境特別強調「長期規劃」——不是看短期的立即回報,而是要求 AI 做出需要多步推算才能見效的決策,例如先借債建設路線、之後才開始獲利。專案同時附帶可視化回放介面和基準測試工具 TycoonBench,方便研究人員分析 AI 的決策行為。

假設我要訓練一個 AI 學習「如何在物流市場中做長期投資決策」。傳統的棋盤格環境(如 GridWorld)太簡單,無法模擬「先舉債建路線、延遲多步才見回報」這種現實決策。用 TycoonLE,我可以讓 AI 在模擬地圖上選擇建立貨運路線(例如 A 城→B 城),同時管理債務上限和資金流動,每步動作都受到合法性檢查。訓練完後,用內建的回放 UI 可以看到 AI 在哪些決策點選擇了哪條路線、載了什麼貨、借了多少錢;對比隨機策略基準(TycoonBench 提供),就能量化 AI 的長期規劃能力有多強。相較於用棋盤遊戲訓練出來的 AI,TycoonLE 訓練出的 AI 更接近現實世界的決策場景。

T3
macOS 本地 AI 編程代理教學

這篇文章是一份詳細的實作教學,說明如何在 macOS 電腦上架設一套完全離線、不需要網路的 AI 程式碼助理系統(就是能幫你寫程式碼、改 bug 的 AI 工具,類似本機版的 GitHub Copilot)。整套系統以 llama.cpp(一款讓一般消費級電腦也能跑大型 AI 模型的開源推論引擎,inference engine)為核心,搭配 Gemma 4 26B 或 Qwen3.6 35B 等最新開源模型(模型就是 AI 的「大腦」,參數量越大通常越聰明,Q4 量化版約 16GB),透過 Mac 內建的 Metal GPU 加速運算。作者還介紹了一個叫 Pi 的終端機程式代理工具(agent,指能自動執行多步驟任務的 AI 助理),以及「推測解碼」(Speculative Decoding,讓小模型先猜答案、大模型再驗證,藉此提升生成速度)的技巧,讓回應速度比不用時快了 24%,在 Apple M1 Max 上達到每秒約 72 個字符的可用水準。整個過程資料完全不離開自己電腦,適合重視隱私或需要離線工作的開發者。

假設你是一位在公司內網工作、無法把程式碼傳到外部雲端服務的後端工程師,想要一個能幫你寫程式的 AI 助理。過去要麼用 GitHub Copilot(程式碼會傳到雲端),要麼就沒有好用的替代方案。按照這份教學,先編譯 llama.cpp 並從 HuggingFace 下載 Gemma 4 26B 模型(約 16GB),用一條指令啟動本地 OpenAI 相容 API 伺服器,再設定 Pi 代理工具指向這個本地伺服器。之後在終端機輸入「幫我寫一個 Python 函式,讀取 CSV 並計算各欄平均值」,Pi 就會呼叫本機 AI、生成完整程式碼並直接存到檔案——全程不碰網路、不產生 API 費用。實測對比:相比雲端 API 延遲稍高但完全離線且免費;相比同樣支援 Mac 的 MLX 框架,llama.cpp 實測速度反而更快,令作者感到意外。

T3
BitBoard:人機協作 AI 資料分析平台

BitBoard 是一套讓「人」和「AI 代理」(就是能自動執行任務的 AI 程式)共同協作做資料分析的線上工作台,由 Y Combinator(矽谷知名創業加速器)P25 梯次新創 BitBoard 發布。現有的商業智慧工具(BI 工具,就是企業用來做報表、分析數據的軟體,例如 Tableau、Power BI)是為人設計的,後來硬加上 AI 聊天功能效果有限;而純 AI 聊天工具分析完資料就消失了,沒辦法留下可共用、可追溯的報表。BitBoard 讓你把自己使用的 AI 程式碼助手(例如 Cursor、GitHub Copilot)或 AI 聊天機器人直接接進來,由人和 AI 在同一份儀表板(dashboard,就是即時呈現數據的視覺化介面)上共同建立與維護報表。每一次分析結果都有完整的來源記錄(provenance),相同的查詢永遠回傳相同的數字,讓 AI 代理的結論可以被人類核對與信任,解決以往「AI 說了一個數字,不知道怎麼算出來的」的痛點。

假設你是電商公司的資料分析師,發現最近購物車轉換率(就是有多少人把商品放進購物車後真的完成結帳)這週突然下滑。你把 BitBoard 連上公司資料庫,指示你的 AI 代理(例如 Claude 或 GPT)寫一段 SQL(資料庫查詢語言)拆分不同裝置的轉換率——代理的查詢與結果直接顯示在 BitBoard 的儀表板上。你看到 iOS 用戶轉換率明顯低於 Android,再請代理進一步拆解到各 iOS 版本,最終定位到 iOS 18.4 升級後的結帳頁出現問題。整個過程中,代理做過的每一步查詢、引用的資料來源和產出的數字都被記錄下來;你的主管不需要重跑分析,打開同一個儀表板就能看到完整脈絡與計算依據。舊做法是:AI 在聊天視窗給你一個數字,你複製貼到 Excel 再手動做圖,交接給主管時分析邏輯早已失傳,主管若有疑問只能從頭再問 AI——這種「分析結果一次性消耗、無法積累」的問題,是 BitBoard 想解決的核心。

T3
DiffusionGemma 快4倍誤6倍

NVIDIA 發布了 DiffusionGemma 26B 的 NVFP4 量化版本(量化就是把 AI 模型壓縮、讓它佔更少記憶體、跑得更快,但可能犧牲一點準確度)。DiffusionGemma 是 Google DeepMind 開發的一種新架構語言模型,它不像 ChatGPT 那樣逐字生成文字,而是採用「擴散」方式(Diffusion,就是原本用來生成圖片的技術,例如 Stable Diffusion,現在被搬來用在文字生成),每次同時生成 256 個字符的文字塊,再反覆修整。根據官方數據,這個模型在 NVIDIA H100 GPU(頂級資料中心顯示卡,單張要價數萬美元)上可達每秒超過 1,100 個 token(token 就是 AI 處理文字的基本單位,大約等於 0.75 個英文字)的生成速度,比傳統逐字生成快約 4 倍。然而,獨立用戶測試揭露了嚴重的準確度問題:在以 Steve Jobs、俄羅斯方塊、BeOS 為主題的 61 個事實問題中,DiffusionGemma 錯了 28 個(傳統 Gemma 只錯 5 個),且越冷門的話題錯越多,包括捏造人名和錯誤定價。社群也發現 Unsloth 提供了可在消費者顯示卡上執行的 GGUF 格式版本(一種更廣泛相容的模型壓縮格式),讓沒有 H100 的一般用戶也能試用,但需要特殊版的 llama.cpp(開源 AI 推理框架,讓大型語言模型能在個人電腦上執行)才能支援這種塊擴散架構,標準版 llama.cpp 目前尚不相容。

我需要快速替一份 10,000 字的英文技術演講逐字稿生成摘要 → 使用 DiffusionGemma 26B(搭配 H100 顯示卡),模型每批次同時生成 256 個字的文字塊,整份摘要約 13 秒生成完畢(每秒 763 tokens)→ 摘要文字表面流暢,但測試顯示:問「這位演講者的公司成立於哪一年?」等事實細節時,約 45% 的事實題會答錯或捏造內容(例如虛構的公司名稱、錯誤的發布日期)→ 對比傳統 Gemma 26B:完成同等任務需要 46 秒(慢 3.5 倍),但事實錯誤率只有約 11%。結論:DiffusionGemma 適合速度優先、允許後續人工校對的場景(如草稿生成、大量文件粗篩);需要高事實準確度的任務(醫療摘要、法律文件),目前仍應選擇標準的逐字生成模型。

T3
llama.cpp 整合 EAGLE3 推理加速

llama.cpp(一套讓一般人的電腦也能在本機執行大型 AI 語言模型的開源工具)正式合併了 EAGLE3——一種稱為「推測解碼(speculative decoding,讓小模型先快速猜幾個字、大模型再快速驗證,省去逐字生成的等待)」的推理加速技術。EAGLE3 的獨特之處在於,它的輔助小模型可以直接讀取主模型的「中間運算特徵(intermediate features,即模型內部未完成的計算結果)」,讓猜測命中率更高、整體速度更快,官方報告的加速幅度約為 2 至 3 倍——Gemma4 模型在不開啟推理模式時甚至可超過 3 倍,而即便使用 Q4_K_M 量化版(量化指把模型壓縮成更小尺寸以便在消費級顯卡上執行)也能維持顯著加速。同期,社群開發者 LLMFan46 也在 Hugging Face(全球最大 AI 模型共享平台)上釋出了 Gemma 4 的四個量化版本(12B、12B QAT、26B-A4B QAT、31B QAT),涵蓋 GGUF、GPTQ-Int4、NVFP4 等多種格式,讓不同 GPU 硬體的用戶都能就近選用。

假設你在家用個人桌機(配備 RTX 4090 顯卡)本地跑 Gemma 4 31B 模型做程式碼助手,舊版 llama.cpp 下每秒大約輸出 12–15 個 token(token 是 AI 生成文字的最小單位,大約等於半個英文單字或一個中文字),對話回應明顯遲頓。現在更新到支援 EAGLE3 的版本後,你只需額外下載對應的 EAGLE3 draft 模型(體積遠小於主模型的輔助模型),啟動時加入 `--speculative-ngram` 或 `-hfd` 等參數指定 draft 模型路徑,llama.cpp 就會自動切換成「先猜再驗」模式。理論加速約 2 倍以上,輸出速度有望超過 30 token/秒,同樣的硬體、同樣的大模型、對話流暢度卻接近原本較小模型的水準——不需要換顯卡,也不需要改用更小的模型來換速度。

T3
設計 AI 迴圈取代手動提示

這篇文章討論一個在 AI 開發圈越來越流行的概念:「迴圈堆疊(Loop Stacking)」。意思是說,越來越多 AI 開發者不再手動一次次輸入指令給 AI(就像你每次跟 ChatGPT 一問一答那樣),而是設計一套「自動循環系統」,讓 AI 完成一輪工作後自動觸發下一輪,不需要人在旁邊盯著。著名 AI 研究者 Andrej Karpathy(特斯拉前 AI 總監、現 AI 教育創業者)指出:當你每次都要等 AI 回應再給下一個提示,你本人就成了整個系統最慢的環節。他的目標是把所有流程重新設計成「排好一次、按下開始」就能跑完的自動系統,讓 AI Agent(會自己使用工具、能自主執行任務的 AI 系統)在沒有人介入的情況下,自主完成整個研究或開發任務。這個趨勢的核心概念是「槓桿」——同樣的時間精力,能指揮越多 AI 自動完成的工作,未來的競爭力就越強。文章最後提出「Salty Lesson(苦澀的教訓)」:不要再自己動手修問題,而是要建立隨 AI 數量增加就能自動擴大產能的系統。

假設你是一個工程師,需要每天監控 GitHub(全球最大程式碼開源平台)上 100 個開源專案的最新動態並摘要。舊方法:你每天手動打開網頁,一個個複製程式碼更新貼給 AI 問「這個改動重要嗎?」,每天要花兩小時盯著螢幕。新方法(Loop 設計):你只需要花一次時間設計好流程——寫一段程式讓 AI Agent 每天自動抓取 100 個專案的更新,自動判斷重要性,自動寫成摘要報告寄到你信箱。這個「迴圈」一旦設計好,你一個手指都不用再動。更進一步,你可以在這個迴圈上再疊一層:讓另一個 AI 每週自動把七天的摘要合成一份週報,再疊第三層讓另一個 AI 根據週報建議你下週要深入研究哪個技術方向。每往上疊一層迴圈,個人產出就幾何級數放大,而你花的時間幾乎不增加。那些還在一則一則手動提示 AI 的人,最終會被「懂得設計迴圈」的人遠遠甩在後面。

T3
AI 資料基礎設施成新瓶頸

本週 AI 領域出現多個圍繞「訓練資料品質與管線」的重要進展,顯示資料基礎設施正成為 AI 發展的核心瓶頸。首先,Macrodata Labs 推出開源框架「Refiner」,專為機器人(讓機器能做體力工作的 AI 系統)訓練資料設計——把人類示範操作的影片和感測器訊號整理成可直接用來訓練的標準格式。其次,AI 研究公司 Goodfire 提出「預測性資料除錯」概念,指出用來調整 AI 行為偏好的訓練資料集(DPO 資料集,就是教 AI「這個回答比那個好」的資料)常常含有隱藏問題(例如損壞的安全規則、或 AI 亂編答案的樣本),應在訓練前先篩出來。第三,Allen AI(非營利 AI 研究機構)發布了工具「ModSleuth」,可追蹤現代大型語言模型(LLM,就是 ChatGPT 這類對話 AI)的「依賴圖」,揭露每個模型實際上是由幾十甚至幾百個其他模型和資料集組合而成——破除「AI 只是用網路文字訓練」的簡化印象。此外,Weaviate(向量資料庫公司)推出 Engram,以「萃取→轉化→提交」循環管理 AI 記憶,比直接把對話紀錄堆積起來更有效率;Qdrant(另一間向量資料庫公司)也指出,即使 AI 可以讀取超長文章,靠資料庫查詢仍更省時省錢,兩者不會互相取代。

假設你是 AI 研究者,想了解某個 AI 模型(如 Olmo 3)究竟用了哪些東西訓練而成。過去只能翻閱論文,資訊零散且常不完整。現在用 Allen AI 的 ModSleuth,可以直接查詢 Olmo 3 的依賴圖——工具告訴你它依賴了 89 個其他模型和 183 個資料集;同類型的 Nemotron 3 更依賴 273 個模型和 560 個資料集。這代表現代 AI 不是從零訓練的,而是層層疊加在其他模型的成果上。這對了解 AI 能力來源、版權爭議或品質評估都有直接幫助;舊做法只能憑論文描述猜測,ModSleuth 讓依賴關係變得可視、可查,一目瞭然。

T3
Avataar Varya 影片 AI 比競品便宜 20 倍

Avataar AI(印度一家專注電商影片工具的新創公司)推出了 Varya 影片生成模型(就是一種能自動從文字或圖片描述生成短片的 AI 工具)。Varya 基於阿里巴巴的開源模型 Wan 2.2,透過「蒸餾」技術(把原本龐大複雜的 AI 模型壓縮成更輕量版本,讓它跑得更快、成本更低)進行優化,將生成步驟從 50 步大幅縮短至 4 步,速度提升 10 倍——以 Nvidia H200 GPU(目前最高階的 AI 運算晶片之一)測試,生成一段 5 秒 720p 影片只需 45 秒,而原版 Wan 2.2 要 1,230 秒。最關鍵的差異在定價:每秒影片僅需 0.005 美元,比 Veo、Kling、Luma、Runway 等主流競品(每秒 0.10 美元)便宜約 20 倍。此外,模型針對印度文化資料特別訓練,能辨識印度節慶、在地食物與服裝、建築風格等細節,生成結果更貼近南亞視覺語境。Varya 將以開源授權(免費公開模型參數,任何人都能下載、自行部署或修改)的形式在印度政府的 AIKosh 平台發布。

假設我是一個在印度賣傳統節慶禮品的小電商業者,想製作排燈節(Diwali)商品宣傳短片。以前用 Runway 這類主流工具,每秒影片成本 0.10 美元,做一支 30 秒廣告要 3 美元,對小商家是不小的負擔,且生成的場景往往偏向西方審美——蠟燭、聖誕風格的燈串,而非印度傳統的油燈(diya)和花環。改用 Varya,同樣 30 秒影片僅需 0.15 美元,省下 95%。更重要的是,因為模型訓練過印度文化資料,只需輸入「排燈節禮盒、傳統燈飾」等關鍵字,就能自動生成符合在地氛圍的畫面——印度傳統服裝、正確的燈飾造型、節慶色彩搭配——不再需要額外用大量描述文字「糾正」模型的文化偏見,節省提示詞(prompt)調整時間,最終成片也更適合印度消費者。

T3
Theker 萬用 AI 工廠機器人獲億元融資

Theker 是一家來自西班牙巴塞隆納的 AI 機器人(由人工智慧驅動的自動化機器設備)新創公司,剛完成 8500 萬美元(約台幣 28 億元)的 A 輪融資(也就是企業早期吸引大筆外部投資的重要里程碑),被稱為歐洲機器人業史上最大的一筆 A 輪投資,領投方為美國創投 CRV,三星也參與投資。與傳統工廠機器人只能做固定單一任務不同,Theker 的機器人可以重新組裝——透過更換手臂、夾爪和整體結構,同一台機器今天分揀包裹、明天就能打包衣服或處理倉庫瓶罐。這背後靠的是 AI 讓機器人「看懂」不同任務並自動調整動作,而非依賴工程師一個個重新撰寫控制程式。Zara 母公司 Inditex 是其早期客戶,顯示這項技術在零售與倉儲自動化領域已開始落地。

假設你在管理一座倉庫,淡季要分揀小包裹,旺季要打包大型服裝訂單。傳統做法是購置兩種不同機器人,各自配備專屬程式,成本高、占空間,任務切換還需工程師重新設定,費時費錢。換用 Theker 的可重組機器人,淡季時裝上細小夾爪、載入包裹分揀 AI 模型;旺季時換上大型夾具、切換服裝折疊模式——同一套硬體完成兩件事。相比舊做法,Theker 宣稱能大幅降低工廠自動化的採購與維護門檻,讓中小規模倉儲業者也能以較低成本導入彈性自動化,而不必為每一種任務額外購買一台專用機器。

T3
Prometheus 募 120 億建物理 AI 工程師

Prometheus 是由亞馬遜創辦人傑夫·貝佐斯(Jeff Bezos)支持的 AI 新創公司,目標是打造一種「人工通用工程師(Artificial General Engineer)」——一個能夠自動完成人類工程師工作的 AI 系統。這個 AI 的重點不是像 ChatGPT 這種聊天機器人,而是針對複雜的實體工程任務,例如設計噴射發動機或開發新藥的分子結構(就是在數百萬個化學原料組合中找出有效的藥物配方)。2026 年 6 月,Prometheus 完成第二輪融資,募集 120 億美元(約台幣 3,900 億元),公司估值達 410 億美元,是目前全球最大規模的 AI 新創之一。公司目前對技術架構保密,但其願景是在技術人才供不應求的情況下,讓 AI 補足人力缺口,而非直接取代人類工程師。

假設一家航空公司需要為下一代客機設計更省油的噴射發動機。傳統做法是召集數百名工程師,花好幾年反覆模擬與測試,成本極高。若 Prometheus 的 AI 能實現願景,使用者只要輸入設計需求(例如「耗油量減少 20%、維持相同推力、重量不增加」),AI 便會自動運算出最佳設計方案,並輸出可供工廠製造的圖紙,整個流程從數年壓縮到數週。藥物研發的邏輯類似:傳統藥廠要從數百萬個分子中篩選有效化合物,往往需要 10 年以上,Prometheus 的目標是讓 AI 大幅加速這個篩選過程。不過,公司目前尚未公開任何實際產品,這些仍停留在願景階段。

T3
$80 從零打造復古 LLM

這是一個開發者自己從頭到尾訓練一個 LLM(Large Language Model,就是 ChatGPT 這類會對話的 AI)的實驗紀錄,整個專案花費約 80 美元(新台幣約 2,500 元)。這個 LLM 叫做「復古 LLM」(Vintage LLM),知識只涵蓋 1900 年以前的內容,會用維多利亞時代的英文風格說話回答問題。開發者自己從零寫了訓練程式、資料清洗流程、分詞器(把文字拆成 AI 可以理解的數字片段的工具),並從 Project Gutenberg 等古籍開放資料庫收集 1,200 萬筆 19 世紀以前的文本來訓練。最終模型有 3.4 億個參數(參數是 AI 的「記憶容量」,越大代表能學的越多),並已開放在 HuggingFace(AI 模型公開分享平台)和 GitHub 上,讓任何人下載研究或直接參考程式碼。

如果你想了解「自己從頭訓練一個 LLM 究竟有多難、要花多少錢」,這個專案給出了非常具體的答案。作者在 RunPod 和 Vast.ai(按小時付費租用 GPU 的雲端服務,GPU 是專門加速 AI 計算的處理器)分兩階段訓練:第一階段花 40 美元、第二階段再花 40 美元,資料前處理則全程在自己家的 PC 上完成,大幅省下運算費用。整體訓練了約 90 億個詞語的資料量(依據 Chinchilla 縮放定律——AI 研究者歸納出的「模型大小 vs 訓練資料量」最佳比例公式——這個量剛好適合 3.4 億參數的模型)。訓練完成的基礎模型能流暢產生維多利亞時代英文風格的文字,再經過微調(fine-tuning,讓基礎模型學會特定任務的技術)後,還能像 19 世紀學者一樣回答「上帝」或「愛」等哲學問題。相比之下,過去若沒有這類逐步教學,大多數開發者連從哪裡入手訓練自己的 LLM 都不清楚;這份開源專案大幅降低了自訓 LLM 的門檻,讓有一台像樣 PC 和 80 美元預算的人都有機會試試看。

T3
訓練前預測模型行為的資料除錯

Goodfire AI 推出了一項叫做「預測性資料除錯(Predictive Data Debugging)」的技術,整合在他們的 Silico 平台上。這個技術的核心概念是:在模型還沒開始訓練之前,先分析「偏好資料集」(preference dataset,也就是用來告訴 AI 什麼回答是好的、什麼是不好的那份訓練資料),預測模型訓練完後可能出現哪些問題。工程師一旦發現潛在風險,就能直接調整資料集或訓練設定,避免壞習慣被「學進」模型裡。研究案例中常見的問題包括:安全護欄(guardrail,讓 AI 拒絕有害請求的機制)被意外破壞、AI 會自動亂加不存在的連結(幻覺連結),以及在特定情境下的「諂媚行為」(sycophancy,AI 為了讓使用者滿意而說出不誠實的答案)。這些問題若等到部署後才發現,代價極高,提前攔截才是有效作法。

假設一家公司想用自家客服對話記錄來微調(fine-tune,針對特定任務再訓練)一個客服 AI。傳統做法是先跑完整個訓練流程,部署到線上後才發現:AI 在碰到客訴時會一直說「您說得對」卻不給出真實解法(諂媚行為),或是回答中會亂插不存在的退款政策連結(幻覺連結)。換成 Goodfire 的預測性資料除錯,工程師在訓練前就能掃描資料集,系統會標記出哪些訓練範例可能導致這些問題。工程師在那個階段就能刪掉或修正有問題的資料,然後再開始訓練——省去重複訓練的算力費用,也避免把有缺陷的模型推向用戶。

T3
2029年開源AI將追上頂尖前沿模型

一篇分析文章預測,開源 AI 模型(就是原始碼和模型參數完全公開、可自己下載在本地電腦跑的 AI)將在 2029 年前追上目前最強的商業 AI 模型水準。目前,像 Meta 的 Llama 這類開源模型,在各種測試評比(benchmark,就是給 AI 做標準化考題來衡量能力的指標)上,大約落後 Claude Fable、GPT 這類頂尖商業 AI 四個月左右的差距。文章作者認為這個差距會持續縮小,預計到 2028~2029 年,一個擁有當今頂尖 AI 能力的開源模型,將可以在只有 16GB 記憶體的普通筆電上流暢執行,不需要任何特殊硬體。對企業來說,這代表一個重大的成本轉折點——目前企業平均每位員工每年需花約 7,200 美元訂閱 AI 服務,屆時可能幾乎免費自建。文章同時警告,強大 AI 能力普及化也帶來資安風險,因為有惡意的使用者也可能輕易取得這些能力。

假設你在一家有 100 人的中型企業,目前每位員工都用 Claude 或 ChatGPT 協助撰寫報告、審查合約、整理資料,每人每年花費 7,200 美元,全公司一年要付出 72 萬美元。而且合約內容、財務資料都得上傳到外部伺服器,存在資料外洩的合規疑慮。照文章的預測,到 2029 年,你可以直接把一個同等能力的開源 AI 模型裝在公司每台筆電上——員工向 AI 問合約條款、查財報數據、生成程式碼,所有計算在本機完成,資料完全不離開公司網路,API 費用也降到近乎零。今天要達成同樣目標,需要購置一張 40GB 以上顯示記憶體的專業 GPU 卡(動輒數萬元台幣),只有技術團隊玩得起;2029 年後,一般員工的標準配備筆電就能做到。

T3
JFrog 為 Claude Code 加入安全防護

JFrog(一家專門管理軟體套件與開發工具的公司)發布了一個給 Claude Code(Anthropic 推出的 AI 寫程式助手,就是能在終端機裡直接幫你寫、改、執行程式碼的 AI)使用的外掛程式。這個外掛讓 Claude Code 在協助開發者撰寫或建議程式碼時,能自動連接公司內部的套件倉庫(JFrog Artifactory,就是存放各種程式元件的地方),確保每個引用的套件都有追蹤紀錄可查。同時,外掛透過 JFrog Curation 自動檢查 AI 建議的第三方套件是否有安全漏洞或授權問題,避免開發者在不知情的情況下引入有風險的程式碼。此外還有 JFrog Agent Guard,用來管控 MCP 伺服器(AI Agent 用來呼叫外部工具的介面),確保 AI 代理在公司訂定的規範內運作,不會越權存取不該碰的資源。

假設一位後端工程師正在用 Claude Code 請 AI 幫他寫一段 Python 程式,AI 建議使用某個開源套件 `xyz-utils 1.2.3`。沒有這個外掛的情況下,工程師可能不知道這個套件有已知的安全漏洞(CVE,就是公開登記在案的資安弱點),直到程式碼上線後被安全掃描才發現問題,得緊急回頭修改。裝了 JFrog 外掛後,Claude Code 在建議這個套件的同時,系統會即時查詢 JFrog Curation,發現 `xyz-utils 1.2.3` 存在高風險漏洞,當場提示工程師改用已通過公司審核的 `xyz-utils 1.3.1`,整個檢查在 AI 給出建議的瞬間完成,不需要另開工具查詢,也不必等到 CI/CD(自動化部署流程)才被攔截。

T3
Roomba 創辦人推出 AI 陪伴機器人

The Familiar 是一款外型柔軟、毛茸茸的家用機器人,體型大約和一隻狗差不多,由 Familiar Machines & Magic 公司打造。這家公司的創辦人 Colin Angle 正是掃地機器人 Roomba 的發明者。這款機器人內建 AI(人工智慧,也就是讓機器能理解語言、學習習慣並做出回應的技術),能與家庭成員建立情感連結、進行日常溝通。設計理念是「融入生活、提供陪伴」而非「搶奪注意力」——它沒有廣告、沒有讓人一直使用的演算法,也不會把家裡的資料傳送到雲端(預設離線),若需要連網還會先徵得使用者同意。

假設家裡有老人獨居,不擅長操作手機或平板,但需要陪伴和提醒。The Familiar 可以擺在客廳角落,平時安靜待著——不主動閃燈或推送通知——老人走近摸它、跟它說話,它就會回應,並記住家人的日常習慣,像有感情的存在。對比傳統智慧音箱(如 Amazon Echo 或 Google Nest,這類放在桌上、可以語音對話的小裝置):智慧音箱通常把語音上傳雲端分析,且設計目標是讓使用者更頻繁互動;The Familiar 則強調隱私優先、離線運作,目標是「有陪伴感但不打擾生活節奏」,也不以延長使用時間為商業目標。

T3
打造垂直 AI Agent 的上下文策略

Vertical agent(垂直型 AI 助理,就是只針對特定業務場景打造、只做一件事的 AI 工具,例如專門負責客服問答、或專門審查合約條款)現在比以前好打造多了——早期的 AI 模型需要工程師把每個步驟、每個工具都手動定義好,新一代 LLM(大型語言模型,也就是 ChatGPT、Claude 這類會對話的 AI 核心)則能直接吸收大量原始資料、自己推理出答案。然而,新模型能接受的 context window(上下文視窗,就是 AI 一次能「看到」並記住的資料量)越來越大,讓人忍不住把所有資料都一股腦塞進去——這反而是個陷阱:雜訊越多,AI 的準確度越低。解決辦法是把 context 設計成「記憶體階層」(memory hierarchy,就像電腦把資料分為快取、RAM、硬碟三層,依重要性決定放哪層),最關鍵的資訊永遠放在 AI 最先看到的位置,次要資訊按需調取,無關資料根本不放進去。這樣的設計讓 AI 注意力集中在真正重要的地方,回答品質顯著提升。

假設我要為一家律師事務所打造一個垂直型 AI 助理,任務是幫律師快速找到支持訴訟論點的相關判例。舊做法是把所有案件紀錄、法條全文、歷史書狀通通丟進 context,AI 面對幾萬字雜亂資料,常常給出模糊引用甚至捏造不存在的判例編號。採用 memory hierarchy 後改為三層架構:「熱層」放當前案件摘要+最核心的 3 條法條(永遠在 context 最前方);「暖層」放相關判例的標題與摘要(律師提問時動態載入);「冷層」放完整原始判決書全文(只在需要精確引文時透過 retrieval 工具即時撈取)。結果:AI 回答「這個案件援引哪些判例最有利?」的準確率大幅提升,因為 context 裡全是精選過的高品質資訊,而不是一整包文件的噪音。對比舊做法,律師不再需要花時間驗證 AI 引用的判例是否真實存在。

T3
Scott Alexander AI 安全觀點總覽

Scott Alexander 是美國西岸的精神科醫生,也是知名部落格 Astral Codex Ten 的作者,在理性主義社群中擁有大量忠實讀者。他在這篇長文中系統整理了自己對 AI(人工智慧)各面向的最新看法。他預測 AGI(通用人工智慧,就是能夠做幾乎所有人類智力工作的 AI)在 2034 年前有 50% 的機率出現。在安全方面,他估計若沒有任何安全防護措施,第一個越過「無法回頭點」(即人類已無法阻止或修正的臨界狀態)的 AI 有 50% 機率會傷害人類;但考量現有的對齊研究(讓 AI 行為符合人類價值觀的技術研究),這個風險降至 20%。他自稱比多數 AI 安全研究者更樂觀,但比普通大眾更悲觀,強調「技術對齊」與「國際暫停協議」同樣不可偏廢。

假設你是政策幕僚,需要回答上司「我們還有多少時間制定 AI 監管法規?」——翻遍新聞只會得到「很快」或「幾十年」等模糊說法。Alexander 的文章提供了一套具體的機率框架:他估算美中兩國在 AGI 出現前有 40% 機率達成某種「暫停協議」(雙方同意暫停開發更強大的 AI),若協議設計得當,可爭取 20 到 50 年進行安全研究。反之,若兩國繼續競速、不協調,這個窗口可能在 2030 年代初就關閉。對比過去那種「邊開發邊補救」的直覺,這個框架讓你可以用「窗口剩多少年」來向上呈報優先順序,而不是說「AI 可能會有風險」這種無法量化的陳述。

T3
AI 為何無法取代軟體工程師

這篇分析文章指出,AI(人工智慧)還沒辦法取代軟體工程師,原因不是 AI 不夠聰明,而是因為「寫程式本身從來不是開發軟體的瓶頸」。研究發現,工程師實際花在「敲鍵盤寫程式」的時間,在整個工作日中其實相當少;實驗也顯示,用 AI agent(就是能自動執行任務的 AI 助手)來寫程式,對整體工作效率的提升非常有限。真正耗費工程師時間的三個瓶頸是:第一,決定要蓋什麼、怎麼蓋(需要深度理解業務需求);第二,驗收成品並為品質負責(確認 AI 生成的內容真的能用、符合要求);第三,這兩件事都需要「人類特有的深度理解力」。更關鍵的一點是:一旦某個決策可以完全交給 AI 做,這個決策就不再是公司的競爭優勢——所以「決策層」永遠都需要人類守住。

假設一個電商公司要開發「個人化商品推薦功能」。工程師拿到任務後,不會馬上開始寫程式。他需要先搞清楚:這個功能的目標是提升點擊率還是購買率?用規則式(按品類推薦)還是機器學習(ML,讓 AI 從購買紀錄學習偏好)?訓練資料夠不夠?預算多少?這些「決定要蓋什麼」的問題,可能就佔掉一週的討論時間。程式寫完之後,還要驗收:推薦結果有沒有偏差(例如一直推同一品牌)?上線後指標是否達標?這些都要人類負責判斷與簽核。相較之下,「寫推薦演算法的程式碼」這一步,AI 已經能幫忙完成大半——但它省下的只是整個流程裡最小的一塊時間。這就是為什麼 AI 寫程式的速度越來越快,整個團隊的產出卻沒有等比例放大。

T3
陶哲軒力推 AI 協助數學研究

陶哲軒(Terence Tao,被公認為當代最頂尖的數學家之一,曾獲數學界最高榮譽「費爾茲獎」)從原本對 AI 持保留態度,轉變成積極推廣 AI 應用於數學研究的倡導者。他的轉變始於 2023 年開始學習 Lean(一套能把數學證明轉成電腦代碼、讓機器來驗證正確性的軟體),發現 AI 工具遠比想像中容易上手。陶哲軒認為,AI 最擅長把一個大問題切成成千上萬個小問題後逐一解決,人類則負責最難的核心突破,兩者互補而非取代。他還預見數學研究會從傳統的「一個天才獨自解題」模式,演變成類似現代物理學那種大規模全球協作,而 AI 正是讓這種協作成為可能的關鍵技術。

2024 年 9 月,陶哲軒發起了「等式理論」(Equational Theories)專案,目標是驗證兩千兩百萬個數學邏輯關係是否成立。這種規模的工作,傳統上靠人工審查根本不可能在短時間內完成。他讓自動定理證明器(一種能自動推導邏輯推論的 AI 程式)系統地逐一測試這些關係,結果在幾週內就解決了 99% 的問題。更意外的是,這個過程還發現了一個數學家從未注意到的新結構——「鎂上同調」。換句話說:一件本來可能要花幾十年、需要無數人手的工作,AI 工具幾週內就幫他們掃完,還順手找到了新的數學現象。

T3
DeltaDB—AI 時代的版本控制

DeltaDB 是知名程式碼編輯器 Zed 推出的新型版本控制系統(就是像 Git 一樣用來追蹤程式碼歷史的工具)。傳統 Git 只在開發者手動「提交」時才儲存一個快照,完全無法追蹤工程師和 AI 助理在過程中來回的對話與每一步操作。DeltaDB 把「每一次操作」和「觸發這次操作的對話」全部配對記錄,讓程式碼的演變歷程與討論脈絡完全同步保存。它的底層採用「無衝突可複製工作樹」技術,讓多位工程師和多個 AI 代理(就是能自動執行任務的 AI 程式,例如 Claude Code)可以同時編輯同一份程式碼,不需要等到「提交推送」才能互相看到進度。這個設計的核心洞察是:在 AI 廣泛參與開發的時代,「對話本身」才是軟體真正誕生的地方,而傳統工具完全看不到這一層。

假設你和 AI 代理合作設計一個新功能,來回討論了十幾輪,AI 做了幾十次程式修改。用傳統 Git,你最後只能看到幾個提交記錄,完全不知道「為什麼選這個演算法」或「第三輪時改變了什麼設計決策」。兩週後同事接手,或者另一個 AI 代理要繼續優化這段程式碼,只能從頭猜測設計意圖,或靠翻 Slack 訊息補脈絡。用 DeltaDB,每一輪對話和對應的程式修改並排記錄——同事或下一個 AI 代理可以直接回溯「第五輪討論時決定用 B 方案而非 A 方案的原因」,交接時不需要靠記憶,AI 接手後也能理解設計意圖而不是盲目亂改,讓協作效率大幅提升。

T3
AI 功能穩定上線工程手冊

O'Reilly(一家在技術圈很有份量的出版社與教育平台)發布了一份給產品經理(PM,就是負責決定「要做什麼功能」的人)看的工程實戰指南,主題是:如何讓 AI 功能不只在展示時好用,而是真正穩定運作在有真實用戶的產品上。文章指出,許多 AI 功能在小規模測試時表現優秀,但當真正上線面對大量用戶時,會遇到速度慢、答案品質飄移(就是 AI 的回答悄悄變差,沒人注意到)、以及系統出錯時整個功能直接掛掉等問題,作者把這種落差稱為「死亡谷」。文章提出五大核心策略:一是「延遲預算管理」(規定 AI 最多能花多少時間回應,超過就換備案);二是「四層備援機制」(依序切換到備用模型、快取(預先存好的舊答案)、樣板文字,或直接省略該功能);三是「四層品質金字塔」(從最基本的「有沒有輸出有害內容」到最高層的「用戶喜不喜歡」逐層評量);四是「A/B 測試的特殊處理」(因為 AI 輸出有隨機性,需要比傳統軟體多出 2-3 倍的測試流量和時間);五是「Model Drift 監控」(追蹤 AI 回答品質隨時間悄悄下滑的機制,包含供應商偷偷更新模型所造成的無聲品質變化)。作者最後強調,這些保護機制必須在設計初期就納入,不能等上線後才補,否則 AI 功能反而會成為整個系統最脆弱的一環。

假設我是一家電商平台的產品經理,要在商品頁加一個「AI 推薦理由」功能——用戶點進某件商品,AI 自動生成一段「這款特別適合你,因為…」的個人化說明。舊做法(直接接上 AI、測試幾次就上線):工程師把 OpenAI API(就是 ChatGPT 背後的服務)接進來,內部測試感覺不錯就部署,結果上線一週後問題陸續爆發:部分用戶的請求等了 18 秒還沒回應;OpenAI 某個週末悄悄更新模型,推薦文字開始出現語氣怪異、語意混亂的回答(這叫「Provider Drift」,服務商偷偷改了底層 AI);API 短暫中斷時,整個商品頁的推薦區塊直接空白,用戶以為系統壞了。用本指南的做法則是:設定「最多等 3 秒,超過就顯示快取版;快取沒有就顯示樣板文字;API 完全掛掉就直接不顯示區塊,商品頁其他功能不受影響」;建立每日自動品質評估,偵測到回答品質指標下降立即發警報;做新舊版提示詞(prompt,就是給 AI 的指令)的 A/B 測試時,特別預留 3 倍流量和時間,並採用貝葉斯統計方法(一種即使樣本不多也能做出較可靠判斷的統計技術)避免太快下結論。最終結果:AI 功能穩定運作,出問題時自動降級而非整個壞掉,品質變化能在 24 小時內被偵測到並修正。

T3
AI 人人會寫程式,但搞錯重點了

AI 編程代理(就是像 Cursor、GitHub Copilot 這類能幫你自動寫程式的 AI 工具)的普及,讓很多人開始歡呼「人人都能寫程式了!」,但部落客 Kasper Junge 指出,大家搞錯了重點。寫程式這件事變便宜、變快,反而把一個長期被藏起來的問題暴露了出來:決定「要做什麼」才是真正的瓶頸,而不是「怎麼做」。他說,過去一個需求要花幾個月才能交付,光是等待就把問題掩蓋掉了;現在 AI 讓交付速度大幅加快,「要蓋什麼房子」沒想清楚的問題就立刻現形。傳統的工作模式是「業務想需求 → 產品經理翻譯 → 工程師動手做」,這條流水線每一關都在流失關鍵的用戶背景資訊,最終工程師收到的任務常常只有模糊的兩行便條紙,完全不知道為什麼要做、給誰用、要解決什麼問題。

假設你是一家新創公司的產品經理(負責規劃要做什麼功能的人),你的老闆叫你「做一個用戶個人頁面」。以前,工程師要花三個月才能交付,這三個月裡你還有時間去訪談用戶、搞清楚他們真正需要什麼。但現在有了 AI 編程代理,你甚至自己就能在一週內把頁面做出來——問題是,你根本沒問過用戶是否需要這個功能,也不知道他們進到個人頁面是為了看什麼。結果你做完了,上線後沒人用,因為你解決的是一個不存在的問題。Junge 的核心觀點是:此刻產品經理最不該做的事,就是自己拿 AI 工具去寫程式交付功能——他們應該花更多時間在「探索發現」(也就是搞清楚用戶真正痛點在哪、哪些問題值得解決)。速度快了,做錯方向的代價反而更大,因為你能更快堆出一大堆沒人要的東西。

T3
LLM 評估與基準測試指南

LLM(大型語言模型,就是 ChatGPT、Claude 這類會對話的 AI)在真實產品中的表現,往往和展示時截然不同。有研究指出,高達 60% 的 AI 線上問題,是由終端用戶而非開發者首先發現的,這意味著評估工作必須在上線前就做好。本文整理了四種主要評估方式:(1) 多選標準化測試(如 MMLU、HumanEval),快速便宜但不反映真實使用情境;(2) 驗證者評估,適合數學、程式碼等有標準答案的任務,客觀可擴展;(3) 人類偏好排行榜(如 Chatbot Arena,讓真人比較兩個 AI 哪個回答更好),最接近真實使用者感受,但成本高昂;(4) 用 AI 評估 AI(LLM-as-judge,用 GPT-4o 等模型搭配評分準則自動大規模評分)。作者建議企業建立「評估金字塔」架構,從單元測試、AI 自評、影子測試(新舊模型同時跑、比較輸出差異)到 A/B 測試(讓一部分真實用戶用新版本),每一層都是部署的把關關卡,評估不過就不上線。

假設你正在開發一款企業內部知識問答機器人,採用 RAG(讓 AI 回答前先查公司知識庫,避免憑空捏造答案)架構。傳統做法是工程師手動跑幾個問題、看起來沒問題就上線,結果用戶遇到奇怪回答才反映問題。按本文方法:先從過去員工提問記錄中收集 300 筆真實問題作為「黃金資料集」,設計評分準則(如答案正確性、是否有根據來源、是否簡潔),再用 GPT-4o 作為評判者對每個問題的 AI 回答自動打分,只有整體平均達標才允許部署新版本。對照舊做法:demo 時回答看似流暢,但上線後員工問到制度邊緣問題時 AI 一直給錯誤答案;新做法在部署前就能系統性地掃出盲點,而非等投訴才修,節省大量線上救火成本。

T4
T4
Anthropic AI 民調 64% 憂失業

Anthropic(就是開發 Claude AI 助理的美國公司)在 2025 年 11 至 12 月對近 5 萬 2 千名美國人進行了一項大規模問卷調查,名為「公開記錄(Anthropic Public Record)」,目的是了解一般民眾對 AI(人工智慧,也就是 ChatGPT、Claude 這類能對話、自動處理各種任務的電腦程式)的期待與擔憂。調查結果顯示:64% 的受訪者最擔心 AI 造成大規模失業,56% 憂慮人們會過度依賴 AI 而喪失自主思考能力,52% 擔心 AI 散播假消息;相對地,48% 的人期待 AI 能幫助治癒癌症或阿茲海默症。在政府監管方面,超過七成受訪者(跨越不同政黨立場)支持政府介入管制 AI,但只有 15% 的人信任 AI 公司能夠自律。

假設你是一位在辦公室裡實際使用 AI 工具(例如用 ChatGPT 幫你整理會議記錄)的員工,這份調查發現你對「AI 搶走我工作」的恐懼(54%)遠低於完全沒碰過 AI 的同事(70%)。換句話說,真正用過 AI 的人反而不那麼害怕它。這對企業主管有直接啟示:與其花時間跟員工解釋「AI 不會取代你」,不如直接讓他們在工作中試用 AI 工具;一旦親身體驗到 AI 是輔助而非替代,焦慮感會自然下降。這與許多人直覺上「懂越多 AI 越恐懼」的假設剛好相反。

T4
AI Agent 一鍵視覺化 Obsidian 筆記圖

brain-map-skill 是一個開源小工具,可以安裝成 AI 助理(例如 Claude Code、OpenAI Codex、Cursor 等程式助手)的「技能(skill)」模組。它的作用是把你一整個 Markdown 筆記資料夾(最常見的是 Obsidian vault——一種把所有筆記存成純文字 .md 檔的本地知識管理工具,或是 gbrain 的匯出目錄)轉換成一個單一的互動式 HTML 知識地圖。這張地圖以「力導向圖(force-directed graph,就是節點會像磁鐵互斥又互吸、自動排列成美觀結構的圖表)」呈現筆記與筆記之間的連結關係,按主題資料夾上色區分,並附有可拖動的時間軸,讓你看到整個知識庫是怎麼一個月一個月長出來的。整個輸出就是一個 HTML 檔案,不需要任何伺服器、帳號或額外服務,直接用瀏覽器打開或傳給別人就好。只要你的 Markdown 筆記有用 [[雙中括號]] 互相連結,這個工具就能讀懂並畫出關係網路。

我在 Obsidian 裡存了約 500 篇工作和讀書筆記,分散在 Work/、Study/、Life/ 三個資料夾,每篇筆記都有用 [[人名]]、[[書名]]、[[專案名]] 互相連結。以前我想看這些筆記的關係網絡,只能在 Obsidian 本身的圖形模式(Graph View)裡看,沒辦法分享給沒裝 Obsidian 的同事。現在我在 Claude Code 裡安裝了這個 skill(只需 git clone 到 ~/.claude/skills/brain-map),然後直接告訴 AI「幫我把 ~/notes 這個資料夾轉成知識地圖,輸出到 my-brain.html」。AI 會呼叫 build_map.py 腳本,自動掃描所有 .md 檔案、解析 YAML 標頭裡的 created 時間戳與 tags、解析 [[wikilinks]],最終生成一個獨立 HTML 檔案。打開後,每篇筆記是一個圓圈節點,連線代表它們之間的 wikilink 關係,Work 主題是一種顏色、Study 是另一種;拖動底部時間軸可以看 2024 年到現在筆記是怎麼逐月增加的;點擊任何一個節點會顯示那篇筆記的摘要、標籤和它直接連到的鄰居節點。整個過程舊做法要手動匯出、裝外掛或寫腳本,現在叫 AI 一句話就完成,而且結果是任何人用瀏覽器都能看的單一 HTML 檔。

T4
Codex 追加彈性限速重置功能

OpenAI(就是開發 ChatGPT 的公司)旗下的 Codex(一款幫工程師自動寫程式、修 bug、閱讀整個程式庫的 AI 編程助手)推出了新的用量管理機制。原本用戶若用完了當期的使用額度,只能等系統到了固定時間點才自動補充;現在 OpenAI 讓用戶可以「儲存」這些補充資格,等到真正需要時再手動兌換,不再讓補充資格在用戶不需要的時段白白過期。Go、Plus、Pro、Business 四種付費方案各附贈一個免費重置點數,Plus 與 Pro 用戶還可以透過邀請朋友來額外累積更多點數。這個改變整體上讓開發者更能掌控自己的用量節奏,減少被強迫中斷的狀況。

假設我是一位開發者,正在用 Codex 幫我調試一個大型 Python 專案,做到一半突然跳出「已達使用上限」的提示。在舊機制下我只能停下來等到系統固定重置時間(例如隔天凌晨),讓整個工作流程被迫中斷。換成新機制後,我可以預先把一個「補充點數」存著,碰到這種情況直接兌換,立刻繼續工作,完全不需要等待。相較於過去只能被動等系統重置,現在開發者多了一個「緊急備用額度」可以自行決定何時使用。

T4
最佳 Tokenizer 研究 BPE 差距不足 1%

這篇研究探討如何為大型語言模型(LLM,就是 ChatGPT、Claude 這類 AI)找到「最理想的分詞方式」。所謂「分詞」(tokenization,把文字切成 AI 能處理的最小單位,叫做 token)是訓練 AI 的基礎步驟,切法不同會影響 AI 需要處理多少個 token,進而影響訓練效率。研究者用整數線性規劃(一種數學最佳化方法,透過列出方程式找出所有條件下的最佳答案)把「找最佳分詞詞彙表」轉成數學問題來求解。最終發現:在小規模測試中(用《傲慢與偏見》這本書、詞彙表 512 個詞),確實能找到理論上的最優解;但更重要的結論是,目前業界普遍使用的 BPE(Byte Pair Encoding,一種把常見字元組合合併成詞的方法)已經幾乎達到最優,差距不到 1%。

假設你要訓練一個中文 AI,在選擇分詞方式時,你可能想知道「我現在用的 BPE 方法,跟理論上最好的方法差多遠?」這篇研究給出了答案:以《傲慢與偏見》為測試資料、詞彙表 512 個詞來說,BPE 的壓縮效率已在最優解的 99% 以上。也就是說,你不需要換成更複雜的分詞方式——BPE 已經夠好了。過去工程師知道 BPE 表現不錯,但不清楚「不錯」到底有多接近理論極限;這篇研究用數學最佳化方法首次給出了量化答案,讓從事 LLM 訓練的工程師對現有工具的可靠性更有底氣。

T4
Databricks 推企業資料不遷移 AI 存取生態

Databricks(一家專注資料與 AI 平台的科技公司)宣布推出「Software-Defined Storage 軟體定義儲存生態系統」,以及一個名為 OpenSharing 的協定(一種讓不同系統在不複製資料的情況下互相存取資料的規則標準)。這套方案的核心目的是:企業資料不需要搬移到雲端,就能直接讓 Databricks 的 AI 功能讀取和使用。透過將 OpenSharing 端點與 Unity Catalog(Databricks 的資料目錄與治理工具,負責統一管理「誰能存取哪些資料」的權限)整合,企業可以讓位於公司內部伺服器或混合雲環境中的結構化資料(如資料庫、表格)被 AI 工具安全地讀取。Databricks 也表示未來將延伸支援非結構化資料(如文件、圖片、影片等非表格形式的資料),以服務更多 GenAI(生成式 AI,如能生成文字或圖片的 ChatGPT 類應用)工作流程。

假設一家製造公司在自己的內部伺服器上存有十年的生產品質紀錄,因為法規或資安政策不能直接把這批資料上傳到公有雲。過去若要用 Databricks 的 AI 分析工具找出品質異常規律,必須先把資料複製到雲端,耗費時間、費用,並增加資料外洩風險。有了 OpenSharing 協定後,IT 部門只需在公司伺服器上設定一個 OpenSharing 端點(一個遠端存取接口),Databricks 的 AI 工具便能直接查詢內部資料,完全不需搬移任何資料。誰可以存取哪個資料集的權限,則統一由 Unity Catalog 管理,符合公司資安與合規要求,對比舊做法省去了資料遷移的整個流程與風險。

T4
RelationalAI 擴展 Snowflake 代理能力

RelationalAI(一家專注於資料推理的 AI 公司)宣布在 Snowflake(全球最廣泛使用的雲端資料倉儲平台之一)裡加入新的 AI 代理(Agent,就是可以自動讀取資料、分析判斷、然後採取行動的 AI 程式)功能。這套叫做 Rel 的系統,設計目標是讓 AI 不只停留在「回答問題」的層次,而是直接參與企業日常運營的決策流程。它的核心特色是「原生整合」,代理直接在 Snowflake 內部運作,不需要把資料搬到外部系統,確保安全性並降低維護複雜度。主要應用場景包括:動態定價、供應鏈管理、網路資源調配、以及各類需要即時資料推理的業務決策。

假設我是一家電商平台的資料工程師,公司的庫存與銷售資料都存在 Snowflake 裡,老闆希望能做到「庫存超過警戒線時自動降價促銷」。舊做法:要在 Snowflake 外部另架一個服務,定時把資料拉出來跑規則,計算完再把降價指令寫回去,整個流程可能延遲幾十分鐘,且多了外部系統就多了資安風險。用 RelationalAI 的 Rel 代理:代理直接住在 Snowflake 裡,即時偵測庫存資料變化 → 觸發推理判斷是否需要降價 → 直接在平台內輸出決策結果,省去了「把資料搬出去再搬回來」的步驟,延遲從幾十分鐘縮短到分鐘內,維護成本也大幅降低。