AI 每日彙整

Google IO 三款 Gemini 新模型齊發

What is this

Google 在 2026 年開發者大會（Google I/O，就是 Google 每年舉辦、向全球開發者與民眾展示最新產品的大型發表會）上同時推出三款 AI 新模型。第一款是 Gemini 3.5 Flash，主打「又快又便宜」：速度比同類競品快 4 倍，費用不到對手一半，已開放所有人透過 API（就是讓開發者把 AI 功能接進自己程式的標準介面）試用，在評估 AI 自動操作電腦與呼叫工具能力的基準測試中也超越了 Google 自家前代旗艦。第二款是 Gemini Omni Flash，能同時讀懂文字、圖片、聲音、影片等任何輸入並生成任何類型輸出，最大亮點是可產生「角色一致」的 AI 影片——同一個虛擬角色在不同片段的臉孔與聲音都不會飄移走樣；所有輸出都自動嵌入 SynthID（一種肉眼看不見的 AI 浮水印，讓日後的工具可追溯這段內容是否為 AI 生成）。第三款是 Gemini Spark，是個人助理型 AI 代理人（Agent，就是能自主完成多步驟任務、不用每步都等你指令的 AI 程式），即使手機關機仍可在背景執行，整合 Gmail、Google 文件、簡報，並支援 MCP（讓 AI 統一接駁各種外部工具的標準協定）連接第三方服務；Gemini 3.5 Pro 預計下個月推出，目前可先以 Flash 版試用。

Use case

假設你是一位 YouTuber，想打造一個「固定虛擬解說員」系列，每集都由同一個 AI 角色出現。過去用傳統文字轉影片工具，每段影片的角色外觀往往不一致——這集臉偏圓、下集臉偏方，聲音語調也各異，觀眾一看就出戲，而且要分別跑圖像生成、語音合成、影片剪接三個工具才能拼出一段成品。改用 Gemini Omni Flash，你只需一次定義角色的外觀與聲音樣本，此後每次生成新片段，這個角色都能保持一致的臉、聲音、說話方式；還可以用對話方式修改影片（例如：「把這段背景換成辦公室」「讓角色微笑」），而不必重頭生成。輸出的影片自動帶有 SynthID 浮水印，若未來平台要求標示 AI 內容，你已合規不需另做處理——整個流程從三工具拼接縮減為一套對話式操作。

Anthropic 升 Opus 4.8 與動態工作流

What is this

Anthropic（開發 Claude AI 助手的公司）在 2026 年 5 月底同時宣布兩件大事。融資面：公司完成 650 億美元（約台幣 2 兆元）的 Series H 融資，由 Altimeter、Sequoia 等知名創投領投，公司估值達到 9,650 億美元，並披露年化營收已突破 470 億美元，成長來源主要是企業客戶部署與日常使用量持續攀升。產品面：Anthropic 正式推出 Claude Opus 4.8——這是旗艦模型 Opus 4.7 的更新版，宣稱具備「更銳利的判斷力」、「對自身進度更誠實的自我評估」，以及在無人監督下持續獨立工作更長時間的能力，價格維持不變。同時，Anthropic 也發布了「Dynamic Workflows（動態工作流）」研究預覽功能：搭載在 Claude Code（讓 AI 幫你寫程式的開發工具）之上，讓 Claude 能夠自行規劃任務、並行啟動數百個子 AI 同時分頭執行大型工作。外部評測普遍確認 Opus 4.8 在長期代碼任務和知識工作上明顯優於 4.7，但業界對於這是否代表真正的技術突破，或主要是追上 OpenAI GPT-5.5 系列的差距，看法分歧。

Use case

假設你是一名軟體工程師，需要對一個有 20 萬行程式碼的舊系統做大規模重構（就是整理、改寫程式碼結構，讓它更好維護）。用舊有 AI 工具，往往要花好幾天：AI 一次只能處理一段程式碼，完成再換下一段，無法同時看全局。啟用 Dynamic Workflows 後，Opus 4.8 會先分析整個系統並制定計畫，然後自動同時啟動數百個「子 AI」，各自分頭處理不同模組——A 子 AI 改資料庫介面、B 子 AI 重寫 API 層、C 子 AI 更新測試套件——完成後再由主 AI 彙整結果、解決衝突、產出最終版本。對比舊做法：過去需要手動逐段監督，等一塊完成才能發下一塊；現在整個專案幾小時內就能並行推進，主 AI 也會在最後自行確認各部分是否一致。

Z.AI 重設 MoE 推論網路吞吐差距 5 倍

What is this

Z.AI（智譜 AI，開發 GLM 系列模型的中國 AI 公司）發現，他們的超大型語言模型 GLM-5.1 的推論速度，有很大一部分不是被 GPU 運算能力限制，而是被「伺服器之間的網路連線設計」拖慢了。GLM-5.1 採用一種叫做 MoE（Mixture of Experts，專家混合架構——就是模型裡有很多「專科小模型」，每次只喚醒需要的幾個來處理）的設計，這種架構在產生每一個字詞時，都需要在分散於不同伺服器的 GPU 之間高頻率傳遞小封包資料，對網路的要求遠超過傳統訓練工作負載。Z.AI 把整個推論叢集（跑 AI 模型的伺服器群組）的網路拓樸從頭重設計，讓兩種性質截然不同的流量——字詞路由的高頻小封包，以及 KV cache（模型記憶的中間計算結果）的大封包——各走各的專用通道，不再互相塞車。這份研究於 2025 年 9 月在 SIGCOMM（電腦網路領域國際最頂尖學術會議，錄取率低於 20%）正式發表，代表技術方案已通過嚴格的學術同行審查。

Use case

假設你是開發者，想透過 API 呼叫 GLM-5.1 批量處理程式碼審查任務。根據 DeepInfra（一個提供多種 AI 模型 API 的雲端服務平台）的實測數據，同樣是 GLM-5.1 這個模型，不同雲端服務商提供的速度，最快能到每秒 175.2 個 token（token 就是 AI 每次輸出的最小文字單元，大約 1 個英文單字或半個中文字），最慢只有 33.8 個 token，差距高達 5.2 倍。也就是說，選「底層網路架構好的服務商」跟「隨便選一家」，相同費用下，同樣的工作量，前者 1 小時能跑完，後者可能要超過 5 小時。舊的通用網路設計下，模型每次要把一個字詞送到正確的「專科 GPU」處理時，都要跟大封包流量一起排隊，互相干擾；Z.AI 的新設計把兩種流量通道分開，就像高速公路加了一條機車專用道——讓快的跟慢的各走各的，整體吞吐量大幅提升，同一模型的不同服務商速度差距才會達到 5 倍之多。

MCP 協定三大缺陷與替代方案

What is this

MCP（Model Context Protocol，模型上下文協議）是一種讓 AI 助理連接各種外部工具的標準——就像 USB 介面一樣，讓 AI 能「插上」GitHub、Slack、資料庫等服務來自動執行任務。但 Quandri 工程團隊在實際使用後發現了三個嚴重問題。第一，光是連接 4 個 MCP 服務，工具說明就吃掉 AI 約 10% 的「記憶容量」（AI 每次能讀取的資訊有上限，稱為 context window），即使你只用到其中兩個功能，全部說明還是一起佔空間。第二，速度很慢：經測量比直接呼叫 API 慢 3 倍，第一次呼叫甚至慢 9.4 倍，且伺服器常當機、需重複驗證身份。第三，現有的命令列工具（工程師在終端機打指令的那種）其實更穩定靈活，MCP 反而是疊床架屋。文章提出的替代策略是：日常工作直接用命令列，重複流程改用「技能模式」（只在需要時才載入特定工具說明），真的沒有 CLI 的服務才用 MCP。

Use case

假設你的 AI 助理同時連接了 Linear（專案管理）、Slack（聊天）、GitHub（程式碼）、Google Drive（文件）四個 MCP 服務，光是讓 AI「讀懂這四個服務能幹什麼」就要載入超過 12,800 個 token（token 是 AI 理解文字的基本單位，每次對話有上限）的說明文字，佔掉可用容量的 10%。今天你只是要 AI「幫我把 GitHub 上的 PR 狀態回報到 Slack」，但另外兩個服務的說明也全部塞在裡面，白白浪費空間、拖慢速度。換成「技能模式」：你下指令時，系統才動態載入「GitHub 工具」和「Slack 工具」，其他說明完全不出現——AI 能用的記憶空間更多，速度更快，出錯時也能像工程師一樣在終端機上直接查到是哪一步出問題，而不是對著黑盒子乾瞪眼。

Liquid AI 發表 8B MoE 邊端模型

What is this

Liquid AI 發布了新一代語言模型 LFM2.5-8B-A1B，採用 MoE（混合專家架構，一種讓 AI 在回答時只啟動部分「專家神經元」的設計，好處是省算力又能有大模型的知識量）技術，總參數量 8B（80億），但每次推理只啟用 1B（10億）個參數，因此效率極高。這個模型用了高達 38 兆個 token（token 是 AI 閱讀文字的最小單位，38T 相當於數百萬本書）訓練，比上一代的 12T 多了三倍。上下文視窗（AI 一次能記住的對話長度）也從 32K 擴展到 128K，大幅提升長文處理能力。它的亮點是完全可以在個人裝置上本地運行，不需要雲端伺服器，在 iPhone 等級的手機上也能跑到約每秒 30 個字的速度。

Use case

假設你是一個重視隱私的使用者，想讓 AI 幫你整理一份長達五萬字的合約並回答問題，但不想把文件傳到 ChatGPT 之類的雲端服務。你可以把 LFM2.5-8B-A1B 的模型權重下載到自己的 Mac（M5 Max 上每秒可輸出 253 個 token，約等於快速閱讀的速度），用 llama.cpp 或 MLX（本地 AI 推理工具，不需網路）載入後，直接在本機對話。因為 128K 的上下文，五萬字的合約可以整份丟進去，不需要手動切段；回答品質上，在數學推理測試（MATH500）中拿到 88.76 分，比同尺寸的模型還高。舊做法若用 8B 普通模型，通常只能處理約一萬字以內的文件，且數學和指令執行能力明顯較差。

Claude Opus 4.8 上市多方評測摘要

What is this

Claude Opus 4.8（Anthropic 公司推出的最新旗艦 AI 對話模型，是 ChatGPT 與 Gemini 的直接競爭者）本週正式推出，但來自多個獨立開發者和測試平台的結果都指向同一結論：這是「漸進改善」而非革命性突破。前端與程式碼生成測試顯示 4.8 在效率上略優，但整體表現與前一版 4.7 相差在誤差範圍內；文件解析（讓 AI 讀 PDF、報告、表格等文件並抽取資訊）測試發現表格/版面識別小有進步，但圖表理解與內容忠實度出現退步。亮點是行為層面的改進：多位開發者認為 4.8 比 4.7 更少「自作主張」（過去版本有時會跳過使用者指示、自行決定怎麼做），更願意配合指示協作。Anthropic 同步推出平台更新，支援在長對話中途更新指令而不破壞 prompt cache（prompt cache 就是把之前輸入的內容暫存起來、下次使用不用重新計算，可以省下 AI 呼叫費用），這對需要跑長時間自動化任務的 AI agent（自動化 AI 代理程式）尤其重要。主要批評集中在訂價：Anthropic API 收費對開發者不夠友善，部分開發者已轉向競爭對手。

Use case

假設我是一個工程師，正在用 Claude API（讓程式直接呼叫 AI 的程式介面）建一個客服 AI agent，這個 agent 每天要跑幾百輪對話。過去用 4.7 時，如果想在對話中途改變 AI 的指示（例如「接下來的回答請改用更正式語氣」），必須清除整段對話記錄重新開始，導致之前存好的 prompt cache 全部失效，費用直接倍增。現在 4.8 支援「對話中途更新系統指令且不破壞快取」，我只需一行指令就能讓 AI 即時調整行為，之前累積的對話脈絡與暫存全部保留，不需重算。對比舊做法：重置對話 → 重建脈絡 → cache 失效 → 費用多 30–50%；新做法：直接送一條更新指令、費用幾乎不增加。整個長時間 agent 任務的成本控制因此變得可預測得多。

AI Agent 多輪訓練發現關鍵 Bug

What is this

最近 AI 界發現，大量用來訓練 AI Agent（讓 AI 能一步步完成複雜任務的系統）的「強化學習」（RL，一種讓 AI 透過不斷嘗試錯誤來學習的方法）訓練流程，其實默默藏著一個嚴重 bug，而且大多數人完全沒察覺。這個 bug 發生在「多輪對話＋使用工具」的訓練情境下：AI 輸出文字後，系統解析工具呼叫、執行完再把結果塞回對話，這一步的「重新編碼」（tokenize，就是把文字轉成 AI 實際運算用的數字序列）可能讓 token 序列悄悄改變，導致訓練信號（告訴模型該怎麼調整的梯度）對應到 AI 根本沒有生成過的假序列，等於在用錯誤成績單改試卷。研究者提出的修正叫「Token-In, Token-Out」規則：一旦 token 序列生成就不能再重新編碼，整個對話維持同一個 token buffer。與此同時，新指標「有效回饋運算量」（EFC，Effective Feedback Compute，衡量訓練過程中真正有效的回饋量）顯示 R² 最高達 0.99，代表 harness（圍繞 AI 的整套訓練框架與執行環境）的設計品質，比單純統計 AI 用了多少工具、多少 token 更能預測最終成效，業界開始把 harness 設計視為獨立的工程優化領域。

Use case

假設你在訓練一個能使用 Python 程式碼工具的 AI coding assistant，讓它學習「寫程式 → 執行 → 看結果 → 修正」的多輪迴圈。舊做法（有 bug）：AI 輸出程式碼後，系統執行並把結果加進對話，然後重新把整段對話 tokenize 丟回訓練——但重新編碼後，原本 AI 生成的 token 序列因前後文改變而對應到不同數字，訓練信號指向的是這個「改版假序列」而非 AI 真正的輸出，學習方向全歪。新做法（Token-In, Token-Out）：整個多輪對話維持同一份 token buffer，工具結果直接 append 進去，不重新編碼已生成的部分，訓練信號才能正確反映 AI 真正的決策。LangChain 的 Deep Agents v0.6 已率先把這類 harness profile 列為一等公民，讓 Qwen、Kimi、DeepSeek 等開源模型在正確 harness 設定下，能以比 OpenAI/Anthropic 前沿 API 低 20 倍以上的成本達到接近的效果；vLLM 也同期新增原生 weight syncing API 與 Rust 版 BPE tokenizer（fastokens），進一步降低長上下文 agentic 工作的 CPU tokenization 瓶頸。

AI Agent 雙巨頭大擴張

What is this

Google 和 OpenAI 同時大幅擴張他們的「AI 代理人（Agent，就是能自己思考、決策、自動執行任務的 AI，不只是問答）」產品線。Google 在 Gemini API（讓開發者串接 Gemini 的程式介面）推出「Managed Agents」功能，一行程式碼就能幫 AI 開一個隔離的 Linux 環境，讓 AI 自己執行程式碼、上網、讀寫檔案——開發者不需要另外搭建任何基礎設施。消費者端，Google 同時推出 Gemini Spark，作為 24 小時全天待命的個人助理 Agent，能跨越使用者的各種數位工具和服務運作。OpenAI 方面，Codex（一種 AI 程式碼代理人）新增 Windows 電腦操控能力，使用者甚至可以用手機的 ChatGPT App 遠端指揮 Codex 在電腦上工作；另外 gpt-5.5 instant 模型也更新，改善了「太愛迎合使用者」（sycophancy，AI 容易說你想聽的話而非事實的問題）、事實準確度和多語言表現。整體趨勢是 AI 廠商把模型、執行環境、介面、遠端控制、使用額度管理全部整合成一套垂直產品，不再只是單純的聊天機器人。

Use case

我是一個開發者，想讓 AI 幫我每天自動抓特定網站的資料、執行分析程式，然後把結果存成報告檔。以前的做法：要自己租伺服器、設定執行環境、處理 AI API 呼叫、串接工具——可能要花一兩天設定。用 Gemini Managed Agents 的新做法：我只需呼叫一個 API，它自動幫我開好一個隔離的 Linux 環境，Gemini AI 直接在裡面執行我的需求——抓網頁、跑分析程式、存檔案——全部在一次 API 呼叫裡完成。省去搭建基礎設施的時間，AI 也不是「假裝」有能力做這些事，而是真的在一個真實沙盒（sandboxed，與外部隔離的安全環境）裡實際執行。

Step 3.7 Flash 本地 MoE 大模型

What is this

StepFun（中國 AI 新創公司）釋出 Step 3.7 Flash，一款採用 MoE（Mixture of Experts，混合專家架構——可以想成模型內部有幾百個「小專家」，每次推理只叫其中一小部分出來工作，因此省電又省記憶體）設計的多模態（同時能看懂圖片和文字）大型 AI 模型。整個模型共有 1960 億個參數（可理解為 AI 的「學習筆記量」），但每次執行只啟動其中 110 億個，因此實際硬體需求比數字聽起來低很多——大約 128GB RAM 的機器就能在自己的電腦上本地跑起來。benchmark（基準測試，就是給 AI 出考題來測實力）成績相當亮眼：SWE-Bench Pro（讓 AI 真的去修開源程式碼裡的 bug）得分 56.26%，工具使用類任務大幅超越前一代，支援最高 400 TPS（每秒處理 400 個 token，速度相當快）的高吞吐量 agent 工作流。模型已在 Hugging Face 以 BF16、FP8、GGUF 等多種格式（可理解為不同壓縮精度的版本）公開釋出，並在 Day-0 就完成 llama.cpp（讓普通消費者硬體能跑大模型的熱門工具）的官方 PR 支援，而非自己維護 fork。

Use case

假設你想在自己的伺服器上部署一套能「自動執行多步驟任務」的 AI agent（代理程式），例如：「幫我查最新競品資料、整理成摘要、再存入資料庫」這類需要連續呼叫多個工具的流程，但又不想長期付 OpenAI 或 Anthropic 的 API 費用。以前本地能跑的開源模型在這類 agentic（自主代理）場景表現普遍差強人意——工具呼叫容易出錯、中間推理容易跑偏。現在你可以把 Step 3.7 Flash 的 GGUF 版本下載到有 128GB RAM 的機器，透過 llama.cpp 直接跑。Step 3.7 Flash 在 Toolathlon（工具使用能力綜合測試）和 Terminal-Bench（終端機操作能力測試）的成績都大幅贏過前代，社群實測也有用戶回報它的最終答案品質「可以媲美超過 1TB 參數的大模型」，讓本地部署的 agent 工作流真正具有實用性，而不只是技術展示。

Claude 4.8 更誠實、更少偷懶

What is this

Anthropic（開發 Claude 這個 AI 助理的公司）推出了 Claude Opus 4.8，這是前一版 4.7 的升級版，而且價格維持不變。最受關注的改進是「懶惰問題被修好了」——過去 Claude 在執行長任務時常常做到一半就停、或偽裝說「完成了」其實根本沒做完；4.8 大幅改善這個情況，多位工程師形容它是「史上最不懶的 Claude」。另一個重大改進是「誠實度」：4.8 遇到不確定的事情會主動說「我不確定」、發現自己程式碼有問題也會主動指出，不再像以前那樣過度自信。Anthropic 也說它對話更自然、理解細節的能力更強、在寫程式和知識型工作上表現都更好。

Use case

假設你請 Claude 幫你寫一段程式碼，再請它自我審查有沒有錯誤。4.7 以前的 Claude 常會回「看起來沒問題！邏輯清晰、應該可以直接用。」——即使程式碼裡其實有個邊界情境沒處理好，它也不會提。你信任它的判斷、直接上線，結果系統出錯。換成 4.8 的 Claude，同樣的情況它會說：「第 15 行這邊如果輸入是空值，可能會出錯，我沒有把握這個 case 有被正確處理到，建議你再確認一下。」同時，如果你交給它一個要分 10 步完成的複雜任務，4.7 可能到第 7 步就開始省略細節甚至直接回「完成」；4.8 會老老實實把 10 步都跑完，不偷工減料。

Opus 4.8 快速模式更快更便宜

What is this

Anthropic 推出的 Claude Opus 4.8（一種高階大型 AI 語言模型，等級上相當於 ChatGPT 的旗艦版）現在開放了「快速模式（Fast mode）」。和先前舊版快速模式相比，新版的速度大幅提升約 2.5 倍，使用成本也降低到原本的三分之一，也就是同樣的錢能得到更快的回應。速度和價格同步改善，對於需要大量呼叫 AI、對延遲敏感的應用場景（例如客服機器人、即時摘要、高頻 API 呼叫）是顯著的利好。快速模式的定位是：當你不需要模型花更多時間深思熟慮，只要快速給出夠好答案時，就可以切換到這個模式省錢省時。

Use case

假設一家電商公司每天用 Opus 4.8 處理 10 萬筆客戶問題，過去用舊版快速模式的費用是每天 90 美元、每題平均等 2 秒。換成新版快速模式後，同樣的 10 萬筆問題費用降到約 30 美元，等待時間縮短到不到 1 秒。省下的 60 美元預算可以拿來處理更多查詢，或升級到更精準的標準模式來回應複雜投訴。對比舊做法，使用者沒有要提升模型精度，只是把同一件事做得更快更便宜。

Opus 4.8 Fast 推理更省力道可調

What is this

Anthropic 發布了 Claude Opus 4.8 的「Fast」快速版本，這是他們最強大 AI 模型系列的加速版。這個版本的回答速度比標準版快 2.5 倍，但費用只多出 2 倍——相比之下，舊版 Opus 4.7 Fast 同樣快 2.5 倍，費用卻要多出 6 倍，所以新版本的「加速附加費」大幅縮水。同時，「推理力道」（Effort）調控功能——也就是讓 AI 決定要把一個問題想多深、多仔細——現在在更多使用介面上都可以調整了。早期使用者的回饋顯示，選對力道等級對輸出品質和費用的影響很顯著：開發者 Dan Shipper 建議寫程式任務用「xhigh」（超高力道），寫作潤稿用「high」（高力道），設太低品質明顯下滑。AI 應用公司 Andon Labs 也指出，最高力道不一定適合所有任務，要依工作性質來調整。

Use case

假設我要用 Claude Opus 快速版做日常兩種工作——除蟲（debug）和寫信。以前用 Opus 4.7 Fast，速度確實快，但費用是標準版的 7 倍，用起來很心痛。現在換成 Opus 4.8 Fast，同樣的速度，費用只是標準版的 3 倍，省了不少。對於寫複雜 Python 除錯，我把推理力道調到「xhigh」，讓 AI 把每個可能的問題都想清楚，不漏掉細節；對於幫我改一封業務信件，我只需要「high」力道，AI 花比較少時間思考、費用更低，品質依然夠用。相較於以前「要快就直接開最強、不管費用」的用法，現在可以針對不同任務精細調配，整體成本可以砍掉一大塊。

Claude 最新模型多項評測居首

What is this

Anthropic（開發 Claude 的 AI 公司）發布的最新一代模型，在多個主流 AI 評測中擊敗了 GPT-5.5（OpenAI 的最新旗艦模型）和 Gemini 3.1 Pro（Google 最新模型）。所謂 benchmark（基準測試），就是 AI 界設計的「標準考卷」，讓不同廠商的模型都去做同一套題目，好客觀比較誰比較強。這次公布的成績橫跨多個面向：SWE-Bench Pro 測試「讓 AI 幫真實軟體修 bug 的成功率」，新模型拿到 69.2%，比 GPT-5.5 高出整整 10 分；FrontierSWE（另一個程式設計能力排行榜）拿到第一名，並獲第三方機構確認；APEX-SWE 拿到 45.3% 的 Pass@1（意思是每次只給 AI 一次機會作答、答對才算），比 GPT-5.3 Codex 高出近 4 個百分點。綜合智能指數（Artificial Analysis Intelligence Index，一個把多項評測結果匯總成單一分數的綜合榜）為 61.4，比上代旗艦 Opus 4.7 高 4.1 分，比 GPT-5.5 高 1.2 分；唯一落後的是 AA-Omniscience（考 AI 知識廣度的評測），拿到 27.4 分，排第二，僅次於 Gemini 3.1 Pro 的 32.9 分。

Use case

假設你是工程師，想用 AI 自動定位並修好程式 bug。SWE-Bench Pro 模擬的正是這種場景——把 GitHub 上真實的問題回報單丟給 AI，要它自己找到哪一行程式出錯、改好、提交修正，全程不給額外提示。新 Claude 模型成功率達 69.2%，代表每 10 個真實 bug，它能自動修好將近 7 個；而 GPT-5.5 在同類評測中比它少了約 10 個百分點，大約只能修好 6 個。GDPval-AA 用 Elo 積分制（跟西洋棋、圍棋排名一樣的算法，分數越高代表整體對戰勝率越高）算出新模型拿到 1890 分，比上代 Opus 4.7 高 137 分，比 GPT-5.5 高 121 分，換算對戰 GPT-5.5 的預期勝率約為 67%——也就是兩個模型各跑 100 場測試，新 Claude 能贏約 67 場。對開發者來說，這意味著用新 Claude 做程式碼相關工作（修 bug、程式審查、自動補完），整體品質可能明顯優於目前的 GPT-5.5 方案。

Opus 4.8 長脈絡追平 GPT-5.5

What is this

Anthropic 的 Claude Opus 系列最新版本 4.8，在處理超長文字方面有重大突破。所謂「長上下文」（就是 AI 一次能讀多少字的限制），Opus 4.8 支援高達 100 萬 token（可以想成大約 75 萬英文字或 50 萬中文字，相當於幾十本厚書）的輸入。更值得注意的是，根據 scaling01 的長上下文評測（benchmark，就是測 AI 能力的標準化考試），Opus 4.8 在 100 萬 token 下的得分，幾乎跟 OpenAI 的 GPT-5.5 在 25.6 萬 token 下的成績一樣高。這代表 Opus 4.8 不只「裝得下更多文字」，在那麼大的文件範圍內找關鍵資訊的「理解準確度」同樣比得過競品。第三方測試機構 Artificial Analysis 也獨立驗證了 Opus 4.8 確實能完整發揮 100 萬 token 的能力，而非名義上支援但實際上超過一定長度就開始出錯。

Use case

假設你是律師，拿到一份 300 頁的跨國合約，你想問「若供應商在第 7 年違反第 32 條，哪些條款觸發賠償上限、哪些免責聲明會生效？」GPT-5.5 的 25.6 萬 token 上限大約只能裝 200 頁，300 頁的文件超過就得手動切割、分批提問、自己拼答案，麻煩又容易漏看跨段落的交叉引用。改用 Opus 4.8，整份 300 頁合約一次全餵進去（遠在 100 萬 token 限制內），AI 直接讀完所有條款、追蹤第 32 條和所有相關免責條款之間的引用關係，給出完整一致的法律分析——而且根據評測，這種超長文件下的理解準確度，不輸 GPT-5.5 在更短文件時的表現。差別就是：以前要人工切割文件，現在一次搞定。

Anthropic 預告超越 Opus 的新模型

What is this

Anthropic（製作 Claude AI 的公司）在近期聲明中透露，他們計劃在現有最強版本 Opus 4.8（Claude 系列目前的頂尖版本）之後，推出一個智能程度更高的全新「模型等級」。在 AI 社群討論中，這個新等級被稱為「Mythos 級」，代表著比 Opus 更強大的能力。不過 Anthropic 明確表示，在這個模型正式開放前，必須先建立更嚴格的「網路攻擊能力管控機制」（就是防止有人拿 AI 當工具來進行網路入侵或駭客行為的防護措施）。這意味著更強大的模型雖已在研發，但部分高危能力會被選擇性「鎖住」，確認安全後才逐步開放。這讓業界重新理解 Opus 4.8 的定位：它並非 Anthropic 的技術天花板，而是「安全可廣泛部署的商業版本」，更強大的版本正在背後等待合適時機登場。

Use case

假設你是資安研究員，目前用最強的 Claude Opus 4.8 輔助分析程式碼漏洞——它已經能讀懂複雜邏輯、指出潛在的注入攻擊點。Anthropic 的 Mythos 級模型整體推理能力將更強，比如能更快找出多層次的系統弱點、追蹤更複雜的攻擊鏈路。但涉及「可直接被濫用於攻擊」的操作（例如：自動產生可執行的入侵腳本、逐步指導如何繞過特定防火牆），這些功能會被選擇性屏蔽，只有通過審核的合法資安機構才可能申請。一般開發者能享受更強的程式分析能力，但不會碰到那些高危功能。這和目前 Opus 4.8 的模式不同：以前是「能力和限制捆綁在一起」，新策略是「把能力強度和危險功能分層管控」，讓安全與性能可以分別調節。

Anthropic 多 Agent 大型程式遷移

What is this

Anthropic（就是開發 Claude AI 的公司）推出的 Claude Code（一款 AI 輔助寫程式的工具）新增了「多 Agent 並行」功能，專門應對超大規模的程式遷移、重構、和稽核任務。所謂「多 Agent 並行」，意思是同時跑幾百個 AI 分身，各自負責一小塊程式碼，好比一個工廠同時開幾百條生產線。最轟動的實際案例是 Bun（一套廣泛使用的 JavaScript 執行環境）把整個底層從 Zig 語言改寫成 Rust 語言，共 75 萬行程式碼，從第一次 commit（提交程式碼）到合併主幹只花了 11 天，測試通過率達 99.8%，每個檔案還有兩位 AI 審核員交叉確認。這放在以前，同等規模的重構可能要一整個工程師團隊花費數個月。社群對此討論熱烈——支持者認為這是劃時代的生產力飛躍；批評者則指出「讓 AI 在迴圈裡呼叫 AI」並非全新概念，且真正的痛點是 token 耗費極高、多 Agent 同時修改同一區塊時容易衝突覆蓋。KLieret 引用 Anthropic system card 的資料指出：多 Agent 不一定能提升程式碼的最終品質，但可以讓平均水準的解法快兩倍出現。

Use case

假設公司內部有幾百個 A/B 測試開關（用來控制功能要不要對某部分用戶開放的程式碼旗標）散落在整個程式庫，其中很多已經是「殭屍旗標」——測試結束了卻沒人清掉。過去要人工逐一檢查、刪除，可能要幾天甚至幾週。用 Claude Code 的多 Agent 模式，幾百個 AI 分身同時掃瞄不同的旗標，10 分鐘以內就能辨識出哪些是過期的、可以安全刪除，再由人工確認後批次清除。對比舊做法：工程師手動審查一個旗標可能要 5～10 分鐘，200 個旗標就是整整兩天；多 Agent 版本壓縮到不到一個工作小時，讓工程師只需要看最後的清單、按確認就好。

GitHub Copilot 改按用量計費

What is this

GitHub Copilot 是微軟旗下推出的 AI 程式碼助手（就是幫工程師邊寫程式邊自動補完建議的 AI 工具，全球有數百萬開發者在用），從 2026 年 6 月 1 日起改變收費方式，從原本固定月費制改成「按 token 計費」（token 就是 AI 處理文字的基本單位，可以理解成 AI 每讀一個字、每輸出一個字都在消耗，消耗越多費用越高）。這個改變讓許多開發者費用暴增——有人從每月約 29 美元飆升到近 750 美元，另有人從 50 美元漲到 3,000 美元。許多開發者在社群上怒嗆「這完全是個笑話」，揚言取消訂閱；部分人則認為是使用習慣問題，說費用爆炸的是那些不懂程式卻大量依賴 AI 的「氛圍程式設計師」（vibe-coder，意即靠 AI 搭積木、幾乎沒有程式基礎的用戶）。批評者也指出，微軟過去一直鼓勵無限制使用，現在突然改規則，責任在微軟而非用戶。

Use case

過去一個開發者每月固定付 29 美元訂閱 GitHub Copilot，不管用多少 AI 補完功能都同樣費用，用起來很放心。新制上路後，如果他頻繁使用 agent 模式（就是讓 AI 自動執行多個步驟、一次掃好幾個檔案幫你重構程式的進階功能），每個動作都消耗大量 token，費用就可能在不知不覺間衝到 750 美元以上。對比一目瞭然：舊制像吃到飽餐廳，新制改成按菜計價——而「菜」的單位（token）你平常根本不知道自己吃了多少，帳單來了才嚇到。對於大量使用 AI agent 功能的開發者來說，這等於是隱藏漲價數十倍。

OpenAI Codex 上線 Windows 自主找蟲

What is this

OpenAI 的 Codex（OpenAI 推出的 AI 編程助手，可以幫你寫程式、除錯）現在新增了「Computer Use」（電腦使用）功能，讓 AI 可以像人一樣自己操控 Windows 11 電腦的滑鼠和鍵盤，完全不需要人坐在旁邊盯著。這個功能讓 AI 能夠自己打開程式、執行測試、找出程式裡的錯誤（bug），就像雇了一個 24 小時不休息的品管測試員。更方便的是，你不在電腦旁邊時，可以透過手機上的 ChatGPT app 從遠端啟動任務，並隨時查看任務進度和結果。這是 AI agent（能自主完成多步驟任務的 AI）從單純「回答問題」進化到「真的幫你動手做事」的重要一步。

Use case

假設你是一個開發者，剛寫完一個 Windows 桌面程式，想測試「使用者點選所有按鈕有沒有會跳出錯誤的地方」。以前你要自己坐在電腦前一個一個手動點，邊點邊記錄哪裡壞掉；或者花好幾小時寫自動化測試腳本，但腳本本身也要維護。現在你可以在 Codex 裡設定任務：「把這個程式所有按鈕都點一遍，回報哪些地方出現錯誤訊息」，然後就離開去吃晚飯。AI 會自己打開程式、移動滑鼠、點按鈕、紀錄異常狀況。你在外面時，拿起手機開 ChatGPT app，就能看到任務進度和初步回報。相比以前要守在桌機前手動測試，現在可以讓 AI 在背景自動跑，省下大量重複性的人工操作時間。

Salesforce AI 代理人讓遷移快 18 倍

What is this

Salesforce（全球最大的企業軟體公司之一，主要做 CRM——也就是幫企業管理客戶關係的系統）宣布把整個工程部門全面切換成 AI 代理人（能自主執行任務、不需人一步步下指令的 AI 程式）工作流程。他們選用 Anthropic（製作 Claude AI 的公司，是 OpenAI 最大競爭對手）推出的 Claude Code（一個讓 AI 直接幫工程師寫程式、改程式的工具），並對全體工程師開放無限制使用，不設 token（AI 處理文字的計量單位，平常是計費來源）上限。根據 Salesforce 公布的 2026 年 4 月內部數據：每位工程師合併的程式碼提交數多了 79%、完成工作項目多了 50.8%、內部「有效產出分數」提升 151.3%，更重要的是事故率（程式上線後出問題的頻率）還下降了 5%，代表品質沒有因加速而下滑。最戲劇性的案例是一個 API 遷移專案，從原估 231 人天縮短為實際 13 天完成，快了約 18 倍。不過這些數字均來自 Salesforce 自家公布，目前無外部獨立驗證，業界對此評價仍有爭議。

Use case

任務是把 33 個 API 端點（程式對外提供服務的「入口」，例如「查詢訂單」「新增客戶」各算一個端點）從舊系統遷移到雲端原生新架構。舊做法是工程師逐一讀舊程式碼、理解邏輯、改寫成新架構再補測試，整體工作量估計要 231 個人天，等於一個人單獨做要連續工作將近一年。新做法是工程師先準備 CLAUDE.md（一種給 AI 看的「工作手冊」，把團隊慣例、程式規範、背景知識全部寫進去讓 AI 理解），再建立可重用的 Claude Code 技能套件，讓多個 AI 子代理人同步分頭平行處理不同端點，並自動生成對應測試。最終結果：13 天完成，輸出 5 個 PR（程式審查申請），其中最大一個 PR 一次涵蓋 21 個端點且附完整測試。差距是以前同等規模需要一整年，現在兩週搞定。當然也有批評聲音：知名駭客 George Hotz 直言這只是在快速累積「技術債」（將來難以維護的問題程式碼），真正的代價幾年後才會浮現；Andrej Karpathy（前 Tesla AI 負責人）則認同方向但承認品質仍有問題。

AI 效率倍增，勞工何時能放假

What is this

一篇 2026 年 3 月發表的部落格文章《Can we have the day off？》（「我們能放假嗎？」）近期在 Hacker News 上引發大規模討論，核心問題是：如果 AI（就是 ChatGPT 這種會自動處理任務的程式）真的讓員工產出提升了 10 倍，為什麼工時沒有同步縮短？文章作者指出，生產力提升的紅利幾乎完全被企業留下，員工並未受益。從數據看，美國 2026 年 3 月仍有 690 萬個職缺，但科技業裁員速度從 2025 年每天 674 人加速到每天 961 人——表面上低失業率，其實是一種「隱形收縮」：企業選擇讓職缺空著、用 AI 補工作，不再實際雇人。Salesforce（美國最大企業軟體公司之一）把客服人力從 9,000 人砍到 5,000 人，Klarna（瑞典「先買後付」金融公司）的 AI 系統做的工作等效於 700 名員工。社群把這個局面比喻成「囚徒困境（每個人各自理性選擇後，集體反而更糟的陷阱）」：任何個人若跑慢一點就會被市場淘汰，只有工會化或 UBI（無條件基本收入，即政府不管你有沒有工作都每月給一筆錢）這種集體行動才能打破規則。

Use case

假設你是 Salesforce 的客服主管，你管的 9,000 人團隊在 2025 年引入 AI 自動回覆和案件分類系統。AI 上線後，每個客服處理的案量提升了約 80%，整體服務能力沒降反升。公司隨即宣布：「不裁員，但有人離職後不再補人。」一年內，9,000 人自然流失到 5,000 人。留下來的人薪水沒漲、工時沒縮，要扛的工作量卻默默增加，效率紅利全進公司口袋。這不是假設，正是 Salesforce 的真實做法。對比 AI 出現前的期待——「AI 幫忙做，人可以少做一點、多休息」——現實卻是：人更少了，剩下的人更忙，假更難放。

人類跑 AI 基準測試，拿幾分

What is this

Reddit 社群 r/LocalLLaMA 有位用戶實際去參加了原本用來測試 AI 模型的考試，並分享了自己的成績截圖，自嘲「滿足於沒有排在最後」。這引發了廣泛討論，讓大家正視一個現實：現在頂尖 AI 在這些正式測驗裡的分數，已經超過人類專家。目前常見的兩個 AI 評測標準分別是 MMLU（多任務語言理解測試，就是一份涵蓋數學、科學、法律、歷史等各科的大型選擇題考卷）以及 GPQA（研究生等級科學問答，專門出那種需要真正深度理解才能答對的難題）。人類專家在 GPQA 平均答對約 65%，而 Google 的 Gemini 2.5 Pro 已經超過 90%，大幅領先。這場「人類親身下場對決 AI 考卷」的實驗雖然只是一則社群貼文，卻準確折射出大眾對「AI 到底超越我們多遠」的真實焦慮。

Use case

假設你是一位生物學研究生，GPQA 裡可能出這種題：「在某特定條件下，酵素 X 透過哪種化學機制催化反應 Y？」這種問題需要跨領域整合才能正確作答，人類專家平均只有 65% 答對率。而 Gemini 2.5 Pro 卻能拿到 90% 以上。不過，社群裡工程師提醒：MMLU 和 GPQA 測的是「廣度記憶＋快速推理」，和工程師每天真正要用的能力——系統設計、找出 bug 的直覺、判斷哪段程式碼未來會在生產環境炸掉——是完全不同的事。所以 AI 考試分數高，不代表明天就能取代你的工作；更值得追蹤的是：在哪些真實業務任務上，AI 的完成品質已開始追上人類？

SQLite 打造 AI Agent 持久化工作流

What is this

Obelisk 是一個開源的工作流引擎（可以把它想成「幫你把一連串任務排好、失敗就自動重試、中途關機也不會遺失進度的管理員」），它的特別之處在於只用 SQLite（一種輕量型的本地資料庫，不需要安裝額外伺服器，資料就存在一個檔案裡）搭配 Litestream（一個把 SQLite 即時備份到雲端儲存的工具）來存放工作流狀態。傳統的工作流系統通常需要架設獨立的資料庫伺服器（如 PostgreSQL 或 Redis，就是那種要先安裝、要有人管理的大型資料庫系統）才能保住中斷後的進度，維護成本高、延遲也大。這套架構把基礎設施簡化到「一個本地檔案」，同時透過 Litestream 把每一筆變更非同步複製到 S3 相容的雲端儲存（如 AWS S3、Cloudflare R2），讓資料不會因伺服器當機而消失。文章特別強調這對 AI Agent（能自主執行多步驟任務的 AI 程式，如自動查資料、呼叫 API、寫報告）特別實用，因為 AI Agent 的工作流程往往爆發性強、狀態複雜，而每個 Agent 或用戶都能擁有自己獨立的小型 SQLite 狀態單元，故障時只影響自己，不會波及其他人。

Use case

假設我要建一個「自動寫週報」AI Agent：它會依序執行「從 Jira 抓本週任務→呼叫 LLM（大型語言模型，就是 ChatGPT 這類 AI）整理重點→寄 email 給主管」三個步驟。舊做法若中間 LLM API 超時或伺服器重啟，整個流程得從頭跑，浪費 API 費用也浪費時間。用 Obelisk + SQLite，每個步驟完成時都會把結果寫入本地 SQLite 並即時備份到雲端；伺服器重啟後，工作流自動從「呼叫 LLM 那步」繼續，不會重複抓 Jira 資料、不會重複付費。更進一步，若同時有 100 個用戶各自跑自己的週報 Agent，每人各有一個獨立的 SQLite 檔案，某用戶的 Agent 卡住只影響自己，不會拖垮其他人——比起共用一個大型資料庫，隔離效果更好，故障排查也更簡單。

Mistral AI Now 峰會重點整理

What is this

Mistral AI（法國 AI 新創，以開放、可自行架設的模型著稱）在巴黎舉辦年度峰會 AI Now Summit，宣告公司策略轉型：從單純賣 AI 模型，擴展成提供「算力 + 模型 + 平台 + 顧問服務」的完整 AI 套件。他們在巴黎自建了 40MW 資料中心（耗電量相當於一座小城市），並推出多項針對特定任務優化的專用模型：Voxtral（多語言語音辨識，就是讓 AI 聽懂各國語言的語音並轉成文字）、Document AI（文件 OCR，讓 AI 讀取並理解掃描文件或圖片裡的文字）、Robostral（工業機器人控制）。他們也推出「Vibe for Work」企業版 AI 助理，直接對標 Claude for Work（Anthropic 的企業版 AI 產品）。峰會核心訊息是：Mistral 走「可在公司內部自架」路線——敏感資料不必送到外部雲端，對金融、醫療等合規要求高的行業特別有吸引力，這是他們與 OpenAI 和 Anthropic 最大的差異化策略。

Use case

法國大型銀行 BNP Paribas 用 Mistral 的模型在自家伺服器上跑 KYC 合規審查（KYC 就是銀行開戶前依法規必須核實客戶身分的流程）。做法是：把模型部署在銀行自己的機房（on-premises，模型跑在自家電腦而非外部雲端），讓 AI 自動讀取客戶提交的身分文件並比對資料，整個流程中客戶資料完全不離開銀行的機房。對比舊做法：若改用 OpenAI 或 Anthropic 的雲端 API（透過網路呼叫對方伺服器上的 AI），資料會傳到美國，這在歐洲金融法規下屬於違規。Mistral 自架模型讓銀行合規又省人力。另一案例：西班牙銀行 Abanca 用 Mistral 的 agent orchestration（讓多個 AI 分工自動完成任務的機制）管理超過百萬名客戶的資料，大幅減少人工處理時間。

Gamma-World 多智能體世界模型

What is this

Gamma-World 是由英偉達（NVIDIA）、清華大學和多倫多大學合作開發的新技術，讓「世界模型（World Model，就是能模擬真實或遊戲環境、讓 AI 從中學習互動的 AI 系統）」從只能支援一個角色，升級成能讓多個角色同時在同一個世界裡行動並互相影響。過去的世界模型就像只能一個人玩的單機遊戲，而 Gamma-World 讓它變成多人同時在線的環境。這項突破靠三項核心技術：一是「單純形旋轉編碼」，用數學幾何讓每個玩家在 AI 眼中都一視同仁，不偏心任何特定角色；二是「稀疏樞紐注意力機制（Sparse Hub Attention）」，讓多個角色之間的溝通計算量不再隨人數平方爆炸，而是線性增長、大幅省算力；三是三階段蒸餾訓練，讓模型推論速度達到每秒 24 幀的即時水準。在 Minecraft 五種場景測試中，影像生成品質比前代方案平均提升超過 40%。

Use case

想像要訓練兩隻工業機器手臂協作搬運箱子。傳統做法要分別為每隻手臂訓練各自的 AI 模型，再用規則拼湊協作邏輯，費時費力且容易出錯。用 Gamma-World，可以先讓兩個 AI 角色在模擬世界（如 Minecraft）裡學會協調動作，然後直接把學到的協作策略遷移到真實的雙臂機器人（RealOmni-Open）上執行真實任務——研究團隊確認這個遷移是可行的。更重要的是，模型只用兩個角色的資料訓練，卻能直接「零樣本（Zero-shot，即完全不需要額外訓練）」擴展到四個角色同時行動，省去重新蒐集大量多人訓練資料的成本。相比之下，舊方法需要為每種人數分別蒐集資料重新訓練。

開源 AI 浪潮加速工具全面升級

What is this

2026 年 4 月出現一個 AI 界的重要趨勢轉折：開源模型（就是把 AI「大腦」的參數公開、讓任何人免費下載、自己在電腦上跑的 AI）使用率快速攀升，根據 LangChain 的統計，每三個 AI 開發團隊就有一個在用開源模型，九個月前這個比例只有五分之一。更值得注意的是，研究機構 Epoch AI 估計，這些開源模型的能力現在只比 GPT-4o、Claude 這類頂尖商業 AI 落後約四個月——過去這個差距曾長達一到兩年。與此同時，一批讓你在自己電腦「本地跑 AI」的工具也同步升級：llama.cpp（把大型 AI 壓縮到普通電腦能跑的工具）的作者推出了 llama.app 官方網站，提供一鍵安裝與統一操作介面，讓沒有程式背景的使用者也能輕鬆在個人電腦跑開源 AI；Ollama 宣布 OpenJarvis，主打在本機電腦就能用、資料不出公司的個人 AI 助理。Hugging Face（全球最大 AI 模型分享平台）也透露，平台上約 50% 的模型與資料集已屬私有，顯示開源 AI 生態正快速走向企業化商業應用。

Use case

假設你是一名中小企業老闆，想用 AI 分析客服對話，但不希望敏感對話資料傳到 OpenAI 或 Anthropic 的雲端伺服器。過去你沒有太多選擇，因為開源模型能力遠不如商業模型，用起來效果差很多。現在，你可以下載 llama.app，只需幾分鐘，就能把一個能力接近「四個月前 Claude」水準的開源 AI 裝在自家伺服器或電腦上，所有對話資料完全不離開公司；或者透過 Ollama + OpenJarvis，讓員工直接在電腦本機與 AI 對話，速度快、不需按次計費的 API 費用，整體成本遠低於呼叫 GPT-4o API。兩年前，這個方案的 AI 能力大概只有商業頂尖版的一半；現在，差距縮到「就是四個月前的商業 AI」，對絕大多數企業日常任務來說已綽綽有餘。

AI 搜尋記憶機器人三大研究方向新進展

What is this

這篇文章整理了近期多篇 AI（人工智慧）學術研究的重要進展，涵蓋搜尋、記憶管理、機器人控制三大方向。其中，來自哈佛與 MIT 的 BES（雙向演化搜尋）讓語言模型在多跳推理（也就是需要查好幾個線索才能得到答案的問題）任務上表現明顯提升。BeliefTrack 這個研究聲稱，優化 AI 的「信念追蹤」（讓 AI 記住對話過程中已確認的事實，避免前後矛盾）後，長對話任務的失誤率降低了 70% 以上。在主動 AI 助理方面，研究人員用一個只有 220MB 的小型模型，取代昂貴的大型語言模型（LLM，就是 ChatGPT 這類對話 AI）來判斷「何時主動出手幫助用戶」，準確率反而提升（mean F1 高出 16.7 點），速度還快了 4 到 83 倍。此外，NVIDIA 相關研究也發布了能以 24 FPS（每秒 24 幀，電影播放的標準速度）即時串流的多智能體世界模型 γ-World，以及機器人視覺語言動作模型 Qwen-VLA 等成果。

Use case

想像你在用一個「永遠待命」的 AI 助理監控你的工作狀態，偵測到你卡關時主動跳出來幫忙。舊做法是每隔一段時間就呼叫大型語言模型（費用高、反應慢）來判斷「現在該不該介入」。新研究改用一個僅 220MB 的「時間圖編碼器」（一種專門分析行為時間序列的小型神經網路），持續追蹤你的操作紀錄來預判介入時機——不僅判斷更準，執行速度還快了最多 83 倍。對開發者來說，這代表未來可以在筆電或手機等本地設備上跑主動 AI 助理，不需要每次都上雲端呼叫大模型，省錢又即時。

llama.cpp 新增統一安裝器與 CLI 入口

What is this

llama.cpp 是目前最受開發者歡迎的「在自己電腦上跑 AI」的工具，不需要付費給 OpenAI 或 Anthropic，把語言模型（就是像 ChatGPT 這類會對話的 AI）直接下載到本機就能使用。過去要用 llama.cpp，需要自己從原始碼「編譯」（一種把程式碼轉成可執行程式的繁瑣手動流程），對一般人門檻極高。這次作者 @ggerganov 推出 llama.app，提供「統一安裝器」（一個安裝包搞定所有設定）以及統一的 CLI 入口點（CLI 就是在黑色終端機視窗輸入指令操作電腦，入口點意思是只要記一個固定指令就能控制所有功能），大幅降低使用門檻。這是 llama.cpp 在易用性上的重大里程碑，讓更多非開發者背景的用戶也有機會在本機跑 AI。

Use case

假設你想在自己的筆電上跑 Llama 3 或 Gemma 這類免費開源 AI 模型，過去的做法是：先安裝 git、cmake 等開發工具，下載 llama.cpp 原始碼，手動編譯、設定環境變數、找模型檔路徑，才能執行——光環境準備就可能花半天甚至連續失敗。現在有了 llama.app，下載一個安裝包，安裝完在終端機輸入統一指令（例如 `llama run llama3`）就能直接和本機 AI 對話，不需要任何編譯知識。舊做法需要有開發者背景，新做法門檻降到「只要會開終端機視窗」，大幅擴大了可自行架設本機 AI 的用戶範圍。

開源模型落後前沿約 4 個月

What is this

Epoch AI Research（一個專門追蹤 AI 模型能力進展的非營利研究機構）最新估算指出，開放權重模型（open-weight models，就是把「模型參數檔案」公開讓任何人免費下載使用的 AI，例如 Meta 的 Llama、阿里的 Qwen 系列）目前的整體能力，大約落後前沿閉源模型（frontier models，就是 OpenAI 的 GPT-4o、Anthropic 的 Claude、Google 的 Gemini 這類商業公司不公開參數的 AI）約 4 個月。換句話說，開源社群現在的最強模型，大概等於閉源頂尖模型 4 個月前的水準。這個差距相比幾年前已大幅縮小——當時開源可能落後一年以上——說明開源社群的追趕速度非常驚人。但對開發者而言，「差 4 個月」在某些場景下仍然有感，特別是需要複雜推理或最新知識的任務。

Use case

假設你要幫公司建一個「AI 程式碼審查助手」，你有兩個選擇：一是付錢呼叫 OpenAI GPT-4o 的 API（最新前沿模型），二是在自己的伺服器部署 Llama 或 Qwen 這類開源模型（不用付 API 費，但需要伺服器算力）。根據 Epoch AI 的估算，選開源方案，你拿到的能力大約等於 4 個月前的前沿水準。對大多數日常程式碼審查來說，這個差距「幾乎看不出來」；但若要解析一段涉及多層繼承、複雜多執行緒邏輯的程式，前沿模型可能直接抓出隱藏的 race condition（競態條件，多支程式同時跑時搶同一資源引發的 bug），開源模型則可能需要你給更詳細的提示才找得到。選哪個，取決於你的任務複雜度和能否接受額外費用。

Opus 4.8 社群兩極評價

What is this

Anthropic 發布了 Opus 4.8（就是 Claude AI 家族的最新旗艦版本），AI 社群對這次更新褒貶不一、爭議熱烈。支持者認為這款模型「本可叫 Opus 5」，Anthropic 終於解決了模型「偷懶」（就是 AI 敷衍回答、不願認真作答）的問題，且模型更誠實、校準度（就是 AI 能適當說「我不確定」而非亂猜的能力）大幅提升。但質疑派則說這只是小升級，Anthropic 是在追趕 OpenAI 而非引領方向。來自 Andon Labs 的 benchmark 測試（就是用標準化題目評比 AI 能力的基準測試）顯示，Opus 4.8 在部分項目上竟輸給前一版 Opus 4.7 和 OpenAI 的 GPT-5.5，而且模型整體更保守謹慎，「最強推理模式」並不是最佳推理效果。此外，Claude 的動態工作流（讓 AI 自動規劃多步驟任務、動態決定下一步怎麼做）雖然功能強大，但開發者實測反映 token（就是 AI 計費的用量單位）消耗極大，容易迅速燒光配額。

Use case

假設你是開發者，想用 Claude Opus 4.8 自動分析一份 50 頁財報——讓 AI 自行規劃「先看收入、再看費用、最後列風險項目」等步驟並執行。支持者說這版模型不再敷衍了事，遇到不確定的數字會主動說「我不確定，建議人工核對」，而非硬猜；但有多位開發者實測動態工作流後發現，單次任務 token 用量可能是一般對話的 5～10 倍，跑幾個任務就把整月配額燒光。這也解釋了為何社群評價如此分歧：用靜態提示詞（就是一次性給完整指令）的用戶普遍叫好，用動態工作流做長任務的用戶卻叫苦連天。

Opus 4.8 benchmark 多面向觀測

What is this

這篇文章整理了 Claude Opus 4.8（Anthropic 公司最新版旗艦 AI 模型）在多個測評標準上的表現數據。IFBench 是一個專門測試 AI「有多能乖乖照複雜指令辦事」的評分系統，Opus 4.8 在此項提升了 3.6 分，算是明顯進步。但在 GPQA（測試研究生程度知識問答能力）和 SciCode（程式撰寫能力，就是叫 AI 寫程式並讓答案真的能跑出對的結果）上，分數與上一版大致持平，沒有大幅躍進。除了冰冷的數字，這篇文章也蒐集了幾位實際使用者的感受：Cursor 是一款廣泛使用的 AI 輔助程式碼編輯器，他們測試後指出新版在長時間處理困難任務時更有毅力、更有效率；Anthropic 內部員工則特別強調 Opus 4.8 在 Claude Code（一款由 AI 自動完成程式撰寫、替工程師減少重複勞力的工具）的「長程工作」上表現出色；另有多位用戶回報在知識整理、文章撰寫等工作上感受到明顯差異。整體而言，這次更新的重點不在「跑分刷新」，而在「真實任務中的持續力與工作品質」。

Use case

假設你是工程師，打算用 Claude Code 完成一個需要好幾個小時才能結束的大型功能——例如從零設計資料庫結構、撰寫 API 端點、再串接前端介面，整套邏輯環環相扣。用 Opus 4.7 的經驗是：AI 做到某個複雜環節容易停下來等你給下一步指示，或是中途犯錯後開始繞路，最終需要人工大量介入才能把工作收尾。Cursor 測試 Opus 4.8 的結果顯示，新版本更能一路堅持到底：遇到困難不輕易放棄、減少沒必要的「來回確認」，讓工程師能更像真正的「監督者」而非「隨時待命的救火員」。對寫作工作也類似：測試者 Dan Shipper 指出，同樣請 AI 撰寫長篇深度文章，4.8 版本在結構連貫性與措辭品質上有明顯提升，相比之前要反覆貼回來修改的流程，現在第一稿就更接近可用。

Claude 4.8 token 少但回合多

What is this

這是由 Artificial Analysis（一個專門評測 AI 模型表現的第三方機構）公布的 Claude 4.8（Anthropic 公司最新旗艦 AI 模型）比較測試結果。測試顯示，Claude 4.8 每次回覆輸出的「token」（AI 計算文字的最小單位，大約每 1000 個 token 相當於 750 個英文字）比對手少了 35%，代表每次回答更精簡。但矛盾的是，完成同一個任務所需的「回合數」（就是 AI 和使用者來回對話的次數）比排名第二的 GPT-5.5（OpenAI 公司的頂級模型）多了約 30%。這個發現的意義在於：光看「每次回覆多長」並不等於「完成任務的效率」，Claude 4.8 雖然每步比較精簡，卻需要更多步驟才能把事情做完。

Use case

假設我要讓 AI 自動幫我重構（整理、改寫）一段程式碼。用 Claude 4.8 的話，每一步的回應比較短（省了 35% 的字數），但可能要來來回回 13 次才能完成整件事；改用 GPT-5.5，每步回應雖然較長，卻可能只需 10 次就搞定。對於按 token 計費的開發者來說，Claude 4.8 每次請求的費用確實較低，但多出來的 30% 請求次數也增加了整體呼叫成本——最終誰比較省錢，要看實際任務的性質與計費方式，不能單看「每次輸出 token 數」就下結論。

Opus 4.8 誠實與幻覺評測

What is this

Anthropic（製作 Claude 這個 AI 助手的公司）新發布的 Claude Opus 4.8 在「誠實度」和「幻覺率」（AI 憑空捏造不存在資訊的比例）上獲得社群評測者廣泛好評。多位開發者和測試者回報這個版本比以前「更老實」，更願意坦承自己不確定、減少亂猜。第三方評測機構 Artificial Analysis 的數據也確認，Anthropic 的模型在幻覺率上持續顯著低於 Google 和 OpenAI 的同等競品。但也出現了負面信號：研究者 scaling01 指出這是 Anthropic 很久以來第一個沒有改善「prompt injection 抗性」（指 AI 被惡意設計的指令欺騙或操控的防護能力）的模型；Andon Labs 則稱它更謹慎、「害怕被抓包」，在部分對抗性測試和商業任務基準測試中表現反而退步。評測者 nrehiew_ 也質疑官方幻覺改善數字是否真實反映使用者在日常場景中遇到的問題。

Use case

假設你在做一個 AI 法律問答工具，讓 AI 幫客戶查詢合約條款。用舊版 Claude，AI 有時會把不存在的條款說得煞有其事，客戶若沒逐字核查就可能被誤導。換成 Opus 4.8 後，根據多位測試者回報，AI 更頻繁地主動說「我不確定，請查閱原始文件」，而非隨意填補空缺——這在醫療、法律、客服等高準確度場景非常關鍵。反過來說，如果你在做安全測試、想確認 AI 能否抵抗「惡意 prompt 注入」攻擊（例如：惡意使用者用特殊語句試圖讓 AI 無視安全規則），Opus 4.8 在這項防護指標上沒有進步，表示安全防護層面沒有提升，是開發者需要另行評估的風險點。

Google Gemini Spark 全天候 AI 助理實測

What is this

Gemini Spark 是 Google 於 2026 年 5 月推出的雲端 AI 助理，最大特點是「你關掉電腦，它還在雲端繼續幫你工作」。它整合了 Gmail、Google 日曆、文件、試算表、簡報等 Google 服務，能幫你自動整理收件匣、摘要電子報、規劃週末行程、追蹤優惠、整理購物清單等日常任務。這類 AI 叫做「agentic AI（代理型 AI，就是讓 AI 像一個主動工作的助理，不用你下每一個指令，它能自動執行後回報結果）」，你只需設定好任務，Spark 在背後跑完後通知你。唯一讓人困惑的是，文章作者質疑這為何不做成 Gemini 原本就有的功能，而要另立一個獨立產品——目前整合也僅限 Google 自家服務，無法串接 Google Keep 或直接傳簡訊。

Use case

記者實測讓 Spark 自動掃描 Gmail 裡的電子報，整理成每週摘要並附上連結；另外讓它找附近的週末活動清單，它回傳了含距離估算的結果；也讓它搜藥妝店優惠、找可疊加折扣的組合。具體流程是：設定好任務指示後關掉電腦，Spark 在背後運行，完成後送回結果；相比你自己逐封開 email、一個個搜尋活動，省下大量手動時間。不足之處：偶爾給的優惠碼無效，有時會漏掉你要求的費用或日期資訊，且無法把結果存到 Google Keep，只能存成文件或寄回信箱。

工程師依賴 AI 但代碼品質反而更差

What is this

越來越多工程師（就是寫程式的人）已經依賴 AI 輔助寫程式工具，依賴程度高到拒絕在沒有 AI 的環境下工作。但多項研究發現，AI 雖然讓「產出程式碼的速度」變快，這些程式碼卻問題更多、更難長期維護。專門分析程式碼品質的工具 CodeRabbit 統計顯示，AI 生成的程式碼出問題的頻率是人工寫的 1.7 倍，而且企業平均把 44% 的 AI 使用量花在修 AI 自己製造的漏洞上。Uber 更在四個月內燒光了 2026 年全年的 AI 預算，首席營運長坦言「看不到任何可量化的生產力提升」；亞馬遜則因員工靠過度使用 AI 刷數字來操縱排行榜，直接關掉了內部的程式碼用量積分系統。

Use case

假設一名工程師要開發一個「用戶登入系統」。用 AI 輔助工具，可能半小時就生成了 500 行看起來能跑的程式碼。問題是這份程式碼可能藏有安全漏洞、用了過時的驗證寫法、或者邏輯其實有缺陷，但表面上「不報錯、能動」。工程師沒有仔細審查就交出去，三個月後另一個人要修改這段程式碼時，才發現其中有嚴重問題，花的修復時間遠超過當初 AI 節省的時間。這正是新加坡管理大學研究者警告的「長期維護成本」——AI 讓你今天快，代價由未來的人來還。專家 James Shore 直接點出：「AI 寫得更快，必須對應維護成本減半才划算，否則你只是在借時間。」

TechCrunch AI 術語詞彙表上線

What is this

TechCrunch 發布了一份 AI 術語詞彙表，專門幫助一般人搞懂 AI 界各種「行話」的真正含義。隨著 ChatGPT、Claude 等 AI 工具越來越普及，新聞和社群上充斥著各式術語，讓很多人雖然常點頭，卻其實半懂不懂。這份詞彙表涵蓋了 LLM（大型語言模型，就是驅動 ChatGPT 這類對話 AI 的核心技術）、AGI（人工通用智慧，指能在絕大多數工作上超越人類的 AI）、幻覺（AI 胡亂捏造不存在資訊的問題）、微調（讓已訓練好的 AI 在特定領域更專精的技術）、AI 代理人（能自主完成多步驟任務的 AI 工具）等重要詞彙。文章定期更新，是一份維持在最新狀態的「活文件」，適合隨時查閱。

Use case

假設你在新聞上看到「某公司用微調（fine-tuning）技術讓 LLM 的幻覺問題降低了 40%」，沒有背景的人大概一頭霧水。打開這份詞彙表查詢：微調是指在一個已訓練好的大型 AI 基礎上，再用特定領域的資料讓它更熟悉那個領域——就像一個已會基礎英文的人再去補修法律英文，不用從頭學起；幻覺則是指 AI 模型有時會「說謊」——問它某件事，它可能答出一個聽起來很有說服力但完全捏造的資訊，例如引用一篇不存在的論文或給出錯誤的法律條文。有了這份詞彙表，下次看 AI 新聞時就不必靠點頭假裝聽懂，可以直接查到每個詞的確切定義。

微軟+Nvidia 合推本機 AI Agent PC

What is this

微軟和輝達（Nvidia，全球最大繪圖晶片廠）據報正在合作推出新一代 AI PC，這次的主角不再是之前備受批評的 Copilot（微軟的 AI 助理，類似整合進 Windows 的 ChatGPT），而是能在本機執行的 AI 代理人（Agent，就是能自動完成一系列任務、不需要人一步一步操作的 AI）。輝達這次將以「主處理器」的身份進入個人電腦市場，不再只是做顯示卡；Dell 和微軟 Surface 系列的新機型預計在下週的 Computex（台北電腦展）和 Build（微軟年度開發者大會）亮相。微軟計畫推出以 OpenClaw 框架（一個用來協調 AI 代理人在本機運作的軟體架構）為基礎的新軟體，讓 AI 代理人能直接在你的 Windows 電腦上自主執行任務，不需要把資料傳到雲端。這是繼 Copilot+ PC 概念大失敗後，微軟在「讓電腦 AI 真的有用」這件事上的第二次嘗試。

Use case

假設你想要「整理桌面上散落的 100 份文件，依照內容類型分到不同資料夾，再把每份文件做成摘要存進 Excel」。舊做法是用 Copilot 聊天介面一份一份請 AI 幫你看，再手動搬移，非常繁瑣。在新的本機 AI Agent 架構下，你只要說一句「整理我桌面上的文件」，AI 代理人就會自動讀取每份文件、判斷類型、建立資料夾、搬移檔案、產生摘要，整個過程在你電腦上本機執行（資料不需上傳），完成後回報結果。差異在於：Copilot 是「你問一句、它答一句」的來回對話，Agent 是「你說一個目標、它自己想辦法從頭執行到完」的自主模式。

有幫助的 AI 反而無法模擬人類行為

What is this

一項大型研究（涵蓋 20.8 萬名參與者、2,600 萬筆回應）發現：讓 AI 變得「有幫助」的訓練過程，反而削弱了它模擬真實人類行為的能力。這裡說的訓練，指的是現代 AI 聊天機器人（例如 ChatGPT、Claude）都會做的「從人類回饋中學習」（RLHF，就是讓 AI 根據人類打分調整行為，讓它更友善、更安全、更願意回答問題）。研究發現這種訓練讓 AI 越來越像一個「理想的助手」，但也讓它越來越不像「真實的人」。更令人擔憂的是，這個問題在每一代新模型上都在加劇——也就是說，AI 越進步、越有幫助，就越難準確模擬真實人類的反應。此外，研究人員常用的「人物設定技巧」（就是告訴 AI「你是一個 45 歲的女性、大學畢業、住在台北」這種方法）幾乎沒有幫助，對個別預測的準確度提升微乎其微。

Use case

假設某個政治學研究團隊想省時省錢，想用 Claude 或 GPT 來模擬「一千名台灣選民對某項政策的真實看法」，取代傳統的真人問卷調查。他們設定了各種人物背景給 AI，讓它分別以不同人格回答政策問卷。但根據這項研究的發現，無論怎麼設定人物背景，現代 AI 的回答都會系統性地偏離真實人類的回答模式——而且這個偏差不是隨機的，而是有固定方向：模型越強、越「有幫助」，回答就越不像真實人類的反應。換句話說，這種模擬方法產生的結果很可能嚴重失準，研究結論可能有問題，研究者卻不一定察覺得到。

陶哲軒：AI 讓數學首次分工

What is this

數學家陶哲軒（Terence Tao，被譽為當代最偉大的在世數學家之一）最近提出一個重要觀點：人工智慧可能讓數學研究界首次真正出現「分工」這件事。傳統上，數學研究很難像工廠那樣分工——每位數學家必須自己搞懂從問題設定、中間推導到最後驗證的每一個環節，沒辦法像蓋房子一樣讓不同人負責不同工序，因為數學的每個步驟彼此緊密相依，缺少任何一環就難以繼續。有了 AI 的幫助，陶哲軒認為未來可能出現他稱之為「工業數學」的模式：不再是單打獨鬥的天才，而是由 AI 負責驗算、整理、甚至部分推理，人類數學家組成更大的合作團隊，各自專注在某些環節。他同時強調，AI 不會完全取代人類——數學突破往往需要「靈感猜測」，也就是那種突然想到「說不定可以這樣做」的直覺跳躍，這仍然是人類不可或缺的角色。

Use case

假設一個數論（研究整數性質的數學分支）難題需要幾個步驟：①用正式符號定義問題、②找攻擊方向、③對每個方向做幾百頁的推導、④驗證推導有沒有漏洞。現在一個數學家要全部自己來，光驗證就可能耗掉幾個月。在「工業數學」模式下：A 數學家負責最初的靈感與問題設定，AI 工具（如 Lean，一種能讓電腦逐行確認數學推導對不對的程式）自動驗算每一步是否成立，B 數學家負責某條特定推導路線，C 數學家再整合結果。整個團隊可以平行推進不同方向——對比舊做法，差在以前一個人卡住就全卡住，現在各自攻不同環節，AI 幫忙把關品質、大幅加速。

ChatGPT、Claude 分享對話遭用於散布惡意程式

What is this

攻擊者正在利用 ChatGPT（OpenAI 開發的熱門 AI 對話工具）和 Claude（Anthropic 開發的 AI 助手）內建的「分享對話」功能，將惡意指令或下載連結嵌入公開分享的聊天記錄，藉此散播惡意軟體（會偷資料、破壞電腦的危險程式）。這些偽裝成正常對話的陷阱頁面，通常模仿「系統錯誤提示」或「軟體安裝教學」的外觀，讓使用者誤以為是正當操作。由於分享連結掛在 chatgpt.com 或 claude.ai 這類廣受信任的正規網域下，企業防火牆、郵件掃毒等資安工具往往無法偵測並攔截。換句話說，你點開朋友或陌生人分享的「AI 對話連結」時，頁面看起來像正常 AI 問答，但實際上可能是攻擊者精心設計的陷阱。

Use case

假設你在 Reddit 或 Discord 看到有人分享一條 ChatGPT 對話連結，說「這個 AI 教你怎麼安裝某遊戲外掛，按步驟做就好」。你點進去，頁面看起來是正常的 ChatGPT 介面，AI「回覆」寫著「你的程式遇到錯誤，請下載這個修復工具並執行」並附上連結。因為這是 chatgpt.com 網域，瀏覽器和公司防毒沒有跳出警告。你照做，下載並執行後，電腦被植入惡意程式、帳號密碼或個人資料遭竊。對比之下，若攻擊者改用自己架的山寨網站做同樣的事，瀏覽器或防毒早就亮紅燈警告，成功率會低得多——正是「借用可信網域」讓這種攻擊特別危險。

Meta 轉押 AI 穿戴硬體策略

What is this

Meta（Facebook 母公司）內部一份洩漏的備忘錄顯示，公司正大力轉向 AI 可穿戴設備（就是能穿戴在身上、配備人工智慧的硬體產品）。計畫分三條路：AI 吊墜（掛在脖子上、可能配備鏡頭的智慧配件，預計 2027 年春季進行內部測試）、超感測眼鏡（讓鏡頭和感測器持續運作數小時、全天追蹤你周遭環境的智慧眼鏡），以及鎖定企業客戶的「Wearables for Work」可穿戴解決方案。Meta 此前在 AI 軟體和開源策略（把程式碼公開讓外界免費使用）上砸了數百億美元，但商業回報有限，這次轉向硬體是公司的重大策略賭注。為加速 AI 吊墜計畫，Meta 去年已收購新創公司 Limitless，目標是 2026 年下半年達成 1,000 萬台可穿戴設備銷售，並靠軟體訂閱（按月付費解鎖更多 AI 算力和功能）來補貼硬體的虧損。

Use case

假設你是每天開很多會、又常忘帶東西的上班族。戴上 Meta 超感測眼鏡後，AI 助手透過鏡頭和感測器全天默默觀察你的環境——早上出門前 AI 提醒「你的雨傘放在餐桌旁邊」，到超市時 AI 根據你今天在家看到的東西提示「還缺牛奶和雞蛋」。舊做法是你自己手動記筆記或拍照，新做法是眼鏡自動記錄、AI 在你需要的時候主動提醒，省去翻找的麻煩。企業版（Wearables for Work）則是讓工廠或倉儲員工戴上後，AI 即時辨識作業流程錯誤，取代現在需要手持平板或翻紙本查核的工作方式——這類「願意為特定行業功能付費」的企業客戶，是 Meta 此次的主要商業目標。

OpenAI 升級 GPT-5.5 廢棄兩舊模型

What is this

OpenAI（就是開發 ChatGPT 的公司）宣布對 GPT-5.5 Instant（一款速度快、主打即時互動的 AI 對話模型）進行更新，讓它的回答讀起來更自然、更好理解。同時，OpenAI 也決定移除「Canvas」功能——這是一個讓使用者可以在對話旁邊開啟獨立編輯區來改寫文章或程式碼的側邊欄工具，未來寫作和寫程式的任務將直接在對話視窗內完成。此外，兩個較舊的 AI 模型——o3 和 GPT-4.5——也將從 ChatGPT 下架，預計在 2026 年 8 月前完全停用。這對目前透過 API（程式介接服務，讓自己的軟體呼叫 OpenAI 模型）使用這兩個舊版模型的開發者影響最大，需要在截止日前把系統切換到新版模型。

Use case

假設你是一位開發者，公司的客服 AI 系統目前透過 OpenAI API 呼叫 o3 模型自動回覆客戶問題。這次公告意味著 o3 最晚在 2026 年 8 月就會停止服務——若不在截止日前改用 GPT-5.5 或其他仍在維護的新版模型，整個客服系統就會中斷。相比之下，如果你只是日常用 ChatGPT 網頁版，感受到的差異更直接：以前用 Canvas 開側邊欄改稿，現在要在對話框裡直接操作；另外 GPT-5.5 Instant 的回答也會比以前更流暢，讀起來比較不像機器在說話。

AI 費用失控，公司一月燒掉 5 億美元

What is this

一家不具名的大型公司，因為沒有設定 AI 使用上限，在短短一個月內花掉了 5 億美元（約 160 億台幣）購買 Claude（Anthropic 公司推出的一款大型語言 AI，也就是 ChatGPT 的競品）的使用費。費用暴增的技術根源有兩個：第一是「情境工程（context engineering）」——意指每次請求 AI 時，都把大量無用的歷史對話一起塞給 AI，讓 AI 計算量倍增、費用隨之飆升；第二是「模型選錯」——用最貴的高階 AI 去做一些查天氣、整理簡單資料等「用便宜 AI 就夠了」的任務，白白多花好幾十倍。報導指出，這類失控案例說明：企業若缺乏內部 AI 專業人才掌控系統，生產力的承諾最終只會變成帳單失控。

Use case

假設我是一家有 5000 名員工的公司，全員都能隨意使用 Claude API（可讓程式直接呼叫 AI 的介面）。員工 A 用 Claude 查今天天氣，員工 B 開了一個 50 則訊息的長對話，每新增一句話都把前面 50 則歷史一起送出去重新計算。公司既沒設每月 API 費用上限，也沒告訴員工哪些任務用便宜模型就夠，帳單自然失控。若換成有做好管控的公司：查天氣這類任務導向輕量模型，費用可差 10～50 倍；對話窗口設定最多保留 10 則歷史；每位員工每月最多消耗多少 token（AI 計費單位）由系統自動卡住——這三項措施能讓同樣的使用量帳單縮水數十倍。

差點成鋼琴家的 Gemini 奪牌研究員

What is this

Yi Tay 是 Google DeepMind 的研究科學家，在新加坡帶領研究團隊，也是讓 Gemini Deep Think 在 IMO（國際數學奧林匹克，全球最難的高中數學競賽，能拿金牌代表 AI 數學能力已超越絕大多數人類頂尖選手）達到金牌水準的建模負責人之一。今年 2 月發布的 Gemini 3 Deep Think 更進一步，在物理與化學奧林匹克筆試部分同樣達到金牌等級。他也曾在 2023 年共同創辦 AI 新創 Reka AI，不到一年就訓練出接近 GPT-4 等級的多模態模型（就是能同時看懂文字和圖片的 AI），後來決定回歸 Google。這篇報導是對他研究歷程的人物側寫——一個大學時期拿到古典鋼琴半專業文憑、差點成為職業鋼琴家的 AI 技術人。

Use case

Yi Tay 在 Google Brain 期間開發了 UL2 框架，解決了一個長期困擾 AI 開發者的問題：當時語言模型（就是像 ChatGPT 這類會讀懂文字、會生成文字的 AI）分兩大陣營——一派擅長「理解文章」（訓練時讓 AI 填空），另一派擅長「生成文章」（訓練時讓 AI 預測下一個字）；兩者架構不同，開發者得依任務二選一。UL2 把兩種訓練目標合成一套統一框架，讓同一個模型既能理解又能生成，不用再分開訓練兩套。這個設計思路後來影響了 PaLM-2（Google 旗艦語言模型）等大型模型的架構，也奠定 Gemini 在複雜數學推理上能達到金牌水準的技術基礎。換句話說，你現在用 Google AI 服務做任何問答或文字生成，背後的訓練體系都間接受到這套統一框架思路的影響。

AI工程師大會推FDE及創辦人賽道

What is this

AIE（AI Engineer Summit，全球最大 AI 工程師社群/年度大會）宣布推出兩條全新賽道：一是「Forward Deployed Engineer（FDE，前線部署工程師）」賽道，培育並媒合直接駐點到企業客戶、幫 AI 工具真正落地的工程師；二是「Founders（創辦人）」賽道，類似新創競賽舞台，讓 AI 創業團隊上台比拚。這個動向呼應了 OpenAI 和 Anthropic 近期都在擴編自家 FDE 部隊的趨勢——這些公司的 FDE 不是做研究的，而是飛去客戶公司辦公室、手把手把 AI 系統跑起來的實戰工程師。Founders 賽道有 YC（Y Combinator，全球最知名的新創孵化器，投資過 Dropbox、Stripe 等）共同創辦人 Garry Tan 站台，並附上 $10M 美元的「Hyperagent」競賽大獎。

Use case

假設你是一名 AI 工程師，不想做學術研究，而是想幫真實企業把 AI 用起來：某家製造業大廠想用 LLM（大型語言模型，就是 ChatGPT 那類會對話的 AI）分析設備日誌、提早預警故障，但內部工程師不知道怎麼串 API、也不懂怎麼調參數——這就是 FDE 的舞台。FDE 飛過去、進駐客戶現場幾週，把模型接上資料、調好 prompt（給 AI 的指令稿）、讓系統真的能用。AIE 的 FDE 賽道就是在徵召和訓練這類人才。另一條 Founders 賽道則針對想創業的工程師：帶著你的 Hyperagent（AI 自主代理，能接受任務後自己規劃、執行多步驟操作的 AI 程式）原型上台 pitch，有機會角逐千萬美元獎金。

Google 修正 Gemini 配額暴耗漏洞

What is this

Google 旗下的 AI 助理 Gemini 出現了一個配額（quota，就是每月或每日能使用的次數上限）管理漏洞，導致用戶只要嘗試生成一兩支 Omni 影片（Gemini 的 AI 影片生成功能），整月的配額就被全部吃光。對於付費訂閱 Gemini Ultra 方案（Google 最高階付費版本）的用戶而言，這等於花了錢卻用不到應有的次數。Google 發現問題後已修正這個漏洞，並宣布 Ultra 訂閱用戶的影片生成次數直接加倍補償，同時過去因請求失敗而被錯誤扣掉的配額也不再收費。未來 Google 也計畫增加配額使用的透明度，讓用戶能更清楚掌握自己剩餘的使用次數。

Use case

假設你是 Gemini Ultra 的訂閱用戶，某天打開 Gemini 嘗試用 Omni 功能生成兩支 AI 影片。修復前的情況：就算第一支還在跑或中途失敗，系統照樣把這兩次都扣掉配額，結果整月配額消耗殆盡，後續完全無法再生成影片——等於花了訂閱費卻只用到一兩次。修復後：失敗的請求不再扣配額；Ultra 用戶的影片生成次數也主動加倍，補回過去被多扣的損失。差別就是：以前付錢用不到、配額無故消失；現在計費才真正準確，用戶實際能用完應得的次數。

📰 每日 AI 彙整