OpenAI(就是開發 ChatGPT 的那家公司)正在規劃 ChatGPT 有史以來最大規模的改版。公司內部喊出「聊天已死」的口號,意思是單純的問答對話模式已經過時了。新版 ChatGPT 要變成一個「超級應用程式」(superapp,就像微信那種把很多功能整合在同一個 App 裡的概念),裡面會整合程式碼撰寫工具、AI 代理(Agent,就是能自動幫你一步步完成任務、而不只是回答問題的 AI),以及 Canva(線上設計平台)、Booking.com(訂房網站)等合作夥伴 App。OpenAI 認為 AI 的未來屬於「代理模式」——讓 AI 主動替你把事情做完,而不是等你每次輸入問題才動作。
假設你想規劃一趟旅遊。用現在的 ChatGPT:你打「幫我規劃三天京都行程」,它吐出一篇文字建議,但你還是得自己去 Booking.com 找飯店、自己去訂票、自己做行程表。換成新版 ChatGPT 的 Agent 模式:你說「幫我安排下個月初三天京都行,預算兩萬台幣以內」,AI 會自動串接 Booking.com 搜尋符合預算的空房、幫你比價選出最佳選項,同時呼叫 Canva 生成一份精美行程卡片,整件事一氣呵成。舊做法:ChatGPT 只能「給建議」,你還要自己動手;新做法:ChatGPT 直接「把任務完成」,你只要確認即可。
本週最吸睛的 AI 事件,是一個叫「Stratix Cup」的足球聯賽——主辦方讓 16 個頂級 AI(就是 ChatGPT、Claude 這類的大型語言模型,也就是會對話的 AI)分組下場踢足球比賽,每支 AI 隊要自己寫程式控制全隊球員,還可以根據上半場結果在中場調整戰術。這項賽事不只是好玩,而是在挑戰傳統 AI 測試的盲點:目前大多數 AI 評估就像考試卷,讓 AI 回答問題或解程式題,但無法測出 AI 在動態、對抗環境下的真實表現。足球賽能逼出 AI 的弱點——誰的戰術規劃好、誰在壓力下會亂陣、誰能從失誤中恢復——而且不需要任何 AI 專業知識就能看懂。同一週,微軟在 Build 大會(微軟年度開發者大會)上推出自家 MAI 系列模型,涵蓋推理、寫程式、影像、語音等多個領域,強調把 AI 深度整合進所有開發者工具,讓 AI 不再只是一個孤立的聊天框,而是貫穿整個工作流程的核心;NVIDIA(英偉達,全球最大 AI 晶片公司)則推出 Cosmos,一種能理解影片與物理世界的「世界基礎模型」(讓 AI 學會預測真實物理環境的大型模型),以及 Nemotron 3 Ultra 企業推理模型,顯示 NVIDIA 不只賣晶片,更要主導 AI 機器人和智慧代理的基礎建設。
假設你想知道 GPT-4o 和 Claude 3.5 Sonnet 誰的多任務協調能力更強。用傳統測試,你可能出一道數學推理題——答案對就得分,但你看不到 AI 的決策過程如何應對突發狀況。在 Stratix Cup 裡,兩個 AI 各控制一支足球隊上場對決:你能直接看到某個 AI 的球員在中場突然全往同一個角落跑(代表戰術協調邏輯崩潰),或另一個 AI 選擇全面壓後防守卻被對方速攻破門(代表它高估了防守的優先性)。比賽開始幾十秒,任何觀眾都能看出哪支 AI 隊的多球員協調有問題,完全不需要看技術數字或讀報告。這正是「競技場式評估」的核心價值:把 AI 放進會反擊的真實環境,讓它的策略失誤和恢復能力在動態過程中可見,而非只靠靜態考題的分數排名。
Lathe 是一個開源工具(開放原始碼、免費可自行安裝使用的軟體),能用 AI 幫你生成某個技術領域的完整手把手教學課程。它的設計理念很特別:重點不是讓 AI 替你做事,而是讓 AI 幫你「學會」這件事。你輸入想學的主題,Lathe 會生成一份有目錄、有旁注提示、有練習題、還附上參考來源的完整教學,然後讓你在本機(你自己電腦上)的網頁介面裡逐步閱讀並親手打程式碼。課程背後有 LLM(LLM 就是像 ChatGPT 這樣會回答問題的 AI 語言模型)幫忙驗證內容是否能實際執行,你也可以隨時向 AI 追問看不懂的地方,或要求延伸出新章節,不像許多教學系列出到第四集就消失了。作者說他不是要取代人類寫的教學,而是填補那些「根本還沒有人寫過好教學」的技術空缺。
假設我想學「用 Erlang 程式語言寫 3D 切片器(就是把 3D 模型切成一層層路徑指令、讓 3D 列印機照著走的程式)」,網路上幾乎找不到像樣的教學。我打開 Lathe,在終端機(電腦的文字指令介面)輸入 `/lathe build a 3D slicer in Erlang`,Lathe 就呼叫 AI 生成一份完整課程,包含目錄、旁注說明、章節練習題,以及每個知識點的原始來源網址讓我自己去深挖。接著我執行 `lathe serve` 指令,在瀏覽器打開課程頁面,逐字手打程式碼(不是複製貼上),AI 同時在背後驗證程式能不能真的跑起來。如果某個概念看不懂,可以在頁面上直接發問,得到針對這份教學內容的解釋。相比以往「找不到資源就放棄」或「請 AI 幫我全部寫完但自己啥都沒學到」,Lathe 填補了中間那條路:AI 搭課程骨架,我自己動手把它走一遍,真的學進去。
多倫多大學研究團隊在 CVPR 2026 發表了一個全新的圖片生成方法,特別之處在於它完全不需要「訓練神經網路」這個步驟。傳統的擴散模型(就是像 Stable Diffusion 這類能根據文字描述生成圖片的 AI)需要花費大量時間和算力來訓練,動輒數小時甚至數天。這個新方法改用一張圖片裡的「局部貼片資料庫」(把圖片切成許多小塊、建立統計關係),透過數學公式直接算出去噪結果,完全繞過訓練過程。實測速度驚人:一百萬像素的圖片可在一秒內生成,十億像素的超高解析度圖片也只需幾分鐘。這個技術已在 CVPR 2026(電腦視覺頂級學術會議)正式發表,代表學術界對這個方向給予高度肯定。
假設你手邊有一張水墨風格的山水畫,想生成同一風格的其他場景圖片。舊方法是:找一堆類似風格的圖片、訓練一個擴散模型、等個幾小時,才能生出新圖。用這個新技術,只需提供那一張山水畫作為輸入,系統會把整張圖切成小塊並分析其紋理和結構規律,然後利用數學公式(而非神經網路)直接推算出「符合這張圖風格」的新圖片。操作上不需要任何 GPU 訓練時間,幾秒鐘就能拿到百萬像素等級的輸出圖。如果還想搭配文字引導(像是「把風格套到海邊場景」),系統也支援文字風格化,對比舊做法少了幾小時的等待和龐大的算力開銷。
哈佛、MIT、GitHub、Kempner Institute 等機構共同研發了一個叫「思維經濟學(Economy of Minds,EOM)」的框架,讓一群 AI 代理人(agent,就是能自主執行任務的 AI 小程式)透過類似市場競標的方式互動合作。每個代理人會用虛擬「錢」競標「下一個行動由誰來做」,做好了就賺到錢、可以繼續競標;做壞了就虧損,最終破產被淘汰。透過這種市場自然選擇,整個系統會自行演化出分工合作的模式,進而發展出複雜的多步驟推理能力。研究結果顯示,這套機制讓整個群體的表現超越了比任何個別成員都更強大的單一大型 AI 模型。
假設我要讓 AI 完成一個需要多個步驟的研究任務:先查詢資料、再分析矛盾點、最後整合出結論。傳統做法是直接叫一個強大的大模型(例如 GPT-4 這類)從頭到尾獨力完成,但它有時中途推理會跑偏。EOM 框架的做法不同:它派出一群小型代理人,讓它們競標「我來做查詢步驟」「我來做分析步驟」——出最高價的代理人拿到執行機會。完成後根據結果好壞結算虛擬金錢,表現好的下一輪有更多資源繼續競標,表現差的漸漸被淘汰出局。就這樣,整個群體自然演化出有效的分工流程,在多種任務測試中,這群小代理人的集體表現超越了比它們個個都更強大的單一大模型。
根據 Epoch AI(一家專門追蹤 AI 算力成長的研究機構)的最新估算,2026 年第一季,光是與 AI 有關的資料中心建設、計算硬體(伺服器、晶片)、網路設備,就佔了美國 GDP 的 0.8%;若加上所有計算基礎設施,總共達到 1.5%——這代表 AI 對美國實體經濟的影響,已經和一個中型產業相當,不再只是科技公司內部的「研究玩具」。伴隨這個規模成長,企業 AI 費用失控的問題也浮上檯面:一旦公司規模化使用 AI,每月帳單動輒數百萬台幣,卻很難搞清楚錢花在哪裡、哪個部門或模型最燒錢。為了解決這個問題,Cloudflare(一家提供全球網路加速與雲端服務的大公司)在其 AI Gateway(AI 流量管理服務)推出費用管控新功能:企業可以替每個用戶、每種 AI 模型單獨設定每月預算上限,超過後自動切換到更便宜的備用模型繼續服務,不會直接中斷,也不會讓帳單繼續暴增。研究顯示,光是把 10% 的用量從頂級模型(如 GPT-4o)切換到便宜版本,一年就能省下近百萬台幣——這類「AI 費用路由」工具,正快速成為企業導入 AI 的必備配備。
假設你是一家有 50 名員工的公司老闆,公司每個月花約 20 萬元讓員工用 AI 寫報告、回信件,但每個月月底才發現帳單超標、卻已無法追回。用 Cloudflare AI Gateway 的新費控功能,你可以設定:行銷部門每月最多用 5 萬元的 Claude Sonnet(較貴、品質高),超出後自動切換到 Claude Haiku(便宜約 5 倍)繼續工作;工程部門另外分配 8 萬元預算,彼此獨立計算,不會互相吃額度。整個 AI 帳單就像每個部門各有一張預付卡,超出就降規、不超就維持最佳品質。相比之前沒有這類工具時,AI 費用是一個「黑箱」——你不知道誰在燒錢,也沒辦法在超支前自動剎車,現在則可以在設定好規則後完全自動化管控。
Anthropic(就是製作 Claude 這款 AI 助手的公司)宣布,旗下的 Claude Code(一種專門幫助工程師寫程式、改程式碼的 AI 工具)將使用量上限暫時加倍,為期一個月。這次調整的目的是要支援「更大規模的委派任務」——也就是讓使用者可以把更複雜、需要更長時間才能完成的工作一次性地交給 AI 代理去執行。Claude Code 本來有每月使用量的限制,超過就會被暫停,開發者如果要跑大型 AI 自動化流程往往會碰壁。這次放寬讓使用者在這段期間不需要那麼擔心用量見頂、任務被中途打斷的問題。
假設一位工程師想用 Claude Code 幫忙把公司一個三年前寫的舊系統整個重構——這種任務要 AI 讀幾百個程式碼檔案、分析問題、重寫邏輯、補上測試再做驗證,是非常消耗 AI 使用量的大型工作。以往可能跑到一半就碰到上限、被系統強制暫停,隔天再繼續還要重新對焦進度。現在使用量加倍,同一個工程師可以一口氣從頭到尾把整個重構跑完,不用分批切割、不用擔心中途斷線,原本可能要分三天做的工作或許當天就能收尾。
Ramp 是一家幫美國公司管理企業支出的軟體平台,每個月都會公布「最受美國企業青睞的新興軟體廠商」排行榜。2026 年 6 月的報告顯示,DeepSeek(中國開發的 AI 模型服務,功能類似 ChatGPT,提供 API 讓企業直接串接使用)首次登上榜首,超越其他所有競爭對手。Ramp 的首席經濟學家指出,美國企業對 AI 使用成本越來越敏感,DeepSeek 因提供相對便宜的服務而快速吸引企業買單。不過他同時警告,企業直接把內部資料傳送到 DeepSeek 的伺服器,等於是把公司機密送進中國企業管轄的系統,在美中關係緊張的背景下存在安全疑慮。
假設你是一間美國中型公司的 IT 主管,目前花錢購買 OpenAI 的 API(就是讓員工用 AI 幫忙寫報告、整理客戶資料的付費服務),每個月帳單大約幾千美元。DeepSeek 提供類似功能,但定價約只有 OpenAI 的 1/10 到 1/20。工程師把程式碼裡呼叫 OpenAI 的那行網址改成 DeepSeek,員工完全感受不到差異,但每個月帳單直接掉了 80% 以上。Ramp 追蹤到越來越多企業做這個切換,讓 DeepSeek 在 6 月登上熱門採購榜首。代價是:業務資料、客戶名單、內部文件都會傳進 DeepSeek 的系統,這個風險目前很多企業選擇接受。
研究人員(Anthropic、Stanford 等機構合作)找出了為什麼大型語言模型(就是 ChatGPT、Claude 這類 AI)能學會小型模型學不了的技能的根本原因。關鍵機制叫「常見任務排擠稀有任務」:小模型的神經元(可以想成 AI 的「記憶格子」)數量有限,頻繁出現的任務會搶占這些格子,讓稀有任務剛剛學到一點就被後續大量訓練步驟蓋掉、遺忘。研究在 400 萬到 40 億參數規模的 OLMo 模型上做測試,發現只有在大型模型裡,佔訓練資料 0.25% 的稀有任務才能被穩定學起來。更重要的是,研究提出了一個不靠「瘋狂擴大模型規模」的替代方案:在訓練資料中刻意增加特定稀有任務的出現頻率,就能讓小模型也學會那些本來只有大模型才會的技能,成本大幅降低。
假設我在訓練一個小型客服 AI,要讓它學會處理「退貨申請書格式轉換」這種稀有任務。以前的做法往往是:「這種任務太少見,訓練不起來,換更大的模型吧」,成本因此倍增。根據這項研究,實際上可以這樣做:在訓練資料裡刻意多加幾百到幾千筆退貨申請書轉換的範例,把這個任務的出現比例從原本的 0.01% 拉高到 1-2%,讓 AI 的記憶格子來不及被其他高頻任務蓋掉。結果同樣的小模型就能穩定學會這個技能,根本不需要換成貴 10 倍的大模型。差異在於:舊方法是靠規模硬撐、成本線性上升;新方法是調整資料配比、幾乎零額外成本。