AI Daily Digest

📰 每日 AI 彙整

2026-05-25  ·  共 40 則報導
T1 爆炸重要T2 值得關注T3 一般資訊T4 參考用T5 可略過
T1
T1
AI 找漏洞速度遠超人類修補速度

Anthropic(就是開發 ChatGPT 競品 Claude 的美國 AI 公司)在 2026 年 4 月悄悄推出了一個不對外公開的超強版模型,叫做 Claude Mythos Preview,並啟動了一個代號「Project Glasswing」的安全掃描計畫。他們找來 Cloudflare、Mozilla、微軟、Oracle 等約 50 家大公司,讓這個 AI 去掃描這些公司的程式碼,找出裡面的安全漏洞(就是駭客可能偷進系統的破口)。結果到 2026 年 5 月底,這個 AI 已經在全球最重要的軟體裡找到超過一萬個高危漏洞,其中 90.6% 的回報都是真實存在的問題,比業界現有 AI 工具的表現高出好幾倍。但問題來了:AI 找漏洞的速度實在太快,人類工程師根本修不完——兩萬三千多筆通報中,只有 97 筆完成修補,修補率不到 0.5%。這代表 AI 找漏洞已不再是瓶頸,新的瓶頸變成了「人類到底修得過來嗎」。

以這次最具代表性的案例為例:Mythos Preview 自己「讀懂」了 FreeBSD(一種廣泛用於伺服器的作業系統)的底層程式碼,自主發現了一個潛伏長達 17 年、從未被任何人或工具找出來的零日漏洞(CVE-2026-4747)——這個漏洞允許任何人在完全沒有帳號密碼的情況下,直接取得伺服器的最高管理權限(root),等於任何人都可以進去做任何事。舊的做法是靠人類資安研究員手動審查程式碼,或用傳統掃描工具跑規則比對,而這個潛伏 17 年的漏洞就這樣從來沒被找到過。AI 不只是「跑更快的規則比對」,而是真的理解程式碼在做什麼、哪個地方可以被利用,然後自己生成一段攻擊程式碼驗證漏洞存在。相較之下,Mozilla Firefox 讓 Mythos Preview 掃一遍,找到 271 個漏洞,是上一代 Claude 模型掃描結果的整整 10 倍。

T1
Google I/O 2026 AI 代理新紀元

Google 在 2026 年的 I/O 開發者大會(一年一度最大的技術發表盛會)上,宣布多項 AI 重大升級。新發布的 Gemini 3.5 Flash 是一款速度比其他頂尖 AI 模型快四倍、但能力同樣強勁的模型;Gemini Omni Flash 則是能同時處理和生成文字、圖片、影片等多種媒體格式的「多模態(一個 AI 同時看懂多種媒體形式)」模型;Gemini Spark 是一個 24 小時在雲端幫你自動做事的個人 AI 助理,可以串接各種工具持續執行長期任務。Google 執行長 Sundar Pichai 把現在稱為「AI 代理(agent,指能主動執行任務、不只回答問題的 AI)時代」,Google 每月處理的 AI 運算量已達 3,200 兆次,比去年成長七倍,顯示 AI 使用量正在爆炸性擴張。

假設我是個 YouTube 內容創作者,平常要花好幾小時查資料、監控競爭對手頻道、整理摘要。有了 Ask YouTube(今年夏天開放,讓你用對話方式詢問 YouTube 影片內容),我可以直接問「這部影片裡說的做法跟上個月那部相比哪個更有效?」不用自己一段一段回放比對。再加上 Gemini Spark(個人 AI 代理),我可以交代它「每週自動監控這五個頻道,把新影片重點整理給我」,它在背景持續執行,不需要我每次手動查看。舊做法是我自己訂閱、自己看、自己記筆記;新做法是 AI 全程替我追蹤、彙整、主動通知,節省大量重複性時間。

T1
DeepSeek 永久降價,AI 定價戰開打

DeepSeek(中國 AI 公司)宣布把原本的 75% 折扣定為永久標準售價,不再是短期促銷。這代表 DeepSeek V4 Pro 的使用費,每百萬個 token(token 是 AI 處理文字的計量單位,大約每 1000 個 token 等於一頁文章)只要約 $0.18 美元的綜合均價。根據第三方分析機構 Artificial Analysis 的測算,這個價格比 Gemini 3.1 Pro Preview(Google 的 AI 模型)便宜約 3 倍、比 GPT-5.5(OpenAI 的最新旗艦)便宜約 12 倍、比 Claude Opus 4.7(Anthropic 的頂級模型)便宜約 19 倍——而且 DeepSeek 在智能測試排行上仍能跟這些模型正面競爭,被評為「智能/成本 Pareto 前沿」(就是同樣聰明的模型裡最便宜的那個)。社群流傳的說法是 AI 智能正在走向「便宜到不值得計費」的時代。與此同時,Google 的 Gemini 3.5 Flash 在設計評測排行中跳升 16 名,但開發者社群反應兩極:有人說實際用起來比跑分數字差,有人批評它像是為了刷評分而非服務使用者而優化。中國模型整體在這場競爭中持續緊追,阿里巴巴的 Qwen3.7-Max 在指令跟隨能力上有顯著進步,而 Kimi-K2.6、DeepSeek-V4、GLM-5.1 等中國模型在 ALE-Bench(一種程式碼生成能力的基準測試)上也超越了多個西方競品。

假設我是一個獨立開發者,要在自己的 SaaS 產品(就是訂閱制的網路服務)裡嵌入 AI 功能,預計每個月要送出 10 億個 token(大概等於 100 萬篇短文章的處理量)。如果選 Claude Opus 4.7,每月 API 費用大約是 10 億 token × 每百萬 $0.18 × 19 倍 = 約 $3,420 美元。改用 DeepSeek V4 Pro,同樣用量只要 10 億 × $0.18/M = 約 $180 美元——節省了 95%。這個差距大到足以決定一個新創公司的商業模式能不能撐住:以前跑不起來的 AI 功能,現在成本可能變得可接受。更關鍵的是,DeepSeek 宣告「永久」維持這個定價,開發者不必擔心哪天促銷結束突然漲回去,可以安心把它寫進產品架構裡長期規劃。

T2
T2
GPT-5.5 壓縮思考鏈少用 40% token

GPT-5.5 是 OpenAI 在 2026 年 4 月底推出的新一代 AI 對話模型,也是自 GPT-4.5 以來第一個從頭重新訓練的版本。它最引人注意的技術特點是:在「想事情」的過程中,模型會用一種高度壓縮的速記式語言推進邏輯,不寫完整句子,只保留最關鍵的語義片段推進推理——研究者稱之為「Mentalese 推理路徑」(Mentalese 是語言哲學的概念,意指思考可能用一套和自然語言不同的內部符號進行,不需符合人類語法規則)。這樣的設計讓完成同一個程式碼任務時,模型花費的 token 數量(token 是 AI 計費的基本單位,可以粗略理解為「處理每個字詞所需的費用單位」)比上一版 GPT-5.4 少了約 40%,日常任務也少 15–20%,換句話說,同樣的任務花更少的錢就能完成。開發者還可以選擇五個推理強度等級(none、low、medium、high、xhigh),針對不同難度的任務精確控制 AI 要「想多深」:簡單問題設 low 省錢,複雜數學或程式問題才開 xhigh,不必每次都跑全力耗費最多預算。

我要建一套每天自動審查 500 個程式碼片段的品質檢測工具,並透過 OpenAI API(一種讓自己寫的程式接入外部 AI 服務的介面)呼叫模型。舊做法用 GPT-5.4,500 個片段大約消耗 25 萬個 token,以 API 單價計算一天費用約 5 美元,且無法控制推理深度——每個片段不管是簡單格式錯誤還是複雜邏輯漏洞,模型都耗費同等算力處理。換成 GPT-5.5,把簡單格式檢查的呼叫設為 reasoning_effort="low",只有偵測複雜邏輯錯誤時才改為 "high",同樣 500 個任務估計只用 15 萬 token 左右,一天費用降到約 3 美元,省了約 40%。呼叫方式只需在現有程式碼加一行參數,其他寫法與 GPT-5.4 完全相同,不需改架構。對比舊做法:以前高頻批次呼叫無法調整推理深度,token 成本居高不下;現在可以依任務複雜度分層配置,批次場景直接節省大量費用。

T2
Qwen3.7-Max 自主連跑 35 小時晶片達 10 倍

阿里巴巴於 2026 年 5 月 21 日發表新 AI 模型 Qwen3.7-Max,這款模型的核心設計是「長時間自主工作」——白話說就是你給它一個任務,它能自己一路做完,幾十小時都不需要人盯著。最引人注目的展示是讓它在完全沒人介入的情況下,連續運行 35 小時,替阿里自研晶片(T-Head 真吾 M890)優化一段底層程式碼,所謂「優化」就是讓同樣的計算跑得更快。困難點在於它只拿到一份 Triton(一種讓開發者用 Python 風格撰寫 GPU 高效運算程式的語言)的參考手冊,沒有任何關於這塊晶片的說明文件,也沒有相關訓練資料,完全靠自己邊試邊學。最終 35 小時後,它產出的程式碼比基準快 10 倍,超越同期中國其他模型:GLM 5.1(7.3 倍)、Kimi K2.6(5 倍)、DeepSeek V4 Pro(3.3 倍);在幾項公認 AI 能力測試(解題、程式能力)上,成績也接近目前各廠最頂尖的模型。

假設你是一家科技公司,剛設計好一顆自研 AI 晶片,需要替它寫一段「注意力計算核心」(AI 模型裡最耗計算資源的關鍵程式碼,決定 AI 運算速度)。過去的做法:要先準備完整晶片技術規格、找幾位熟悉硬體底層的工程師,花幾天甚至幾週反覆測試、調整,才能把速度壓榨出來。現在換 Qwen3.7-Max:只給它一份 Triton 的參考實作,讓它自己去寫程式→編譯→量測速度→找出瓶頸→重寫→再測,一個循環接一個循環——整整 35 小時、執行 432 次實際測試、呼叫工具 1,158 次後,它交出的版本比原本快 10 倍,全程沒有工程師干預,也沒有給它任何這塊晶片的訓練資料。差異就是:以前「硬體軟體協同優化」需要一支人才緊缺的工程師團隊,現在有機會讓 AI Agent(能自主執行多步驟任務的 AI)接手這個閉環。

T2
DeepSeek 旗艦 API 永久降價 75%

DeepSeek(深度求索,中國一家 AI 研究公司)宣布將旗艦模型 DeepSeek-V4-Pro 的 API(API 就是讓開發者在自己的軟體裡呼叫 AI 能力的介面)定價永久調降 75%,也就是說價格變成原本的四分之一。這個折扣原本只是促銷活動,2026 年 5 月 31 日後將正式成為長期定價。根據開發者社群的實測回饋,DeepSeek-V4-Pro 的效能可媲美 Anthropic 的 Claude Opus 4.5(西方頂級商業模型之一),但輸出成本比同等西方模型便宜約 10 倍。不過目前這個模型不支援圖片輸入,僅限純文字對話與任務。

假設你是一位台灣新創公司的工程師,想在自家產品裡加入「智能客服 AI」功能——用戶輸入問題、AI 自動回答。過去你可能選用 Claude Opus 或 GPT-4 等級的模型,每一百萬個輸出 token(token 是 AI 計算文字量的單位,一千個 token 約等於 750 個英文單字或 500 個中文字)要花費約 $15 美元。現在改用 DeepSeek-V4-Pro 的官方 API,相同的 token 數量費用只需不到 $2 美元,節省超過八成成本,且根據開發者回報,回答品質相當。一個月下來若 AI 處理五億 token,費用從約 $7,500 美元降到不足 $1,000 美元,對預算有限的新創來說差距極大。

T2
谷歌 CEO:Coding AI 落後、AGI 提速

Google 執行長 Sundar Pichai 在一次訪談中公開承認,Google 自家的 AI 模型 Gemini(就是 Google 版的 ChatGPT)在程式撰寫(Coding)方面落後競爭對手,特別是面對「需要資深開發者處理的複雜程式庫長期任務」時仍有明顯差距。Pichai 認為原因之一是 Google 缺乏像競爭對手 Anthropic 那樣、透過 Cursor(一款深受工程師喜愛的 AI 程式編輯器)建立的直接開發者接觸管道,導致在真實開發場景的優化上吃虧。他同時透露 AI 技術進步速度大幅加快——現在 30 到 60 天內發生的技術突破,以前可能需要整整 5 年——並對 AGI(通用人工智慧,也就是「能全面超越人類智識的 AI」)的到來比原先更樂觀,認為可能在 3 到 10 年內實現。在搜尋引擎方面,Google 推出了 25 年來最大規模改版——AI Mode,但 Pichai 強調採取漸進式策略,不強迫用戶立刻轉換,而是在維持傳統搜尋的同時逐步整合 AI 功能。

假設你是工程師,要讓 AI 幫你維護一個擁有數十萬行程式碼的大型老舊系統(例如銀行核心系統),AI 需要理解整個程式庫的脈絡、跨多個檔案分析邏輯,並做出牽一髮動全身的精確修改——這種「長期複雜 Coding 任務」正是 Pichai 承認 Gemini 目前最弱的地方。相比之下,透過 Cursor 整合 Claude(Anthropic 的 AI)的方案,因為有大量真實工程師每天在開發工具裡使用,累積了更多這類真實場景的優化數據。以實際結果來說:同樣是「幫我重構這個複雜模組」的任務,Gemini 在處理大型程式庫時容易遺漏上下文或出錯,而 Claude 透過 Cursor 的整合更能維持跨檔案的一致性。這也是為什麼 Pichai 坦承 Google 需要補強開發者工具生態系,不能只靠對話介面競爭。

T2
AI 近期大事:Google 代理化與 Karpathy 移籍

過去三週,AI 業界發生了幾件一起看才顯得有意義的大事。Google 在年度開發者大會(I/O)上發布了 Gemini Omni(一個能同時處理文字、圖片、影片、聲音的新模型),以及 Gemini 3.5 Flash 搭配「Google Antigravity」——這是一個以「AI 代理人(agent,就是能自動執行多步驟任務的 AI,不只是回答問題)」為核心的開發平台,背後連結 Google 自家新世代 TPU 8i(AI 專用晶片),形成從晶片到軟體全包的垂直整合架構。更大的新聞是:OpenAI 的共同創辦人 Andrej Karpathy(業界最受尊敬的深度學習工程師之一)跳槽加入 Anthropic,負責「預訓練(pretraining,就是 AI 模型從海量資料中學習的最初、最昂貴的階段)」研究,目標是建立「讓 Claude 幫忙改善下一代 Claude」的自我進化循環——這種「AI 幫 AI 做研究」的飛輪,過去兩年許多實驗室只在白板上畫,現在有人真的在實作了。同期,Anthropic 也花了每個月 12.5 億美元的代價,租用 Elon Musk 旗下 xAI 的超級運算叢集「Colossus」算力(超過 22 萬顆高階 GPU),以解決算力不足導致用戶被限速的問題。這一切合起來看,頂尖 AI 實驗室正從「比誰的模型更強」轉向「比誰能建立更大的算力基礎設施、更深的垂直整合、更完整的代理人生態」。

過去如果你想讓 AI 幫你「每天早上自動抓取競爭對手新聞、整理成摘要並發到 Slack」,你需要自己串好幾個 API、寫調度邏輯、處理失敗重試,基本上要花一整天寫程式碼。Google Antigravity 描繪的代理人開發平台,目標是讓你用自然語言描述任務,由 Gemini 3.5 Flash 驅動的代理人自動拆解步驟、呼叫工具、執行並回報結果——你只需說「我要什麼」,不用寫完整程式。對比舊方式,差異在於:以前你是程式設計師在指揮 AI;現在 AI 是執行者,你是出任務的人。Karpathy 在 Anthropic 的工作則更底層——他要讓 Claude 本身參與設計「下一代 Claude 的訓練資料和訓練方式」,讓模型進化得更快,就像讓最聰明的學生來修改自己的課程大綱。

T2
MIT 新架構讓大模型訓練省 900 倍算力

HRM-Text 是由 Sapient Intelligence 與 MIT 共同發表的 AI 研究論文,提出一種全新的大型語言模型(也就是 ChatGPT、Claude 這類能對話的 AI)訓練方式。現有幾乎所有 AI 大模型都採用一種叫做 Transformer(一種讓 AI 能同時分析一段文字裡每個詞之間關係的神經網路架構)的設計;這篇論文改用「分層遞迴模型 HRM」(一種模仿大腦「短期處理細節、長期保留重點」的分層記憶結構)來取代它。研究者同時改變了訓練目標,不再讓 AI 預測「下一個字是什麼」,而是只餵給它「任務問題 + 完整解答」配對,直接學習「如何完成任務」。最驚人的是:在標準基準測試(用來比較各模型能力的統一考題)表現相當的情況下,HRM-Text 所需的訓練資料量只有現有主流模型的 1/900——省下了整整 900 倍的資料與算力。

假設你是一個小型 AI 新創公司,想訓練一個具備基本能力的語言模型。用傳統 Transformer 加「預測下一個字」的方式,光是資料就需要數兆個 token(token 可以理解成「文字片段」,一篇短文大約幾百到幾千個 token),對應的算力和電費往往只有大廠才負擔得起。改用 HRM-Text 的做法,理論上你只需要準備少量「問題 + 解答」對照資料,讓模型集中學習「完成任務」——就能在同樣的考題集上拿到相近的分數,訓練成本大幅壓低。這意味著,原本是 Google、Meta、Anthropic 這些大廠專利的模型訓練能力,未來可能讓更多中小型團隊以低得多的預算實現。

T2
Qwen3 開源:235B 模型媲美 GPT-4 等級

Qwen3 是阿里巴巴最新發布並完全開源的大型語言模型(LLM,就是 ChatGPT 這種能對話、能推理的 AI),採用 Apache 2.0 授權(任何人都可以免費下載、修改、甚至拿去商業用途,不需要付授權費)。旗艦版 Qwen3-235B-A22B 採用「混合專家架構」(MoE,Mixture of Experts——讓 AI 每次只啟動部分神經元來省計算資源),總共有 2350 億個參數,但實際推理時只需啟動 220 億個,大幅降低運算成本。Qwen3 最特別的地方是支援「混合思考模式」:遇到複雜數學或推理問題時,它會像人打草稿一樣一步步慢慢推導;遇到簡單問答就直接快速回覆。在各項 benchmark(業界用來公平比較各 AI 能力的標準化考題)上,Qwen3-235B 的表現能媲美 DeepSeek-R1、OpenAI o1、Grok-3、Gemini-2.5-Pro 等頂尖商業模型。整個系列原生支援 119 種語言,以約 36 兆 token 的龐大語料庫預訓練而成。

假設我是一個台灣新創的工程師,想在自己公司的伺服器上跑多語言客服 AI(支援中文、英文、泰文、印尼文),過去的選項是花錢買 OpenAI API,每次對話都要把用戶資料送到外部服務,且費用會隨使用量累積。現在可以直接下載 Qwen3-30B-A3B(總共 300 億參數但每次只啟動 30 億,一張高階顯示卡就能跑),部署在自己的機房,對話資料完全不離開公司、也沒有 token 費用。根據官方測試,這個 30B 版的效果相當於舊版 Qwen2.5-72B(720 億參數版)的水準,也就是說效能跳了一個等級、運算資源需求卻砍半。對比三個月前的選擇:用開源的 Llama 3-8B 自架,多語言能力和推理品質明顯不足;現在換成 Qwen3-30B-A3B,同樣免費自架,但實際回答品質已接近商業 API 等級。

T2
MagenticLite 小模型電腦代理達 SOTA

微軟研究院推出了一套名為 MagenticLite 的實驗性 AI 代理(agent,就是能自動按步驟完成任務的 AI)系統,可以同時操控瀏覽器和本機檔案系統,完成填表單、預約、整理文件等日常電腦任務,且所有資料都留在使用者自己的機器上、不上傳雲端。這套系統由三個元件組成:MagenticLite 是主應用程式,負責介面與統籌;MagenticBrain 是一個 140 億參數(參數量代表模型的「學習量」,越大通常越聰明)的協調模型,負責把模糊的指令拆成具體步驟並決定要呼叫哪個工具;Fara1.5 則是專門負責「看畫面、點滑鼠、填表單」的電腦操控小型模型系列,提供 40 億、90 億、270 億參數三種規格。其中 Fara1.5-9B(90 億版)在 OnlineMind2Web 這個評估 AI 瀏覽器操作能力的標準測試中,達到同體積模型的最佳水準(SOTA,即目前最先進成績),還針對表單填寫和登入流程做了專項改善。

我想每週自動整理下載資料夾:PDF 移到「文件」、圖片移到「圖片」、三天沒開的壓縮檔解壓後放到備份目錄。用 MagenticLite,只要用白話說「幫我整理下載資料夾,PDF 放文件、圖片放圖片、舊壓縮檔解壓到備份」,MagenticBrain 就會把這句話拆成一個個具體步驟,再呼叫 Fara1.5 去實際操作檔案系統執行。碰到可能有風險的動作(例如刪除某個檔案)時,系統會主動暫停、等使用者按確認,不會自行決定。相比之下,舊做法是自己寫 Python 腳本或 Automator 規則,需要程式基礎;這套系統讓不會寫程式的人也能用自然語言,在本機安全地自動化日常電腦操作。

T2
Karpathy 加入 Anthropic 主攻預訓練

Andrej Karpathy 是全球最知名的 AI 研究者之一——他是 OpenAI 創始成員(2015 年參與創辦),後來轉往 Tesla 擔任 AI 總監負責自動駕駛,再自己創辦 AI 教育新創 Eureka Labs。這次他正式加入 Anthropic,組建一支全新團隊,專攻「預訓練」(pre-training,就是從零開始讓大型 AI 模型閱讀海量文字、建立基礎知識的過程,是整個 AI 能力的根基)。最特別的地方是:這支團隊計畫「用 Claude 來加速預訓練研究本身」——讓 AI 幫忙做 AI 研究,屬於 AI 研究自動化的前沿方向。他將在 Nick Joseph(Anthropic 預訓練負責人)旗下運作,代表 Anthropic 在基礎模型研究上加重投資。

假設研究團隊想找出「哪種訓練資料配比能讓模型在程式碼、數學、中文三方面都均衡表現最好」。傳統做法是人工設計幾十種實驗配方、一批一批跑訓練、看結果再調整,一輪來回可能需要數週。Karpathy 的新團隊目標是讓 Claude 直接分析過去實驗的紀錄、提出新的配比假設、甚至自動產生下一輪的實驗設定——把幾週的工作壓縮成幾天。對比舊方式:研究員人工盯數據改參數;新方式:Claude 充當「24 小時不休息的研究助理」,持續分析、提案、準備實驗腳本,人只需審核關鍵決策。這種「用 AI 加速訓練更強 AI」的飛輪,被認為是未來幾年 AI 能力快速提升的核心機制之一。

T2
Anthropic 收購 Stainless 並獨占 SDK 工具

Stainless 是一家幫助科技公司「自動生成 SDK(讓開發者更方便呼叫 AI 服務的程式工具包)」的新創公司。他們的服務目前為 Anthropic(Claude 的開發商)、OpenAI(ChatGPT 的開發商)、Google、Replicate、Runway、Cloudflare 等主流 AI 平台自動產出官方 SDK。簡單說,當你安裝 `pip install anthropic` 或 `npm install openai` 這類套件時,背後的程式碼架構正是 Stainless 幫忙生成的。Anthropic 此次以超過 3 億美元的價格收購 Stainless,並宣布將關閉所有對外的 Stainless 服務,把這套工具納為 Anthropic 專屬使用——這意味著 OpenAI、Google 等競爭對手未來將失去這個工具。

假設你是 OpenAI 的 SDK 開發者,以前可以用 Stainless 自動把 API 規格轉成高品質的 Python / TypeScript / Go 套件,省去大量人工撰寫和維護的時間。現在 Anthropic 把 Stainless 收走並關閉對外服務後,OpenAI、Google 等公司需要另找替代方案——可能是手動維護、換用其他開源工具,或自己從頭開發類似系統。對 Anthropic 自身而言,Stainless 繼續為其所有 SDK 提供服務,但不再流向競爭對手,在開發者工具體驗上形成競爭壁壘。

T2
MCP RC 無狀態化 + Agent 沙盒整合

MCP(Model Context Protocol,讓 AI 工具之間互相溝通的標準協議)發布了 2026-07-28 版本候選(RC,正式版前的測試版),最大變化是協議改成「無狀態」——每次請求都獨立,不需要先「握手」建立連線、不需要記住 session ID,任何伺服器都能直接回應任何請求。這對搭建 AI agent(自主執行任務的 AI 程式)系統的工程師是重大利好:以前要確保同一用戶的每個請求都落在同一台伺服器(sticky session),現在不需要了,加機器、做負載均衡都變得更簡單。此外,本次 RC 也加入了 MCP Apps 和 Tasks 等一級擴充,並強化了認證安全與廢棄政策。同一時期,Google、CoreWeave、Cloudsail 等多家公司也在推出「AI 執行沙盒」(sandboxes,讓 AI agent 在隔離的安全容器裡執行程式碼、操作系統),讓 agent 能在不暴露 API 金鑰的情況下安全跑指令,整個 agent 基礎設施生態系正快速成熟。

假設你在公司部署一套用 MCP 協議串連的 AI 客服系統,以往為了維持「對話記憶」,必須讓同一用戶的所有請求打到同一台伺服器——那台伺服器一掛,對話就斷,工程師還要額外設定 sticky session,擴容也很麻煩。新的無狀態 MCP RC 讓協議本身不再依賴 session,每個請求帶自己需要的資訊,任何一台伺服器都能處理;系統掛一台不影響其他請求,擴容就是加機器。在沙盒方面:以前讓 AI agent 跑程式碼,必須把 GitHub token、API key 直接給 agent,有外洩風險;用 Cloudsail 這類沙盒,agent 在隔離容器裡執行,只有有限的權限能存取外部資源,token 不會暴露在 agent 的對話記憶體裡——舊做法像是把公司所有鑰匙交給工讀生,新做法是讓他在有監視器的房間裡只拿他需要的那一把。

T2
Google IO 多模態 AI 新工具群

Google 在年度開發者大會 I/O(Google 每年舉辦、用來展示最新技術的大型發表活動)上,一口氣公布了多項 AI 工具的重大更新。最受矚目的是 Gemini Spark——一個全天候(24 小時、7 天不停)的個人 AI 助理(就像 ChatGPT 這種能對話的 AI,但設計成能長期記住你的習慣、持續幫你自動完成重複性任務和日常工作流程)。另一項 Gemini Omni 則專注影片創作,使用者可以用說話的方式直接告訴 AI 要做什麼樣的影片,AI 就能生成、剪輯,甚至幫你做出個人虛擬分身出鏡。Project Genie 搭配 Google 街景,讓使用者把真實地點轉化為可互動的虛擬世界,目前已向 Google AI Ultra 訂閱用戶開放。同場競技的還有影片工具 Runway 發布 Aleph 2.0,支援最長 30 秒、1080p 高畫質的多鏡頭影片生成,且可精準修改局部畫面而不影響其他部分。語音合成方面(TTS,讓電腦用人聲念出文字的技術),Cartesia Sonic-3.5 以 Elo 積分 1218 分登上語音競技場榜首,支援 42 種語言,從輸入文字到聽到第一個音節只需 82 毫秒。圖片生成方面,騰訊推出 Z-Image 6B,採用直接在像素層面生成圖像的架構(不同於大多數 AI 在「壓縮空間」裡運作),輸出解析度可達 1024×1024,並支援把現有熱門模型 Flux、Stable Diffusion 的能力轉移過來使用。

假設我是一位 YouTuber,想製作一段 15 秒的產品介紹短片。過去我需要先拍攝素材、剪輯、找配音員,整個流程至少幾小時。現在用 Gemini Omni,我可以直接說「幫我做一段 15 秒的產品介紹,風格活潑,結尾用我的虛擬分身說結語」,AI 生成影片後我再用對話方式修改(「把背景改成白色」「結語再短一點」),整個流程壓縮到幾分鐘。配旁白的話,搭配 Cartesia Sonic-3.5,輸入文稿後 82 毫秒內就能聽到自然語音,不再需要等好幾秒才能試聽——讓「快速迭代試聽」這件事真正可行。對比舊做法(找配音員或用舊版 TTS 等待幾秒甚至幾十秒),現在整個創作循環快了一個數量級。

T2
AI 代理一月掃出萬個資安漏洞

Anthropic(Claude AI 的開發公司)與合作夥伴展開一個叫「Project Glasswing」的計畫,讓旗下最新 AI 模型 Claude Mythos Preview 自動掃描大量常用軟體,在不到一個月內就找出超過一萬個高危或嚴重等級的安全漏洞(就是軟體裡的破綻,駭客可利用這些破綻入侵系統)。Anthropic 特別公開警告:整個資安產業必須盡快學會應對 AI 批量發現漏洞的新現實,因為這個速度遠超過以往人工處理的能力。與此同時,Perplexity AI 也開源(公開程式碼、任何人都能免費使用)一個叫 Bumblebee 的安全掃描工具,可以在 Mac 或 Linux 電腦上掃描有風險的軟體套件、瀏覽器擴充功能和 AI 工具設定,全程只讀取不修改,對開發者和企業都很安全好用。AI 進入資安領域不再只是概念,已開始產生實際可量化的成果,業界普遍認為企業未來部署 AI 代理時還需要配套的沙箱隔離環境和持續安全工程。

假設你是一間新創公司的後端工程師,負責維護幾十個 Python 套件(就是別人寫好、你直接引用的程式庫)。以前的做法是人工翻 CVE 資料庫(已知漏洞公告清單)或靠掃描工具一個個比對,一次完整掃描可能要花數小時,還有可能漏掉細節。現在可以直接跑 Bumblebee——這個工具能快速列出哪些套件、擴充功能或 AI 工具設定有已知風險,幾分鐘內出報告,而且不會動到任何檔案。而更大規模的應用方向,是像 Project Glasswing 這樣用 AI 代理(讓 AI 自動執行複雜掃描任務的系統)去掃整個網路上廣泛使用的基礎軟體,一個月就挖出超過一萬個嚴重漏洞——以前同樣規模的工作可能要數百名專業資安工程師花好幾年才能完成。

T2
AI 代理自動發現推理省算策略

一個叫做 AutoTTS 的研究系統,由美國馬里蘭大學(UMD)、Google、Meta 等機構的研究人員共同開發。他們讓 AI 程式代理(就是能自己寫程式碼、執行測試、根據結果自我修正的 AI 助理,這裡用的是 Claude Code)在幾乎不需要人工介入的情況下,獨立搜索並設計出全新的「推理資源分配演算法」(演算法就是 AI 解題時遵守的一套規則,這裡指控制 AI 要花多少計算力來回答問題)。找到的新演算法和現有主流方法「自我一致性」(self-consistency,就是讓 AI 同一個問題多回答幾遍再投票選最好答案)相比,在維持相同準確度的前提下,計算量減少了約 70%。整個探索過程只花了 40 美元和 160 分鐘,遠比人類研究員手動設計要快。

假設你在開發一個 AI 客服系統,想讓 AI 在回答問題時「多想一想」再給出答案,通常做法是用「自我一致性」——讓 AI 同一個問題回答 10 次,再選出最多人同意的答案。這樣準確率確實更高,但計算成本也是原本的 10 倍,每月 API 費用可能從 1 萬元跳到 10 萬元。過去要找到更省算的替代策略,需要研究人員花好幾週手動設計、反覆測試不同規則。AutoTTS 的做法是讓 AI 程式代理自己跑這個設計流程——自動撰寫策略程式碼、在測試集上評分、淘汰差的版本、再進化出更好的——160 分鐘後,它找到了一種人類研究員「可能不會自己設計出來」的新策略:準確度和 10 次投票方法一樣,但計算量只需要原來的三成。以實際成本換算,同樣的預算可以處理超過 3 倍的使用者查詢。

T3
T3
AI炒作進幻滅期,九成五企業無回報

根據 Gartner(全球知名的科技研究公司,每年會追蹤各種新技術的「熱度曲線」)在 2025 年的報告,ChatGPT 等「生成式 AI」(就是會寫作、對話、畫圖的 AI)已越過炒作浪潮的最高點,正式進入「幻滅低谷」——也就是大家開始發現現實和期望有落差的階段。MIT 的研究更揭露驚人數字:企業合計投入了三四百億美元在生成式 AI 上,但有 95% 的組織根本無法測量到任何具體回報,不到 30% 的執行長對投資回報感到滿意。與此同時,「AI 代理」(AI Agent,就是能自己規劃步驟、自動執行任務、不需要人一直下指令的 AI)正成為下一波炒作高峰——目前只有 17% 的企業實際用上了,但超過 60% 的企業說未來兩年要導入。Gartner 預測這波熱潮在 2~3 年內也會走進同樣的幻滅週期,整個 AI 技術家族正在以世代輪替的方式重演同一劇本。另外數據顯示,近一半的科技從業者在 2025 年感到精疲力竭,比前一年翻了近一倍,反映出追趕每一波 AI 新浪潮帶來的真實代價。

假設你是一家中型企業的 IT 主管,2023 年公司花了 200 萬美元打造一套內部 AI 客服系統(從頭自己開發)。一年後,客服處理速度沒有顯著提升,員工還在修正 AI 的錯誤,管理層追問「投資回報在哪?」卻答不出來——根據 MIT 報告,你的公司很可能就落在那「95% 無量化回報」那堆。而數據顯示,外部採購成熟方案的企業成功率(66%)遠高於內部自研(33%)——這代表如果你當初直接買現成的 AI 客服平台,而非從零開發,成功機率幾乎是現在的兩倍。現在,你的同事又在興奮討論「AI Agent 要幫我們自動化整個工作流程」,準備大力投入——根據 Gartner 的預測,這波新熱潮也可能在 2~3 年後走進同樣的幻滅低谷,重演你剛剛經歷的那一輪。此刻的策略建議:每個 AI 專案都要先定義具體的量化指標和 90 天里程碑,用數據而非直覺決定繼續還是停損。

T3
Meta 用員工行為資料訓練 AI 後裁員

Meta(臉書的母公司)在 2026 年 5 月大規模裁員約 8,000 名員工,同時悄悄在員工電腦上部署了一個叫 MCI(Model Capability Initiative,直譯是「模型能力計畫」)的軟體。這個軟體會錄下員工每一個按鍵、滑鼠移動、點擊動作,還會定時截圖,目的是蒐集員工的「電腦操作行為資料」,用來訓練可以自動操作電腦的 AI(稱為 computer-use agent,就是能替人開網頁、填表單、切換程式的 AI 助手)。因為歐洲有一項叫 GDPR 的個人資料保護法,歐洲員工被豁免、不在監控範圍,但美國員工則全數被監控。一名即將離職的工程師為此錄製了一首搞笑翻唱歌曲來諷刺這件事,在 Meta 內部和科技圈引發大量共鳴。最讓外界擔心的是:Meta 的策略看起來就是「先錄下員工怎麼做事,再用這些資料訓練 AI,最後讓 AI 取代這些員工」的完整閉環。

假設我想讓 AI 自動幫公司每天處理 Slack 通知——開啟 Slack、把重要訊息複製到 Google Sheet、回覆固定格式的確認訊息、最後關掉視窗。傳統的訓練方法是請人工標注「每個操作步驟是什麼、何時觸發」,費時且標注出來的是「理想劇本」而非員工的真實習慣。MCI 的方法直接略過標注:讓員工正常上班,程式在背景自動記錄「9:02 按了 Command+Tab 切換到 Slack、9:03 選取第三條訊息按複製、9:04 貼到 Sheet B2 格…」,累積幾千小時的真實操作序列後,再用這些資料訓練 AI 模型,讓 AI 學會在相同情境下執行相同步驟。對比舊做法的差異在於:傳統方法需要額外人力標注,且標注結果往往過度理想化;MCI 蒐集的是包含失誤、回溯、快捷鍵選擇的完整真實行為,資料更豐富,AI 學到的操作模式也更貼近人類。但代價是對員工實施全面監控,且資料蒐集方式已在法律灰色地帶——歐洲 GDPR 直接擋掉這種做法,暗示 Meta 清楚知道這套方法的法律邊界在哪。

T3
AI Agent 資安 754 技能開源庫

這是一個名叫 `Anthropic-Cybersecurity-Skills` 的開源專案(注意:雖然名字裡有「Anthropic」,但它跟 Anthropic 公司完全沒關係,是社群開發者自己做的)。它收錄了 754 項結構化的網路安全技能,專門設計給 AI Agent(就是能自主完成任務的 AI 程式)來執行資安相關工作。這些技能同時符合業界五大主流資安框架的標準,包含 MITRE ATT&CK(記錄駭客常用攻擊手法的知識庫)、NIST CSF(美國政府的資安管理框架)、MITRE ATLAS(針對 AI 系統攻擊的威脅知識庫)等,讓 AI Agent 執行安全任務的同時,也能確保動作符合法規與合規要求。專案近期突然在 GitHub(全球最大程式碼分享平台)上爆紅,單日新增 238 顆星,總計已有 7,400+ 個開發者收藏、1,000 次 fork(就是把專案複製到自己帳號下使用)。

假設你是企業資安工程師,要用 LangChain(一個用來組裝 AI 工作流程的框架)建一個能自動偵測伺服器設定漏洞的 AI Agent。以前你得自己研讀 MITRE ATT&CK 知識庫、再逐一手寫安全檢測邏輯,花費大量時間。用這個技能庫,你只需從 754 項技能中挑選對應「雲端安全」或「入侵偵測」的技能模組,Agent 會先用約 30 個 token(token 是 AI 處理文字的計量單位,30 個大約是幾個短句的量)快速掃描技能清單確認可用項目,再載入完整的逐步執行流程(約 500 至 2,000 個 token);最終產出的掃描報告自動對應到 NIST AI RMF 合規框架,可以直接交給法務或稽核部門使用,省去人工整理的步驟。

T3
Memdex:AI 對話記憶本地管理工具

Memdex 是一個 Chrome 瀏覽器擴充功能(就是安裝在瀏覽器上、可以替網站加功能的小程式),專門解決「每次開新 AI 對話,AI 對你一無所知」的問題。你平常用 ChatGPT 或 Claude 聊天時,每次開新視窗 AI 都不記得你上次說了什麼——你得重複解釋自己的工作背景、寫作風格偏好、或這個專案已經做了哪些決定。Memdex 在瀏覽器背後默默記錄你與 ChatGPT、Claude、Gemini、Perplexity、Grok 等主流 AI 平台的對話內容,全部加密儲存在你自己的電腦上,完全不上傳到任何伺服器、也不會拿來訓練 AI。下次開新對話時輸入問題,Memdex 會自動比對歷史記錄,找到相關舊對話片段,讓你一鍵附加到新的問題裡,省去重複說明的麻煩。記憶分兩層:一層是完整對話備份,另一層是精簡重點——它會幫你抽取出你曾給過 AI 的事實說明、術語定義、和已經做好的決策,讓這些可重複使用的知識在未來的對話裡隨時調用。

假設你是一名行銷人員,常用 ChatGPT 幫你寫文案。某次對話裡你花了 20 分鐘告訴 AI:品牌語氣是「輕鬆但專業」、目標受眾是 25–35 歲上班族、不要用太多英文縮寫。下次開新的 ChatGPT 視窗,AI 完全不記得這些,你又得解釋一遍。有了 Memdex,它會把那次對話中「品牌語氣設定」這段精簡抽出存成一個片段,依專案分組管理。下次你問「幫我寫這產品的 IG 文案」,Memdex 偵測到這是文案相關問題,提示你可以附加那份品牌語氣設定,一鍵加進 prompt(就是你給 AI 的問題或指令),AI 直接照你的風格寫,不需再重新說明。比起舊做法——每次對話前手動複製貼上一大段背景說明——Memdex 省去了這個步驟,尤其適合同時在多個 AI 平台間切換的使用者。

T3
DeepSeek 原生低成本編碼代理

Reasonix 是一個專門為 DeepSeek 語言模型(一種由中國公司開發、費用相對低廉的 AI 模型)設計的終端機編碼代理工具(就是一個在命令列介面裡幫你寫程式的 AI 助手)。它最大的特點是採用「只往後追加、不重新排列」的對話架構,讓每次 AI 回應時都能最大程度沿用前面對話的「快取」(快取就像 AI 的短期記憶——已經計算過的內容不用重新算,直接拿來用)。在長時間工作會話中,快取命中率可達 90% 以上,代表送給 AI 的輸入計費量可降至原本的五分之一左右。這個工具完全開源,使用者可以透過終端機操作,甚至可連接自己架設的私有 DeepSeek 伺服器。

我需要讓 AI 幫我重構一個大型程式庫——這種任務來回對話很多輪,每輪都要把整個專案的上下文送給 AI,費用很快就會累積。若用傳統方式(每輪對話都重頭讀取完整上下文),即使是 DeepSeek 這種便宜的模型,長時間下來成本也不低。改用 Reasonix 後,它確保每次對話只把新的內容加在末尾,整個提示前綴保持不動,讓 DeepSeek 的快取機制持續有效運作。根據 HackerNews 上使用者的實測回報,整個工作時段快取命中率超過 90%,最終每小時花費約 $0.10 到 $0.30 美元——比不做任何優化的做法便宜約五到十倍。

T3
LLM Agent 後端程式碼生成的約束衰減

研究者測試了 LLM agent(就是可以自動執行多個步驟來完成任務的 AI 程式,例如 GitHub Copilot Agent、Cursor)在生成後端程式碼(就是網站或 App 伺服器端的邏輯)時的表現,發現了一個叫「約束衰減」(constraint decay)的現象:當程式規格越來越複雜、需要同時滿足的條件越來越多時,AI 的表現會大幅下滑,在完整規範任務中通過率平均下降 30 個百分點。研究橫跨 8 種網頁框架、100 項任務(80 個全新生成、20 個功能實作),發現 AI 在規則精簡的框架(如 Flask)表現較好,但在慣例繁多的框架(如 FastAPI、Django)上就明顯力不從心。最主要的失敗原因出在資料層:資料庫查詢組合錯誤,或是 ORM(用程式操作資料庫的工具,讓你不用寫 SQL 也能存取資料)在執行時違反規範。

假設你要用 AI 代理工具幫你生成一個 Django 後端 API,需求是:支援使用者權限管理、資料驗證、資料庫正規化(讓資料不重複儲存)、加上特定的 ORM 查詢方式——四個條件疊在一起。根據這篇研究,疊加條件後 AI 通過自動測試的比例,比只給單一條件時低了約 30%;而且使用 Django 這種「規矩多」的框架,比用 Flask 這種「簡單直接」的框架更容易出錯。最常見的情形是:AI 寫出來的資料庫查詢邏輯表面上能跑,但結果不對或違反關聯規則。對比舊做法(自己從頭寫)——這提醒開發者:在複雜多條件的後端任務中,AI 生成的程式碼需要更仔細的人工審查,尤其是資料層邏輯,別以為跑得起來就沒問題。

T3
PICO:蘋果學習式影像壓縮突破

Apple 研究團隊發表了一個叫做 PICO(Perceptual Image Codec,感知影像編解碼器)的新技術,用機器學習(Machine Learning,一種讓電腦從大量資料中自動學習規則的 AI 技術)來壓縮圖片。傳統的圖片壓縮格式(像 JPEG、WebP)是靠人工設計的數學公式來計算怎麼壓,而這個新方法是讓 AI 自己「學會」怎麼壓圖片才能讓人眼看起來最舒服——根據大規模使用者視覺測試來做優化。實驗結果顯示,PICO 在相同畫質下,比目前業界最先進的影像格式 AV1、AV2、VVC 節省 2.3 到 3 倍的檔案大小,比其他同類型的 AI 壓縮方法也再節省 20 到 40%。更難得的是,這套技術已能在 iPhone 17 Pro Max 上直接執行,壓一張 1200 萬像素的照片只需 230 毫秒、解壓只需 150 毫秒,速度甚至超越多數 AI 壓縮模型跑在專業 GPU 伺服器上的表現。

假設你在社群媒體平台上傳一張 1200 萬像素的高畫質照片。傳統做法是用 JPEG 壓縮,最後存檔可能是 3MB,在低頻寬網路下上傳慢,而且畫面邊緣有時出現色塊失真。改用 PICO 技術,同一張照片壓縮後可能只需 1MB 甚至更小,因為 AI 是針對人眼視覺特性優化,壓出來的圖片人看起來更自然、失真更少。對使用者來說,上傳下載更快、省行動數據;對平台來說,同樣的頻寬能服務更多用戶、儲存成本也大幅下降。舊方法(傳統 JPEG)做不到的是:在把檔案大小壓到這麼小的同時還維持如此高的視覺品質。

T3
Agent 趨穩後創業機會仍在

2026 年初,幾位 AI 創業圈的人在一場圓桌論壇上討論了 Agent(AI 代理人,就是能自己決定下一步、不需要人一直指揮的 AI)目前發展到什麼程度、以及創業公司還有哪些機會。他們發現 Agent 類產品的介面樣式已大致固定下來:左邊是專案列表、中間是跟 AI 說話的對話框、右邊是 AI 實際工作的預覽區,這個格局幾乎成了行業標準。更關鍵的變化是 Agent 現在會自己寫程式碼,可以動態幫自己新增功能——例如你說「幫我建一個鬧鐘提醒」,它就真的自己寫好、裝好、讓你用,不再只是給你一段文字答案。這使得開發軟體的速度提升了約十倍,以前要半年的工程,現在幾週就能做好;使用者族群也從普通大眾轉向重度使用的專業人士和企業(有與會者每月光 AI 服務費就花五、六萬美金)。論壇結論是:儘管大公司紛紛入場,局勢仍不明朗,先走一步的人依然能拿到不成比例的市場關注與資金優勢。

我想做一個「每週一早上自動整理待辦清單並寄 Email 提醒用戶」的小工具。以前我需要找前端、後端工程師各一人,花三個月設計介面、寫 API、處理排程、做測試,費用可能超過百萬台幣。現在我打開一個支援 Agent 的開發工具,用對話框告訴它:「我要一個每週一 9 點寄出本週待辦摘要的 Email 工具」,Agent 自己生成程式碼、連接 Email 服務、設好定時排程,右側預覽區直接讓我看到執行效果。整個過程兩週內一個人就能搞定,不需要招工程師、不需要開需求會議,改需求時重新說一次就好。對比舊做法,省下了三個月時間和大量人力成本,這正是論壇中創業者強調的「先邁一步」帶來的競爭優勢。

T3
AI推理算力未來將佔七成

矽谷投資人張璐在 AIGC2026 大會上提出一個關鍵預測:AI 的算力消耗重心正在從「訓練」轉向「推理」。所謂「訓練(training)」是指把大量資料餵給 AI、讓它學會做事,這是一次性的大工程;而「推理(inference)」是指把訓練好的 AI 拿出來實際使用,例如你每次向 ChatGPT 提問,背後就跑了一次推理。目前推理已佔整體 AI 算力需求的 50%,張璐預測未來將攀升至 70%,只留下 30% 給訓練。除了算力分配,她還指出資料中心內部的「通訊」(伺服器之間傳資料)耗電量可能比運算本身高出百倍以上,讓光學通訊等新技術成為下一波創新重點。她特別看好醫療 AI、太空經濟與奈米機器人三個方向,主要理由是這些領域擁有高品質的真實世界資料。企業端也出現明顯加速:AI 採購預算從千萬級跳升至數十億級,採購週期從半年壓縮到一兩個月。

假設你是一家電商公司的技術主管,去年花了大半年、投入數千萬預算訓練一個專屬的商品推薦 AI 模型。今年模型已訓練完畢,開始上線服務:每天有幾百萬名用戶瀏覽商品頁、每次頁面載入都要即時算出「你可能喜歡」的清單,這些全是「推理」在消耗算力。你會發現,訓練只花一次錢,但推理的伺服器費用每個月都在累積,而且隨用戶增長持續膨脹。按照張璐的預測趨勢,如果你的基礎建設規劃還停留在「70% 預算給訓練、30% 給推理」,很快就會碰到推理端的效能瓶頸,導致推薦速度變慢、用戶體驗下滑。未來的正確策略應該是反過來:把七成資源留給推理端的擴展,三成才用於定期更新訓練新版本模型。

T3
Vibe Coding 讓非工程師也能寫 App

Vibe Coding 是 2025 年由 AI 研究員 Andrej Karpathy(卡帕西,特斯拉前 AI 總監、OpenAI 共同創辦人)提出的一種全新軟體開發方式。傳統寫程式需要學習複雜的程式語言和語法,但 Vibe Coding 改變了這一點——你只需用自然語言(就像跟人說話一樣)描述想要的功能,讓 AI(就是 ChatGPT 這類會對話的人工智慧)幫你生成、修改並完善程式碼,簡單說就是「你說需求、AI 寫程式」。這篇報導以中國歌手胡彦斌、作家余華等名人為例,說明這個趨勢已從工程師族群擴散到完全不懂程式的創意人士,顯示 AI 工具正讓軟體開發的門檻大幅降低。整體趨勢意味著未來「每個人都可能是開發者」,不再需要多年的程式訓練。

歌手胡彦斌想建立一個專屬粉絲社群 App「彥火」,但他完全不懂程式語言。透過 Vibe Coding,他只需用中文描述想要的功能(例如「我要一個讓粉絲能互動留言的社群平台」),AI 會自動生成對應的程式碼,他再根據實際效果繼續調整需求,如此反覆迭代,最終真的做出了一款可上線的 App。對比傳統做法:他要麼花好幾年學程式,要麼花大筆外包費請工程師團隊——而現在他能在辦公室自己「玩」出一個完整軟體產品,整個過程幾乎不需要寫任何一行程式碼。

T3
AI 審學術論文的能力與侷限

Carnegie Mellon 大學(美國頂尖理工大學)的研究團隊,找來 45 位各領域的真實科學家,請他們評分 AI 針對 82 篇 Nature 系列頂尖期刊論文所寫出的「同儕審查意見」(同儕審查,就是學術界用來把關論文品質的評審流程——論文投出去之前,要請同領域的專家看過、挑毛病,才能刊出)。這些科學家一共評估了 2,960 條 AI 提出的批評意見。研究發現,最先進的 AI 確實能找出重要且有根據的問題,但它常常缺乏對特定子領域的深度認識,而且不同 AI 給出的意見高度重疊,代表 AI 現階段最適合用來「輔助人類審稿員」,而不是直接取代人類。

假設我是一位生物醫學期刊的編輯,收到一篇關於「腦神經可塑性」的投稿論文。傳統流程要找 2~3 位這個子領域的頂尖科學家來審,但這些人都很忙,等待時間可能長達數個月。現在可以先讓 AI 跑一遍論文,快速列出疑似有問題的地方——例如「樣本數太小」、「統計方法可能有偏差」、「缺少對照組」。這份清單可以幫編輯初步篩選、或給人類審稿員當「查核起點」,省下不少時間。但問題在於:如果論文是關於很新的神經影像分析技術,AI 可能只說「這個方法有問題」,卻無法指出具體是哪個步驟不符合最新的次領域標準——這種深度洞察仍需要真正的領域專家。這份研究給出的結論是:用 AI 來「提醒人類審哪些地方」合理,但不能把最終判斷交給 AI。

T3
NVIDIA 統一三種解碼的語言模型

NVIDIA 發表了一篇技術報告,介紹名為「Nemotron-Labs-Diffusion」的語言模型。這個模型把三種不同的文字生成方式融合到同一個模型架構裡:「自迴歸生成」(就像 ChatGPT 這樣一個字一個字往後接、根據前文猜下一個字的方式)、「擴散式生成」(類似圖片 AI 的概念,從一片隨機雜訊慢慢「去雜訊」出清楚的文字,能同時處理多個位置)、以及「自投機解碼」(讓擴散方式先快速草稿一批文字,再交給自迴歸模式逐一驗證,只留下對的部分)。NVIDIA 發現自迴歸訓練和擴散訓練在一起時不會互相干擾,反而能互相補強,讓同一個模型在不同場景下靈活選擇最有效率的生成方式,而且不需要依賴以往常見的「多 token 預測」架構改動。

假設你要架設一個 AI 客服系統,同時要服務大量使用者。傳統上你只能在「準確度高但速度慢的自迴歸模型」和「速度快但準確度差的擴散模型」之間二選一。用 Nemotron-Labs-Diffusion,同一個模型可以這樣運作:遇到簡單問題時,先用擴散方式一次草稿出整段回覆(速度快),再讓自迴歸模式快速掃描確認沒有錯誤;遇到需要精確推理的複雜問題,切換到傳統自迴歸模式,一字一字仔細生成。結果是:相比只用自迴歸的模型,整體吞吐量(每秒能回答的使用者數量)明顯提升,且不需要額外修改模型結構——因為這個方法是直接整合在訓練目標裡,一次訓練就同時獲得三種能力。

T3
StitchVM 加速擴散模型對齊訓練

擴散模型(Diffusion Model,就是 Stable Diffusion、Midjourney 這類「從雜訊一步步生成圖片」的 AI)在訓練時需要做「對齊」(Alignment,讓輸出符合人類偏好,例如生出「品質好、符合指令」的圖)。傳統方法在每個去雜訊步驟都要做複雜估算(如 Tweedie 近似或蒙地卡羅採樣,都是數學上從「半成品雜訊」反推最終結果的技巧),非常耗時耗算力。Google 與 ETH 蘇黎世聯合發表 StitchVM,核心做法是把一個已訓練好的「像素空間獎勵模型」(Reward Model,用來評分「這張圖有多符合人類偏好」的評分器)直接「縫合」接在既有擴散模型骨幹上,不需重新訓練骨幹,也不需昂貴的中間近似計算,就能直接對帶雜訊的中間狀態打分。實測顯示,無論訓練速度還是推論速度都大幅提升,而圖片生成品質維持不變甚至更好。

假設我在訓練一個文字生圖模型,目標是讓它生出「符合美學標準的高品質圖」。傳統做法:在每個去雜訊步驟,都要估算「如果從這個帶雜訊的半成品一路生成到最終圖,大概會得幾分」,需要用 Tweedie 近似或多次蒙地卡羅採樣(隨機跑好幾次取平均),一個訓練 batch 可能要等很久。改用 StitchVM:把一個已在乾淨圖片上訓練好的品質評分模型,透過「縫合」架構直接接到擴散骨幹,讓它能看帶雜訊的中間圖並即時給分,省去昂貴的近似步驟。結果:對齊訓練速度顯著加快,邊生成邊引導方向的「推論時對齊」也更快,同時最終圖片品質持平或更佳——等於同樣算力能做更多次對齊實驗,或縮短訓練時間。

T3
AI 代理強化學習操作 Excel

Spreadsheet-RL 是美國伊利諾大學香檳分校(UIUC)與 Meta 聯合發表的研究成果,專門訓練 AI 代理(AI Agent,即能自動執行一連串任務的 AI 程式)在真實的 Microsoft Excel 環境中完成複雜的試算表操作。這套框架採用「強化學習」(Reinforcement Learning,讓 AI 不斷嘗試錯誤、從成功失敗中自我調整,類似訓練時反覆練習直到熟練的概念)作為訓練方式。框架內建自動收集訓練資料的流程,加上一套結構化的工具介面讓 AI 能呼叫 Excel 各項功能。實驗顯示,經過這套訓練的開源模型(程式碼公開、任何人都能免費使用的 AI 模型,有別於 GPT-4 等付費商業模型)在各類試算表任務的測試中表現大幅提升,不論是一般任務或特定專業領域的試算表都有顯著進步。

假設我需要整理一份有五千行的 Excel 銷售報表:先刪除空白列、用 VLOOKUP(一種能跨工作表比對查詢資料的公式)補齊缺漏欄位、用樞紐分析表(PivotTable,一種能快速彙整大量資料的工具)生成月度報表,最後套上固定格式輸出。以現有的一般 AI 助手(如 ChatGPT),它只能「告訴你操作步驟」,沒辦法真正在 Excel 裡動手做。用 Spreadsheet-RL 這類框架訓練出來的 AI 代理,未來可以直接在 Excel 執行每一個動作——選欄、輸入公式、建立樞紐分析表——全程自動完成,不需要使用者自己手動點選。舊做法:自己手動操作每一步,幾十分鐘到幾小時不等;新做法:告訴 AI 代理目標,它自動跑完整個流程。

T3
AI產品護城河轉向全棧生態

AI 業界正在發生一個根本性的轉變:擁有最強的 AI 模型(就像 ChatGPT 或 Claude 這種會對話的 AI)已經不足以讓一家公司在市場上勝出。真正的競爭優勢,現在來自「完整生態系」——即 AI 模型本身、加上「harness(背後支撐 AI 運作的框架,讓 AI 能記住對話、自動執行任務、串接各種工具)」、再加上使用者介面、記憶系統和合理的定價。多位業界人士直白指出「模型本身已不再是產品核心」,頂尖產品需要模型與 harness 框架與產品設計三者緊密配合。OpenAI 在這個方向推出了 Codex Thursday 第六版更新,帶來截圖功能、目標指令改進、鎖定狀態下仍可遠端使用電腦、標注模式、插件分享與用量分析。Claude Code(Anthropic 的 AI 編程助手)也把「自動模式」開放給 Pro 方案用戶並加入 Sonnet 4.6 支援。

假設你是一位軟體開發者,想用 AI 幫你寫程式碼。如果你只是直接呼叫 GPT-4 或 Claude 的 API(「只用模型」的做法),每次對話都是白紙一片——AI 不知道你的專案架構、不知道你剛才改了什麼、也沒辦法自動在你的電腦上跑測試。但如果你用 OpenAI Codex 這種完整的 AI 編程工具(模型 + 工作流程 + 遠端執行環境全整合),你可以讓它在你睡覺時在雲端幫你跑程式、用截圖標注要改哪裡、分析哪段程式碼最耗效能,然後自動提出修改方案。已有開發者說「超過一個月沒開 IDE(傳統的寫程式工具,如 VS Code)了」——因為 Codex 直接替代了整個開發流程,而不只是「回答程式問題」的輔助角色。同樣的模型底層,加上完整工作流程套件之後,差距就像計算機和 Excel 的區別。

T3
Agent 蒸餾可省 100 倍推理成本

本週 AI 研究圈出現幾項值得關注的進展,涵蓋訓練方式、成本壓縮和模型架構三大面向。在訓練方式上,一種叫做「向量策略優化(VPO)」的新方法被提出,用來解決 RL(增強式學習,讓 AI 透過不斷嘗試與回饋來進步,類似打電動靠分數學習)訓練中的老問題:傳統 RL 只給 AI 一個「得幾分」的單一數字作回饋,在複雜任務中容易讓 AI 走錯方向。VPO 改用「向量型回饋」,同時從多個面向打分(例如正確性、簡潔性、安全性各評一個數值),讓 AI 更能在各種不同目標的任務中表現穩定。在成本壓縮上,有研究展示了「Agent 蒸餾」(將複雜 AI 流程壓縮進小模型的技術)的威力:把一個昂貴的多步驟 AI Agent 流程(需反覆呼叫大模型、使用工具、做決策)整個壓縮進一個小模型的參數裡,推理成本可降低約 100 倍,品質幾乎不掉。此外,GPT-5.5 在多位數乘法測試中達到 99.46% 準確率且不需外部工具,進一步反駁了「自迴歸語言模型天生不能做數學」的舊論點。

假設你的公司想做一個「自動分析合約並草擬回覆郵件」的 AI 系統,目前的實作方式是串接多個大模型呼叫:第一步分析合約→第二步找出爭議條款→第三步查詢公司政策→第四步草擬回覆,每次處理一份合約需呼叫 GPT-4 等級的大模型四次,成本高且延遲大。Agent 蒸餾的做法是:先用這個昂貴的多步驟流程跑大量訓練案例,記錄下「問題→中間推理→最終輸出」的完整過程,再把這些行為模式蒸餾進一個小模型的權重裡。蒸餾完成後,那個小模型可以直接一次前向傳播(forward pass,就是讓資料跑一遍模型、得出結果)就輸出答案,不需反覆呼叫大模型,推理成本降低約 100 倍,但輸出品質接近原本的昂貴流程。這意味著企業可以先用大模型「訓練」出最佳行為,再把行為固化進小模型量產部署,兼顧品質與成本。

T3
Amazon Bee AI 手環評測

Amazon Bee 是 Amazon 旗下一款 AI 穿戴手環,主打功能是全天候錄音、轉錄和自動整理你說過的對話。它就像一個隨身秘書,幫你把會議、電話、日常對話自動整理成摘要和文字紀錄,並能與手機行事曆同步、主動發送提醒。手環操作簡單,有一顆按鍵控制錄音開關,錄音中亮綠燈、停止則熄滅。不過「全程記錄生活」的功能也帶來不少隱私疑慮:裝置需要存取你的位置、照片、聯絡人和行事曆,資料存在雲端,加上 Amazon 過去有過資安問題的紀錄,讓不少使用者感到不安。評測者的結論是:Bee 作為專業工作工具前景看好,但用在個人生活則過於侵入、令人不安。

我要做一個商務電話的會議紀錄——戴著 Amazon Bee 接電話,全程自動錄音。電話結束後,手機 App 自動產出對話摘要與完整逐字稿,不需要自己手記或事後靠記憶重整。相較舊做法(會議中手寫、會後整理至少花 10–20 分鐘),整個流程幾乎零介入。但目前有個明顯缺點:若多人發言,App 無法自動區分不同說話者的聲音,你還是得手動輸入每個人的名字,稍顯麻煩。評測者也在電影之夜測試,Bee 正確辨認出正在播的是「塔倫蒂諾風格電影場景」,顯示其對話情境理解能力尚可。

T3
問答訓練讓小模型擊敗更大模型

ByteDance(字節跳動)旗下的 Seed 研究團隊與香港科技大學合作,發表了一篇關於多模態 AI(就是能同時讀取圖片和文字的 AI,例如能直接看 PDF 掃描圖而不需要先轉成文字)訓練方式的研究。他們發現,在訓練階段讓 AI「回答問題、自己找出相關段落」,比起讓它「把每一頁文字逐字辨識轉錄(OCR)」效果好得多——後者甚至會讓模型表現下降。基於阿里巴巴開源模型 Qwen2.5-VL 打造的 MMProLong,只有 70 億個參數(參數可以理解為模型的「知識容量」,數字越大通常代表模型越強),卻在處理超長文件的任務上擊敗了 380 億參數的 InternVL3 和 270 億參數的 Gemma3,等於用 1/5 的體積勝過更大的競爭對手。更值得注意的是,這個模型只用 12.8 萬 token(token 是 AI 處理文字的最小單位,大約等於 4 個英文字母或半個中文字)長度的資料訓練,實際卻能穩定處理長達 51.2 萬 token 的超長文件,遠超訓練資料的四倍長度。

假設我有一份 500 頁的財務年報(用圖片格式掃描的 PDF),我想問 AI「第 3 季的研發支出是多少,跟前年同期差多少?」舊的訓練方式是讓模型學習把每頁文字都辨識出來,再從全文搜尋答案——這讓模型要消化大量不相關文字,很容易搞混或抓錯段落。ByteDance 的新做法是:在訓練時直接給模型類似的問答題,讓它學會「先在文件裡鎖定有用的段落,再從那段推出答案」,而不是死背每一行文字。結果訓練出來的 MMProLong,在「大海撈針」基準測試(Needle-in-a-Haystack,就是把一句關鍵資訊藏在超長文件裡,看 AI 能不能精準找出來)中,得分平均提升了 29.4 分,而且這套訓練策略用到影片理解任務上也一樣有效——說明「用問答訓練、讓模型主動找資料」這個方向可能比堆砌模型大小更有潛力。

T3
AI 三巨頭論戰現在 AI 算不算智慧

2026 年 5 月,三位全球最重要的 AI 研究領袖對「現在的 AI 算不算真正的智慧」發表了截然不同的看法。Meta 首席 AI 科學家 Yann LeCun 直接說:「現在的 AI 系統根本沒有真正的智慧。」DeepMind 執行長 Demis Hassabis 則認為人類已經「站在奇點(singularity,也就是 AI 超越人類智能的那個歷史轉折點)的山腳前」,意思是 AI 很快就要跨越那個門檻。夾在中間的 Google Gemini 計畫共同負責人 Oriol Vinyals 提出折衷看法:今天的模型拿到七年前,大家可能都會說「這就是 AGI(通用人工智能,也就是可以像人類一樣學習各種事情的 AI)了」——但現在看得更清楚,它還有兩個根本缺陷:沒辦法從實際經驗中持續學習,也沒辦法自己做出真正的突破性發現。這場論戰的核心是:如何定義「真正的智慧」,決定了你覺得 AI 走到哪裡了。

用 Vinyals 的觀點來說明最具體。假設你是一位藥物研究員,想讓 AI 幫你從幾百萬篇論文裡找出可能對抗某種癌症的新化合物。今天最強的 AI 模型可以閱讀這些論文、整理資訊、甚至提出假設——放在 2019 年,這能力確實會讓人驚呼「AGI 到了!」。但 Vinyals 說的「沒辦法從經驗學習」是指:每次對話結束後,AI 不會「記住」這次研究的心得、也不會在下次自動變得更厲害——它沒有累積成長的能力。「沒辦法做出真正突破」則是說:AI 不會在某天靈光一閃,自己想出一個全新的實驗方向或理論框架——它只能整合人類已經寫下的資料來推論。這三位專家的分歧,其實幫大家點出了一件事:你用什麼標準定義「智慧」,就會得出完全不同的 AI 進度評估。

T3
Copilot 預設模型會捏造國家差異

微軟 Copilot 和 Google Gemini 等 AI 工具在分析資料時,如果使用者直接用預設模型而不手動選擇,可能會得到嚴重錯誤的結果。數學家 Adam Kucharski 做了一個實驗:他把兩組完全一樣的數據,只換上不同的國家標籤,分別丟給 Copilot 分析。結果 Copilot 不但沒有如實回答「兩組資料其實一樣」,反而憑空捏造了兩國之間的差異,並附上帶有刻板印象的「分析」。這說明 AI 工具預設使用的模型有時候會「編故事」而不是真的計算,尤其是在涉及地理、文化等帶有偏見風險的資料上特別明顯。好消息是,有一類叫「思考模型(Thinking Model)」的 AI 模型(就是那種會一步步展示推理過程、比較慢但更嚴謹的模型,例如 o1、o3 系列)能夠識破這個陷阱——但前提是使用者要知道什麼時候應該切換,而不是一直讓系統自動選預設值。

假設我是一名資料分析師,要比較「台灣用戶」和「日本用戶」的消費習慣,把同一份數據報表丟給 Copilot(預設模型),Copilot 可能回傳一份看起來很有條理的分析:「台灣用戶偏向 XX,日本用戶偏向 YY,反映兩地文化差異」。如果我把資料裡的「台灣」和「日本」對調,再丟一次,Copilot 很可能給出完全相反但同樣「有說服力」的結論——代表它根本沒有真的在做數學計算,只是在套用文化刻板印象填充答案。改善做法:手動切換到思考模型(如 Copilot 設定裡選 o1 或 o3),或在 prompt(就是給 AI 的指令)裡明確寫「請只根據數字計算,不要引入文化假設」,並且每次拿到結果都反問自己「如果換個標籤,結論會不會一樣」來驗證 AI 有沒有在亂說話。

T3
Anthropic Mythos 模型可跑舊硬體供 NSA

Anthropic(開發 Claude AI 的美國公司)被美國五角大廈(國防部)標記為「供應鏈風險」,但這並不影響它向美國國安局(NSA,負責情報蒐集與網路安全的聯邦機構)供應 AI 模型的計畫繼續推進。這次合作的核心是 Anthropic 的「Mythos」模型——一款能在舊型硬體上運行的 AI 模型,不需要 Nvidia 最新的 Grace Blackwell 晶片(目前最高效的 AI 計算晶片,各情報機構普遍缺貨)。正因為 Mythos 對硬體要求低,讓原本受限於舊設備的情報機構得以導入新一代 AI 能力。此外,先前讓雙方談判破局的「任何合法用途」條款(允許政府以任何符合法律的方式使用 AI,外界擔憂可能涉及大規模監控等敏感應用)這次並未納入合約,是讓交易得以繼續的關鍵讓步。

想像 NSA 想在現有的政府資料中心部署 AI 來協助分析海量情報文件,但政府採購流程緩慢,最新的高效能 AI 晶片根本進不來。舊做法只能等晶片或繼續用落後的老系統。現在有了 Mythos——它能直接跑在舊型伺服器上——NSA 不需要等硬體升級就能引入新世代 AI,例如快速摘要情報報告、辨識文件中的人名與組織關聯等工作。這個案例也顯示「能跑在舊硬體上」對於政府和企業導入 AI 來說,可能比模型本身的效能更關鍵——因為大多數機構根本沒有最新晶片。

T4
T4
Gemma 4 無審查版 ARA 去審查技術

G4-MeroMero-26B 是以 Google 推出的開源語言模型 Gemma 4 26B 為基底、加上動漫角色扮演數據集微調、再透過 ARA 技術移除內容限制所產生的開放模型,可在自己電腦上本機執行。所謂「無審查版」,是指把原本模型遇到敏感內容就回「我無法回答這類問題」的拒絕行為去除,讓模型對更廣泛的請求都願意回應。核心技術亮點是 ARA(Arbitrary-Rank Ablation,任意秩削減),這是 Heretic v1.2.0 引入的去審查方法;它不像舊做法那樣找一個「拒絕方向向量」再減掉,而是直接用矩陣最佳化(讓數學矩陣重新對齊)來修改 transformer(語言模型的核心運算結構)的特定層,手術更精準。本次調整的是模型第 15 到第 26 層的注意力輸出組件,KLD(KL 散度,衡量改動前後模型輸出差異的指標,值越低代表行為越接近原版)只有 0.0152,是同系列版本中偏移最小的,代表拿掉拒絕行為幾乎沒有損壞其他能力。模型支援 256K 長文本及文字加圖片輸入,提供 GGUF 量化版,可直接跑在 LM Studio 或 SillyTavern 等本機工具上。

假設你在開發角色扮演型 AI 應用,想讓模型扮演動漫角色且不要因為對話帶有灰色內容就突然跳出「這超出我能回答的範圍」——這種拒絕在創作場景往往令人沮喪。使用這個模型,拒絕率從原版的 99/100(幾乎什麼都拒絕)降到 12/100,同時 MMLU(知識常識測試基準)只下降 0.85%,能力幾乎完整保留。對比舊做法:用原版 Gemma 4 跑角色扮演,遇到角色台詞稍微敏感就頻繁被模型中斷劇情;改用本機部署這個量化版,同樣的對話則可順暢進行,且回應品質不明顯退步。對研究者來說,ARA 的 preserve_good_behavior_weight 等參數還可細調保留程度,比全面移除更有彈性。

T4
Brockman 談 OpenAI 內幕

Greg Brockman 是 OpenAI(就是開發 ChatGPT 的公司)的共同創辦人之一,這是他接受知識型 Podcast「The Knowledge Project」訪問的節目。訪談中他回顧了 OpenAI 從一家非營利機構轉型為商業公司的過程,以及 2023 年底 Sam Altman(OpenAI 執行長)突然被董事會解僱、又在 72 小時內復職的內幕始末。除了幕後故事,Brockman 也分享幾個值得關注的 AI 技術現況:OpenAI 自家現在有大量程式碼是由 AI 寫出來的,多到「很難說哪些不是」;以及 OpenAI 刻意不再公開展示 AI 的「思考過程」(即 AI 在回答問題前在內部進行推理的步驟),背後有特定考量。他也談到計算資源(算力)的分配如何影響未來 AGI(通用人工智慧,指能做任何人類任務的 AI)的使用權,以及 AI 對就業市場的潛在衝擊。

訪談提到一個對開發者來說很直接的現象:OpenAI 工程師在開發新功能時,現在大量倚賴 AI 自動生成程式碼,比例之高讓 Brockman 說「很難說哪些程式碼不是 AI 寫的」。舉個具體情境:一個以前需要工程師花數小時手寫的功能模組,現在工程師只要用自然語言描述需求,AI 就生成初稿,工程師再審核並修改細節。這和過去「工程師寫程式、偶爾用 AI 補全幾行」的模式完全反過來,變成「AI 寫主體、工程師把關品質」的協作方式。這個趨勢若成立,對軟體開發職位的影響是:純手工撰碼的時間會大幅壓縮,而審查 AI 輸出、定義需求的能力反而變得更關鍵。