AI Daily Digest

📰 每日 AI 彙整

2026-04-25  ·  共 39 則報導
T1 爆炸重要T2 值得關注T3 一般資訊T4 參考用T5 可略過
T2
T2
Qwen3.6-27B 小模型超越旗艦

阿里巴巴旗下的 Qwen(千問)AI 研究團隊在 2026 年 4 月 22 日正式發布了一款叫做 Qwen3.6-27B 的開源(任何人都能免費下載、修改並商業使用)AI 語言模型(就是 ChatGPT 這種能對話、寫程式的 AI)。這款模型的體積只有 27B 參數(「參數」可以理解成 AI 在訓練過程中學到的知識片段數量,數字越大通常代表能力越強),卻在四項主要程式能力測試中,全面打敗了阿里上一代旗艦模型 Qwen3.5-397B-A17B——那個舊旗艦體積高達 807GB、是新模型的 14 倍大,卻在每一項測試都輸給了這個「小弟弟」。最讓人驚喜的是,用量化(就是把模型壓縮以節省記憶體,類似把高畫質影片壓成較小的檔案)後,這款模型只需約 16.8GB 顯卡記憶體,在一般消費級高端顯卡(如 RTX 4090)上就能流暢運行,完全不需要租用雲端 AI 服務。它同時採用 Apache 2.0 授權,意味著個人或企業都能免費商業使用、甚至繼續對它進行客製化訓練,無需支付任何授權費。

假設你是一間軟體新創的工程師,每月固定要花費大量金額使用 Claude Opus 雲端 API(就是 Anthropic 公司提供的付費 AI 程式設計助手服務)來幫程式碼自動審查和修 bug。現在,你可以在自己公司的一台裝有 RTX 4090(32GB 版本)顯卡的工作站上,下載 Qwen3.6-27B 的 Q4_K_M 量化版(約 16.8GB 檔案),透過 Ollama 或 llama.cpp(免費的本地 AI 執行工具)跑起來,速度可達每秒 25 到 30 個 token(token 就是 AI 每次生成一個字詞的單位,速度越高代表回應越快)。接著搭配 LangGraph 這類開源 Agent 框架(幫 AI 自動拆解任務、一步步執行的工具),讓 AI 自主閱讀程式碼、找出問題、生成修正建議——這種「AI 自動完成多步驟任務」的模式叫做 Agentic 任務(讓 AI 不只是回答問題,而是像員工一樣主動規劃和執行工作流程)。Qwen3.6-27B 在 SWE-bench Verified(評估 AI 解決真實 GitHub 程式問題能力的標準測試)上達到 77.2% 通過率,與商業旗艦模型相當,而你的月費從幾百美元的 API 費用降為零,只有初期一次性的硬體電費。相比之前只能依賴雲端服務且受到配額限制,現在可以全天候無限次數使用,不受漲價或配額影響。

T2
ChatGPT 推出企業自動化 Agent

OpenAI 於 2026 年 4 月正式推出 ChatGPT Workspace Agents(工作區代理程式),這是一種能在企業內部自動執行複雜工作任務的 AI 工具,定位是「不需要你在電腦前盯著的 AI 員工」。與一般 ChatGPT 的問答模式不同,Workspace Agent 能持續在雲端運作,不需你本人開著電腦或保持在線,即使你在睡覺時它依然繼續執行排程任務。底層由 Codex(OpenAI 專門用來處理程式碼與複雜多步驟推理的 AI 模型)引擎驅動,具備「持久記憶」功能——它能記住每次工作的經驗,越用越熟悉你的組織規則與偏好,不像傳統 ChatGPT 每次對話都從零開始。這套工具支援整合 Slack(公司即時通訊工具)、SharePoint(微軟的文件管理系統)、行事曆、行程觸發器及企業內部系統,並可透過 MCP 伺服器(Model Context Protocol,一種讓 AI 用統一標準連接公司各種內部系統的通訊協定)擴充,讓 AI 可以「走進」公司的各個數位系統幫你做事,而不必 OpenAI 逐一開發整合。

情境:你是行銷部門主管,每週五都要整理本週 Slack 上 #product-feedback 和 #customer-support 兩個頻道的客訴與反饋,彙整成一份摘要報告發給團隊,這件事每次要花一到兩小時手動翻閱幾百條訊息。有了 Workspace Agent,你只需一次設定好指令:「每週五下午 5 點,掃描這兩個頻道本週全部訊息,整理出主要問題分類、高頻抱怨點、需要優先處理的事項,以結構化格式輸出並傳到 #weekly-summary 頻道」。設定完成後,之後每個週五,不需任何人操作,Agent 會自動在雲端完成整個流程,把報告推送到指定地方。舊做法是主管或助理必須手動讀完所有訊息再整理;新做法是 Agent 完全自動執行,人只需最後審閱報告品質即可。目前免費試用至 2026 年 5 月 6 日,之後依 credit(用量點數)計費,GPT-5.4 模型輸出費率為每百萬個 token(AI 處理文字的基本單位)375 點。

T2
Google 第八代 TPU 雙晶片架構發表

Google 在 2026 年 4 月的 Cloud Next 大會上,發表了他們自研的第八代 TPU(Tensor Processing Unit,可以把它想成 Google 版本的 AI 加速晶片,功能類似大家熟知的 Nvidia GPU,只是不對外販售、只在 Google 自家雲端服務裡使用)。這次最大的改變是:Google 首次把「一代一款」的設計方式,拆成兩款用途完全不同的晶片——TPU 8t 負責「訓練」(讓 AI 從海量資料中學習的過程),TPU 8i 則負責「推論」(AI 學好之後,每天實際回答用戶問題的過程)。這個分家決定背後的邏輯是:訓練需要幾十萬顆晶片同時計算、不怕慢,推論則要求在毫秒內回應、還要持續記住整段對話。TPU 8i 特別為 AI Agent(就是能自動完成多步驟任務的 AI 助理,例如幫你訂機票、查資料、發郵件的那種)做了深度優化:它配備了超大的片上 SRAM 記憶體(一種速度極快、直接內嵌於晶片中的記憶體,比外掛記憶體快數十倍),讓 AI 的對話記憶 KV cache(就是讓 AI 記住「剛才說過什麼」的機制,沒有它每次回答都得從頭算起)可以完全存在最快的記憶體裡,大幅壓低每次回覆的延遲。

假設你在使用一個 AI Agent 處理複雜的客服任務,這個 Agent 要記住你之前說的所有對話——帳號資訊、投訴問題、訂單號碼——然後分多個步驟查資料庫、填表單、發確認信。用傳統的 AI 推論硬體,每走一步,AI 都要把「對話記憶」從速度較慢的外部記憶體(HBM,就是晶片外面那塊大但較慢的記憶體)搬進來再算,等待時間一步步累積,讓整個 Agent 流程顯得遲滯。用 TPU 8i 之後,384 MB 的超快片上記憶體能把完整的對話記憶直接存住,AI 每一步都能不中斷地即時讀取,回應延遲大幅降低。Google 官方數據顯示,TPU 8i 針對 MoE 架構模型(一種讓 AI 每次推論只啟動部分模組、兼顧效率與規模的設計)可將集體通訊延遲降低最高 5 倍;換算成使用者感受:原本一個多輪 Agent 任務要等 2 秒以上的回應,有望壓到 0.5 秒以內。相比之下,舊做法是把對話記憶全部塞在較慢的外部記憶體,每次回覆都要「出門取資料再回來算」,步驟越多累積的等待越長。

T2
Vercel Skills 一行指令為 AI 代理擴充技能

Vercel Labs(知名網站部署平台 Vercel 的研究部門)推出了一個叫做 Skills 的開源工具,讓 AI 代理(就是能自動執行任務的 AI 助理,例如幫你寫程式、查資料、自動提交版本的機器人)可以透過一行指令「學會新技能」。這些「技能包」是預先寫好的指令集,告訴 AI 代理碰到特定任務時應該怎麼做,例如「按照公司規範產生 Pull Request(程式碼審查請求)說明」或「自動撰寫版本更新紀錄」。截至 2026 年 4 月,這個工具已在 GitHub(全球最大程式碼托管平台)累積超過 15,500 顆星(星數代表有多少開發者關注並收藏),並支援超過 45 個 AI 代理平台,涵蓋 Claude Code、Cursor、GitHub Copilot、Gemini 等主流開發工具。開發者只要執行 `npx skills add 套件名稱` 這一行指令,就能把公開或私有的技能包安裝到自己的開發環境,讓 AI 代理按照固定規範執行任務。

我是一個軟體開發者,每次要提交新功能到 GitHub,都要手動依照公司規範撰寫 Pull Request 說明,但每位同事對格式的理解都不太一樣,導致 code review(程式碼審查,就是讓同事確認你的改動沒問題的流程)拖很久。有了 Skills 工具,我把公司 PR 說明規範寫成一個技能包,然後用 `npx skills add my-org/pr-guide` 一行指令安裝到所有同事的 Claude Code 或 Cursor 裡。之後每次 AI 代理幫忙產生 PR 說明,都自動套用統一格式,不再需要每次重新解釋規範給 AI 聽。舊做法:每人自己複製貼上一大堆說明到各自的設定檔,規範更新後還要手動通知所有人重新貼上;新做法:規範放一個地方,Skills 用 symlink(類似捷徑的連結方式)管理,原始規範一更新,所有人的工具立即同步生效,不需重新安裝。

T2
ChatGPT 免費向美國醫師開放

OpenAI 推出 ChatGPT for Clinicians(讓 ChatGPT 專門服務醫療從業人員的版本),向已通過身份驗證的美國執業醫師、執業護理師及藥劑師免費開放。這個版本針對三大醫療場景設計:協助醫師照護病患、撰寫醫療文件,以及查詢醫學研究。背後是 OpenAI 歷時兩年,與來自 60 個國家、260 多位醫師合作,累計收集超過 60 萬次評分回饋的成果。最關鍵的技術特色是「可追溯引用」:每一則 AI 回應都附有引用的期刊名稱與發表日期,讓醫師能確認資訊來源,而非讓 AI 直接給出無從查證的結論。企業版還支援 HIPAA 合規(美國醫療資料保護法規要求),提供資料隔離儲存、客戶自管加密金鑰與稽核日誌,且使用者輸入內容不會拿去訓練模型。

假設一位急診醫師接到一名同時服用十幾種藥物的老年患者,需要快速確認某兩種罕見藥物是否會產生危險交互作用。過去醫師得查閱多個藥典資料庫,往往花費 10 至 20 分鐘;現在用 ChatGPT for Clinicians 輸入藥物名稱,系統會即時合成多篇同儕審閱(學術界相互審核、確認研究品質)的論文,並列出每篇文獻的期刊名稱與發表日期。醫師看到引用來源後可自行核實,不需盲目接受 AI 結論。整個查詢流程縮短至 1~2 分鐘,且附帶可追溯的文獻出處,相較過去「查完還不確定資料夠不夠新」大幅提升可信賴度。

T2
OpenAI 開源個資偵測過濾工具

OpenAI 最新開源了一個叫做「Privacy Filter(隱私過濾器)」的 AI 工具,專門用來自動找出並遮蔽文字中的個人資訊(PII,也就是可以辨識個人身份的敏感資料,例如姓名、手機號碼、電子信箱等)。這個工具採用 Apache 2.0 授權(一種讓任何人都能免費商業使用的開放授權),不需付費、不需申請,可以直接放入商業產品中使用。它特別輕巧,雖然模型總共有 15 億個參數(參數就是 AI 的「記憶細胞」數量,代表學習能力),但每次運作只需啟動其中 5000 萬個,因此可以在你的筆電或甚至瀏覽器裡直接執行,資料完全不必上傳到外部伺服器。目前支援 8 種個資類別(姓名、電子信箱、電話、地址、網址、日期、帳號、密碼),標準測試 F1 分數達 96%(F1 是同時衡量「找到多少、又漏掉多少、又誤判多少」的綜合評分,100% 才是滿分),且一次可處理長達 128,000 個字元的超長文件,不需要把文章切段分批處理。

假設你是法律事務所的系統管理員,手邊有一批合約掃描文字檔,裡面充滿當事人的姓名、地址、身分證字號等個資,需要在匯入分析資料庫前先全部遮蔽。過去的做法是請人工逐份審閱,或花大錢購買商業軟體,而且往往還得把文件上傳到第三方雲端服務(帶來資料外洩的法規風險)。現在只需在終端機執行 `pip install openai-privacy-filter`,接著用 `opf mask 合約.txt` 一行指令掃描,工具會自動把文中所有個資替換成 `[姓名]`、`[地址]` 等占位符,整個過程在本機完成,資料不出境也不需要任何網路連線。對比舊做法:省去人工逐行核對的時間,也完全消除了把敏感合約送上雲端的合規風險——對需要符合 GDPR(歐盟個資保護法規)或 CCPA(美國加州隱私法)的企業而言,這一點尤其重要。

T2
OpenAI WebSocket 加速 Agent 工作流

OpenAI 在其 Responses API(一種讓開發者呼叫 AI 功能的程式介面)中新增了 WebSocket 模式。WebSocket(網路持久連線協定)是一種讓程式與伺服器保持「長時間雙向通道」的技術,就像打電話一樣保持線路通暢,而不是每次說一句話就掛掉再重撥。舊有方式每次對話都要重傳完整的歷史紀錄給 OpenAI 伺服器,但新的 WebSocket 模式會在連線期間記憶上一輪的回應狀態,下一輪只需傳送新的輸入內容,大幅減少重複傳輸的資料量。這個改進讓需要連續多步驟執行的 AI agent(自動化 AI 工作流程,例如讓 AI 自動執行一連串程式工作)在實測中速度提升最高約 40%,並同時支援高安全性要求的零資料保留(ZDR)模式,適合金融、醫療等有法規合規需求的場景。

假設你用 OpenAI 的 Codex 建了一個自動程式碼審查 agent,這個 agent 每次審查都需要連續呼叫工具(如讀取檔案、執行測試、查詢文件)超過 20 次。用舊的方式,每一輪工具呼叫結束後,agent 必須把整段對話歷史(可能幾千個 token,token 就是 AI 計費與處理的基本文字單位)重新送回 OpenAI 伺服器,才能繼續下一步,既費時又費錢。改用新的 WebSocket 模式後,連線一直維持著,伺服器端記住上一次的狀態,agent 每輪只需送「上次回應的 ID+本次工具結果」,不用重送完整歷史。實測結果:同樣 20 步的 agent 工作流,端對端執行時間縮短約 40%,同時每輪少傳的 token 也直接降低了 API 費用。

T2
GPT-5.5 生物安全漏洞賞金計畫

OpenAI(開發出 ChatGPT 的美國 AI 公司)針對其最新模型 GPT-5.5 舉辦「生物安全賞金計畫」(Bug Bounty,即廠商公開邀請外部人員找出系統弱點、成功發現者可領取獎金的安全機制)。這次挑戰的核心,是請外部研究人員找出「通用越獄方法」(Jailbreak,就是繞過 AI 安全防護機制、讓 AI 做出它本來不該做的事情的技巧),尤其是在生物安全方面——也就是防止 AI 被用來協助製造生化武器或危險病原體。這屬於「紅隊演練」(Red-teaming,就像是廠商主動邀請外部人員攻擊自己的系統,提前找到破口再修補),是目前 AI 安全研究中相當重要的做法。參與者若能找到系統性繞過 GPT-5.5 生物危害防護的方法,最高可獲得 25,000 美元(約台幣 80 萬元)獎金。

假設我是一位 AI 安全研究員,想測試 GPT-5.5 的生物安全防護有多強。我會嘗試用各種迂迴方式提問——例如角色扮演、偽裝成學術研究、分步驟誘導等手法——看能否讓模型提供本應被禁止的生物危害資訊(例如病原體合成方法)。如果我找到的方法是「通用的」,也就是無論怎麼微調提問,都能穩定讓防護失效,就可以提交給 OpenAI,領取最高 $25,000 的獎金。這與一般使用者的體驗不同:平時用 ChatGPT,AI 會直接拒絕危險問題;這個計畫是 OpenAI 主動出資請外部人員去「打」自己的模型,在惡意人士發現前就找出並修補系統性弱點。

T2
Google Workspace 全面整合 Gemini AI

Google 推出了「Workspace Intelligence」(工作空間智慧)功能,這是對 Google Workspace(就是 Google 的企業辦公套件,包含 Gmail、Google 文件、試算表、簡報、雲端硬碟等工具)的一次重大 AI 升級。這次更新的核心是加入了一個「語意層」(semantic layer,就是讓 AI 能理解你信件、聊天紀錄、檔案和專案之間的關係,而不只是單純搜尋關鍵字),讓 Gemini(Google 自家的 AI 模型,功能類似 ChatGPT)可以跨越不同應用程式讀取並整合你的所有工作內容。最具體的新功能包括:在 Google 試算表裡用自然語言(就是直接說「幫我建一張本月銷售追蹤表」,不必手動設定欄位和公式)建立試算表,以及在 Google 文件、簡報、Gmail、雲端硬碟中全面加入 AI 輔助功能。Google 的最終目標是把 Workspace 打造成企業的「中央控制層」,讓 AI 代理人(agent,就是能自動完成任務的 AI 程式)可以跨工具統一存取與操作資料。

假設你是業務主管,每週要整理上週的客戶銷售報告。舊做法是:先開 Gmail 翻上週與客戶 A、客戶 B 的往來信件、再開雲端硬碟找上週的提案簡報、最後把各個地方的數字手動複製到試算表,前後可能花 30 分鐘。現在有了 Workspace Intelligence,你直接在 Google 試算表裡輸入一句話:「幫我把上週 Gmail 裡跟客戶 A 和客戶 B 提到的訂單金額整理成一張比較表」——AI 會自動讀取 Gmail、理解信件語意、抓出相關數字,然後填進試算表,幾十秒內產出整理好的報告。不需要手動切換視窗,也不需要自己複製貼上,AI 跨工具幫你串接完成。

T2
Perplexity 搜尋 AI 訓練新方法

Perplexity(一家做 AI 搜尋引擎的公司)公開了他們訓練「搜尋增強型語言模型」(就是讓 AI 在回答問題前先自動上網查資料、再整合成答案的系統)的兩階段方法。第一階段是「監督式微調」(SFT,讓 AI 照著人工標記的好答案學習正確行為);第二階段是「強化學習」(RL,讓 AI 透過嘗試與回饋不斷改進,類似遊戲闖關得分的概念)。這兩步驟刻意分開,是因為如果混在一起訓練,AI 學「遵守安全規則」的同時,往往會破壞它「主動查資料、靈活用工具」的能力。他們以 Qwen3(一套開源的大型語言模型基底,就是 AI 的底層引擎)為基礎實作這套流程,在「事實準確度」的業界標準測試(FRAMES、FACTS OPEN)上超越了 GPT-5.4,同時每次查詢的成本也降低了。

假設我想問 AI:「2025 年諾貝爾物理獎得主在得獎後接受了哪些採訪,說了什麼重要的話?」這類需要先查新聞、再整理論點的問題,舊方法的 AI 可能因為安全規則限制不敢主動查網頁,或是用了太多搜尋工具讓成本暴增,最後答案空洞甚至捏造。用 Perplexity 這套新訓練流程:第一階段先讓模型學會「什麼情況該啟動搜尋、怎麼整理結果」;第二階段再用強化學習讓它在「回答準確」和「查詢次數少」之間找到最佳平衡。實際結果是:同樣的問題,新模型查詢次數更少、事實準確率更高,且比 GPT-5.4 在事實類問題上的表現更好,運作成本也更低。

T2
Google 企業 Agent 平台上線

Google 正式推出「Gemini Enterprise Agent Platform(企業 AI 代理平台)」,這是一個讓公司可以在 Google 雲端上建立、部署、管理各種 AI Agent(自動化 AI 助手,會自己執行任務,而不只是回答問題)的一站式平台。平台整合了模型選擇、模型微調(fine-tuning,用自家資料讓 AI 更懂你的業務)、以及設計 Agent 工作流程的工具,並新增了 Agent 整合、DevOps(軟體開發與維運自動化流程)、任務調度(orchestration,讓多個 Agent 協同合作完成複雜任務)和安全管控等功能。對企業 IT 團隊來說,這個平台提供「單一入口」,不再需要東拼西湊多個不同服務,就能打造能改變產品、服務與內部流程的 AI 助理。最終,員工可以直接透過「Gemini Enterprise」應用程式來使用企業自己建立的 Agent。

假設我是一家公司的 IT 主管,想建立一個「客服自動化 Agent」,每天自動讀取客戶回饋信件、整理常見問題、並把高優先問題自動分派給對應部門負責人。用 Gemini Enterprise Agent Platform,我可以在同一個介面裡完成所有步驟:選好底層 AI 模型(例如 Gemini)、設計 Agent 執行的流程(讀信→分類→派工)、設定安全規則(哪些敏感資料不讓 Agent 碰)、並即時監控 Agent 的運作狀況。過去這樣做,IT 人員得分別申請多個 Google Cloud 服務、自己寫程式串接、再手動設定監控報表,往往要花好幾週才能上線。現在用這個平台整合起來,設計完成後一鍵部署,員工直接在公司的 Gemini Enterprise app 裡就能跟這個客服 Agent 互動,省去大量重工。

T2
MCP 打造生產級 AI Agent 整合指南

MCP(Model Context Protocol,模型情境協定——就是一套讓 AI 助手和各種外部程式「說同一種語言」的規格標準)是 Anthropic 推動的開放協定,目的是解決 AI agent(能代替你自動執行工作的 AI 程式,例如幫你查資料、更新系統、發通知)連接外部系統時雜亂無章的問題。這篇來自 Claude 官方部落格的文章,系統整理了三種常見的連接方式:直接呼叫 API(直接跟某服務的程式介面交談)、使用 CLI(command-line interface,就是輸入文字指令的終端機介面),以及透過 MCP 連接。文章指出,MCP 最適合「生產環境」(也就是真正上線、被大量用戶使用的系統),因為它提供統一的身份驗證、工具自動探索,以及一套伺服器同時支援 Claude、ChatGPT、VS Code 等多種 AI 工具的能力。目前 MCP 的 SDK(軟體開發套件)每月下載量已超過 3 億次,已成為 AI agent 整合的主流基礎設施。

假設你要建一個 AI 助手,任務是:每天早上查 Slack 上有沒有待處理訊息、幫你更新對應的 GitHub issue 狀態、最後寄 Email 給相關人員確認。舊做法是:你要分別為 Slack、GitHub、Email 各寫一套 API 串接程式,而且每次換用不同的 AI 工具(例如從 Claude 換成 ChatGPT 或 Cursor)就必須重寫全部整合邏輯。改用 MCP 的做法是:架設一個遠端 MCP 伺服器,把 Slack、GitHub、Email 的操作工具全部放在上面,之後任何支援 MCP 的 AI 客戶端都能直接取用,完全不用重寫。效益是可量化的:採用「工具搜尋」技巧後,傳給 AI 的工具定義資料量可減少 85% 以上;在複雜的多步驟工作流程中,token(AI 處理每一段文字所需的計算單位,直接影響速度與費用)消耗量可降低約 37%。

T2
Cursor 與 SpaceX 攜手開發 AI 編程模型

Cursor 是一款 AI 輔助寫程式工具(就是能在你打程式碼時自動補全、提示錯誤、甚至整段幫你寫的那種軟體),SpaceX 是馬斯克的太空公司,同時也擁有大規模伺服器運算資源。兩家公司日前簽署協議,將共同開發專門用於「寫程式」和「知識管理」的 AI 模型(AI 模型就是像 ChatGPT 那樣「會思考」的核心程式)。這件事的重要性在於一個概念叫「完整循環」:打造最強 AI 需要同時擁有「產品端的使用數據」(靠大量用戶實際操作來改進 AI)和「算力端的訓練資源」(用大型伺服器把改進跑出來),兩者缺一不可。Cursor 有前者(大批開發者每天在用),SpaceX 有後者(大量運算基礎設施),合在一起才能形成這個自我強化的完整循環。分析師指出這是第一起「次前沿實驗室」組合成「前沿競爭者」的案例——意思是兩家公司單獨還不足以和 OpenAI、Anthropic 這些 AI 巨頭抗衡,但合作後就有實力角逐頂尖位置。

假設你是一名工程師,每天用 Cursor 寫 Python 程式碼。現在,你的每次操作、每個接受或拒絕的 AI 建議,都成為訓練數據回流給 Cursor 和 SpaceX 的聯合團隊;他們用 SpaceX 的大型伺服器叢集訓練新版 AI 模型,新模型上線後對你提出的建議更精準——你更愛用、更多工程師加入、產生更多數據,模型再次變強。這個「產品→數據→模型→更好的產品」的飛輪就是所謂「完整循環」。在合作之前,Cursor 沒有足夠算力自行訓練最先進的模型,只能依賴 OpenAI 等外部供應商,版本迭代速度和深度受限;合作後,Cursor 有機會自己掌控整個 AI 訓練流程,就像 Google 同時擁有 Search 用戶數據和自家 TPU 算力一樣,形成難以被複製的競爭壁壘。

T3
T3
Anthropic 訂閱調整背後的算力壓力

2026 年 4 月下旬,Anthropic(開發 Claude AI 助手的美國公司)悄悄把「Claude Code」(一種讓 AI 幫你寫程式、自動修 bug 的工具)從最便宜的 Pro 訂閱方案(每月 20 美元)的功能列表中移除,幾天後在用戶強烈反彈下又恢復。Anthropic 的業務負責人坦承,現有的訂閱方案設計根本沒考慮到現在這種長時間運作的 AI 工作流(也就是讓 AI 自動完成一連串複雜任務、有時要跑好幾個小時),資源明顯不夠用。背後有具體數字支撐:Anthropic API(讓開發者直接接入 Claude 的服務介面)的穩定性只有 98.95%,低於業界 99.99% 的標準;同期 GPU(AI 運算所需的特殊晶片)租用成本上漲了 48%。這不只是 Anthropic 一家的問題——OpenAI 也暫停了部分 Sora(AI 影片生成工具)服務,GitHub Copilot(幫工程師寫程式的 AI 工具)也暫停了新付費方案申請,整個 AI 行業都面臨算力(AI 運算資源)嚴重吃緊的困境。

假設你是一名工程師,每月付 200 美元訂閱 Anthropic 的 Max 方案,每天用 Claude Code 幫你自動審查程式碼、寫測試、修 bug。以前一天能跑幾十次大型任務,但最近發現:每週用量上限不定期提前用完、API 偶爾連線失敗(98.95% 可用率換算下來每月約有 3.8 小時不可用)、大型任務跑到一半中斷。你想改用 API 直連(按每次使用量計費),但估算下來一天重度使用可能超過 250 美元。面對這種情況,部分重度用戶已開始把工作流切換到 OpenAI Codex(OpenAI 推出的程式輔助 AI),因為它看起來更穩定、效率更高——這是算力瓶頸直接造成用戶流失的真實縮影。對企業採購來說,現在就應該要求供應商提供明確的 SLA(服務等級協議,也就是保證多少時間內一定能用的合約),並準備好多家供應商備援,避免單押一家被漲價或限流。

T3
前 OpenAI 副總裁創辦 Core Automation

Core Automation 是一間由前 OpenAI 副總裁 Jerry Tworek 在 2026 年 1 月創辦的 AI 新創公司,近期因 Business Insider 深度報導而再次受到廣泛關注。公司的核心主張是:目前主流 AI(包括 ChatGPT 這類會對話的大型語言模型)的訓練方式「從根本上就有缺陷」——這些 AI 是用海量資料一次性訓練好後就固定下來,遇到新知識時反而會忘掉舊的,這個現象叫「災難性遺忘」(Catastrophic Forgetting,就像你背了很多英文單字後去學日文,結果英文全忘了)。Core Automation 的旗艦模型 Ceres 主打「持續學習」(Continual Learning,讓 AI 像人一樣不斷從新經驗中學習,不是只訓練一次就定型),宣稱可以在實際運作時即時更新自己,且訓練所需的資料和算力比現有主流模型省下 100 倍。公司正尋求種子輪募資 5 至 10 億美元,團隊來自 OpenAI、Anthropic 和 DeepMind,但目前尚無公開論文或可複現結果,「100 倍效率」無法獨立核實。

假設你要打造一個需要每週自動學習最新產品規格的客服 AI。現有做法有兩種:一是用 RAG(讓 AI 回答前先查資料庫、避免胡說亂說)把新文件加入查詢資料庫,但 AI 模型本身的「腦子」沒有改變,遇到複雜推理還是容易出錯;二是重新做微調(fine-tune,用新資料重新訓練模型一遍),但這要耗費大量算力和時間,通常數天才能完成。Core Automation 主張 Ceres 能做到「邊跑邊學」——客服 AI 今天回答了客戶問題後,直接把這次經驗寫進自己的模型權重(AI 的記憶結構),明天自然就多懂了一點,不需要停機重訓。差異是:傳統方法每次更新都要重跑昂貴的訓練流程,Ceres 理論上可以像人一樣在工作中持續進化。不過由於目前無公開論文驗證,工程師建議持續追蹤其研究發表,現階段無法實際評估。

T3
GitHub CLI 悄加遙測引發社群反彈

GitHub CLI(就是程式設計師在命令列操作 GitHub 的工具,平常用來推送程式碼、提交 issue、查看 Pull Request)在 2026 年 4 月 22 日發布 v2.91.0 版本時,靜默啟用了「假名遙測」(pseudoanonymous telemetry,一種不記錄真實姓名,但仍可追蹤同一裝置跨指令行為的資料蒐集機制)功能,且預設是「必須主動關閉」而非「使用者同意才開啟」。官方以「AI agent(就是可自動執行一連串工作的 AI 程式)使用量快速增長,需要了解功能使用狀況」為由,但沒有在更新前發出明顯公告,許多開發者更新後才發現資料早已在傳送。遙測實際蒐集的資料包括:你下了什麼指令、用了哪些選項、作業系統類型、CPU 架構、CLI 版本、時間戳記、裝置識別碼,以及是否在 CI/CD(就是自動化測試與部署流程)環境中執行、使用哪種 AI agent 工具。全球開發者社群對此表達強烈不滿,認為「預設開啟」設計侵犯隱私,應改為「使用者主動同意才啟用」。

假設你在一家新創公司負責維護自動化部署流程,管線腳本中有大量 gh 指令(例如自動建立 PR、標記 issue、觸發工作流)。在你不知情的情況下,從 v2.91.0 起,這些腳本每次執行都會把指令名稱、使用的參數、以及「目前使用哪個 AI agent 工具」的資訊傳回 GitHub 伺服器。舊版 GitHub CLI 的行為:純粹執行指令,沒有任何遙測資料回傳。新版預設行為:每條指令都附帶使用數據上傳,且公司 CI/CD 環境中的 repo 名稱可見性、owner 資訊也在蒐集清單內,屬於敏感資料。關閉方式最簡單的是在終端機執行 gh config set telemetry disabled,或在 CI/CD 環境變數加入 GH_TELEMETRY=false。但要注意:單獨安裝的 extension 可能有自己的遙測機制,不受這個關閉設定約束,需逐一確認。

T3
CLI vs MCP:AI 代理工具之爭

這篇文章討論 AI 代理(就是能自主執行任務、操作電腦的 AI,不只是聊天而是能動手做事)系統設計中一個核心問題:AI 要透過什麼方式去「動手做事」?語言模型(就是 ChatGPT、Claude 這類可以對話的 AI)本身只會說話和思考,就像腦子很好但沒有手的人。一旦給它工具(讓它能讀檔案、寫程式碼、呼叫外部服務),它就從「聊天機器人」變成了能實際完成工作的操作員。業界目前有兩派主流做法。第一派叫 CLI(命令列介面,就是那個黑底白字的終端機視窗),沿用 Unix 系統幾十年的傳統:文字進去、文字出來,一個程式的輸出直接接進下一個程式,優點是幾乎所有現有工具都已支援。第二派叫 MCP(模型上下文協定,Anthropic 制定的一套 AI 工具溝通標準),主張為 AI 設計更有結構的工具介面:每個工具都有清楚的參數格式(schema,就是說明「要輸入什麼、會輸出什麼」的規格表)、權限控制和說明文件,讓 AI 能自動「讀目錄」發現可用工具。CLI 的優勢在於成熟且彈性高,幾乎不需要額外配合;MCP 的優勢在於更明確、更安全、更容易讓 AI 代理可靠地呼叫工具並理解邊界。兩種方式代表截然不同的哲學,而這個選擇正在影響整個 AI 代理生態系統的走向。

假設我要打造一個「自動處理 GitHub 問題單(issue)的 AI 代理」,讓它每天自動分類新進問題、貼標籤、指派給對應工程師。用 CLI 方式:直接讓 AI 在終端機執行 `gh issue list`、`gh issue edit` 等指令,輸出是純文字,AI 解析後再組合下一個指令。好處是任何有命令列工具的系統(Jira、Linear、Slack)都能這樣串;壞處是 AI 有時搞不清楚純文字輸出的格式,打錯參數也不會提前警告,錯誤訊息難以自動處理。用 MCP 方式:使用 GitHub MCP Server,AI 透過協定查詢「可用工具清單」,看到 list_issues(state, labels)、update_issue(id, labels, assignee) 等有明確格式定義的函數,每個參數都有型別說明。AI 不需要猜輸出格式,失敗時有結構化的錯誤訊息可以處理。與 CLI 相比,MCP 讓代理執行更可靠、問題更容易除錯,但需要對方服務有提供 MCP Server 才能使用——目前支援還比 CLI 少很多。

T3
Agent 推理引擎效能基準工具

AI agent(可以連續執行多步驟任務、使用外部工具的 AI 系統)越來越流行,但傳統的 AI 推理引擎(負責讓 AI 模型快速回應的底層系統)原本的測試方式,主要以單一問答為主,沒辦法真實模擬 agent 的使用情境。Applied Compute(一間專注 AI 計算研究的公司)提出三種貼近真實的工作負載類型,並發布開源測試工具,讓工程師能模擬多輪對話、使用工具等 agent 場景,藉此評估推理引擎的真實效能。他們的研究也指出,KV cache(一種暫存機制,讓 AI 不用每次都重算過去的對話內容)的管理是瓶頸所在,需要 KV cache offloading(將暫存資料移至次級記憶體以釋放主記憶體空間)和 workload-aware routing(根據任務類型智慧分配運算資源)等技術來提升吞吐量和效率。這套工具已開源釋出,讓社群能重現並驗證這些測試情境。

假設你是一家公司的 MLOps 工程師(負責讓 AI 模型在生產環境穩定運行的人),正在評估要用哪套推理框架(如 vLLM、TGI 等)來跑你們的 AI 客服 agent——這個 agent 每次對話可能要查詢資料庫、呼叫多個 API、連續回覆 10 到 20 輪。用以往只測單輪問答的基準工具,可能顯示框架 A 吞吐量優秀,但實際跑 agent 任務時因為 KV cache 撐不住長對話,反而比框架 B 慢很多。Applied Compute 這個工具能讓你用真實 agent 情境去跑測試,找出哪套框架在這種多輪、高 context 場景下效能更好,避免選錯工具後上線才出問題。

T3
好的 AGENTS.md 等於模型升級

AGENTS.md 是放在程式碼倉庫裡的一份說明文件,專門給 AI 程式碼助理(就是 GitHub Copilot、Claude Code 這類幫你寫程式的 AI 工具)看的,告訴它「這個專案有哪些規則、要怎麼操作」。研究發現,寫得好的 AGENTS.md 能讓 AI 助理的表現大幅提升,效果等同於換一個更強大的 AI 模型;但寫得差的反而比沒有更糟,因為 AI 會被錯誤的指示誤導。文章歸納出七種有效寫法:把說明文件控制在 100–150 行、用步驟式流程描述任務(能讓正確率提升 25%)、用決策表告訴 AI「什麼情境用什麼工具」、提供 3–10 行的真實程式碼範例、寫具體可執行的規則(例如「財務計算一律用 Decimal 而非 float」)、禁止某行為時同時指定替代方案。最常見的失敗原因是寫了過多架構說明,導致 AI 一次讀取 8 萬字無關內容,反而更容易出錯。

假設我在一個 React 前端專案裡用 AI 助理新增一個資料請求功能。如果 AGENTS.md 只寫「禁止直接呼叫 API」但沒說要用什麼替代方案,AI 可能反覆嘗試不同寫法、浪費時間;但如果改寫成「勿直接實例化 HTTP 客戶端,請使用共享的 apiClient 物件,範例:import { apiClient } from '@/lib/api'」,AI 就能一次套用現有模式完成任務。再加上決策表——「需要快取資料用 React Query(一套自動幫你管理 API 資料的工具),需要跨元件共享狀態用 Zustand(輕量的全域狀態管理函式庫)」——AI 就不需要靠猜測選擇技術,「最佳實踐」評分直接提升 25%。相比沒有 AGENTS.md 或只有泛泛文字說明的舊做法,按七種模式撰寫的差距,等同於直接換一個更好的 AI 模型。

T3
讓 AI Agent 不再重複犯錯的技能化

Y Combinator(全球最知名的新創孵化器,幫助過 Dropbox、Airbnb 等公司)執行長 Garry Tan 提出一個叫做「技能化」(skillification)的概念,專門解決 AI 代理人(agent,就是能自主執行多步驟工作的 AI 程式,像是幫你自動查資料、寫信、安排行程那種)會重複犯同樣錯誤的老問題。過去常見的修法是在提示詞(prompt,也就是給 AI 的指令文字)裡加上「不要做 X」或「記得要 Y」這類警告,但這種方法非常不穩定——只要對話一複雜,這些修正就容易被 AI 忽略,就像在貼紙上寫「請注意」,AI 看了還是會出錯。「技能化」的核心思路是:把那些有固定正確答案的任務,例如「查某個日期是星期幾」或「計算時間差」,完全不讓 AI 靠「推理感覺」去做,而是直接呼叫一段預先寫好的本地程式碼(local script,就是小工具程式)來執行,每次都得到 100% 精確的結果。這樣就把「確定性任務」從 AI 的思考空間中移出來,既不浪費計算資源,也避免 AI「偶爾忘記修正」的問題。

假設我在用一個 AI Agent 幫我整理每週的會議記錄,Agent 需要自動把每一份記錄標上「這是哪天、週幾開的會」。用舊方法(只在 prompt 裡交代「要查清楚星期幾」),AI 有時直接從日期推算,推算過程中容易出錯,或在對話累積到幾十輪之後逐漸「忘記」這條指令,結果把週三的會標成週四。用「技能化」框架,我在 Agent 的工具清單裡加入一個「查詢星期幾」的小程式,Agent 遇到需要判斷日期時,不再自己推算,而是直接呼叫這支程式、傳入日期字串,程式查系統日曆回傳 `Wednesday`,永遠精準。舊做法對這類問題大概 90% 準確但偶爾踩錯、出錯時也難以追查原因;新做法對確定性問題達到 100% 準確,而且如果哪天真的出錯,也能立即定位到程式邏輯,而不是在龐大的 AI 對話脈絡裡大海撈針。

T3
Anthropic 未發布模型遭未授權存取

Anthropic(開發 Claude AI 的公司)正在調查一起資安事件:有人透過第三方廠商的環境,未經授權地存取了尚未對外發布的 Mythos 模型(Anthropic 內部仍在研發中、尚未公開的新一代 AI 模型)。這起事件的關鍵不在於單次入侵,而在於它揭示了一個新的安全盲點:當企業越來越依賴外部廠商(第三方 API 供應商、整合商)來建構 AI 系統,「誰有權碰到模型本身」這件事已成為不可忽視的資安問題。換句話說,就算你的核心系統很安全,廠商那一端的門沒鎖好,攻擊者也能繞過你直接進來。這讓整個 AI 業界開始重新審視:模型的存取控制、供應鏈管理、以及內部治理機制,都已是企業 AI 安全的一部分。

假設我是某公司的資安工程師,公司透過一家第三方整合商連接 Anthropic 的 AI 服務。以前,我只需確認「使用者資料有沒有外洩」就算盡職;但這次 Mythos 事件讓我意識到還需要問一個新問題:「這家整合商對 Anthropic 模型本身有多少存取權?」具體行動是:列出所有能碰到 AI 模型的外部廠商、確認每家廠商只有最小必要權限(例如廠商 A 只能呼叫特定推論 API,不能下載模型參數或測試未公開版本)、並設定異常存取警報。與舊做法相比:過去 AI 安全等於資料安全;現在還要加上「模型存取控制」這個維度——未發布模型本身就是高價值的商業機密和研究成果,攻擊者可以繞過應用程式,直接從供應鏈的弱點切入。

T3
安全情報平台整合可審計 AI 代理

Silobreaker Mimir 是一款專為企業安全與情報分析師設計的情報管理平台,日前宣布正式將「AI 代理」(Agentic AI,指能自主規劃步驟、獨立完成多步驟任務的 AI,不需要人類每一步下指令)整合進其工作流程。這套整合採用 MCP(Model Context Protocol,一種讓 AI 能安全連接外部資料來源與各種工具的標準協議)作為中介層,讓企業現有工具也能直接接收 AI 產出的情報。平台特別強調「可驗證的來源素材」——每一條 AI 輸出的情報都附有原始資料佐證,決策者可逐一追溯查核,而非仰賴 AI 憑空生成的內容。這對企業情報工作尤為關鍵:無法驗證出處的情報,在實務上等同於無效甚至具有誤導風險。

假設一位企業安全分析師需要定期追蹤某個駭客組織的最新動態,傳統做法是手動蒐集多個來源(新聞媒體、威脅情報資料庫、暗網報告),人工彙整後再撰寫摘要報告,往往耗費數小時。使用 Mimir 的 AI 代理後,分析師只需事先設定「優先情報需求」(PIR,Priority Intelligence Requirements,就是「我最關心哪些威脅類型或攻擊向量」),AI 代理便會持續從已驗證的來源自動蒐集、歸納,並透過 MCP 將結果直接推送至企業已在使用的安全工具(如 SIEM 安全資訊管理系統、事件響應平台)。每條輸出都附有來源連結,分析師可立即確認可信度,不會收到一段沒有出處的 AI 摘要。對比舊做法:省去大量手動蒐集與整理時間,同時保留完整的可審計性,避免 AI 輔助淪為「黑盒決策」。

T3
Wiz 推出 AI 紅隊代理 Red Agent

Wiz(全球知名的雲端安全公司,幫助企業保護在雲端上運行的系統和資料)在 Google Cloud Next 大會上宣布推出一系列 AI 安全新功能。最受矚目的是 Red Agent(公開預覽版)——這是一個由 AI 驅動的「自動攻擊者」,能夠模擬真實駭客的思路,主動發現 AI 應用程式中隱藏的安全漏洞。Wiz 同時擴展了 AI-APP 平台(一套專門保護 AI 應用程式的安全框架),新增對 Databricks、AWS Agentcore、Google Gemini、Microsoft Copilot Studio 等主流 AI 開發平台的支援。他們還推出了 AI-BOM(AI 物料清單,就像食品成分標示一樣,列出你的 AI 應用程式裡用了哪些 AI 模型、工具和第三方元件),以及在開發者寫程式時即時偵測並自動修復不安全 AI 程式碼的功能。

假設我的公司用 Databricks(一種資料分析和 AI 開發平台)建立了一個 AI 客服機器人,想確認這個機器人有沒有被「提示注入攻擊」(就是有人用特殊話術欺騙 AI 洩漏機密資料或做出非預期行為)的風險。傳統做法是聘請人工滲透測試員(受僱來「假裝當駭客」找漏洞的安全專家)花幾天手動測試,既耗時又昂貴。用 Red Agent 後,它會不斷自動嘗試各種攻擊手法欺騙 AI 客服機器人,即時找出漏洞並回報,整個過程幾分鐘到幾小時完成、而且可以持續反覆執行。對比舊做法:以前滲透測試可能要等幾週排班、花數萬元費用;Red Agent 讓這件事變成可以每天自動跑的例行安全檢查。

T3
Salesforce 與 Google AI 代理整合

Salesforce(全球最大企業軟體公司之一,旗下有 Agentforce 這個 AI 代理平台)和 Google Cloud 宣布加深整合,讓雙方的 AI 代理(就是能自動完成工作任務的 AI 程式,不需要人一步步操作)可以跨平台互相協作。這次整合涵蓋 Slack(企業即時通訊工具)、Google Workspace 旗下各項服務、以及 Salesforce 的 Agentforce 工作流程。以前各家平台的 AI 代理只能在自己範圍內行動,現在 Salesforce 的代理可以直接操作 Google 的服務,反之亦然。對企業 IT 部門來說,這帶來了新的管理挑戰:一個 AI 代理同時跨兩家雲端平台執行任務,身份驗證(確認「是哪個 AI 在做事」)和治理(確保 AI 只做被授權的事)都變得更複雜,需要重新規劃管理機制。

假設你是業務主管,想要定期把 Salesforce CRM(客戶關係管理系統)裡的成交資訊整理成報告、上傳到 Google Drive,並在 Slack 頻道通知相關同事。以前這件事要人工切換三個平台、手動複製貼上資料,每次至少花 15 分鐘。有了這次整合,你可以讓 Agentforce 的 AI 代理自動完成全程:從 Salesforce 抓取客戶資料 → 彙整成報告格式 → 呼叫 Google Drive API 建立並上傳檔案 → 在指定 Slack 頻道發通知。整個流程無需人工介入,幾秒到幾分鐘即可完成,且不會遺漏任何步驟,也不需要在不同介面間反覆切換。

T3
開源 AI 是資安防禦的關鍵

Hugging Face(一個全球最大的 AI 模型分享平台)聯合 32 位研究者,發表了一篇分析,解釋為什麼在網路安全(就是保護電腦系統不被駭客攻擊的領域)裡,開放原始碼的 AI 工具比封閉的商業系統更有優勢。文章圍繞一個叫 Mythos 的 AI 模型展開——這個模型能自動掃描軟體程式碼、找出漏洞(就是程式裡可能被駭客利用的缺陷),並自動提出修補方案。研究者認為,開放型系統的力量不在模型本身,而在整個圍繞它的生態系統:漏洞偵測、驗證、協調與補丁傳播四個階段都能公開審查、社群共同把關,防禦速度自然快過攻擊者。相比之下,封閉的商業系統容易形成「單點故障」——所有功能集中在一個供應商手裡,一旦那個系統出問題,整條防線就崩了;加上 AI 工具現在可以反向工程二進制程式(把編譯後的執行檔拆解回接近原始碼的狀態),過去靠「封閉就安全」的隱晦性保護已幾乎失效。

假設一間公司的資安團隊想偵測程式碼庫(就是公司所有軟體的程式集合)裡有無已知漏洞。用傳統做法,工程師要手動執行掃描工具、逐條審查報告、再分批修補,一個中型系統可能要幾天才能處理完,而且修補時程常常跟不上攻擊者發動攻擊的速度。現在若採用開源 AI 資安工具(例如整合 Mythos 概念的開放代理系統),AI 可以自動掃描整個程式庫,圈出高風險漏洞並草擬修補程式碼,工程師只需在「關鍵步驟」審核後按核准就行——文章稱這種模式為「半自主代理」(AI 做大部分工作,人類在關鍵決策點把關)。整個流程從幾天縮短到幾小時;更重要的是,因為是開源工具,公司可以把整套流程跑在自己的私有伺服器上,敏感程式碼完全不需要傳送到外部 AI 服務商,大幅降低資料外洩風險。

T3
Grafana AI 助手免費開放自架用戶

Grafana 是一套廣泛用於監控伺服器和應用程式運作狀況的視覺化工具(就是那種會顯示即時折線圖和儀表板的系統,IT 部門常用它確認服務有沒有出問題)。Grafana 最近宣布將旗下的 AI 助手功能免費開放給開源版本用戶,以及自行在公司內部架設伺服器(on-prem,意思是把軟體裝在自己公司的電腦上、而非租用雲端服務)的用戶。過去這個 AI 助手只有付費的 Grafana 雲端訂閱用戶才能使用,現在只要擁有免費的 Grafana Cloud 帳號來建立 LLM(就是 ChatGPT 那類大型語言 AI 模型)連線就可以享有,而監控資料本身仍保存在用戶自己的伺服器上、不會上傳雲端。此次更新也同步推出 Grafana 13,包含預建監控儀表板範本、Git Sync(讓儀表板設定可像程式碼一樣用版本紀錄管理)、以及 AI Observability(觀察 AI 代理行為的即時視覺化工具)等新功能。

假設你的公司自己架設了 Grafana 來監控網站服務,某天深夜警報響起,顯示資料庫回應時間突然暴增。過去你必須自己翻閱幾十張圖表並手動比對時間軸,才能找到問題根源,往往要花 30 分鐘以上。現在啟用 AI 助手,直接輸入「資料庫回應時間在凌晨 2:37 急升,是什麼原因?」,AI 助手會自動分析監控資料、關聯多張圖表,在幾秒內給出「該時段記憶體使用率同步升至 98%,疑似記憶體耗盡導致查詢排隊堆積」這樣具體的推測,讓工程師快速鎖定方向——過去需要半小時人工排查的事,現在縮短到 1 分鐘內。此功能原本只有每月付費數十美元雲端方案的用戶才能使用,現在自架的中小型團隊也能免費體驗同等能力。

T3
Sony AI 機器人擊敗頂尖乒乓選手

Sony AI(索尼的人工智慧研究部門)開發了一套名為 Ace 的機器人系統,能夠在乒乓球比賽中擊敗頂尖業餘選手。這個機器人擁有一隻八關節的機器手臂,安裝在可以移動的底座上,讓它能靈活到達球台各處。機器人配備了多台攝影機,從不同角度同時拍攝整個球台,即時計算球的位置和旋轉方向——所謂「旋轉」就是球在空中飛行時自轉的方式,決定了球落點和彈起角度,是乒乓球最難應對的技巧。透過這些資訊,Ace 能在幾毫秒(比眨眼還快一百倍)內決定如何揮拍,連高速且轉速複雜的困難球都能處理。目前它仍無法打敗職業級選手,但能夠達到頂尖業餘水準本身已是機器人技術的重要里程碑——乒乓球因為球速極快、旋轉變化複雜,一直是測試機器人反應能力最嚴苛的項目之一。

假設頂尖業餘選手發出一顆強力下旋球(球往前飛,同時快速向下旋轉,落桌後會往低處彈,讓對手難以抬球),以往的機器人系統因為只能靠預設動作或簡單影像判斷,往往直接打飛或下網。Ace 的攝影機在球離手的瞬間就開始追蹤旋轉方向與速度,AI 系統計算出球的實際落點和反彈軌跡後,驅動八節手臂調整拍面角度,以匹配旋轉的方式把球平穩回送過網。對手繼續發難球,Ace 持續修正動作,最終在一場對局中以得分贏下比賽。這種能即時「讀球」再反應的能力,代表 AI 已能在極高速度與複雜物理條件下做出實用判斷,而不只是照劇本動作。

T3
AI 代理加速後的協作對齊危機

當 AI coding agent(就是能自動幫你寫程式的 AI 助手)可以在幾分鐘內完成一個功能時,開發團隊的協作方式面臨一個新問題:傳統的「對齊檢查點」正在消失。所謂對齊檢查點,就是過去開發流程裡那些讓大家確認方向是否一致的時機,例如規劃會議、Slack 討論、issue 留言、草稿 PR(讓別人先審查你的程式碼改動)。現在因為 agent 太快,所有審查都堆到最後的 PR 階段才發生——但那時候程式都寫好了,要改成本很高。 這個問題由 GitHub Next 實驗室(GitHub 負責探索未來技術的研究部門)的 Maggie Appleton 提出。她指出目前的 coding agent 工具都是為「單一開發者」設計的,但軟體開發本質上是團隊合作。現在的核心瓶頸已不再是「寫程式夠不夠快」,而是「整個團隊對於該做什麼有沒有共識」。她用「九個女人無法在一個月內生出一個嬰兒」來說明:單純增加 AI agent 的數量並不能解決協調問題。 為了解決這個問題,她的團隊展示了一款原型工具 Ace:每個工作 session 由一個類似 Slack 的聊天介面加上一台雲端虛擬機器組成,整個團隊共用同一個雲端開發環境,可以即時看到彼此的工作進度,不需要切換分支;此外還有協作規劃文件(在開始實作前共同編輯)和智慧儀表板(匯總整個團隊的進度與待辦事項)。 最終結論是:當程式生成變得快速且便宜,「品質」而非「速度」將成為軟體的真正差異化優勢。AI agent 應該幫助團隊做更深的思考和更嚴謹的評估,而不只是盲目地堆疊功能。

假設一個四人開發團隊,每人都在用 AI coding agent 快速實作功能。甲在做使用者登入頁面,乙在做後台 dashboard,丙在改 API,丁在寫測試。因為 agent 能在幾分鐘內完成實作,大家各自飛速推進,等到晚上要合併程式碼時才發現:甲的登入頁面假設 API 回傳格式是 JSON,但丙已改成回傳 XML;乙的 dashboard 需要某個資料結構,但丁寫測試時直接跳過那部分,根本不知道真實資料長什麼樣。這些衝突在傳統開發下,早在 Slack 討論或草稿 PR 階段就會被發現;但用了 agent 後實作太快,大家沒機會中途對齊,全部問題堆在最後的 code review 才集中爆發。如果改用 Ace 這類工具,四個人在動工前先在協作規劃文件上確認 API 格式、資料結構和分工邊界,agent 開始工作後所有人透過即時預覽和儀表板看到整體進度,衝突一出現就在聊天介面處理,不必等到 PR 才「爆雷」。

T3
LLM 推論三難 速度延遲成本取捨

當你跟 ChatGPT 或其他 AI 助手對話時,背後的伺服器要在極短時間內完成大量複雜計算,這個過程叫做「LLM 推論」(LLM,就是 ChatGPT 這種大型語言模型的英文縮寫;推論,就是 AI 根據你的問題思考並給出回答的過程)。這篇文章分析了在實際部署 AI 服務時,工程師面臨的三大目標永遠無法同時做到最好:吞吐量(每秒可以同時服務多少用戶)、延遲(每個用戶從送出問題到收到回答需要等幾秒)、以及成本(租用多少 GPU 伺服器的費用)。三者的衝突很直觀:想讓更多人同時使用就要開更多 GPU,費用暴漲;想讓每個人等的時間極短,就不能把太多人的請求排在一起等待,導致 GPU 使用效率差、成本也跟著上升。文章整理了幾種常見的技術手段,包括「量化」(quantization,把 AI 模型的數字精度從高精度壓縮成較粗糙的格式,體積縮小一半、速度變快,但精準度略降)、「批次處理」(把多個用戶的請求湊成一批一起計算、提升效率),以及不同的 GPU 並行策略,供工程師依據自己的使用情境選擇最適合的取捨方案。

假設你要部署一個 AI 客服系統,需要即時回答客戶問題(客戶送出問題後最多等 2 秒就要有回應)。此時的工程決策是:優先壓低延遲、犧牲吞吐量——代表每次只能同時服務較少的客戶,但每個人的體驗很流暢,不會感受到明顯等待。反過來,假設你要跑一個「批量整理幾萬份合約文件」的 AI 任務,沒有真實用戶在等結果,那你就可以把延遲放寬(等久一點沒關係),把所有請求全部塞進一批一起算,大幅提升 GPU 利用率、降低每份文件的處理成本。文章提供了一個五步決策框架:先量測你的用量特性(平均每秒多少請求、問題和回答各多長),再測試候選硬體,然後找到「在延遲底線以內能撐多大流量的臨界點」,接著用小定律(Little's Law,一個計算系統承載量的公式)算出需要幾台機器,最後比較不同硬體的 TCO(Total Cost of Ownership,把買機器、電費、人力全部加總的真實花費)。核心結論是:沒有放諸四海皆準的最佳設定,只有基於你的實際工作負載做基準測試,才能找到最適合自己的平衡點。

T3
AI 模型直接串流螢幕每個像素

Flipbook 是一個實驗性的 AI 工具,它讓 AI 模型(就是像 ChatGPT 那種能理解指令、自動生成內容的程式)直接負責畫出螢幕上的每一個像素(畫面最小單位,你看到的任何圖案都是由幾百萬個像素組成的),完全繞過傳統的網頁技術(HTML 是定義網頁結構的語言、CSS 負責版面美觀、JavaScript 加入互動效果)。這套系統每秒能串流 24 張 1080p(就是現在主流電視和螢幕的標準畫質,約兩百萬像素)的畫面,讓 AI 生成的視覺內容能即時顯示在使用者的螢幕上。因為整個畫面都由 AI 控制,版面可以自動配合視窗大小調整,而且螢幕上的任何地方都可以成為互動點,不限於傳統的按鈕或連結。這個工具由三位開發者(Zain Shah、Eddie Jiao、Drew Carr)打造,底層使用 LTXStudio 的影片生成模型(專門用來生成影像的 AI)和 Modal Labs 的雲端 GPU(顯示卡算力)基礎設施。

假設我想做一個說明「光合作用」的互動插圖。傳統做法是:工程師先寫 HTML 定義圖片位置、用 CSS 設計樣式、再用 JavaScript 寫點擊邏輯,可能要花幾天甚至幾週。用 Flipbook 的模式,我告訴 AI「生成一個可以互動的光合作用教學插圖」,AI 模型就開始即時串流畫面——植物圖案、文字說明、動畫效果都由 AI 直接算出來並顯示在螢幕上。當我點擊插圖中的葉子,AI 即時生成一幀新的畫面來回應互動,顯示更多細節說明,整個過程不需要任何傳統前端程式碼。舊做法要事先設計好每個互動流程,Flipbook 的 AI 串流模式讓任何畫面區域都能即時回應,彈性更高。目前可在 flipbook.page 試用。

T3
Meta 重構 Facebook 社群搜尋系統

Meta(Facebook 的母公司)發布了一篇工程技術文章,說明他們如何用 AI 技術大幅升級 Facebook 社團(Groups)的搜尋功能。新系統採用「混合式檢索」架構(hybrid retrieval,就是把傳統的關鍵字比對和 AI 語意搜尋兩種方法合在一起用),讓搜尋引擎既能精確比對關鍵字,又能理解你搜尋意圖背後的意思。具體來說,語意搜尋部分使用了 Faiss(一種開源向量資料庫,Facebook 自己做的,讓 AI 能快速在海量資料中找到「意思相近」的內容)搭配預先算好的 embedding(把文字轉成一串數字,讓電腦能理解文字語意的技術)。此外,Meta 還在品質驗證流程中加入了 Llama 3(Meta 自家開發的 AI 語言模型,類似 ChatGPT 但 Meta 自己做的)作為自動評審,連「還算相關」這種中間地帶也能判斷,讓評測更貼近人類的真實感受。

假設你在一個「台灣素食料理」的 Facebook 社團裡,搜尋「植物性蛋白質來源」。舊系統只會比對字面,可能找不到那些沒用到這幾個字、但內容在講豆腐、豆莢、鷹嘴豆食譜的貼文。新系統的語意搜尋模組(Faiss + embedding)會把「植物性蛋白質來源」和「豆腐料理」、「黃豆食譜」理解成語意接近的概念,把這些貼文一起撈出來。撈出來後,排序演算法(BM25/TF-IDF,就是根據關鍵字出現頻率給每篇貼文打分數的公式)和 MTML 模型(多任務學習模型,同時考量使用者的點擊、分享、留言行為來決定排序)共同決定哪篇排第一。最後,Llama 3 自動評審會在系統測試時替每個搜尋結果打「相關」「還算相關」「不相關」的分數,不需要人工一篇篇看,大幅降低品質驗證的人力成本。

T3
Hugging Face 推出自主 ML 助手

ML Intern 是 Hugging Face(全球最大 AI 模型分享與社群平台)開發的開源自主 AI 編程助手,專門針對機器學習(Machine Learning,就是讓電腦從大量資料中自動學習規律、做預測的技術)工作流程設計。使用者只需輸入一句自然語言指令,它就能自動研究相關論文、查閱技術文件、搜尋資料集,並撰寫、執行完整的 ML 程式碼,全程無需人工介入。它整合了 Hugging Face 生態系統的各種工具,包含模型庫、資料集庫、論文搜尋與 GitHub 程式碼搜尋,並能在沙箱(隔離安全環境,程式在裡面跑壞了也不影響外部)中執行程式碼、驗證結果。完成後可自動把訓練好的模型上傳部署,最多可自主嘗試 300 次直到任務成功,並內建「死循環偵測」機制,避免在同樣的錯誤中反覆打轉。

假設我有一份自製的中文客服對話資料集,想訓練一個專門回答產品問題的小型 AI 模型。舊做法需要:自己查 Hugging Face 文件選合適的基礎模型、手寫 Python 訓練腳本、處理資料格式與 token(文字被切成小片段讓 AI 讀取的單位)設定、反覆修 bug、最後手動上傳模型,整個流程可能花幾天時間。用 ML Intern,只需在終端機輸入一行指令 `ml-intern "fine-tune llama on my customer service dataset"`,它會自動搜尋相關文件與範例程式碼、生成訓練腳本、在安全的沙箱環境裡跑完訓練、偵測並修正執行錯誤,最後把訓練好的模型上傳到 Hugging Face 平台。整個過程從「幾天的手動作業」壓縮成「一句話+等待結果」,對沒有深度 ML 工程背景的開發者尤其友善。

T3
LLM 長文記憶壓縮新法 摘要取代刪除

大型語言模型(LLM,就是 ChatGPT 這類能對話的 AI)在處理很長的文章或對話時,需要一塊「暫存記憶體」叫做 KV 快取(Key-Value Cache,可以理解為 AI 閱讀過程中的「草稿紙」,記下看過的內容方便後續回頭查)。文章越長,草稿紙就越大,記憶體不夠用時,AI 只好強制刪掉一些「看起來不重要」的舊內容——這就是傳統 Token 修剪法(token pruning,直接刪去被判斷為低重要性的文字單元)的痛點:被刪掉的資訊無法復原,AI 可能因此遺忘關鍵細節。這篇研究提出「熵引導低秩注意力重建(HAE-OLS)」方法,改以「壓縮摘要」取代「直接刪除」:當某段文字被判定為低重要性時,系統先用資訊熵(entropy,一種衡量資訊「雜亂程度」的數學指標,越低代表越規律、越好壓縮)找出可壓縮的區塊,再用低秩矩陣近似(low-rank approximation,把複雜的數學結構換成更精簡但保留主要骨幹的版本)製作一份小巧「摘要」存回快取,而非整段清空。實驗顯示,對比常見的 Top-K 修剪法(只保留重要性前 K 名的 token)或滑動視窗法(只留最新一批文字),這個新方法在同等記憶體限制下能維持更高準確度,讓 AI 更有效率地處理超長文本。

假設要讓 AI 閱讀一份 10 萬字的法律合約,找出第 2 條款和第 87 條款在責任認定上的矛盾。用傳統滑動視窗法,AI 讀到第 87 條時,第 2 條早就被刪掉,無從比對;用 Top-K 修剪法,第 2 條可能在讀取中段時被判為「目前不重要」而提前清除,等 AI 真的需要它,已無從追回。用了 HAE-OLS 後,第 2 條的核心語意雖然被壓縮成一個精簡的「摘要向量」(一組代表原文大意的數字),仍然留存在快取中;AI 讀到第 87 條時,能透過這個摘要「想起」第 2 條的主要內容,成功找出前後矛盾。具體差別是:舊方法可能回答「找不到矛盾」或直接漏掉關鍵段落,新方法能準確指出兩條之間的衝突,且記憶體消耗遠低於保留完整快取。

T3
AI 基礎設施缺口導致費用上漲

Anthropic、OpenAI、NVIDIA 等 AI 巨頭正面臨基礎設施(就是支撐 AI 運作的電腦機房、伺服器等實體設備)嚴重短缺的問題。全球業者雖然對外宣稱要建造 114GW(吉瓦,相當於數千個大型資料中心的電力規模)的 AI 數據中心容量,但目前實際在動工建設的只有 15.2GW,落差高達 7.5 倍。這種產能嚴重不足,直接導致 AI 服務的推論成本(就是每次讓 AI 回答問題所需消耗的電腦資源費用)不斷攀升。為了應對壓力,Microsoft 和 Anthropic 等主要供應商開始轉向依照「Token」(AI 處理語言的最小計量單位,大約 100 個英文字等於 75 個 Token)計費、收緊 API(讓外部程式呼叫 AI 服務的介面)的使用限額,並減少對開發者的費用補貼。就連 Anthropic 的 Claude 服務,90 天內的平均可用率也只有 98.79%~99.25%,意味著每月仍有數小時可能無法正常使用。

假設你是一名開發者,正在用 Claude 或 GPT API 幫公司客服系統自動回覆問題,目前採用固定月費訂閱方案。隨著這波費率改革,帳單可能改成「用多少付多少」的 Token 計費制——如果你的客服機器人每天要處理 1,000 則對話、每則平均 500 個 Token,你就得開始精算每月 Token 使用量。更麻煩的是,Rate Limit(API 每分鐘可被呼叫的次數上限)也可能收緊,導致業務量高峰時段出現請求被拒絕或延遲。舊方案下每月可能花 $100 美元無限使用,新方案下同樣用量可能要付 $200 美元以上,且還需要自行管控流量峰值,否則服務就會中斷。

T3
AI代理將主導企業資料分析

dbt(一家專門做「資料轉換工具」的公司,幫企業把原始業務數據清理整理成可分析格式的軟體廠商)的創辦人 Tristan Handy,在一篇文章中提出了他對資料分析領域未來發展的五個預言。他的核心觀點是:過去公司的資料分析工作都是由人類分析師主導,依靠 BI 工具(Business Intelligence,就是像 Excel 圖表、Tableau 儀表板這類讓人看懂數字的視覺化軟體)人工查詢數據。但現在,AI 代理(就是能自動執行任務、不需要人一直下指令的 AI 程式)已經開始在許多大公司的正式產品環境中運行,Meta、OpenAI、Ramp 等公司都已部署。他預測在 12 個月內,「由 AI 代理自動發起的資料查詢」將超過「由人類手動發起的查詢」,代表 AI 將成為公司資料系統的主要使用者,而非只是輔助工具。對於資料分析師的工作,他認為職位不會消失,而是角色會從「製作儀表板報表」轉向「建置和管理這些 AI 代理系統」,工作型態會更像軟體工程師。

假設一家電商公司的行銷部門,以前每天早上有分析師登入 Tableau,手動篩選昨天的銷售數字、點擊率、退貨比例,花 1~2 小時製作每日報告。部署 AI 代理之後,系統每晚 11 點自動觸發,連接公司的資料倉儲(存放大量業務數據的資料庫系統),執行幾十條查詢——例如「比較本週與上週同商品的轉換率差異」「找出退貨率突然上升超過 10% 的品項」——並把結果自動整理成摘要推送給主管。整個流程不需要人介入,代理一晚跑的查詢量可能相當於過去一個分析師一個月的工作量。差異在於:以前是「人有問題才去查資料」,現在是「AI 主動持續監控,有異常才通知人」,資料系統的查詢負載大幅增加,且主要來源已從人類變成機器。

T4
T4
Stanley for X AI 社群內容自動化

Stanley for X 是一款 AI(人工智慧)驅動的自動化工具,專門幫助 X(就是以前叫 Twitter 的社群媒體平台)的用戶創作和發布貼文。它的核心功能包括:分析當前熱門趨勢、撰寫推文和主題串(Thread,就是一連串有關聯的連續貼文)、規劃贈品活動,以及追蹤發文的一致性。最特別的功能叫做「語音匹配(Voice Matching)」——AI 會先讀取你過去發過的所有貼文,學習你個人的說話語氣和用詞習慣,然後照著這個風格來幫你寫新文章,讓讀者看起來像是你自己寫的,而不是機器人產生的。這個工具由 Stan 平台(一個服務超過六萬名內容創作者、年收入達三千萬美元的創作者平台)的共同創辦人開發,技術架構使用 Claude(Anthropic 公司開發的大型語言模型,也就是一種能理解和生成文字的先進 AI)搭配 Composio(一個讓 AI 能呼叫外部服務的中介層)和 Cloudflare(負責快速部署和即時同步的雲端服務)三層組合,從零到上線只花了十天。

假設我是一名個人品牌經營者,想在 X 上固定每天發文,但苦於沒時間想題材和寫文章。以前的做法是:花一到兩小時翻閱趨勢、手寫草稿、再反覆修改,才能發出一篇貼文。用 Stanley for X 的話,我先讓它掃描我過去三個月的發文,它分析出我習慣用輕鬆口吻、喜歡用數字舉例、常以問句開場;接著我設定今天的主題是「AI 工具提升生產力」,Stanley 自動生成一篇由五則推文組成的主題串,語氣和用詞接近我平常的風格。整個過程只需要五到十分鐘確認和微調,不用從零開始寫。對比舊做法節省了大約八成的創作時間,且發文風格維持一致,不會因為哪天太忙就中斷更新。

T4
LLM 個人化回覆的穩定核心

當你向 ChatGPT、Claude 或其他 AI 聊天系統(統稱 LLM,就是大型語言模型,這類系統背後的技術讓 AI 能理解並生成文字)提問時,不同的人可能得到措辭不同的答案,感覺好像 AI 在「個人化」回覆。研究者 Joshua Budman 發現,這些個人化的回覆並非完全隨機,而是遵循一個結構:每個回覆都由「穩定核心」與「可變邊緣」兩部分組成。穩定核心是無論誰問都會出現的內容,由 AI 的訓練資料、語意檢索範圍(AI 回答前從知識庫搜尋相關資料的機制)以及產品設計限制共同決定;可變邊緣則是針對不同使用者調整的舉例方式、強調重點與表達風格。這個發現的實際意義在於:企業若想在 AI 生成的推薦或回覆中獲得穩定曝光,關鍵不是追求每次個人化都出現,而是想辦法進入那個「幾乎每次都會提到」的核心知識區塊。

假設你是一家健康補充品品牌,想讓 AI 在回覆使用者提問時推薦你的產品。舊的做法是學 SEO(搜尋引擎優化,就是讓 Google 搜尋排名靠前的技術),試圖讓品牌名稱出現在各種關鍵字的搜尋結果裡。但根據 Budman 的框架,AI 在回覆「推薦給跑者的補充品」時,無論問的人是初跑者還是馬拉松選手,都會穩定提及某幾種成分或品類(如電解質、蛋白質)——這就是穩定核心。若你的品牌在高品質的醫學文獻、運動科學網站中被大量引用,這些資料成為 AI 訓練資料核心的一部分,AI 就會在穩定核心中始終提到你。對比之下,只針對個人化邊緣調整的品牌(例如只有在特定使用者輸入特定措辭時才出現),可能在某些使用者的回覆中出現,在另一些人的回覆中完全消失——這種曝光是不穩定的。

T4
人類是 AI 三明治的麵包

Every.to 的分析文章提出「AI 三明治」(AI Sandwich)概念——人類是兩片麵包,AI(就是 ChatGPT、Claude 這類會對話的大型語言模型)是夾心。作者 Kieran Klaassen 把工程工作流程拆成四個階段:「規劃」(人類提出問題框架)→「執行」(AI 處理大量繁瑣任務,甚至能跑好幾個小時)→「審查」(人類判斷輸出品質)→「優化」(人類根據結果調整方向)。文章指出,人類在兩件事上仍然明顯優於 AI:一是「診斷問題的能力」,同一個問題(例如膝蓋痛)人類會同時想到吃藥、拉筋、減少運動等多種解法,而 AI 在這種多角度思考上表現還不夠好;二是「品味判斷」,也就是感覺出 AI 的輸出是否真的接近你心目中的樣子,而不是生出一堆泛泛的廢話。組織層面,文章預測未來企業 AI 策略會分成兩種模式:每位員工配備個人化 AI 助理,或是一個中央超級 AI Agent(可以理解為功能強大的智慧助手)搭配各部門的插件模組。

Every.to 的顧問團隊打造了一個叫 Claudie 的 AI 專案經理,最初只是個簡單助手,後來逐步擴充功能,現在能同時管理客戶更新通知、業務銷售管道追蹤、提案簡報製作。他們沒有為每個功能各別建立獨立的 AI,而是把所有能力整合成一個 Agent(智慧助手)底下的多個插件。具體流程是:Claudie 自動跑完這些日常管理任務,人類只需在最後確認結果是否符合預期——也就是「AI 執行,人類收尾」。這比起舊做法(每件事都由人工一一處理)省去大量重複性工作,也比分散維護多個 AI 工具省力;代價是個別任務的客製化程度會稍微降低。

T4
分析用資料 vs AI 用資料的差別

傳統資料分析和 AI 系統對資料的要求截然不同,但多數組織並未意識到這個差別。傳統的「分析用資料」(analytics-ready data)是為人類看報表而設計的:把原始數字加總、整理、分類,讓儀表板(dashboard,就是公司常見的即時報表介面)清楚顯示「上個月發生了什麼」。這種格式穩定、易解釋,但細節已被壓縮掉。相對地,「AI 就緒資料」(AI-ready data)是為了讓 AI 模型推理「接下來應該發生什麼」,需要保留原始細節、脈絡(context,事件的前因後果)、語意(semantics,資料代表的含義)和時效性。核心問題在於:資料一旦被「彙總」(aggregation,把多筆合併成平均值或總計),AI 需要的微小信號就被破壞了——就像把一段影片壓縮成一張截圖,原本能分析動作模式的細節全部消失。

假設你是一家電商,想用 AI 預測「哪些顧客即將流失」。傳統分析資料會把顧客購買記錄彙總成「月均消費金額 1,200 元」——這對畫趨勢圖夠用,但 AI 模型無法從這個數字判斷顧客「是三月一次買 1,200 元」還是「每週買三次共 1,200 元」,而這兩種行為模式的流失風險完全不同。AI 就緒資料會保留每筆原始訂單的時間戳記、品類、金額、瀏覽但未購買的記錄等細節,AI 才能從中辨識出「連續兩週沒有瀏覽」這種流失前兆,提早發出預警。換句話說,傳統做法把資料「煮熟」以便人看;AI 需要的是「生鮮」資料——彙總這個動作本身就是在丟掉 AI 賴以判斷的訊號。