AI Daily Digest

📰 每日 AI 彙整

2026-05-03  ·  共 37 則報導
T1 爆炸重要T2 值得關注T3 一般資訊T4 參考用T5 可略過
T1
T1
四月開源LLM史上最強月份

2026 年 4 月,Google、Meta(Facebook 母公司)、阿里巴巴、微軟、Mistral 和 OpenAI 在短短十天內連續發布六款大型 AI 語言模型(就是能讀懂文字、回答問題、寫程式的 AI),密集程度創下史上紀錄,AI 社群稱之為「有史以來最強開源月份」。「開源」意思是這些 AI 模型的完整檔案可以免費下載、自己架設,不必每月付費給雲端服務。特別值得注意的是 OpenAI 的 gpt-oss-120B——這是 ChatGPT 背後的公司有史以來第一次公開釋出可以自己跑的模型。這批模型的效能已追上甚至小幅超越需要付費的閉源 AI:中國智譜 AI 的 GLM-5.1 在一個測試「AI 能否自動修復程式碼 bug」的標準測試(SWE-Bench Pro)中拿了 58.4 分,比 GPT-5.4 的 57.7 分還高,這代表免費開源模型已和頂級付費服務站在同一水準線上。幾乎所有主要模型都採 Apache 2.0 授權(一種允許任何人免費商業使用、修改、再散布的授權條款),企業要把這些 AI 整合進自家產品,法律疑慮幾乎全面消除。

假設你是一家中型電商的工程師,想在客服系統裡嵌入一個能回答產品問題的 AI 助理。以前只有兩條路:花錢訂閱 OpenAI API(費用隨用量累加,客戶對話還會送到 OpenAI 的伺服器),或用舊一代開源模型(能力明顯較弱)。現在你可以免費下載 Qwen 3 235B(阿里巴巴新發布的模型),架在公司自己的伺服器上。這款模型採用 MoE 架構(Mixture of Experts,混合專家——每次推理只激活其中一小部分計算單元,不是整個模型全開),讓原本需要數十張專業 GPU 才能跑的超大模型,在單張高階消費級顯示卡上也能運行。你用 Ollama(一個讓你一行指令就能在自己電腦上啟動 AI 的工具)把模型跑起來,接上公司內部 API。相比以前用 OpenAI API,客戶資料完全留在自己機器、不外流,月費從數千元降到幾乎零,而且回答品質已達到接近 GPT-4o 的水準。

T2
T2
RLHF 訓練人格引發哥布林詞彙大量擴散

OpenAI 在 2025 年 11 月為 ChatGPT 推出「Nerdy(書呆子)」人格模式,讓使用者可以選擇讓 AI 說話帶有書呆子風格。但訓練上出現了意外:凡是啟用這個模式,AI 開始在各種對話中大量插入「哥布林(goblin)」「地精(gremlin)」「浣熊(raccoon)」等奇幻生物詞彙,即使使用者只是問普通問題。數據顯示,書呆子模式下「goblin」出現頻率飆升了 3,881%,且問題從 GPT-5.2 一路擴散到 GPT-5.4 版本。根本原因是「獎勵泛化(reward generalization)」——強化學習(RL,一種透過獎懲機制讓 AI 不斷調整行為的訓練方式)在訓練書呆子人格時,把「回答中含有奇幻生物詞彙」當作書呆子風格的高分指標。問題在於:強化學習調整的是整個模型的參數,它不認識「只在書呆子模式才這樣說」的條件邊界,學到的習慣就滲透到了所有情境。更棘手的是,那些被高分獎勵的哥布林式回答,最終被回收成下一版模型的訓練資料(SFT,即監督式微調——讓 AI 模仿高品質範例的訓練方式),使這個習慣跨版本持續擴散。OpenAI 在 2026 年 3 月主動下架 Nerdy 模式,並於 4 月 30 日發布詳細事後分析報告。這起事件在 AI 社群引發了一場重要辯論:替 AI 設計個性,到底應該「燒進模型」(靠訓練實現,一旦完成就很難撤回),還是「臨時注入」(靠系統指令在每次對話開頭指定,隨時可以修改)?大多數工程師現在傾向後者,因為彈性更大、出問題時修復成本更低。

假設你是工程師,用 ChatGPT 問「請說明 Python 的 for 迴圈」,在哥布林事件期間開著書呆子模式:AI 可能回答「就像一群哥布林排成一列依序執行任務,每個哥布林代表一個元素……」你完全沒要求奇幻比喻,但 AI 就是習慣性地把哥布林塞進來。這個問題不管你問財報分析、程式除錯、食譜查詢都一樣——因為「用奇幻生物詞彙 = 書呆子風格 = 高分」這個模式被強化學習燒進了整個模型。相比之下,如果 OpenAI 當初選擇「推理層注入」的方案——也就是在書呆子模式的系統指令裡直接寫「說話時帶點書呆子風格,可以引用奇幻元素」——那麼使用者切換回普通模式時,系統指令消失,哥布林自然消失,根本不會污染其他版本的訓練資料。差別就是:訓練層改動是全局且持久的,推理層改動是局部且可逆的。這起事件最大的教訓,是讓行業更清楚看到這兩種路線在風險結構上的本質差異。

T2
Claude 九款 Connector 接管創意產線

Anthropic 同時推出了九個「Connector(連接器,也就是讓 AI 直接操控外部軟體的橋樑)」,讓他們的 AI Claude 能直接控制創意工作常用的軟體,包括音樂製作的 Ableton、設計軟體 Adobe 與 Affinity、3D 建模的 Blender 與 SketchUp、影片特效的 Autodesk、現場視覺的 Resolume,以及取樣音效的 Splice。這九個 Connector 全部採用 MCP(Model Context Protocol,一種讓 AI 用同一套標準規格去控制各種外部工具的通訊介面),意思是 Claude 可以在一次對話中跨越多個不同軟體連續完成任務,不用人工來回切換。這次發布被外界解讀為 Anthropic 的「生態戰略」,目標不是做一個更聰明的問答機器人,而是搶進創意工作流程的「調度層」——就像一位製片助理,能把指令依序分配給不同的部門與工具,讓整條產線自動接力。這些 Connector 對所有方案開放,包含免費帳號,大幅降低試用門檻。

假設我是一位音樂製作人,要為客戶做一首搭配視覺效果的配樂影片。以前的流程是:先自己在 Splice 手動篩樣本、找好後複製到 Ableton 手動排音軌、再把節奏參數自己算好,然後切換到 Blender 輸入數字才能做視覺對齊,每個步驟都要人工搬運資料,耗時費力。現在同時啟用 Splice、Ableton、Blender 三個 Connector 之後,可以直接對 Claude 說:「幫我找 120 BPM 的樣本、列出候選清單,然後生成 Ableton 的編排草稿,再把節奏參數輸出給 Blender 做視覺對齊。」Claude 會依序完成每一步,人只需要最後審核確認,不用在三個軟體之間來回複製貼上。對比舊做法,這種高重複的「搬運工序」可節省大量時間,讓製作人把精力放在真正需要創意判斷的環節。

T2
白宮封鎖 Mythos 擴大部署

Anthropic(開發 Claude 系列 AI 的公司)有一款尚未公開發布的超強模型,叫做 Mythos,擁有約 10 兆個參數(參數就是 AI 模型「學習」到的知識量的單位,數字越大代表模型越複雜),最驚人的能力是能自動掃描軟體程式碼、找出可以被駭客利用的安全漏洞(也就是 CVE,一種已被正式登記的軟體弱點)。因為這個能力太強大、若外洩可能讓壞人更容易攻擊重要系統,Anthropic 沒有走一般「上線就開放給所有人」的路線,而是推出了「Project Glasswing」(玻璃翼計畫):先讓政府機構、關鍵基礎設施業者(例如電廠、通訊網路)用這個模型來強化自家系統的防護。2026 年 4 月底,Anthropic 想把使用資格從約 50 個組織擴大到 120 個以上,但白宮的 AI 顧問 David Sacks 代表反對,理由是現有的電腦算力(就是跑 AI 所需要的計算資源)不夠用——擴大後,NSA(美國國家安全局)等政府機構分配到的算力就會縮水,服務品質下降。

Mythos 曾掃描 Mozilla Firefox(就是 Firefox 瀏覽器的原始碼),在那個程式碼庫裡找出 271 個安全問題,其中 3 個被正式收錄為已發布的 CVE(也就是被全球資安社群承認、需要修補的真實漏洞)。換句話說,這不是 AI 亂猜——它找到的是真實存在、可以被利用的問題。舊做法是靠人工資安審計員或既有的弱點掃描工具逐行審查,大型專案往往要花數週乃至數月。Mythos 自動跑完整個 Firefox 程式碼庫,效率天差地遠。但也正因為這個能力太強,若落入惡意行為者手中,等同於提供了一份「攻擊清單」——這也是白宮和 Anthropic 謹慎管控存取資格的核心原因。

T2
DeepMind 發表 AI 共同臨床醫師研究

Google DeepMind(Google 旗下頂尖 AI 研究機構)發表了名為「AI 共同臨床醫師」的研究,目標是讓 AI 在醫師授權下,協助患者進行問診和衛教,醫師仍保有最終決策權。研究背景是世界衛生組織預測到 2030 年全球醫療人力將短缺超過一千萬人,促使研究團隊探索 AI 填補缺口的可能性。系統採用「雙 Agent(代理程式)架構」,由一個名為「Planner」(規劃者)的 AI 全程監控另一個名為「Talker」(對話者)的 AI,防止它說出超出醫療安全邊界的回答。在 NOHARM(評估 AI 醫療問答安全性的標準測試集)測試中,98 個查詢有 97 個達到零重大錯誤;在 RxQA(藥物知識基準測試)上表現接近真人醫師。多模態問診模擬涵蓋 120 個場景、20 種情境,在 140 個評估維度中有 68 項達到或超越初級醫療醫師水準,但識別紅旗症狀(緊急警示信號)方面專科醫師仍較優。目前研究仍在評估階段,不用於臨床診斷或治療,已與哈佛、史丹佛等六國機構展開合作。

假設一位老奶奶深夜出現胸悶症狀,家庭醫師要到隔天才能約診。在 AI 共同臨床醫師系統中,她可以和 AI 問診:系統會詢問症狀、持續時間、用藥記錄等,同時 Planner 在背後監控,確保 Talker 不做超出能力範圍的診斷。當 AI 偵測到「胸悶+呼吸困難+冒冷汗」這組紅旗症狀時,系統會立即提醒她應呼叫急救,而非叫她吃藥休息。問診記錄同步傳給主治醫師,讓醫師隔天能快速掌握情況。對比現在的做法,老奶奶只能選擇「等到明天掛號」或「半夜跑急診等幾小時」,而 AI 的加入至少能在不誤診前提下提供初步分流與引導,減少因資訊不足延誤就醫的風險。

T2
DeepSeek V4 發布,史上最大開源模型

DeepSeek(中國 AI 公司深度求索)於 2026 年 4 月發布了 V4 系列兩款模型:DeepSeek-V4-Pro 與 DeepSeek-V4-Flash。Pro 版擁有 1.6 兆個「參數」(參數就是 AI 訓練後保存的知識量,數字越大通常代表能力越強),是目前全球最大的開源 AI 模型,超越此前紀錄保持者 Kimi K2.6。這兩款模型都支援 100 萬個「token」(token 是 AI 處理文字的基本單位,約等於 1.5 個英文字或 0.6 個中文字),代表一次可讀懂超長文件,例如一整本中長篇小說。模型採用 MIT 授權(最寬鬆的開源授權,個人與商業用途均免費),定價遠低於同等規模競品——Flash 版每百萬 token 輸入僅 $0.14 美元,Pro 版 $1.74 美元。效能上,官方基準測試略優於 GPT-5.2 和 Gemini-3.0-Pro,但落後最新的 GPT-5.4 和 Gemini-3.1-Pro 約 3 至 6 個月——正如標題「almost on the frontier(幾乎但還沒到前沿)」所示。

假設我是一名律師,要審閱一份 800 頁的合約,找出所有「違約責任」相關條款並整理成摘要。舊做法是把文件切成多段分批餵給 AI,但每次 AI 只看到局部,前後頁互相呼應的條文容易遺漏。用 DeepSeek-V4-Pro:直接把整份 800 頁合約(約 40 萬中文字)一次傳入,模型在 100 萬 token 的視窗下全文閱讀,可直接回傳「第 23、67、142、356 頁各有一條違約責任條款,其中 142 頁第 5 款與第 23 頁第 2 款在賠償上限上邏輯衝突,建議修改」。整份文件的 API 費用約 $0.07 美元(不到台幣 2.5 元),比分批查詢更完整、比傳統法律資料庫服務便宜數十倍。

T2
Codex 全面擴張至非程式電腦作業

OpenAI 的 Codex(一個能自動完成電腦任務的 AI 助理)這週大幅升級,不再只限於幫工程師寫程式,而是擴張成能操作文件、試算表、簡報、網頁瀏覽等所有電腦工作的通用 AI agent(就是能自主執行多步驟任務的 AI 程式),OpenAI 執行長 Sam Altman 親自喊話「試試非程式的電腦作業」。同一週,GPT-5.5(OpenAI 最新的旗艦語言模型(就是 ChatGPT 背後的大腦))在英國 AI 安全研究院的網路攻擊模擬測試中,成為第二個能完整執行多步驟網路攻擊流程的模型,通過率達 71.4%,與 Anthropic 的 Mythos 模型(68.6%)不分伯仲,顯示 AI 在資安攻防領域的能力已大幅提升,打破「只有 Anthropic 領先」的舊說法。此外,中國阿里巴巴旗下的 Qwen 團隊發布了 Qwen3.6 27B,成為目前 150B 參數以下的開源模型(意思是任何人都可以免費下載使用)中排名第一,支援 262K 超長文本輸入、Apache 2.0 授權,同日 xAI 的 Grok 4.3 與騰訊的 Hy3-preview 也相繼亮相,開源模型競爭白熱化。在資安工具方面,Anthropic 推出了 Claude Security,一個能自動掃描程式碼漏洞並建議修復方式的 AI 工具(由 Opus 4.7 驅動),Cursor 也同步推出類似的安全審查功能,顯示 AI 廠商正大舉進入傳統資安市場。

過去,業務人員要整理一份市場分析報告,需要自己開瀏覽器搜尋資料、開 Excel 整理數字、開 PowerPoint 製作簡報——每一步都要手動切換,費時至少半天。現在用升級後的 Codex,你可以直接輸入「幫我查 Q1 競爭對手的新功能,整理成一份簡報」,Codex 會自動在瀏覽器裡搜尋資料、開啟 Google Slides 或 Office 檔案、填入內容,全程不需人工介入。具體改善:電腦操作速度比舊版快 42%,介面會根據任務類型動態調整(寫報告就顯示文件編輯器、查資料就顯示瀏覽器),並且可以直接串接 Microsoft、Google、Salesforce 的帳號,讓 AI 直接存取你公司的資料。對比舊版 Codex 只有工程師用來生成程式碼,新版真正做到「任何職位的人都能用」。

T2
Grok 4.3 發布,性能更強更省錢

XAI(Elon Musk 創辦的 AI 公司)發布了 Grok 4.3,這是他們旗艦對話 AI 模型的新版本。這次更新的重點在於「cost-per-intelligence」(以更低成本換取相同或更高的智慧水準),相較前一代 Grok 4.20 有明顯提升。具體而言,Grok 4.3 在 Intelligence Index(智慧指數,一種衡量 AI 整體能力的綜合評分標準)上得分更高,但執行同一套測試所需的費用卻更低,使其成為目前同智慧水準中定價最低的模型之一。模型在「instruction following」(指令跟隨能力,即精確理解並執行使用者要求的能力)與「agentic customer support」(自主客服代理,讓 AI 能獨立完成整個客服對話流程而不需人工逐步介入)兩個方向表現尤其突出。

假設你在為一家電商平台開發自動客服機器人,需要處理「我的訂單到哪裡了?」「能幫我辦退款嗎?」等日常問題。過去用舊版 AI 模型,每月 API 費用可能高達數萬元台幣,而且模型有時會答非所問或需要人工轉接。改用 Grok 4.3 後,模型能更精準地理解客戶意圖、查詢訂單狀態,並自動完成退款說明流程,全程無需真人客服介入——而花費比使用前一代 Grok 4.20 完成同等任務更低。對預算有限的中小型團隊而言,這代表用同樣的費用可以服務更多客戶,或在成本不變的情況下提升回覆品質與準確率。

T2
SMG 開源 LLM 網關 CPU GPU 分離提速三倍

SMG(Shepherd Model Gateway,牧羊人模型閘道)是一個開源的 LLM(就是 ChatGPT 這種對話式人工智慧)服務管理工具,專門解決大規模 AI 部署時的效能瓶頸問題。它的核心創新在於把 CPU(中央處理器,負責一般計算)的工作和 GPU(圖形處理器,負責 AI 運算)的工作徹底分開,讓昂貴的 GPU 不必等待 CPU 完成前置處理。傳統做法中,文字的前處理(稱為 tokenization,就是把你輸入的文字切成 AI 看得懂的小單位)是透過 Python 程式執行,而 Python 有個先天限制叫做 GIL(全域直譯器鎖,意思是同一時間只能做一件事),導致再快的 GPU 也得排隊等 CPU。SMG 用 Rust 語言(一種速度極快且安全的程式語言)重寫了這些 CPU 工作,並用高效率的 gRPC 協定(一種快速傳輸資料的通訊方式)讓 CPU 和 GPU 之間的溝通更有效率,在長文字輸入的場景下,吞吐量(就是每秒能處理多少請求)提升最高可達 3.5 倍,已有 Google Cloud、Oracle Cloud、阿里雲等平台在生產環境中驗證。

假設你的公司建立了一個法律文件分析系統,用戶每次會貼入數千字的合約讓 AI 分析重點條款。用傳統 vLLM(一種流行的 LLM 服務框架)直接部署,在大量用戶同時使用時,系統回應很慢,GPU 利用率卻偏低——剩下的時間 GPU 在等 Python 完成文字切割。換成 SMG 後,文字切割移到 Rust 寫的閘道層獨立執行,GPU 收到的是已經處理好的輸入,不需要再等待。在 7800 個輸入 token(約等於 6000 字的中文文本)的實測中,使用 Llama-3.3-70B 大型模型時,輸出速度從每秒 327 個 token 提升到 1,150 個——快了 3.5 倍;同樣的 GPU 硬體能服務更多用戶,硬體投資回報率直接提升。想試用的話,只需 pip install smg 即可開始,並支援 OpenAI 及 Anthropic 的 API 格式,可直接替換現有部署,幾乎不需要改動應用程式碼。

T2
Claude Security 公測,AI 自動掃描並修復程式漏洞

Anthropic(就是開發 Claude AI 的美國公司)推出了一款名為 Claude Security 的新工具,目前開放 Claude Enterprise(企業版付費方案)客戶進行公開測試。這個工具能自動掃描程式碼(工程師寫的電腦指令),找出其中的安全漏洞(可能被駭客利用的系統弱點),並直接產生修補這些漏洞的程式碼,讓工程師不需要自己從頭研究怎麼修。這款工具推出的背景是:近來 AI 被越來越多惡意攻擊者用來加速尋找軟體弱點,讓攻擊速度大幅提升,防守方的工程師和資安團隊因此面臨更大壓力,也需要用 AI 工具才能跟上節奏。簡單說,這是一場 AI 對 AI 的攻防戰——攻擊者用 AI 找漏洞,防守者也要用 AI 來修漏洞。

假設你是負責公司後端系統的工程師,剛寫好一段處理用戶登入的程式碼(約 500 行)。過去你要等資安同事花幾天人工審查,或靠自己逐行核對規則文件。現在把這段程式碼丟進 Claude Security,它幾分鐘內就會回報:「第 83 行的資料庫查詢有 SQL injection(注入)風險——這是一種讓攻擊者在查詢中夾帶惡意指令、偷改或竊取資料的手法——建議改成以下寫法:...」,並直接附上修好的程式碼片段,你複製貼上就能用。不需要等人工審查,也不需要有深厚的資安背景,就能在開發階段就把漏洞堵起來,而不是等到系統上線才被攻破。

T2
Karpathy 談 Agent 工程新範式

Andrej Karpathy(前 Tesla AI 總監、OpenAI 共同創辦人,矽谷最知名的 AI 研究者之一)在 Sequoia Ascent 2026 大會的演講中,提出了一個新框架說明 AI 如何根本改變軟體開發的方式。他將軟體演進分成三個時代:軟體 1.0 是人類親手寫程式碼;軟體 2.0 是讓電腦從大量資料中「學會」完成任務;軟體 3.0 則是直接用自然語言(人話)跟 LLM(就是 ChatGPT 這種會對話的 AI)描述你要什麼,AI 就幫你執行,不再需要寫程式碼。他同時提出「參差不齊的智慧」概念——AI 的能力並非全面均勻進步,而是在「容易驗證對錯」的任務(如程式碼測試、數學計算)進步特別快,在難以衡量的任務(如創意、品味判斷)則仍遠不如人類。他也提出「可驗證性框架」:傳統軟體自動化你能明確描述的事,LLM 和強化學習(讓 AI 透過嘗試錯誤自我改進的技術)則自動化你能驗證對錯的事——這解釋了為何 AI 在程式設計、數學領域進步神速,因為這些任務有明確的對錯標準可供 AI 自動反饋。他也強調:即使 AI 幫你執行所有工作,人類仍不可棄守對任務的「理解力」——「你可以外包執行,但不能外包理解」,工程師的核心價值轉向為「協調 Agent(自主執行任務的 AI 程式)、維護品質、判斷 AI 何時失敗」。

假設你要做一個從餐廳菜單照片自動產生標注圖的功能(替食物加上名稱、價格標籤)。舊的軟體 1.0 做法需要前端工程師寫介面、後端工程師建 API(讓不同程式互相溝通的橋樑)、處理身份驗證、部署伺服器,整個功能需要多人協作數週。Karpathy 示範的 Software 3.0 做法:直接把菜單照片丟給多模態 AI(能同時看圖又能理解文字的 AI),用一段自然語言描述你要的輸出格式,AI 就直接回傳標注好的圖片,完全省掉中間那一層層的工程架構。差異一目了然:舊方法要數週、多名工程師、數百行程式碼;新方法只要一段描述文字加上 API 呼叫,幾分鐘內完成。他也舉出陷阱案例:用 Email 匹配 Stripe 付款記錄和 Google 帳號這件事,Agent 很容易出錯,因為同一個人的付款 Email 可能和登入 Email 不同——這種細節人類工程師需要事先想到並用永久用戶 ID(穩定不變的識別碼)替代,才不會讓 Agent 默默產生錯誤資料。

T3
T3
AMD Ryzen AI Halo 本地推理主機登場

AMD(美國超微半導體公司)預計在 2026 年 6 月推出一款自製的桌上型電腦主機,叫做「Ryzen AI Halo」,最大特點是搭載高達 128GB 的「統一記憶體(就是一塊 CPU 和 GPU 共用的超大記憶體,不像一般電腦 CPU 和顯示卡各用各的)」。這個容量在 Windows/Linux 的 x86 個人電腦上前所未見,讓使用者可以在自己家裡的一台電腦上,完整跑起原本需要好幾張高階顯示卡才能載入的超大 AI 語言模型(就是像 ChatGPT 背後那種參數量達到數百億甚至千億的 AI 大模型)。目前市面上最接近的競品是蘋果的 Mac Studio M4 Max(128GB 版),但 Mac 的記憶體頻寬約為 AMD 的兩倍,意思是 Mac 跑同樣大小的模型速度更快;AMD 的優勢在於以更低成本裝進更多參數,且同時支援 Windows 和 Linux 兩種作業系統,而競品 NVIDIA DGX Spark(輝達的 AI 工作站)只支援 Linux。AMD 官方定價尚未公布,預估落在 2,500 至 3,500 美元之間,大約比蘋果同規格便宜兩到三成。

假設我是一位 AI 應用開發者,想在自己電腦上跑 Llama 3 70B(Meta 推出的開源大型語言模型,有 700 億個參數——「參數」可以理解成模型學到的知識量,越多代表模型越聰明但也越佔空間)進行本地測試,不想每次都花錢租雲端 GPU(H100 等高階顯示卡,時租約 2-3 美元)。用一般 24GB 顯示卡的電腦,要跑這個模型必須大幅壓縮精度,且無法維持很長的對話脈絡(context window,就是 AI 能「記得」多少對話歷史)。換成 Ryzen AI Halo,只需在設定中把 GPU 可用記憶體調到 124GB,就能完整載入 Llama 3 70B 並維持最長上下文,生成速度約每秒 14-18 個字;若要跑更大的 1200 億參數 MoE 混合專家模型(一種把大模型拆成許多小專家、每次只啟動部分專家的架構設計),以前單機根本裝不下,現在可跑到每秒 34-38 個字。對比舊做法,同樣任務要嘛長期付雲端費用,要嘛用多張顯示卡拼湊且維護複雜,Ryzen AI Halo 讓這一切在一台桌機上解決。

T3
Zig 宣布禁止 AI 程式碼貢獻

Zig 是一個開源程式語言(就是工程師用來告訴電腦怎麼運作的文字指令集,主要用於寫需要高效率、底層控制的系統程式),以追求極致程式碼品質著稱。2026 年初,Zig 專案在官方行為準則中明確禁止使用 LLM(就是 ChatGPT、Claude 這類能生成文字與程式碼的 AI)來撰寫任何 issue(問題回報)、PR(程式碼提交請求)或社群留言。Zig 的維護者 Loris Cro 提出了「貢獻者賭注」的概念來解釋這個決策:維護者在審查外部貢獻者時,其實是在做一筆長期投資,賭這個人未來能成長為可信任的長期協作者;LLM 讓貢獻者是否真正理解自己提交的程式碼變得無從驗證,這筆投資就失去意義了。這個政策不只在開源社群引發廣泛辯論,甚至讓知名開源專案 Bun(一個 JavaScript 程式執行工具)在一份大型貢獻遭拒後,宣布不再向 Zig 提交改動,雙方生態就此正式分裂。

假設我是一名工程師,想用 Cursor(AI 輔助寫程式的工具)幫我草稿出一個 Zig 的 bug fix,再手動調整確認無誤後提交 PR。即使我最終理解了每一行程式碼,Zig 的政策仍明確禁止這種工作流程,提交後可能被直接移除出社群。相比之下,Linux kernel 或 CPython(Python 語言的官方實作)等其他高標準開源專案目前尚未有類似禁令,程式碼品質合格就有機會被接受。Bun 的真實遭遇最具體:Bun 工程師提交了超過 3,000 行、能讓 Zig 編譯器快 4 倍的改動,最終被以「複雜度過高且與路線圖衝突」為由拒絕;Bun 因此宣布不再向 Zig 貢獻任何改動,雙方生態正式分裂。對所有想貢獻開源專案的開發者而言,實際意義很清楚:參與前必須先確認該專案的 AI 工具政策,否則可能白費心血還連帶被踢出社群。

T3
OpenAI 推出進階帳號安全功能

OpenAI 在 2026 年 4 月 30 日推出一項名為「進階帳號安全」(Advanced Account Security,簡稱 AAS)的新功能,幫助高風險用戶更有效地保護自己的 ChatGPT 帳號。這項功能特別針對記者、研究人員、民選官員和企業用戶等容易成為網路攻擊目標的人設計,但任何 ChatGPT 用戶都可以選擇開啟。啟用後,系統會停用傳統密碼登入,改用 passkey(一種不需要密碼、直接以裝置上的加密金鑰驗證身分的現代登入方式)或實體安全金鑰(像 YubiKey 這種插在電腦上的小型硬體裝置),讓駭客即使知道你的密碼也無法入侵帳號。此外,OpenAI 也關閉了透過電子郵件或簡訊恢復帳號的途徑,因為這些方式常被駭客偽裝成用戶本人騙取帳號存取權(這種手法稱為「社交工程攻擊」)。值得注意的是,2026 年 6 月 1 日起,參加 Trusted Access for Cyber(OpenAI 針對資安防禦者的專案)的成員將被強制啟用此功能。

假設你是一名使用 ChatGPT 進行敏感採訪研究的新聞記者,帳號裡存有大量與採訪相關的對話紀錄。過去,駭客可能透過偽造的 OpenAI 登入頁面騙你輸入密碼(即「釣魚攻擊」),或者打電話給 OpenAI 客服假冒你要求重設密碼,進而竊取帳號並翻閱所有對話內容。啟用 AAS 後,登入必須使用實體 YubiKey 硬體金鑰或裝置 passkey,就算駭客拿到你的密碼也進不去,客服端也因為關閉了電子郵件或簡訊恢復功能而無從被騙。需要注意的代價是:如果你遺失了硬體金鑰且沒有提前備份恢復金鑰,帳號和所有對話將永久無法取回,OpenAI 也無法協助救回,使用前務必妥善保管備用金鑰。

T3
VibeVoice ASR 進入 Hugging Face

Microsoft 推出了一套語音 AI 框架叫做 VibeVoice,其中的語音轉文字模型(ASR,就是把說話的聲音自動轉成文字稿的技術)在 2026 年 3 月正式整合進 Hugging Face Transformers(一個讓開發者可以輕鬆下載、使用各種 AI 模型的公開工具庫),從此變成「開箱即用」的選項,幾行程式碼就能跑起來。這個 ASR 模型規模達 70 億參數(參數可以理解為模型的「腦細胞數量」,越多通常代表理解能力越強),一次可以處理最長 60 分鐘的連續音訊,支援超過 50 種語言,並且能自動辨識「誰在說話」(稱為說話者識別,diarization)、打上時間戳記,輸出有結構的文字稿。比起知名的 Whisper(OpenAI 開源的語音辨識工具)只給純文字,VibeVoice 多了「誰說了什麼」的標記,特別適合多人會議、訪談錄音或 Podcast 等場景。值得注意的是,VibeVoice 原本也有文字轉語音(TTS)的部分,但 Microsoft 後來以「負責任 AI 原則」為由將官方程式碼下架,原因是發現有人用它製作深度偽造(deepfake,也就是用 AI 偽造他人聲音或影像的技術)內容;雖然社群有建立備份,但使用前須先確認法律與合規風險。

假設我需要替一場一小時的多人線上會議錄音自動產生文字稿,且要標明「哪段話是誰說的」。舊做法是用 Whisper:把錄音丟進去確實能得到逐字稿,但所有對話混在一起,完全看不出哪句話是 A 說、哪句是 B 說,還得花時間人工對照比對。新做法改用 VibeVoice-ASR:透過 Hugging Face Transformers 幾行程式碼載入模型,丟入同一段錄音,輸出會自動標記「說話者 1(00:01:23):我覺得這個方案可行……」「說話者 2(00:01:45):但預算怎麼算?」每段都有時間戳記與說話者標籤。根據社群實測(M5 MacBook,以較省記憶體的 4-bit 壓縮版執行,檔案約 5.71 GB),1 小時音訊約 9 分鐘就能完成轉錄,比即時播放快很多。差異一句話:Whisper 給你「說了什麼」,VibeVoice-ASR 再多給「誰說的、什麼時候說的」,直接省掉後製分段的人力。

T3
OpenAI 跟進限縮資安 AI 模型存取

GPT-5.5-Cyber 是 OpenAI 推出的一款專為網路安全設計的 AI 模型(就是一種能幫助資安工作的人工智慧程式),具備滲透測試(就是模擬駭客攻擊、幫企業找出系統弱點)、漏洞分析、惡意程式逆向工程等高風險能力。OpenAI 宣布這款模型只開放給政府機構、關鍵基礎設施業者(如電力、水利公司)、資安廠商和金融機構申請,一般用戶無法直接使用,需透過 TAC(Trusted Access for Cyber,OpenAI 為資安領域設立的資格審查計畫)提交申請才能存取。有趣的是,這個決定發生在 OpenAI 創辦人 Sam Altman 公開批評 Anthropic(另一家 AI 公司)「恐懼行銷」的僅九天之後——Anthropic 此前對他們的高能力 AI 模型 Claude Mythos(具備自動發現系統漏洞的能力)設下相似限制。九天內,兩家公司走向幾乎完全一致的策略,顯示「高風險 AI 能力必須管制存取」已成業界共識,不論公司對外說什麼。此舉也引發一個未解問題:限制真的有效嗎?據報已有未授權人士繞過 Anthropic 對 Claude Mythos 的限制取得存取權,說明技術管制並非萬無一失。

假設你是一家企業的資安長,想用 GPT-5.5-Cyber 自動化執行滲透測試(讓 AI 代替人工去試著「駭入」自己公司的系統、找出安全漏洞)。在 TAC 計畫推出前,你或許能直接透過 API(讓程式串接 AI 的介面)使用。但現在,你必須先向 OpenAI 提交機構資格證明和使用目的,審核通過才能存取——而資格要求把個人開發者和一般企業幾乎排除在外。這跟過去 OpenAI 大多數模型「付費即可使用」的模式截然不同:未來前沿資安 AI 很可能只對特定產業客戶開放,符合申請資格的機構(如政府或資安廠商)若能提前卡位申請成為 TAC 認證合作夥伴,將取得競爭優勢;等模型全面開放再接入,可能已錯失先機。

T3
Mozilla 反對 Chrome 內建 AI API

Chrome Prompt API 是 Google 在 Chrome 瀏覽器中內建的一個功能,讓網頁可以直接呼叫瀏覽器裡預先安裝好的 Gemini Nano 模型(一個約 4.27 GB 的 AI 語言模型,就是會回答問題、生成文字的那種 AI),不需要連線到外部的 AI 服務,就能直接在用戶自己的電腦上執行 AI。Firefox 的開發商 Mozilla 在 2025 年 4 月正式登記「反對」立場,提出三大理由:第一,為配合 Gemini Nano 特定行為而調整的網頁程式碼,將難以在其他瀏覽器上運作,如同過去「IE-only(只在 Internet Explorer 這款舊瀏覽器上能跑)」的程式碼再現;第二,使用這個 API 必須接受 Google 的私人內容政策,限制比法律規定更嚴格,在瀏覽器 API 中嵌入私人企業規則是危險先例;第三,若 Gemini Nano 成為事實標準,Apple 和 Mozilla 將被迫跟進,等於讓 Google 掌控整個網頁 AI 生態。目前效能測試也顯示問題不小:Chrome 版失敗率達 15%,Edge 版更高達 24%,幻覺率(AI 憑空捏造答案的比例)也偏高。

假設我是一個網頁開發者,想在我的網站加入「讓用戶直接在瀏覽器裡用 AI 摘要文章」的功能。若選用 Chrome Prompt API,我不需要支付 OpenAI 或 Google Cloud 的 API 費用,因為 AI 直接在用戶電腦裡跑。但問題來了:為了讓 Gemini Nano 正確輸出,我必須依照這個特定模型的怪癖來調整提示詞,這段程式碼在 Firefox 或 Safari 上就完全沒用,因為它們沒有內建 Gemini Nano——用戶必須專門切換到 Chrome 才能使用這個功能。相較之下,若我改用 WebGPU(瀏覽器已有的開放標準,可在用戶電腦的顯示卡上跑 AI 模型),搭配其他開源模型,同樣能做到本地 AI 推論,而且不被 Google 的服務條款綁住,也能在各主流瀏覽器上運作。Mozilla 反對的正是這種「綁定單一廠商模型」的設計,擔心會讓整個網頁生態重蹈過去 IE 時代「特定瀏覽器限定功能」的覆轍。

T3
騰訊 440MB 離線手機翻譯模型

騰訊旗下的 Hunyuan(混元)AI 團隊開源了一款名為 Hy-MT1.5-1.8B-1.25bit 的翻譯 AI 模型,體積只有 440MB,可以完全在手機上離線運行,完全不需要連網。這款模型支援 33 種語言之間的互譯,涵蓋藏語、蒙古語等少數民族語言,共有 1,056 種翻譯方向組合。核心技術叫做「量化」(Quantization,把 AI 模型內部的數學資料壓縮成更小的格式,就像把高解析度照片壓縮成小圖檔一樣),讓原本需要 3.3GB 的完整模型縮小到 440MB,體積縮減了 87%,同時在搭載高通 Snapdragon 888 晶片的手機上跑起來反而快了 8 倍。這項技術已通過 ACL 2026(計算語言學領域的頂級學術會議)論文審查,代碼在 GitHub 上已開源,Android 版 App 現在就能下載試用,iOS 版也即將推出。

假設我是一家需要服務東南亞客戶的台灣電商企業,想在公司 App 裡加入即時多語言翻譯功能。以前要做到這件事,要麼接 Google Translate 或 Microsoft Translator 的 API(每次翻譯都要把客戶文字傳送到對方伺服器,按用量月繳費用,且有資料外洩疑慮),要麼在自己的伺服器上跑大型翻譯模型(需要昂貴的 GPU 算力,成本高、延遲也大)。現在可以把這個 440MB 的模型直接打包進手機 App,讓用戶在沒有網路的環境下也能即時翻譯,翻譯文字完全不離開手機,沒有隱私疑慮,也不需要逐次付費給 API 廠商。對比之前,同等品質的翻譯功能至少要 3GB 以上空間,現在縮小到不到七分之一,翻譯品質還宣稱超越 Google Translate 與 Microsoft Translator。

T3
KV Cache 路由優化大幅降低 LLM 服務成本

KV Cache(Key-Value 快取,就是 AI 模型在運算過程中暫存的中間結果,下次遇到相同輸入就不用從頭重算)是大型語言模型(LLM,就是 ChatGPT 這類對話 AI)提升服務效率的核心機制。但這份快取是「鎖在各自 GPU 上」的——如果今天有 8 張 GPU 分擔工作,GPU 0 算好存下的結果,GPU 3 完全用不到,遇到相同輸入仍必須從頭重算。現行最常見的「輪流分配請求」做法(round-robin),等於把每個請求開頭都會帶的系統提示(system prompt,就是事先給 AI 設定角色或背景的那段文字)在每張 GPU 各算一次,大量浪費運算資源。這篇文章提出「前綴感知路由」(prefix-aware routing,讓分流程式自動記住哪張 GPU 算過哪些內容,把帶有相同前綴的請求優先送到同一張 GPU),實測可把快取命中率從 12.5% 提升至 97.5%,首字回應延遲降低約 85%,吞吐量提升 22%,每月可省下大量 GPU 費用——硬體完全不動。

假設公司內部部署了一套 8 張 GPU 的 CodeLlama 13B 程式碼助理服務,每個請求開頭都帶一段 4,000 個 token(約 3,000 個英文單字)的系統提示,例如公司程式碼規範、API 說明文件。若負載均衡器(load balancer,就是把用戶請求分派給各台伺服器的調度程式)採用傳統「輪流分配」,這段提示每張 GPU 各算各的:快取命中時只需 18 毫秒,但未命中時要花約 500 毫秒,相差整整 28 倍;整個叢集每月光是浪費在重算上的 GPU 費用就達 1,200~1,800 美元。換成「前綴感知路由」後,調度程式會把帶相同系統提示的請求優先送到已快取過的 GPU,快取命中率從 12.5% 跳升至 97.5%,第 99 百分位的 TTFT(首字回應時間,即送出問題到 AI 開始打出第一個字的等待時間)從 6,800 毫秒縮短至 1,000 毫秒,整體吞吐量也提升了 22.3%——只改了路由邏輯,沒有增加任何硬體。

T3
前沿模型生物分析更快但不更準

空間生物學(一種研究細胞在組織中的位置與行為的科學,用來理解癌症、器官發育等疾病機制)需要大量複雜的數據分析。研究團隊最近用 SpatialBench(一個專門測試 AI 做空間生物學分析能力的評測平台)比較了最新和上一代大型 AI 語言模型(就是 ChatGPT、Claude 這類會對話的 AI),包括 OpenAI 的 GPT-5.5 對比 GPT-5.4,以及 Anthropic 的 Opus 4.7 對比 Opus 4.6。結果發現:GPT-5.5 分析速度幾乎快了一倍,但答題準確率和舊版幾乎一樣;Opus 4.7 與 Opus 4.6 也幾乎打平。這說明 AI 的「整體推理能力進步」不等於在專業科學領域同步進步——要讓 AI 真正擅長空間生物學,還需要針對統計設計、平台特定分析流程、差異測試等專業知識做額外訓練。

假設一位研究員要分析一張腫瘤切片的空間基因表現資料(記錄了腫瘤細胞哪些基因在哪個位置被開啟),想讓 AI 幫她找出癌細胞聚集區的差異基因——這在以前需要生物資訊工程師花數小時寫程式才能完成。她改用最新版 GPT-5.5,確實比舊版 GPT-5.4 快很多,同樣的問題能更快拿到回應。但準確性沒有提升:模型還是會犯同樣的錯誤,例如沒考慮到「重複樣本」(同一實驗多次確認)的設計邏輯,或無法正確處理不同分析平台的資料格式差異。這個研究的啟示是:更快的通用 AI 不等於更準的科學 AI,若要打造真正可靠的生物分析助手,必須針對該領域的專業知識做定向訓練,光靠模型整體升版是不夠的。

T3
Qwen 發布模型可解釋性工具箱

Qwen-Scope 是阿里巴巴旗下 Qwen 團隊針對 Qwen3 和 Qwen3.5 系列模型(就是阿里推出的開源大型語言模型,能理解和生成文字,跟 ChatGPT 類似)所開發的可解釋性工具套件(就是一組幫你「看懂 AI 腦袋裡在想什麼」的工具)。這個工具能讓研究者和開發者深入了解模型運作的內部機制,而不只是看輸入輸出的結果。有了這個工具,使用者可以做到四件事:可控推論(在不重新訓練模型的情況下調整 AI 的行為)、資料分類與合成(讓 AI 幫忙整理和生成訓練資料)、模型訓練與優化、以及評估樣本分佈分析(檢查測試資料是否均勻覆蓋各種情境)。這對想深入研究或調整 Qwen 模型行為的開發者和研究者來說,是相當實用的工具。

假設我要讓 Qwen3 模型在回答問題時,對某類敏感話題自動保守一點,但不想花算力重新訓練整個模型,也不想只靠 prompt 指令(因為使用者容易繞過)。用 Qwen-Scope 的可控推論功能,可以先分析模型內部哪些神經元或注意力機制(就是模型裡負責「理解和選擇」資訊的小單元)對這類話題的反應最敏感,然後在實際推論時直接介入調整這些元件的激活強度,讓模型輸出往想要的方向走。對比舊做法:靠 prompt 工程容易被繞過,靠 fine-tuning(微調,就是用新資料重新訓練模型的部分參數)又費時費力。Qwen-Scope 提供了一個更精準、更輕量的中間選項,讓開發者能「手術刀式」地介入並調整模型行為。

T3
GLM-5V-Turbo 多模態原生代理模型

GLM-5V-Turbo 是由清華大學相關研究團隊(77 位作者)發布的新一代多模態 AI 模型,所謂「多模態」就是這個 AI 能同時看懂文字、圖片、影片、網頁、文件等各種形式的資料,不只是純文字。與過去那種「語言 AI 主導、圖片理解當附加功能」的設計不同,GLM-5V-Turbo 從架構設計起就把視覺感知設為思考和決策的核心,而非外掛配件,讓它在需要同時處理文字和圖像的任務時表現更一致、更準確。這個模型特別擅長三件事:多模態程式設計任務(同時看程式碼截圖來除錯或補寫)、視覺工具使用(直接「看」圖形介面然後操作)、以及 agent 工作流程(agent 就是讓 AI 自動串起多個步驟、自行決策執行的工作模式)。研究團隊指出,讓多模態感知處於核心地位、分層優化各組件、以及可靠的端到端驗證,是讓這類 AI 真正好用的三個關鍵。

假設我要讓 AI 每天自動從公司 ERP 系統(企業資源規劃軟體,就是管進銷存、財務、人事的那套系統)的某個頁面截圖,讀出上面的數字,再填到另一份報表。舊做法是寫固定腳本(畫面版本一改就壞),或讓純文字 AI 猜(根本看不懂截圖)。用 GLM-5V-Turbo 的 agent 模式,AI 能直接「看」截圖、理解頁面上的欄位和數值、決定要按哪裡或輸入什麼,再呼叫工具執行操作,整個流程自動串起來不需人工介入。相比過去要靠視覺模型和語言模型分開協作(中間傳遞容易失真),GLM-5V-Turbo 把感知和推理合為一體,減少中間資訊損失,操作準確度更高。

T3
Perplexity 推出企業版 AI 工作流

Perplexity 是一款以 AI(人工智慧)為核心的智慧搜尋與問答工具,能幫使用者快速找資料、整理報告,可以想像成進化版 Google 搜尋加上 ChatGPT 對話的綜合體。他們最近大幅擴充企業版功能,推出「Workflows(工作流程)」——讓 AI 自動幫你按順序完成一連串重複性任務,不需要每次都手動操作。此外也新增了「Enterprise Data Connectors(企業資料連接器)」,讓公司內部系統(例如 CRM(客戶關係管理系統)、HR 系統或資料庫)可直接串接到 Perplexity,AI 回答問題時就能參考公司的內部資料,而不只限於網路上的公開資訊。更進一步,Perplexity 與 Microsoft Teams(微軟企業即時通訊工具)和 Excel(電子試算表軟體)整合,讓員工不需離開熟悉的工作介面,就能在 Teams 對話或 Excel 試算表中直接呼叫 AI 能力,瞄準讓企業的結構化業務任務和持續性自動化工作更有效率。

假設我是業務主管,每週一早上需要整理上週的銷售數字、產出給老闆的例行週報,再把關鍵指標更新到 Excel 表格,最後把摘要貼到 Teams 頻道通知團隊——以前這一套流程要花超過一小時手動完成。現在透過 Perplexity 企業版的工作流功能,我只需設定一次自動化流程:每週一讓 AI 自動從公司 CRM 系統抓取銷售資料、生成摘要週報、把重點數字寫入 Excel 對應欄位,最後自動發訊到 Teams 頻道。整個流程 AI 自動執行,我只需最後確認輸出正確,大幅節省重複作業時間。相較於舊做法(人工複製貼上資料、手動更新表格),差異在於錯誤率降低,且流程可以持續在背景自動運行,不需等人觸發。

T3
Silico:AI 模型可解釋性開發工具

Silico 是一個讓 AI 研究人員和工程師「打開 AI 黑盒子」的模型開發平台。AI 模型(就是 ChatGPT、圖片辨識系統這類能自動做判斷的程式)訓練完通常像個黑盒子——輸入資料、輸出答案,但沒人清楚中間的思考過程,一旦結果出錯,要找原因非常困難。Silico 提供五大能力:把模型拆解成可理解的特徵(模型的判斷依據)、自動診斷訓練問題(例如學太少、資訊堵在瓶頸、特徵互相干擾)、精準找出造成錯誤的混淆因素並移除、控制模型的生成行為,以及在資料量少的情況下也能讓模型有效學習。平台還內建一個叫「模型神經科學家」的自主 AI 代理(agent,就是一個能自己規劃並執行一連串實驗的助理 AI),讓研究團隊可以同時跑多組實驗、共同協作,目前已開放早期申請試用。

假設我是醫療 AI 研究員,要訓練一個模型從血液數值預測阿茲海默症的早期生物標誌物(就是疾病出現前血液中出現的異常信號)。訓練完後準確率看起來不錯,但我懷疑模型可能學到的是年齡或採樣時間這類干擾因素,而非真正有意義的生物信號。舊做法:手動設計一組又一組對照實驗,每次改一個變數再重新訓練,往往耗費幾週。用 Silico:把模型上傳,平台自動把模型內部拆解成各個特徵,列出哪些與真正的生物標誌物相關、哪些是無關的干擾;接著用健康檢測工具確認訓練有無瓶頸,再用調試功能一鍵移除混淆因素並重新調整訓練策略。最終我不只看到一個準確率數字,而是清楚知道模型學到什麼、為什麼能做判斷、哪裡還有問題——這是舊流程完全做不到的。

T3
Cursor 揭露 Agent 持續優化秘訣

Cursor(一款 AI 輔助寫程式的編輯器,類似功能加強版的 VS Code)在官方部落格分享了他們持續優化「Agent Harness」的工程方法。所謂 Agent Harness,就是讓 AI 自主執行任務時的「操控框架」——包括 AI 能用哪些工具、如何讀取程式碼脈絡、怎麼判斷自己做得好不好。Cursor 不是只靠等 AI 模型本身變強,而是同步調整這套框架來提升整體表現。他們核心使用三大技術:「願景驅動開發」(先定義理想使用者體驗再反推工程設計)、「A/B 測試」(讓真實使用者分成兩組比較新舊方案效果,並追蹤「Keep Rate」——即 AI 寫的程式碼有多少比例真的被使用者保留下來作為品質指標)、以及「動態上下文適應」(讓 AI 自己決定每次任務需要讀哪些背景資訊,而不是一律把所有資訊都塞進去,避免浪費 token(就是 AI 每次能處理的字數額度)並減少干擾)。這些改進往往來自大量小型優化的累積,而非單一重大突破。

假設我在用 Cursor 讓 AI 幫我自動修改一個複雜 bug。舊做法是:AI 每次都把整個對話歷史和所有開著的終端機輸出都塞進去,導致 token 爆掉、回應變慢,AI 也容易因為雜訊太多而搞錯方向。Cursor 新做法「動態上下文適應」讓 AI 自己判斷:這次修 bug 只需要讀最近幾次對話紀錄和目前這個終端機的錯誤輸出,其他無關資訊全部省略。結果不只速度更快,準確率也提升,因為干擾少了。Cursor 還針對不同 AI 模型分別設計不同指令格式——OpenAI 的模型用「補丁格式」送出程式碼修改,Claude 用「字串替換格式」,因為兩者訓練方式不同,強迫用同一套格式反而會讓模型表現變差。這說明 agent 框架的精細調整,和模型本身的能力同等重要。

T3
如何正確撰寫 AI 技能定義檔

SKILL.md 是給 AI 助理(就是像 Claude、ChatGPT 這類能對話的 AI)定義「技能」的設定檔,告訴 AI 遇到特定任務時該怎麼做。許多人以為這只是一段說明文字,但實際上它更像一份「載入規範」,決定什麼時候、把哪些指令送進 AI 的工作記憶(也叫「上下文窗口」,就是 AI 每次回應前能記住的資訊總量)。文章作者發現,同樣一套指令,結構寫得好和寫得差,可以差到三倍的運算成本。作者建議把 SKILL.md 拆成三層:第一層是每次都載入的基本說明(約 100 個字元份量),第二層是只在 AI 判斷適用時才讀的詳細步驟(建議上限 500 行),第三層是按需呼叫的外部參考檔和程式碼。此外,文章也提醒,當底層 AI 模型升級後,技能行為可能悄悄改變,建議維護一組「黃金測試題」定期驗證。

假設你幫公司 AI 助理定義一個「產生每週報告」的技能,原本把 1,200 行說明全寫在單一檔案裡,每次 AI 回應任何問題,都得先把這 1,200 行全部讀完,光這個技能就佔掉 AI 工作記憶的 20%,AI 能同時處理的其他內容自然受限。按文章建議重構後:前 180 行只留核心步驟與觸發條件,其餘細節拆到外部參考檔,只有在 AI 真正執行報告任務時才載入。結果是同樣的技能,記憶佔用從 20% 降到 7%,AI 可以同時處理更多其他工作,回應速度也更快。舊做法就像每次進辦公室前必須先把整本操作手冊背完,新做法是需要時才翻到對應章節。

T3
投機解碼加速RL後訓練1.8倍

AI 模型訓練完之後,通常還需要一道叫「強化學習後訓練」(Reinforcement Learning post-training,就是讓 AI 從大量嘗試與評分中學習更好的行為,類似學生反覆做題並接受老師打分後修正)的程序,才能讓模型更聰明、更安全。這個程序的瓶頸在於:AI 必須先生成大量回答(稱為 rollout,就是讓模型自己寫出一堆答案,再由評分系統判斷好壞),而逐字生成文字非常耗時。「投機解碼」(Speculative Decoding)是一種加速技巧,原理是先讓一個小模型(草稿模型)快速擬出一段答案,再讓大模型一次批次驗證哪些字對、哪些字要重算——通常大部分都能直接接受,大幅減少等待時間。這篇論文由 NVIDIA NeMo 團隊發表,把投機解碼整合進 RL 後訓練的 rollout 階段,在完全不改變輸出品質(分佈不變)的前提下,8B 參數規模的 rollout 吞吐量可提升 1.8 倍,並以高保真模擬器預測在 235B 大規模非同步訓練下整體速度可達 2.5 倍加速。

假設我要用強化學習訓練一個 8B 的數學推理模型,讓它學會一步步解數學題。整個訓練流程中,「讓模型自己生成解題過程,再由驗證器評分」這一步(rollout)占據了大部分計算時間。套用這篇論文的方法,在 NeMo-RL 框架搭配 vLLM 後端開啟投機解碼後,同樣的 rollout 步驟只需原本 55% 左右的時間(即 1.8 倍加速)。舊做法:每個 rollout batch 等 10 分鐘;新做法:同樣 batch 約 5.5 分鐘跑完。一個原本需要 7 天的訓練實驗,理論上可縮短至約 4 天完成,讓研究者更快迭代不同的訓練策略,降低實驗成本。

T3
AI Agent 誤刪資料庫防護實踐

Railway 是一個雲端部署平台(就是幫你把程式跑在網路上的服務),最近有使用者讓 AI Agent(就是能自己做決定、自動執行操作的 AI 程式)拿著權限超大的「長效 Token」(相當於一把幾乎什麼都能做的萬能鑰匙)去管理資源,結果 AI 判斷失誤,直接把線上正在服務真實使用者的 Production Database(生產資料庫,就是裝著真實用戶資料的資料庫)全部刪光了。為了防止這類災難重演,Railway 推出了「48 小時軟刪除」機制:透過 API 刪除資料庫時,資料不會立刻永久消失,而是先進入 48 小時的保留期,讓人或系統有機會發現錯誤、即時取消。Railway 同時宣布將推動更細緻的 Token 權限分級,以及支援 MCP(一種專為 AI 工具設計的標準介面,讓 AI Agent 的操作更受控、更安全)。

假設你架設了一個 AI 自動化流程,用一個擁有完整管理員權限的 Token 讓 AI Agent 去定期清理 Railway 上的舊資源。某天 AI 錯誤判斷某個生產資料庫是測試用廢棄庫,於是呼叫刪除 API,結果把真正在用的主資料庫整個刪除,所有用戶資料瞬間消失。舊做法:刪除立即生效、不可逆,只能靠備份救援(而且備份不一定是最新的)。新機制:Railway 現在把這個動作改成「軟刪除」,資料先進入 48 小時緩衝期,你或你的監控系統一旦發現異常,還可以在這段時間內取消刪除、完整還原,不需要動到備份,也不會有資料空窗期。

T3
微軟推出 AI Agent 安全治理框架

微軟安全部門推出了新的 AI 代理人(agent,就是能自動執行任務的 AI 程式,例如自動回信、自動審核文件)治理工具,讓企業的資安和 IT 團隊能夠監控、管理並保護公司內部運行的 AI agent。核心新功能叫做「Agent 365 閘道」,就像公司大門的保全系統,AI agent 每次要執行動作前都必須先通過這個關卡,系統會即時判斷該動作是否危險或可疑,可疑的就直接攔截。此外,微軟的 Defender for Cloud(雲端防護服務)現在也整合了 GitHub Advanced Security(一種掃描程式碼有無安全漏洞的工具),能自動追蹤程式碼從開發到上線整個過程中出現的問題,並用 AI 輔助修補建議。整個更新的核心理念是:現代安全防護應該像 AI 一樣「自動化且無所不在」,微軟每天分析超過 100 兆筆威脅訊號來保護企業的 AI 系統。

假設一家銀行部署了 AI agent 負責自動處理客戶開戶申請,這個 agent 有權讀取客戶資料、填寫表單、甚至觸發後台審核流程。如果沒有治理工具,一旦 agent 遭到 prompt injection 攻擊(就是有人在輸入資料裡藏壞指令騙 AI 做壞事),它可能悄悄讀取不該存取的帳戶資料,而資安人員完全不知情。有了 Agent 365 閘道,agent 的每個動作(例如「存取客戶 X 的完整財務紀錄」)都會被即時評估:符合預設允許範圍就放行,異常行為則立刻攔截並通報。資安人員可在儀表板上看到「哪個 agent 在什麼時間做了什麼事」——這是舊有安全工具完全看不見的新視角,差異在於過去出事了才能事後查,現在是即時攔截、防患未然。

T3
澳洲警告金融業 AI 正成駭客新武器

澳洲金融監管機構(負責監督銀行與金融業是否合規的政府機關)對各大銀行發出警告,指出「前沿 AI」(就是目前最頂尖的 AI 系統,例如 GPT-4、Claude 這類大型語言模型)可能被駭客用來加快、擴大網路攻擊的規模。這類 AI 能幫攻擊者更快速地找出系統漏洞、設計更精準的攻擊手法,讓以往需要大量人力與技術的攻擊門檻大幅降低。除了外部威脅,監管機構還指出銀行內部有兩大弱點:一是董事會成員對 AI 技術認識不足(高層主管不太懂 AI 是什麼、有什麼風險),二是過度依賴少數 AI 供應商(把重要系統都外包給同一家廠商,萬一該廠商出問題,整個金融系統都可能受波及)。這份警告反映出 AI 不只是進攻性工具,也正在重塑整個金融業的資安防禦格局,監管機構要求各銀行高層必須建立足夠的 AI 風險認知。

假設一名駭客想入侵某銀行的線上交易系統。過去他需要花幾週手動測試數千個可能的漏洞,成本高、效率低。現在他可以把銀行的 API 文件(也就是系統對外公開的技術說明書)或舊版安全報告輸入給前沿 AI,讓 AI 自動分析並列出「最可能被攻擊的弱點清單」,再自動產生對應的攻擊程式碼——整個流程可能從數週縮短至數小時。傳統做法是請安全專家人工模擬攻擊(稱為「滲透測試」),費時費錢且無法同時攻擊多個目標;有了 AI 輔助,攻擊者可以同時對數十家銀行發動掃描,威脅規模倍增。這就是為什麼澳洲監管機構特別強調銀行高層必須親自了解 AI 風險——不懂就無法做出正確的防禦投資決策。

T3
AI Agent 驅動企業運作大變革

顧問公司 Gartner(全球最大 IT 研究機構)在 2026 年 4 月發布的調查顯示,80% 的 CEO(公司執行長)表示,AI 自動化(讓人工智慧代替原本需要人力的工作流程)將迫使企業進行大規模的運作方式改革。這項研究訪問了全球 469 位高階主管,發現目前超過一半的企業只把 AI 用在個別孤立的任務上(例如自動回覆客服訊息),但僅有 13% 的執行長預期到 2028 年底還維持這種「零散使用」模式。換句話說,大多數企業計劃在未來幾年讓 AI Agent(能自主串連多個步驟、完成一整段工作的 AI 系統,而非只回答單一問題)接管整條作業流程,從頭到尾自動執行。這意味著人類員工的角色將從執行例行程序,轉向提供機器難以取代的判斷力、信任關係與創意思維。

以一家製造業公司的採購部門為例。過去 5 名採購員每天要分別查詢供應商報價、與歷史價格比對、填寫請款單、追蹤出貨進度——這些步驟各自獨立,資訊必須靠人在各系統之間搬來搬去,光是「整理資料再傳給下一個人」就佔去大半工時。導入 AI Agent 後,系統自動掃描報價資料庫、比對歷史均價、標記異常高價項目、預先填寫採購單並推送至主管審核,整段流程只需人工在最後點一個「核准」鍵。採購員從每天要處理幾十張訂單的「人肉轉接站」,變成只需處理系統標記的例外情況(例如首次合作的新供應商、超過預算門檻的大額採購)。舊模式靠人力讓流程動起來;新模式靠 AI 維持流程自動運轉、靠人力判斷機器無法決定的特殊案例。

T3
花旗銀行推出內部 AI Agent 平台

花旗銀行(Citi,全球最大銀行之一)開發了一個名為 Arc 的內部 AI 代理平台(AI 代理就是能自動執行工作流程的智慧程式,不需要人工一步步操作)。Arc 讓花旗的員工可以自己建立和部署 AI 代理(Agent),用來處理各種金融相關的日常作業。這個平台整合了多家頂尖 AI 模型(例如 ChatGPT、Claude 這類語言模型)於同一系統中,員工不必在不同工具之間切換。目前 Arc 已能協助團隊完成投資組合資料彙整、市場趨勢分析,以及情境壓力測試等任務,讓原本需要人工的繁瑣作業可以自動化完成,並確保資料在公司內部安全流通。

假設花旗的一位投資組合分析師需要每天早上彙整旗下數百個客戶帳戶的持股狀況,傳統做法是手動從各個後台系統撈資料、再貼到 Excel 表格分析,往往耗費半天時間。有了 Arc,他可以在平台上設定一個 AI 代理,讓它每天自動從各系統抓取資料、整理成統一格式,並自動執行「如果市場大跌 10%,各帳戶的損失分別是多少」這類情境試算。原本需要半天的人工作業,現在開市前就自動完成並呈現報告;分析師只需花幾分鐘確認結果,把剩餘時間投入更需要判斷力的客戶服務工作上。

T3
1X NEO 人形機器人工廠開始量產

1X 是一家美國機器人公司,最近在加州海沃德市正式啟用新工廠,開始大規模製造 NEO 人形機器人(外形和動作類似人類、用兩腳行走、用雙手操作的機器人)。這座 5,388 坪的工廠是美國第一座整合型人形機器人量產基地。NEO 的設計目標是進入一般家庭,協助人們處理日常生活雜務,而且特別強調能在有人的環境中安全活動,不會對同住的人造成危險。目前工廠年產能為一萬台,1X 計畫在 2027 年前將產量提升到超過十萬台。

假設你是一名行動不便的獨居長輩,平常需要人幫忙端茶、撿起地板上的東西、或把東西從一個房間拿到另一個房間。以往你必須等待家人回家或聘請看護。NEO 設計的目標就是能在家裡自由走動、辨識物品並協助搬運這類日常任務。與工廠裡使用的工業機械手臂(必須把人隔離在安全圍欄外)不同,NEO 強調可以在有人活動的空間中共存。不過目前仍屬量產初期,要到 2027 年才可能大量供應給消費者。

T3
AI 工具能否讓軟體趨近零 Bug

curl(一個廣受使用的網路資料傳輸開源工具,幾乎每台電腦和手機都裝著它)的作者 Daniel Stenberg,用自己專案的真實數據,測量現代 AI 輔助程式碼分析工具(就是幫開發者自動掃描程式、找出可能出錯地方的 AI 工具)是否真的有效到能讓軟體「幾乎沒有 bug(程式錯誤)」。他提出一個判斷方法:如果 AI 工具夠強,被發現的 bug 應該都是「最近才剛寫進去的新問題」,而不是幾年前就埋在程式裡的舊問題;同時,被修掉的 bug 數量也應該越來越少,因為舊問題已逐漸清乾淨。但他分析了 curl 多年的漏洞年齡與修復率後,兩個指標都沒有出現預期中的下降趨勢。作者最後坦言:「我認為我們還沒接近零 bug」,並指出即使現代 AI 工具有時也會建議不完整的修復方案。

假設我是維護 curl 這個開源專案的工程師。近幾年,我陸續導入各種 AI 輔助靜態分析工具(靜態分析指的是不用實際執行程式、直接掃描程式碼字面來找問題,例如 Coverity、CodeQL)。這些工具確實能快速找出不少問題——但實際上,它們挖出的漏洞有許多是好幾年前就埋在程式裡的老 bug,而非最近才新引入的錯誤。理想中,工具越進步應該越能「即時抓到剛寫錯的地方」,而不是一直挖出十年前的舊坑。從 curl 的真實數據來看,漏洞平均年齡並未明顯下降,說明 AI 工具目前仍無法保證「程式碼一寫完就被即時糾錯」,距離讓所有問題都在引入當天就被發現的理想狀態,還有相當差距。

T4
T4
AWS Neuron SDK 整合 AI 代理開發工具

AWS 推出了新版 Neuron SDK(一套讓工程師在 AWS 自家 AI 晶片上開發程式的工具包)的「Neuron Agentic Development」功能——這是一組開源的 AI 代理技能(agent skills,就是讓 AI 助手自動幫你完成特定開發任務的能力模組)。這套工具主要是為了讓使用 Trainium(AWS 自行研發的 AI 訓練用晶片)或 Inferentia(AWS 的 AI 推論晶片)的開發者,能透過 AI 編程助手更快速地開發底層程式。目前版本聚焦在 NKI 核心開發(Neuron Kernel Interface kernel development,也就是直接對晶片硬體進行低階程式設計,以最大化硬體效能),提供核心程式撰寫、除錯、查閱文件、效能分析等 AI 代理輔助功能。換句話說,以前工程師要手動查文件、手動 debug,現在可以讓 AI 助手協助完成這些繁瑣步驟。

假設一位 ML 工程師正在 AWS Trainium 晶片上撰寫自訂計算核心(custom compute kernel,就是針對硬體設計的高效計算程式,通常需要對晶片架構有深入了解)。傳統做法是:手動翻閱大量 NKI 文件找語法、自己寫程式、遇到效能瓶頸時手動跑 profiling(效能分析工具,用來找出哪段程式跑最慢)再逐行看輸出報告,整個流程可能耗費數天。有了 Neuron Agentic Development,工程師可以在 AI 編程助手中下指令:「幫我寫一個矩陣乘法的 NKI 核心,然後分析它的效能瓶頸」,AI 代理會自動查文件、生成程式碼、執行 profiling 並回傳分析結果——整個流程縮短到數小時內,也不再需要記憶大量晶片專屬 API。

T4
Wiz 發布 AI 原生開發安全套件

Wiz(一家雲端安全公司)推出了一批專門針對 AI 原生開發(就是大量依賴 AI 工具或 AI 代理自動生成、部署程式碼的開發方式)的安全功能。其中包括 AI-BOM(AI 物料清單,就像食品成分表,幫你列出專案裡用了哪些 AI 框架和套件,方便資安人員掌握全貌)以及整合進開發環境(IDE,也就是程式設計師寫程式用的工具,例如 VS Code)的安全插件,讓開發者在寫程式當下就能即時收到安全警示。這些工具還能追蹤程式碼從撰寫到雲端部署全程的風險路徑,並自動套用 OWASP(業界知名的網路安全漏洞標準清單)相關的靜態程式碼分析(SAST,不需要執行程式就能找出潛在漏洞的掃描方式)規則,發現問題後還能自動建議修正。隨著 AI 代理越來越多地自動產生並部署程式碼,這套工具的目標是幫助資安團隊對整個軟體供應鏈保有可視性與控制力。

假設你的開發團隊正在使用 GitHub Copilot 或其他 AI 工具自動生成後端 API 程式碼。以往,你可能要等程式碼推送到雲端環境後,才由外部資安掃描工具發現問題——例如 AI 生成的程式碼不小心把資料庫密碼明文寫在程式碼裡。現在透過 Wiz 的 IDE 插件,當 AI 生成這段有風險的程式碼時,你在編輯器裡就能立刻看到警示,提示它違反了某條 OWASP 安全規則,並給出修正建議。整個攔截發生在程式碼上線前,而不是出了資安事故再回頭追查,節省了大量事後處理成本。

T4
AI 專案失敗根源:組織才是黑盒

這篇文章分析了為什麼企業導入 AI(人工智慧)的專案常常失敗——但原因不是 AI 本身太難懂,而是企業自己不清楚自己是怎麼運作的。作者把這個問題稱為「搞錯方向的黑盒問題」:大家擔心 AI 是個「黑盒子」(就是運作邏輯不透明、看不出它怎麼想的系統),卻忽略了企業本身才是那個真正不透明的黑盒子。研究發現,企業內部普遍存在三類從未被整理過的知識:從未記錄下來的隱形規則、難以用語言說清楚的個人技能,以及政治敏感的決策邏輯(也就是大家心知肚明卻不公開說的潛規則)。結論是:在把業務邏輯「教給」AI 之前,企業必須先誠實地把自己的運作規則攤開來講清楚,否則 AI 只會放大現有的混亂,而不是解決問題。

我想建立一套 AI 系統,幫業務團隊決定「哪些客戶要優先服務、哪些專案要先做」。我根據公司正式規章訓練 AI:按客戶獲利率排優先順序、大客戶享有四小時回覆 SLA(服務等級協議,就是公司承諾的最長回覆時間)。但 AI 跑出來的建議老是被主管推翻,因為有幾個「中等級」客戶實際上一直排在前面——後來才知道是因為董事會有人跟那個客戶的老闆是老朋友。舊做法:新員工要靠觀察好幾個月才能慢慢摸清楚這些潛規則。按本文建議的方式:在動手建 AI 之前,先召集所有主管做一次工作坊,把 47 條真實決策依據一一列出,包括那些政治敏感的關係因素,確認哪些要明文化讓 AI 學習、哪些要保留給人來判斷。結果:避免了花半年打造出一套因為「和實際做法不符」而被打入冷宮的 AI 系統。