AI Daily Digest

📰 每日 AI 彙整

2026-05-27  ·  共 45 則報導
T1 爆炸重要T2 值得關注T3 一般資訊T4 參考用T5 可略過
T2
T2
Heretic 一行命令移除 AI 安全限制爆紅

Heretic 是一個免費開源的命令列工具,專門用來移除 AI 語言模型(就是 ChatGPT、Gemma 這類會對話的人工智慧)出廠時內建的「安全護欄」。這些護欄讓 AI 拒絕回答危險或敏感問題,是 AI 公司花費大量資源建立的安全機制——而 Heretic 只需一行指令,就能自動把它們移除,不需要重新訓練整個模型,也不需要昂貴的伺服器,一般消費級顯示卡就夠。這個工具使用的技術叫做「abliteration(定向消融)」,原理是找出模型內部負責「拒絕回應」的神經網路方向向量,然後把它壓制掉,不改動其他能力。截至 2026 年 5 月,Heretic 在 GitHub 累積 21,500 顆星,在 HuggingFace(全球最大 AI 模型分享平台)上衍生出超過 3,500 個去護欄版模型,總下載次數超過 1,300 萬次。英國《金融時報》(Financial Times,全球頂尖財經媒體)派記者親自實測,在 10 分鐘內移除了 Meta Llama 的安全護欄,隨後發表調查報導,引發主流媒體與歐盟監管機構的高度關注。

假設我是 AI 安全研究員,想評估某個開源模型在沒有任何限制下的真實行為邊界。以前的做法是:手動分析模型參數、撰寫複雜的 fine-tuning(微調,即重新訓練讓模型改變行為)腳本,需要幾天時間、大量 GPU 算力,且結果往往不穩定。現在:在終端機輸入一行 `heretic Qwen/Qwen3-4B-Instruct`,Heretic 自動找出並壓制模型內的拒絕向量,20 到 90 分鐘後(視模型大小,4B 到 9B 參數規模),就得到一個護欄被移除的本地模型版本,可直接在自己電腦上執行。差異在於:過去需要深度技術知識和高階硬體才能做到的事,現在任何有基本 Python 環境的人都能完成——這正是 FT 記者的測試所揭示的核心問題:技術門檻已大幅降低。

T2
ECC 把 Claude Code 升級為四層 Agent 系統

ECC(Everything Claude Code,就是「把 Claude Code 能做的事全包起來」的意思)是一個免費開源的框架,專門用來讓 Claude Code(Anthropic 公司推出的 AI 寫程式助手)從「每次開啟都要重新交代背景、沒有記憶」升級成「有記憶、能分工、會自動學習、還有安全審查」的系統。這個專案在 GitHub(一個讓開發者分享程式碼的平台)上累積了超過 18 萬個星(可以想成 18 萬次「點讚收藏」),是目前最受歡迎的 Claude Code 相關設定工具。ECC 的核心是四個層次的設計:Skills(技能包,246 個,每個都是告訴 AI「這種任務的標準做法是什麼」的食譜)、Agents(61 個預建的 AI 角色,例如規劃師、架構師、安全審查員,可以分工合作)、Memory(讓 AI 記住上次工作進度、下次自動帶入,不用重新解釋背景)、AgentShield(安全層,用三個獨立 AI 從不同角度互相檢查程式碼有沒有漏洞)。目前支援 Claude Code、Cursor、GitHub Copilot 等七個以上的 AI 編程平台,任何使用這些工具的開發者都能套用。

假設我是一個軟體開發者,每天用 Claude Code 維護一個複雜的電商後端專案(有會員系統、訂單系統、金流串接等幾十個功能模組)。每次重新開一個對話視窗(session,就是與 AI 的一次對話),我都要重新交代:「我們專案用 Django(一種用 Python 語言建網站的框架)、命名規則是 snake_case(用底線分隔單字的命名法)、所有新功能都要附上單元測試(用小測試程式確認每個功能運作正確)。」這樣的背景介紹每次要花 5 到 10 分鐘。用了 ECC 的 Memory 層後,每次對話開始時,系統自動載入上次工作的狀態筆記;Instincts 層在累積 10 次以上對話後,開始自動「記住」這個專案的習慣,之後 AI 不需提醒就會照規矩來,不會突然用不同的命名法或忘記要寫測試。同時 AgentShield 在每次對話中自動啟動三個獨立 AI 角度互相掃描新程式碼,其中一個 AI 找到了一個 SQL injection 漏洞(駭客透過輸入欄位偷走資料庫資料的攻擊方式),這個漏洞在單一 AI 審查時被遺漏了。舊做法:每次 session 浪費 5-10 分鐘交代背景,安全審查容易有盲點;新做法:背景自動載入、三 AI 交叉審查,系統宣稱可節省 60% 的 AI 使用費用。

T2
AI 代理完整辦公任務通過率近零

SaaS-Bench 是由 UniPat AI 發布的全新測試基準(就是一套標準化考題,專門用來衡量 AI 系統的真實能力),目的是測試 AI「電腦操作代理」(就是能自己操控電腦、打開軟體、點擊按鈕、完成任務的 AI 助理)在真實辦公環境下的實際表現。這套測試包含 23 個真實的 SaaS(就是我們日常用的線上辦公工具,例如專案管理平台、醫療系統、財務軟體)系統,共 106 個任務,其中超過九成任務需要跨越多個應用程式協作,最長的任務操作步驟超過 300 步。測試結果令人震驚:表現最強的 Claude Opus 4.7(Anthropic 推出的頂尖 AI 模型)在「中途檢查點」(任務進行中的部分得分)達到 43.9%,但必須全程無誤完成整個任務的「完整通過率」只有 3.8%,也就是 106 個任務裡只有 4 個真的做完;Kimi K2.5 和 Gemini 2.5 Pro 的完整通過率更是 0%。研究揭露了四個結構性失敗模式:任務越長錯誤越難收拾、上游一個小錯誤會讓下游損失 30% 分數、AI 自我評估失效時仍繼續盲目執行 86 步後宣告「完成」、同一個任務重跑三次結果可以從 0 分差到 0.68 分。

假設我是一位業務專員,想讓 AI 代理幫我自動完成一個跨系統的日常任務:「從 Gmail 找出本月所有客戶回覆的信件 → 把訂單資料複製到 Google Sheets → 更新 CRM(客戶關係管理系統,就是記錄客戶資料和業務進度的軟體)的進度欄位 → 最後在 Slack 上發通知給主管」。這個任務橫跨 4 個不同應用程式,操作步驟可能超過 50 步。根據 SaaS-Bench 的測試結果,即使是目前最強的 Claude Opus 4.7,能全程無誤完成這種任務的機率也不到 4%。原因是:只要中間有一步出錯(例如 AI 誤讀了某個欄位名稱),後面所有依賴它的步驟都會連帶失敗;更危險的是,AI 可能在某步發現自己做錯了,卻仍繼續往下執行幾十步,最後宣告「完成」——你以為工作自動處理好了,實際上資料全是錯的。相較於人工操作或寫固定腳本的自動化,AI 代理雖然號稱更靈活,但在跨應用長任務的可靠度上,目前仍遠不如預期,不適合直接用於企業關鍵業務流程。

T2
ClickUp 以 AI Agent 大規模取代員工

ClickUp 是一款讓企業團隊管理任務和專案的軟體服務,規模相當大。2026 年 5 月,他們宣布裁員 22%,大約 290 名員工失去工作,同時公司內部已經部署了約 3,000 個 AI Agent(就是能自動執行任務、不需要人一直操作的 AI 程式),換算下來每一位真人員工對應到三個 AI Agent 在工作。CEO Zeb Evans 罕見地直接公開承認:「這不是為了省錢,是對 AI 的全面擁抱」,並設立最高年薪 100 萬美元的新薪資等級,獎勵那些能讓 AI 發揮最大效果的留任員工。這次事件特別受矚目,因為大多數公司裁員都說是「組織優化」或「成本控制」,ClickUp 卻是業界罕見直接點明就是 AI 取代人力。員工被重新分為三類:頂尖工程師負責「指揮 AI」、中階人員要把自己的工作自動化並管理對應的 AI 系統、前線客服則由 AI 後台全力支援——這代表整個職場的工作性質正在快速重組。

假設我是 ClickUp 的一位中階工程師,以前每天的工作是自己寫程式碼、修 bug。現在,公司部署了 AI Agent 後,AI 能自動生成初版程式碼、跑測試、找出問題所在,我的工作變成「看 AI 寫的程式碼品質對不對、告訴 AI 下一步要建什麼功能、再審查輸出結果」。這就像從自己一磚一瓦蓋房子,變成工地監工——一個人能監督的工程量大幅提升,但如果我不會「監督 AI」這項新技能,這個監工職位也可能不再需要我。同樣地,客服後台過去可能需要一整組人處理工單、查找資料庫、起草標準回覆;現在 AI Agent 自動完成這些,真人只需要處理最複雜的邊緣案例。舊做法是「人力堆疊做事」,新做法是「少數人監督大量 AI 完成事」——效率大幅提升,但對於無法完成這種角色轉型的員工而言,職位本身面臨存在性風險。

T2
Waymo 無人車遇水癱瘓多城停駛

Waymo 是 Google 母公司 Alphabet 旗下的自動駕駛計程車服務(就是完全不需要人類開車、由 AI 控制方向盤的無人計程車),目前在美國多座城市運行。2026年4月,一輛沒有乘客的 Waymo 車在德州聖安東尼奧開進積水路段後被水流沖入小溪,引發美國道路安全主管機關 NHTSA 介入調查。Waymo 因此召回 3,791 輛無人計程車,透過遠端推送軟體更新(就像手機系統更新一樣,不用把車開進廠)來限制車輛進入積水區域。然而補丁上路不到兩週,亞特蘭大又發生另一輛空車陷入嚴重積水、困在洪水中超過一小時的事件,Waymo 隨即在亞特蘭大、奧斯汀、達拉斯、休士頓、聖安東尼奧五座城市全面停止服務。技術根源在於:Waymo 的感知系統依賴 LiDAR(一種用雷射光掃描周圍環境、建立 3D 地圖的感測器),而 LiDAR 在積水環境中因水面反射會大幅失準;加上系統採用「規則驅動架構」(事先由工程師寫好規則,說什麼情況該做什麼),而非能自己從資料中學習的 AI 模型,導致「下雨速度比氣象局預警還快」的突發狀況下完全反應不過來。Waymo 在召回文件中也坦承,「識別和迴避積水區域的最終解決方案尚未開發完成」,此次補丁只是過渡措施。

想像你叫了一輛 Waymo 無人計程車去接機,途中突然一陣暴雨讓路面積水。舊系統的邏輯是:「等美國國家氣象局發出暴洪警報,再切換限制模式」——但暴雨往往比預警快,車子已經開進積水路段了。Waymo 打了補丁後,限制了「高風險區域」行駛,但判斷標準仍是依賴外部氣象資料,不是車子自己用攝影機和雷達即時判斷路面有沒有積水。亞特蘭大那輛車就是在「補丁已上線」的狀態下仍衝進洪水,困了一個多小時。若改成「多模態融合+端到端學習」(讓 AI 同時看 LiDAR、攝影機、毫米波雷達三種感測器,並從大量積水案例中自己學出避開規則,而非靠工程師手動枚舉情境),才可能真正根治這個問題;但目前 Waymo 自己也承認這套方案還沒做好,多城市停駛是不得不走的一步。

T2
Grok 0.5T 開源模型年底前釋出

2026 年 5 月 25 日,Elon Musk(Tesla、SpaceX 創辦人,同時也主導 AI 公司 xAI)在社群媒體 X 上宣布,xAI 計畫在 2026 年底前開放 Grok V8-Small 的「開放權重(open weights)」——所謂開放權重,就是把 AI 模型的核心參數數據完整公開,任何人都可以下載回去、自行安裝在自己的伺服器上使用,不必透過 xAI 的服務。這個模型的規模約為 0.5 兆參數(參數是 AI 在學習過程中儲存知識的數量,數字越大通常代表模型越強),若順利釋出,將成為目前開放生態中規模最大的模型之一,超越現有的 Meta Llama 3.1(4050 億參數)。同日 Musk 也確認,下一代 Grok V9-Medium(規模更大的 1.5 兆參數版)已完成訓練,預計 2 到 3 週內就會公開供用戶使用;這個新版本特別在程式碼生成能力上下了重功夫,訓練期間大量引入程式輔助工具的資料。不過,xAI 有延遲開源的前科——Grok 2.5 在 2025 年 8 月才上線開放平台,Grok 3 的開源更延至 2026 年 2 月——社群普遍對「年底」這個承諾持保留態度。

假設你是一家台灣新創公司的工程師,想在公司自己的伺服器上架設 AI 程式碼助手,讓同事在不上傳任何程式碼到外部服務的前提下獲得 AI 輔助(資安考量)。目前的困境是:最強的公開模型 Meta Llama 3.1 405B 已需要至少 8 張高階顯卡才能跑,但效能仍遜於 ChatGPT-4 或 Claude;商業 AI 服務則需要把程式碼送到外部伺服器處理,增加資安風險。如果 Grok V8-Small(0.5T)如期開放且提供「量化版(以較少的計算資源換取稍低精度的壓縮版)」,你可能就能用原本的硬體規模,部署一個接近頂尖商業 AI 效能的本地助手——既不用把程式碼外傳,又比現有開放模型強得多。差別是:現在你只能在「資安」和「AI 品質」之間妥協;屆時兩者有機會同時達成。但這個前提是 xAI 真的在年底前兌現承諾,而根據過去紀錄,這件事值得持續觀察而非提前規劃。

T2
全球首個 AI 自寫預訓練框架誕生

面壁智能(就是做 MiniCPM 系列模型的中國 AI 公司)做到了一件「讓 AI 替人類寫訓練工具」的事,而且是全球頭一遭:他們讓 AI 自動生成了一套完整的「預訓練框架」(就是用來訓練大型語言模型的底層程式,好比是煉鋼廠裡的熔爐)叫做 ForgeTrain,這套框架不是人工一行行寫出來的,而是 AI 根據目標硬體和任務自動生成的專屬代碼。測試結果顯示,ForgeTrain 在華為昇騰晶片上,訓練速度比英偉達官方框架 Megatron(目前業界最廣泛使用的模型訓練工具之一)快了整整 10%。他們還用這套框架訓練出了新模型 MiniCPM5-1B,這個 1B 參數(約 10 億個「權重」規模的小模型),在業界排行榜上擊敗了所有 2B 以下的模型,甚至比三個月前的 Qwen3.5-2B(參數量是它兩倍)表現更好。這背後代表的新思路叫「Forge Engineering」:不再做一套「萬用」框架,而是針對每個模型、每塊硬體、每個任務,讓 AI 自動生成一套最佳化的專屬程式。

假設你是研究員,要在華為昇騰 910 晶片上訓練一個 1B 參數的語言模型。過去的做法是直接拿 Megatron 或 DeepSpeed 這類「萬用框架」來跑,但這些框架為了相容各種硬體和模型,裡頭塞了大量通用邏輯,在特定硬體上跑起來並不是最快的。用 ForgeTrain 的新做法是:把「我的硬體是昇騰 910、模型架構長這樣、訓練目標是這個」告訴 AI,AI 自動幫你生成一套只針對這個組合最佳化的訓練框架代碼,不帶任何多餘邏輯。結果:同樣訓練 MiniCPM5-1B,ForgeTrain 比 Megatron 快了 10%——在要跑好幾週的大規模訓練任務裡,這代表省下數天的算力成本。訓練出的 MiniCPM5-1B 模型只有 2GB(一般精度),甚至可以塞進手機裡跑,但效果超越了體積是它兩倍的 Qwen3.5-2B。

T2
DeepMind AI 解開 9 道人類半世紀數學懸案

Google 旗下的 AI 研究機構 DeepMind,發布了一個叫 AlphaProof Nexus 的新 AI 系統,一次性破解了 9 道「埃爾德什懸賞問題」——這些是匈牙利傳奇數學家 Paul Erdős 生前提出、並用現金懸賞邀請全球數學家來解的著名難題,其中有一道從 1970 年提出至今整整卡了 56 年都沒人能解開。這個 AI 系統的運作方式是:先讓 Gemini(Google 自家的大型語言模型,也就是和 ChatGPT 同類、會對話的 AI)生成一步一步的數學證明草稿,再交給一個叫 Lean 的數學驗證軟體(可以把它想成「數學的編譯器(compiler)——就像程式碼要跑過檢查才算正確,Lean 會逐行核對每個邏輯步驟是否成立」)進行嚴格校驗,驗證失敗就把錯誤回饋給模型讓它修正,不停循環直到全部通過。除了這 9 道問題之外,這個系統還額外證明了數論(研究整數規律的數學分支)領域的 44 個猜想,以及解決了一道困擾學界 15 年的代數幾何難題,而且解一道題只需花費幾百美元的算力成本。

以其中一道「Erdős #12」為例:這道 1970 年提出的問題要求找出一個無限整數集合,同時滿足兩個看似矛盾的限制條件(整除性限制和密度約束)。傳統做法是數學家在紙上構思可能的集合結構,手動推導每個邏輯步驟,再反覆確認整個證明環環相扣——這個過程在 56 年內沒有任何人成功。AlphaProof Nexus 的做法則是:Gemini 先用 Lean 語言(一種讓電腦能理解的數學證明語言)寫出一份嘗試性的完整證明,Lean 編譯器立刻逐行檢查哪裡邏輯不通並回報具體錯誤位置,模型根據錯誤修改再試,如此反覆循環,直到 Lean 確認整個證明從頭到尾邏輯完全正確為止。最終 AI 找到了人類數學家幾十年間沒有想到的證明路徑,且由於每一步都經過形式化驗證,不存在「AI 憑空捏造答案」的問題——和傳統 AI 可能一本正經說錯話不同,這套系統的答案是機器可核實的嚴格正確。

T2
國產SkyClaw媲美全球頂尖Agent

SkyClaw-v1.0 是中國公司昆仑萬維在 2026 年 5 月發布的一款原生 AI Agent 模型(Agent 就是能自動完成多個步驟任務的 AI,比如自己規劃流程、呼叫工具、查資料、寫程式再整合結果,而不只是回答問題)。與大多數以「聊天對話」為核心訓練的 AI 不同,SkyClaw 從訓練第一天起的目標就是「幹活」而非「聊天」,在大量複雜 Agent 任務上進行了針對性強化。根據發布方說法,在 Agent 相關任務上,SkyClaw-v1.0 已可與 Claude Opus 4.6(Anthropic 公司的頂尖閉源 AI 模型)正面競爭。它支援高達百萬 Token 的超長上下文(Token 是 AI 讀取文字的基本單位,百萬 Token 大約等於一整本長篇小說的篇幅),並深度適配 Claude Code、Hermes、Nanobot 等主流 Agent 開發框架(框架就是幫工程師快速搭建 AI 應用的工具包),目前限時免費試用且計畫逐步開源。

假設你是開發者,想打造一套「AI 週報自動生成系統」:每週自動爬取特定技術網站的最新資料、分析整理後,以有前端介面的報告形式輸出。傳統做法需要你分別設計爬蟲程式、資料分析邏輯、前端頁面,再把三塊串接起來,每個環節都要自己親手規劃,少說幾天工時。用 SkyClaw-v1.0 作為 Agent 核心,你只需用自然語言描述需求——「幫我做一個每週抓 X 網站文章、整理摘要、顯示成網頁的系統」——模型會自動拆解任務步驟、依序調用爬蟲工具、資料庫存取、程式生成等動作,最終輸出完整可執行的全棧應用。據發布方實測,類似的複雜多步驟任務(含金融終端 UI 開發、電子桌寵前後端整合)均可穩定完成,而用一般聊天型 AI 處理同樣任務,往往在中途工具調用失敗或步驟遺漏時就卡住需要人工介入。

T2
文字擴散模型三大里程碑

文字擴散模型(Text Diffusion Models)是一種打破傳統 AI 文字生成方式的新架構。過去幾乎所有 LLM(就是 ChatGPT 這種會對話的 AI)都是「左到右一個字一個字生成」——像打字機一樣,下一個字只能看前面已經打好的字,無法回頭修改。文字擴散模型改變了這個邏輯:它先把文字「弄亂」(加入雜訊或遮蔽詞語),再訓練 AI 學會「一步步還原」,生成時可以同時更新多個位置、用雙向上下文,甚至重新審視自己寫出的內容。目前代表這個新方向的三個系統是:LLaDA(科學驗證擴散方法能做出真正的大型語言模型)、Mercury(把擴散模型轉化為商業速度優勢,已實際部署)、以及 Gemini Diffusion(Google DeepMind 旗下,顯示頂尖 AI 實驗室正將此列為策略重點)。

假設我要用 AI 幫我修整一篇長報告的段落結構。傳統 LLM 只能從頭到尾重寫——因為它每次只能「看前面的字、預測下一個字」,無法同時審視全文再做調整,若中間某段邏輯要改,很可能前後矛盾或必須重新生成全文。換成文字擴散模型,AI 從一份「充滿雜訊的草稿」開始,多輪迭代地讓全文語意逐漸成型——像雕塑師從一塊泥土慢慢刻出形狀,而不是用筆從左到右描線。Mercury 在此路線上已達商業部署,主打生成速度優勢;Gemini Diffusion 則釋放訊號:Google 等頂尖實驗室正把這個架構當成下一代模型的認真候選。對開發者來說,值得開始追蹤這類模型在長文本生成與編輯任務上的實際效能差異。

T2
AI 幻覺引用滲入醫學論文

哥倫比亞大學等機構對 250 萬篇生物醫學論文進行審查,發現自 2023 年以來,論文中出現偽造參考文獻的比率增加了超過十二倍。研究人員懷疑這與 LLM(就是 ChatGPT 這類能生成文字的 AI)的廣泛使用有關。這些偽造引用的特點是:符合論文主題、格式正確,幾乎無法用肉眼辨識,這正是 AI 幻覺(AI 一本正經胡說八道、捏造不存在事實的現象)的典型模式。更令人擔憂的是,受影響的論文中有 98% 未獲出版社任何回應,意味著這些錯誤可能繼續留在文獻庫中,並進一步污染臨床指引(醫院和醫生制定治療方案時參考的依據)。

一位醫院政策制定者在審視某治療方案的依據時,發現關鍵論文引用了一篇「2021 年 Nature Medicine 的研究」。他照著引用去查找原始研究,卻發現那篇文章根本不存在——那是 AI 寫作輔助工具捏造的虛假引用,格式正確、作者名稱真實,但論文本身從未發表。由於這類偽造引用難以辨別,傳統同儕審查(學術論文發表前由其他專家審核的制度)幾乎攔不住。根據這份審查,2023 年後偽造引用比率爆增十二倍,而 98% 的問題論文出版社未做任何處置,代表臨床指引可能已在引用從未存在的研究成果,最終影響真實病人的治療決策。

T2
Gemini 3.5 Flash 快 4 倍 agentic 評測勝出

Google 推出的 Gemini 3.5 Flash 是一款主打「超高速」的 AI 語言模型,比前代 Gemini 3.1 Pro 整整快了 4 倍。它特別針對「代理人工作流程」(agentic workflow,就是讓 AI 自動一步步串聯完成複雜任務,例如幫你查資料、寫程式、發通知的連環動作)做了強化。在 Terminal-Bench(測試 AI 操控電腦終端機能力的評測基準)和 MCP Atlas(測試 AI 串聯多種工具能力的評測)上,Gemini 3.5 Flash 的表現都超越了 3.1 Pro。不過知名 AI 評論家 Zvi 指出,若和目前頂尖的 Opus 4.7 或 GPT-5.5 相比,Gemini 3.5 Flash 的核心優勢集中在「低延遲、速度優先」的場景,在不在乎速度的一般任務上說服力不足。

假設我想做一套「每天自動整理新聞、寄摘要 Email、順便更新 Google 試算表」的 AI 自動化流程。這種流程需要 AI 模型不斷呼叫外部工具(查網路、操作試算表、發 Email),每一步都要等 AI 回應,所以模型速度慢的話,整個流程可能從幾分鐘拖到十幾分鐘。換成 Gemini 3.5 Flash,因為它比 3.1 Pro 快 4 倍,同樣的流程執行時間直接縮短到原本四分之一;而 MCP Atlas 評測也顯示它在「工具串聯準確率」上贏過 3.1 Pro,也就是不只速度快,能正確完成多步工具呼叫的能力也更強。若任務是一次性寫一篇長篇分析,Opus 4.7 或 GPT-5.5 的品質可能更好;但自動化 pipeline 這類速度敏感場景,Gemini 3.5 Flash 是更划算的選擇。

T3
T3
Unabyss AI 上下文記憶同步工具

每次切換 AI 工具(例如從 ChatGPT 換成 Claude 再換成 Cursor),你都要重新跟 AI 解釋「我是誰、我的專案在幹嘛、我的寫作風格是什麼」——這個重複說明的痛苦,Unabyss 想一次解決掉。Unabyss 透過 MCP(Model Context Protocol,就是 Anthropic 推出的一個讓 AI 工具和外部資料來源標準化溝通的協議,Claude Code 和 Cursor 等工具都已原生支援)讓你連接 LinkedIn、Notion、Gmail、Slack、GitHub 等 30 多個應用程式,90 秒內自動幫你建出一套結構化的「自我介紹文件」(例如 persona.md 描述你是誰、voice.md 記錄你的寫作風格),之後所有支援 MCP 的 AI 工具都能即時取用這些資料。它還聲稱因為做了精準分割和授權閘控(查詢時才取用相關資料,不是一次把所有東西塞給 AI),比傳統 RAG(讓 AI 回答前先查資料庫的方法)省下最多 10 倍的 token 用量(token 就是 AI 讀取文字時消耗的計算費用單位)。2026 年 5 月 25 日在 Product Hunt 首日拿下 #1,獲得 457 票支持及 ElevenLabs 資助。

假設你是一個軟體工程師,同時用 Claude Code 寫程式、用 Cursor 做 code review、偶爾用 ChatGPT 問技術問題。每次換工具,你都要在對話框重新打「我用 Go 語言、習慣乾淨的錯誤處理、專案是個 B2B SaaS 後端……」——每天可能要打好幾次。接入 Unabyss 之後,你只需要設定一次:連結你的 GitHub(它會分析你的 commit 風格)、Notion(抓專案說明)、Slack(了解你的溝通習慣),系統自動生成 persona.md 和 voice.md 等檔案,並每天自動更新。之後只要在 Claude Code 或 Cursor 貼上一個 MCP token 指令,AI 工具就能即時讀到你的背景,不需要再重複介紹自己。舊做法是每次手動維護 CLAUDE.md 或在每個工具裡重複貼說明,差異是:前者要你自己維護且各工具不同步,Unabyss 是一份來源、自動更新、各工具共用。

T3
OpenAI 整合巴西授權葡語新聞

OpenAI 與巴西兩大媒體集團——Grupo Folha(旗下有葡語大報《聖保羅葉報》)及 Grupo UOL——簽署了內容授權合作,讓 ChatGPT 能即時讀取巴西葡語授權新聞,這是 OpenAI 在巴西的第一個商業媒體授權協議。這次合作同時終止了 Folha de S.Paulo 在 2025 年提起的訴訟——原本控告 OpenAI 未經許可就大規模抓取其網站內容。ChatGPT 整合巴西葡語新聞後,改以 RAG(Retrieval-Augmented Generation,意思是讓 AI 回答前先去查最新資料庫,而不是只靠訓練時背下來的舊資料)方式即時呈現新聞摘要,並附原始報導連結。從訴訟到和解再到授權,這條路與《紐約時報》過去對 OpenAI 的案子走法相似,標誌著媒體業正在摸索出「先告再合作」的新談判模板。

假設你是巴西用戶,今天在 ChatGPT 問「昨晚聖保羅發生了什麼大事?」——以前 ChatGPT 只能依賴訓練資料截止日前的舊資訊回答,遇到昨天的新聞就直接說「我不知道」,或者更糟糕地捏造一個聽起來合理但實際上不存在的新聞。現在,ChatGPT 透過 RAG 即時撈取 Folha de S.Paulo 的授權新聞,能用葡語摘要昨晚的報導,並附上原始連結讓你去核實。對比舊做法:舊的是「資訊截止、憑記憶、可能出錯」,新的是「即時撈取、有來源歸因、可追溯」。

T3
語言模型也需要睡眠

這篇論文提出,像 ChatGPT 這類的語言模型(會對話的 AI)應該模仿人類睡眠,設計一個週期性「睡眠」機制。目前的 AI 在處理長對話時,所有的上下文資訊都擠在一個叫「鍵值快取(KV cache,相當於 AI 的短期工作記憶)」的地方,越長的對話計算量越重。這篇研究讓 AI 每隔一段時間就「睡一覺」——在睡眠階段執行多輪內部運算,把剛才累積的對話記憶壓縮到模型核心參數(相當於長期記憶)裡,然後清空短期記憶重新出發。就像人類睡覺時大腦會把白天的經歷整理成長期記憶一樣。研究結果顯示,在需要多步推理的數學題和複雜查詢任務上,這種方法的表現超越了標準 Transformer(目前主流 AI 架構)和混合架構模型,且越需要深層推理的題目,「睡得越多」效果越好。

假設你叫 AI 解一道需要 10 個邏輯步驟的數學應用題,每一步都要依賴前一步的結論。現有的 AI 往往在第 6、7 步就開始出錯,因為所有中間步驟都在搶有限的「工作記憶空間」,容易混亂。引入睡眠機制後,AI 處理前幾步時觸發一次「睡眠」,把已推導的結論壓縮進自身參數,清掉舊的暫存,再以「記住了前幾步結論」的狀態繼續推導後面。對比之下:舊做法是把 10 步全部同時塞在短期記憶裡、互相干擾;新做法是像學生「複習→睡覺→隔天帶著內化知識繼續做題」,答對率顯著提升。目前這還是學術研究階段,實際部署在 GPT / Claude 等商業模型還需要時間。

T3
AI 驅動 Windows 桌面自動化工具

Minicor 是一個讓 AI 幫忙自動操作 Windows 桌面軟體的工具,特別適合那些沒有提供 API(就是沒有「程式接口」——讓外部軟體直接傳送或讀取資料的管道)的老舊系統。他們透過 MCP(一種讓 AI 助理能使用外部工具的通訊協定)讓 Claude Code 或 Codex 這類 AI 助理「看著」虛擬機器畫面,然後用 Python 程式碼把操作步驟錄成可重複執行的腳本。傳統的 RPA(Robotic Process Automation,機器人流程自動化——讓程式模擬人類滑鼠鍵盤操作的技術)大規模部署時常有 30% 以上的失敗率,原因是 UI 介面時常改版、多台機器的排程管理複雜、出錯後幾乎看不到任何線索。Minicor 透過 AI 自動偵錯、影片回放記錄、版本控制讓 RPA 更穩定,並支援 VM(虛擬機器)複製以並行跑多個流程、2FA 雙重驗證挑戰、Slack 通知及人工介入審核等企業需求。這是 YC(Y Combinator,矽谷最知名的新創孵化器)2026 年春季批次的入選公司,目前主要服務需要整合老舊桌面系統的 AI 公司與企業客戶。

假設你要整合一家醫療診所的 Windows 病歷系統,這套系統完全沒有 API,傳統程式根本無從串接。用 Minicor,AI 助理會先「觀看」這套系統的操作畫面,自動學習步驟:打開病歷、搜尋病人姓名、填寫欄位、儲存——然後產出一段 Python 腳本。之後每次需要同步資料,直接執行這段腳本即可,不需要人工點按,也可以複製出幾十台虛擬機器同時處理大量病歷。若診所系統介面改版導致腳本失敗,AI 會自動截圖偵測哪裡不對並更新程式碼。舊做法是雇人手動操作(慢、貴、易出錯),或花數個月開發客製整合程式(而且老系統往往根本接不上)。

T3
開源模型外包組合成本遠勝前沿API

這篇分析文章指出,把工程開發工作外包給薪資較低的國家,並搭配使用「本地開源 AI 模型」(就是下載到自己伺服器上運行、不需按用量付費的 AI 程式),整體費用即將遠超越使用 OpenAI、Anthropic 這類大型 AI 公司提供的「前沿 API」(就是透過網路呼叫這些公司的雲端 AI、按用量計費的服務)。目前最受矚目的對比是中國開源模型 DeepSeek:每處理一百萬個「token」(AI 閱讀和生成文字的計量單位,一百萬 token 大約等於一本中型小說的文字量),DeepSeek 只需 0.094 美元,而 Anthropic 要 2.82 美元、OpenAI 要 2.80 美元,兩者相差整整 30 倍。更讓企業頭痛的是「tokenmaxxing」現象——前沿模型廠商不只持續漲價(GPT-5.5 的費用已是八個月前 GPT-5 的三倍以上),同時每次呼叫 AI 消耗的 token 數量也在增加,兩個因素疊加使企業帳單雙倍暴漲。文章的核心結論是:只要開源模型品質持續進步、推論硬體成本下降,這個 30 倍的價差就會讓愈來愈多企業選擇「本地 AI + 外包工程師」取代直接訂閱前沿 API。

假設你是一家台灣新創,需要打造一個每天幫客服自動回覆電子郵件的 AI Agent(就是能自動執行任務的 AI 系統)。若使用 Claude API(Anthropic 的雲端 AI 服務),每天處理約一千萬個 token,費用是 28.2 美元/天、約 10,290 美元/年。改用 DeepSeek 開源版本架設在自己的雲端伺服器上,同樣一千萬 token 的推論成本只需 0.94 美元/天、約 343 美元/年,省下超過 96%。即使再雇一位在菲律賓或印度、每月薪資 1,000 美元的 AI 工程師負責維護模型和處理邊緣狀況,年度總開銷仍遠低於單純使用 Claude API。過去,大多數公司直接用 OpenAI 或 Anthropic API,把所有複雜度外包給雲端廠商;但如今這種便利的代價愈來愈明顯——隨著使用量成長,帳單以指數速度上升,而開源替代品已足以應付大量商業場景。

T3
Eagle 3.1 推測解碼加速升級

Eagle 3.1 是由 EAGLE 研究團隊、vLLM(一套廣泛使用的大型語言模型推理框架,讓 AI 模型能快速回應使用者)以及 TorchSpec 團隊合作推出的推測解碼(speculative decoding,一種讓 AI 回答更快的技術)新版本。推測解碼的核心思路是:用一個小的「草稿模型」先快速猜測接下來幾個字,再讓主要的大模型一次驗證這些猜測是否正確,藉此節省大量計算時間、讓 AI 回應更快。Eagle 3.1 針對前一版本在長文本處理時加速效果下降的問題進行了改善,特別解決了「注意力漂移(attention drift)」的現象——這是指模型在處理很長的輸入文字時,草稿模型的預測準確率會悄悄下滑,導致加速效果消失。新版在長上下文輸入情境下提供更穩定的加速效果,對程式碼生成等任務尤其明顯。

假設你在本機跑一個 Llama 3 大語言模型幫你寫程式碼,每次等它回應都要 5~10 秒。啟用 Eagle 3.1 的推測解碼後,系統讓小草稿模型快速猜出接下來 4~5 個 token(大致對應幾個字或符號),主模型一次確認,猜對的直接輸出、猜錯的從錯誤點重算。舊版 Eagle 3 的問題是:如果你的輸入很長(例如貼了幾百行程式碼請 AI 修改),加速效果會明顯衰退,因為注意力漂移讓草稿猜對率下滑。Eagle 3.1 修正了這個現象,長輸入情境下草稿命中率維持穩定——實際感受就是無論輸入幾百行還是幾十行,回應速度都能維持接近的加速幅度,不會因為「輸入太長」而變回原本的慢速。

T3
企業 AI 代理轉型的野心與落差

一項針對全球企業的調查揭露了一個矛盾現象:85% 的組織說他們希望在三年內變成「AI 代理導向」的公司,也就是讓 AI(人工智慧)自動化工具全面接手大量日常工作流程,但同時 76% 的受訪企業坦承,自己目前的作業系統和基礎建設根本撐不住這個轉變。最大的問題不是 AI 技術不夠好,而是企業只是把 AI 工具「貼」在原本的人工流程上,沒有真正改造組織結構。為此,研究人員提出了「代理式商業轉型(ABT,Agentic Business Transformation,即讓 AI 代理徹底重塑企業運作的系統性方法)」框架,要求企業從三個面向同步改革:一、技術架構要讓 AI 同時串聯各部門系統,而非各自獨立;二、人力結構方面,McKinsey(麥肯錫,全球知名管理顧問公司)估計 2030 年前有 75% 的職位需要重新設計;三、成功指標要從「做了多少事」改為「產生了什麼成果」。

某企業原本用「AI 每天處理了幾千筆客服訊息」來評估 AI 導入成效,這是典型的「活動量」思維。後來他們改成追蹤「AI 幫客戶解決問題的比率」和「客戶滿意度提升幅度」——這是「成果導向」指標。光是這個測量方式的改變,讓他們在兩個季度內看到 ROI(投資報酬率,就是花一塊錢能賺回多少錢)成長了三倍。對比舊做法,AI 其實做的工作量差不多,但因為把重心放在真正有商業價值的結果上,公司才發現哪些 AI 任務真的值得投入、哪些只是讓人覺得「很忙」卻沒實質貢獻。

T3
千問3.7 程式能力全球第二

阿里巴巴旗下的 Qwen3.7(千問3.7)大語言模型(就是像 ChatGPT 那樣會對話、會寫程式碼的 AI),在一個叫做 Code Arena 的國際程式能力評測榜單上拿到了全球第二名,僅次於 Anthropic 的 Claude 系列模型。Code Arena 是由第三方評測平台 LMArena 推出的榜單,特別的是它不考簡單的演算法題,而是要求 AI 從頭開始寫出一個完整的、可以在瀏覽器裡實際操作的網頁應用,再由真實開發者對兩兩匿名模型的成果投票——這種「真人打分」方式比傳統選擇題測驗更接近日常使用情境。Qwen3.7 拿下 1541 分,是榜單上唯一突破 1540 分大關的中國大模型,超越了 GPT-5.5、Gemini-3.5-Flash、GLM、Kimi 等多款知名 AI,打進了原本由 Claude 4.6 與 4.7 壟斷的前排。

假設我要讓 AI 幫我做一個「在網頁上管理待辦事項、可以新增和刪除項目、並記住我上次的清單」的小工具。Code Arena 的評測邏輯就是這樣:出一道「從頭做出一個完整可操作網頁應用」的題目,讓各家 AI 各自作答,再由真實開發者盲測投票選出做得較好的那個。Qwen3.7 生成的不是片段程式碼,而是整個可以直接在瀏覽器打開、立即能用的成品(包含 HTML、互動介面、資料儲存邏輯)。在這種評測標準下,它打贏了 GPT-5.5 和 Gemini 等模型,只輸給 Claude,代表它在「從頭生成可執行完整應用」這件事上,已經站穩全球頂尖水準;對想用 AI 快速搭建前端小工具的開發者來說,Qwen3.7 是現在值得認真考慮的選項。

T3
印度零工幫全球機器人採集訓練資料

Human Archive 是一家由加州大學柏克萊分校和史丹佛大學研究人員創辦的矽谷新創,他們在解決「機器人為何那麼笨」的根本問題——缺少真實世界的動作訓練資料。做法是招募印度家政、飯店、餐廳等服務業的工作者,讓這些零工戴上配有攝影機和感測器的特製帽子,一邊做日常工作一邊錄下第一人稱視角的影片、動作數據,甚至手部觸覺反饋,再把這些資料授權給全球機器人公司與物理 AI(讓機器人能真正理解並操作現實世界的 AI 技術)研究機構。截至目前已部署超過 1,000 頂「資料收集頭盔」,2026 年 5 月完成 820 萬美元融資,投資人包含 Y Combinator 和 OpenAI 天使投資人。值得注意的是,每位零工時薪僅 1 美元,已引發倫理爭議,並遭多家印度主要服務平台拒絕合作。

假設一家機器人公司想讓機器手臂學會「疊衣服」。傳統做法是讓工程師在實驗室一次次示範動作,但速度慢、成本高,場景也極為有限。Human Archive 的做法是:讓數百位在印度從事家政服務的工作者每天戴著感測帽做家務,一週就能蒐集到成千上萬次真實疊衣、整理廚房、擦桌子的動作影片,連手指觸碰布料時的力道反饋都同步記錄。機器人公司用這批「真人規模化示範資料」訓練後,機器手臂能從多樣的真實場景學習,而不只是實驗室幾十次標準示範的有限複製。差別在於:自行採集頂多幾百筆,Human Archive 能提供跨場景、大規模的真實動作資料集。

T3
AI 讓美國法院陷訴訟文書噩夢

麻省理工學院(MIT)與南加州大學(USC)聯合發表了一份橫跨 2005 到 2026 年、分析超過 450 萬份美國聯邦民事訴訟案的大型研究。研究發現,自從 ChatGPT(就是 OpenAI 推出的 AI 對話工具,目前全球最廣為人知的 AI 聊天機器人)在 2022 年底普及後,自行提告、不聘任律師的當事人(稱為「自訴人」,英文 pro se)比例從過去 20 年穩定維持的 11%,一路急升至 2025 年的 16.8%;2025 年全年這類案件達 41,490 件,幾乎是 AI 普及前平均值的兩倍。法院收到的訴訟文書中,含有 AI 生成文字的比例從 2023 年的 1% 暴增到 2026 年初的 18%,而且 2025 年全年新增民事訴訟中,有高達 59% 來自這類自訴當事人。AI 幫助弱勢民眾踏進司法程序、降低「請不起律師」門檻的效果確實存在,但也同時製造出大量品質參差不齊、甚至含有 AI 憑空捏造的假判例的訴訟文件,讓法院系統不堪重負——有法官直接下令,某名當事人日後任何申請都將「直接銷毀、不另通知」,並公開稱此趨勢為「法院存亡威脅」。

假設王先生和一家電信公司有消費糾紛,過去因請不起律師只能默默接受。現在他把遭遇告訴 ChatGPT,AI 幫他起草一份格式像模像樣的民事訴訟狀,裡面有引用法條、有列舉判例,看起來相當專業。問題是:研究在 AI 生成的法律文件中發現了多達 129 個「已記錄的虛假判例」——AI 會直接捏造根本不存在的法院判決,讓法官和助理花大量時間逐一查核。更大的問題在於規模:這樣的王先生現在每天有幾十位,導致案件開始後 180 天內的法院文書量暴增 158%;政府機關被告根本追不上申訴速度;書記官要一一讀取、編目、建檔所有來件,行政資源幾乎被榨乾。對比舊做法(當事人因無力負擔律師費直接放棄),AI 讓更多糾紛進了法院,但同時也讓這些案件的處理成本由全體納稅人承擔。

T3
Grok Build 推出 AI 程式助手 CLI

Grok Build 是由 xAI(馬斯克創辦的 AI 公司 Grok 背後的團隊)推出的全新 AI 程式設計助手,以 CLI(command-line interface,就是在黑色終端機畫面打指令使用的文字工具)的形式發布,目前開放 SuperGrok 及 X Premium Plus(X 社群的付費訂閱方案)用戶搶先測試。它的設計目標是協助開發者處理結構複雜的大型程式專案,而不只是回答單行程式問題。最大特色是支援「計畫模式」(plan mode),也就是 AI 動手改程式碼之前會先列出它打算做什麼、改哪些地方,讓使用者確認後再執行,避免直接對程式碼亂動。此外,它具備無頭模式(headless mode,不需開任何介面視窗、完全在後台自動執行),可以接進 CI/CD 自動化流程;還能分派多個子 agent(subagents,把大任務拆分給多個 AI 小助手同時處理),做到並行作業加速。整體定位與 Anthropic 的 Claude Code、GitHub Copilot CLI 類似,是 Grok 正式進入「AI 幫你寫程式」這塊市場的宣告。

假設我是一名後端工程師,要把一個舊的 Node.js 專案從 CommonJS(舊的 JavaScript 模組寫法,用 require())整體遷移到 ES Module(新寫法,用 import)。這種改動需要掃描所有檔案、改語法、調整 package.json、重跑測試確認沒壞——手動做通常要好幾小時。用 Grok Build,我先啟動計畫模式,讓它列出它打算動哪些檔案;確認無誤後,它能同時派出多個子 agent 分頭處理 /src、/tests、/scripts 等不同目錄,大幅縮短等待時間。最後,整個遷移在我只需做一次確認的情況下完成,而不是逐行手改或反覆盯著 Copilot 的單行建議。差異在於:舊的 AI 輔助工具只能「建議」,Grok Build 可以「端到端執行整個計畫」,你的角色從打字改成審核。

T3
教宗發布 AI 倫理通諭

天主教最高領袖教宗 Leo XIV 最近發布了一份「通諭」(這是天主教的正式官方立場文件,類似於最高層級的公開信,發給全體教徒乃至全世界),專門討論把 AI(人工智慧)整合進現代社會所帶來的倫理問題。文件涵蓋三個主要面向:一是 AI 的環境代價——訓練和運行大型 AI 需要消耗巨量電力與水資源,對地球造成實際負擔;二是「演算法決策」(就是讓電腦程式自動判斷影響人生活的事情,例如貸款審核、求職篩選、刑事量刑建議)帶來的公平性風險;三是 AI 進一步放大資源差距——擁有大量資金、算力、資料的大公司或富裕國家,在 AI 時代的優勢會比以前更大、更難被追上。這份通諭文字平易近人,就算完全不是天主教信徒、也不熟悉宗教用語的一般人,也能輕鬆讀懂。

想像一家法院引入「AI 量刑輔助系統」,讓程式根據被告過去紀錄、居住地區、社會背景等因素,自動建議刑期長短。通諭討論的正是這類高風險情境:如果 AI 是用過去的歷史資料訓練的,而那些資料本身就帶有偏見(例如歷史上某些族群在司法上受到不公平對待),程式就會把這個偏見「學起來」,並在每一個新案件中繼續複製它。過去,法官的個人偏見是個別的、有限的;現在有了 AI,這個偏見被自動化、系統化、大規模地套用在成千上萬個案件上,卻因為藏在程式裡而更難被發現或追究責任。教宗這份文件呼籲的,就是在把 AI 用於這類高風險決策前,必須建立倫理審查與問責機制——否則各國可能在沒有配套規範的情況下快速部署,讓技術傷害在無聲中擴大。

T3
AI 硬體市場真正的戰場是記憶體

近年來大家都在討論 AI 運算需要多少算力(就是 GPU——一種專門做大量平行計算的晶片,通常用來加速 AI 訓練和推理),但根據這篇市場分析,AI 硬體真正的瓶頸其實是「記憶體頻寬」——也就是資料從記憶體搬到算力晶片的速度,而不是算力本身有多強。當 ChatGPT 這類 AI 在回答你問題時,它需要一個字一個字地「生成」答案,每生成一個字都要把整個龐大的模型參數(就是 AI 的「知識庫」,通常幾百 GB 大小)從記憶體讀取一次——這造成算力晶片大部分時間都在「等資料」,而不是真的在計算。為了解決這個問題,不同公司走向不同路線:Groq 用速度極快但容量小的 SRAM(比一般記憶體快數倍的特殊記憶體類型)取代常見的大容量 HBM(高頻寬記憶體),讓資料傳輸速度大幅提升;TensorMesh 則打造了一套「分層 KV Cache 系統」(KV Cache 就是把 AI 正在處理的對話上下文暫存起來),讓資料可以跨 GPU、電腦記憶體、硬碟甚至雲端儲存調度,避免重複讀取。這篇分析的核心結論是:AI 硬體的競爭已從單純比算力快慢,轉向多層次的記憶體問題解法,而且因為硬體更新很慢(晶片從設計到量產要幾年),但模型架構與軟體可以快速演進,硬體公司必須現在就押注「未來瓶頸在哪裡」,否則做出來的產品可能等不到市場成熟就被淘汰或直接被 NVIDIA 收入旗下。

假設我是工程師,正在評估要不要採購 Groq 的推理晶片來加速公司的 AI 客服系統。傳統 GPU(如 NVIDIA A100)跑這個任務時,一個問答來回大概要 2 秒,原因不是 GPU 算得慢,而是每次都要等記憶體把幾十 GB 的模型參數搬給算力單元。Groq 用全 SRAM 架構,資料搬運速度快了 10 倍以上,同樣問答可以壓到 0.3 秒以下——但代價是 SRAM 很貴且容量有限,通常只能跑中型模型,超大型模型放不下。這篇文章告訴我:這不是 Groq 的設計缺陷,而是整個 AI 硬體產業目前都在用各種方法「繞開記憶體瓶頸」;在採購時要根據自己的模型大小和延遲需求選擇解法,而不是只看誰的算力 TFLOPS(每秒能做多少次浮點運算)數字大。

T3
在線策略蒸餾讓小模型訓練更精準

On-policy distillation(在線策略蒸餾)是一種訓練 AI 小模型的方法。所謂「蒸餾」,就是讓一個小模型(學生)透過模仿大模型(老師)來學習,讓小模型在計算資源更少的情況下也能保有不錯的表現。傳統蒸餾方法有個根本問題:學生模型訓練時看的資料,是大模型事先寫好的範例,跟學生自己實際運作時產生的內容風格差很遠——這種「訓練資料和實際輸出的分布不一致」會讓模型效果打折扣。On-policy distillation 的解法是讓學生從「自己真正生成的輸出」中學習,由老師模型用 KL 散度(一種衡量兩個機率分布差距的數學指標)針對每個 token(AI 處理文字的最小單位)給出細緻的修正訊號,徹底消除這個偏差。這套方法統一了三種損失函數:forward-KL、reverse-KL 和 JSD,其中 reverse-KL 是讓小模型專注學最典型模式的預設選擇。

假設你要訓練一個可以在手機上執行的小型 AI 模型,目標是讓它有接近 GPT-4 級大模型的推理能力。傳統做法是把大模型事先生成好的「示範答案」餵給小模型學,但問題是:這些示範是大模型的風格,和小模型自己的語言習慣差很遠,學生訓練時拼命模仿「別人的文字」,真正回答問題時卻只能靠自己的習慣輸出,學習效率有限。On-policy distillation 改成讓小模型先生成一段答案,再讓大模型針對這段答案的每個字給出「你這裡的機率分布應該更像我這樣」的修正訊號——學生學的是「改進自己的輸出」,而非「硬背陌生範例」。在 Tinker(一個強化學習訓練框架)上實作,只需把原本的「基準模型」那一行換成「老師模型」,就能切換到 on-policy distillation,成本極低。

T3
Models.dev 開源 AI 模型規格資料庫

Models.dev 是一個開源的 AI 模型資料庫,把市面上各家廠商的 AI 模型規格、計費方式、功能支援全部匯整在一起,並提供一個可以用程式呼叫的 API(Application Programming Interface,就是讓程式自動讀取資料的介面)。資料涵蓋每個模型的上下文窗口(一次能讀入多少文字)、輸入輸出定價、是否支援工具呼叫(讓 AI 執行搜尋或計算等實際操作)、結構化輸出(回傳固定格式資料方便程式處理)、推理能力、支援的輸入模式(文字、圖片、音訊等)。以往開發者要比較不同廠商的模型必須逐一翻閱各家文件頁面,Models.dev 把這些資料集中在一個地方,一個 API 呼叫就能取得全部。此專案由知名開源工具 SST 的維護者建立,已累積超過 4,300 個 GitHub 星星(開源社群用來表達喜愛的指標),採用社群共同貢獻方式持續更新。

假設你要幫公司選一個 AI 模型來自動摘要文件,預算有限,想找「支援結構化輸出、上下文窗口至少 128k、每百萬 tokens(AI 計費單位,大約等於 75 萬個英文字)輸入不超過 $5」的選項。舊做法:逐一打開 OpenAI、Anthropic、Google、Mistral 等官網的定價頁面手動比對,還要擔心資料過時。用 Models.dev:直接執行 `curl https://models.dev/api.json` 就能拿到一份包含所有模型完整規格的 JSON 資料(結構化的電腦可讀檔案),寫幾行程式就能自動篩選出符合條件的清單。相比舊做法每次選模型要花幾十分鐘查文件,現在幾秒鐘就能用程式跑出答案。

T3
BenchBench 測試 AI 出題能力

BenchBench 是一種「讓 AI 自己設計考題、再讓其他 AI 來解題」的全新評測框架。傳統的 AI 評測(benchmark,就是用來衡量 AI 有多聰明的標準題庫)都是由人類專家設計題目,BenchBench 則反過來:讓 AI 自己出題,再看這些題目有沒有辦法難倒其他 AI。這樣同時測了兩件事:一是 AI 有多聰明(能不能解難題),二是 AI 有沒有自我認知(知道自己能力邊界在哪、能不能設計出真正有挑戰性的題目)。測試結果相當有趣——GPT 5.2 是唯一成功的模型,Anthropic 的 Opus 4.6 和 OpenAI 的 GPT 5.5 等其他主流模型都無法設計出讓其他 AI 真正卡住的題目。

假設我要評估「某個 AI 有沒有真正理解邏輯推理」,傳統做法是用人類設計的數學或邏輯題庫去測。用 BenchBench 的方式,則是讓這個 AI 自己去設計一套「應該很難但有正確答案」的題目,然後丟給其他 AI 解。如果它出的題目連能力相近的 AI 都答錯,代表它真的「懂什麼叫做困難」。測試中,GPT 5.2 出的題目成功讓多數其他模型答錯;但 Opus 4.6 和 GPT 5.5 出的題目太容易,被其他 AI 輕鬆解開——意思是這兩個模型對「困難」的概念理解還有落差,不太清楚自己的能力邊界在哪裡。

T3
GPT-5.6 六月洩漏,推理與 Agent 升級

OpenAI 下一個大模型 GPT-5.6(就是 ChatGPT 背後 AI 的新版本)的洩漏資訊在網路上流傳,預計 2026 年 6 月推出,同時會有兩個版本:標準 GPT-5.6 和更強的 GPT-5.6 Pro。這份資訊來自非官方洩漏,尚未獲 OpenAI 正式確認。根據洩漏內容,這個版本已在 OpenAI 內部被工程師用來做日常除錯和技術工作。新版本的三大重點改進方向是:更強的「多步驟推理」(讓 AI 面對複雜問題時能一步一步想清楚而不中途犯錯)、改善「Agent 工作流程」(讓 AI 自動執行一連串任務,像個數位助理幫你完成多步操作)、以及提升「前端程式碼生成」能力(AI 幫你寫網頁介面的程式碼會更準確好用)。同月 Anthropic 的 Sonnet 4.8 和 Google 的 Gemini 3.5 Pro 也預計同步推出,6 月將成為 AI 主力模型的密集競爭期。

假設你想叫 AI 幫你自動完成「從 GitHub 拿最新 bug 列表 → 判斷哪些最嚴重 → 自動發 Slack 通知給負責工程師」這種跨多步驟的任務,目前版本的 GPT 可能在中間某步出錯或卡住。GPT-5.6 加強的 Agent 工作流程(讓 AI 能自動串接多個動作、做完 A 再做 B 再做 C)理論上能大幅降低這類連鎖任務的失敗率;而前端生成能力提升,則代表你說「幫我做一個帶搜尋框的商品列表頁面」,AI 吐出來的程式碼出錯率更低、直接可用的機率更高。目前仍是洩漏,具體上線後需實測確認。

T3
Kore.ai 推出 Artemis 多代理平台

Kore.ai 是一家專注企業 AI 解決方案的公司,他們剛推出新一代智能代理平台,稱為 Artemis 版。所謂「多代理系統(multiagent system)」,就是讓多個能自主執行任務的 AI 程式同時運作、互相協作,處理比單一 AI 更複雜的業務流程。Artemis 平台提供三個核心功能:「代理藍圖語言(ABL,Agent Blueprint Language)」——一種專門用來描述 AI 代理應該如何行動、有什麼能力的結構化語言,類似工程師畫設計圖;「Arch(AI agent architect)」——一個 AI 輔助的架構師工具,幫開發者設計多個代理之間要怎麼分工合作;以及「雙腦架構(dual-brain architecture)」——讓每個代理在做決策時能同時用兩種處理模式,提升判斷的穩定性與準確度。平台目前先在微軟 Azure 雲端上線,之後會擴展到更多雲端環境。

假設你在一家大型電商企業,想用 AI 同時自動化客服、財務核帳、以及倉儲調度三條業務線。舊做法是各自建三個獨立的聊天機器人或自動化腳本,彼此無法溝通:客服系統察覺到某筆訂單異常,不會自動通知財務 AI 去核帳,也不會叫倉儲 AI 暫停出貨。用 Artemis 平台,開發者先用 ABL 定義每個代理的職責和觸發條件,再讓 Arch 幫你規劃三個代理之間的訊息傳遞順序,最後部署到 Azure 上跑。結果是:客服代理偵測到異常訂單後,自動呼叫財務代理核查款項,同時通知倉儲代理先暫緩備貨,整個流程不需要人工盯著轉傳,比以前要人工協調三套系統省下數小時的反應時間。

T3
Perplexity 開源 Bumblebee 安全掃描器

Perplexity(做 AI 搜尋引擎的公司,跟 ChatGPT 是競爭對手)把一個叫 Bumblebee 的安全掃描工具開放原始碼,讓所有人可以免費下載使用。這工具是設計給工程師的筆電用的,專門偵測可能有安全風險的三類東西:一是安裝在電腦上的軟體套件(例如某個 npm 或 pip 套件暗藏後門);二是瀏覽器或編輯器的擴充功能(例如惡意的 Chrome 外掛);三是 MCP 設定(MCP 是 Model Context Protocol 的縮寫,就是讓 AI 工具能讀寫本機檔案、執行指令的一種設定協議,現在很多 AI 輔助開發工具都用到它)。Bumblebee 只有「讀取」權限,完全不會修改任何東西,掃描完後輸出 NDJSON(一種每行一筆資料的結構化文字格式,方便程式直接處理)報告,幫助資安團隊快速找出哪些設定可能讓開發者的機器暴露在外部攻擊風險下。

假設你是一個用 Claude Code 或 Cursor 這類 AI 輔助開發工具的工程師,電腦上設定了幾個 MCP 工具,讓 AI 可以讀取你的本機資料夾或執行終端機指令。某天公司資安主管要求:「請列出所有 AI 工具的存取範圍,確認沒有多餘的高風險設定。」以前只能手動一個一個翻設定檔,花好幾小時還不一定查全。現在跑一行 Bumblebee,它會自動掃描所有 npm/pip lockfile(套件清單)、Chrome 和 VSCode 的擴充功能清單、以及每個 MCP 設定,把每個「可能有問題」的項目輸出成結構化的 JSON 紀錄,例如某個 MCP 設定被標示為讀取範圍過廣,讓資安工程師可以直接過濾、彙整進報告系統,幾分鐘內完成原本要半天的清查作業。

T3
Google API Key 刪除後仍有效 23 分鐘

研究人員發現,刪除 Google API 金鑰(就是開發者用來呼叫 Google 服務的「通行證」字串)後,這把金鑰仍然可以繼續使用長達 23 分鐘。這意味著,若你因為金鑰外洩而選擇「刪除」,攻擊者在這段緩衝期內仍可透過它呼叫 API、存取你開啟的服務,甚至無限製造費用帳單。這個問題出在 Google 平台端的處理機制,目前尚未有官方修復。安全研究人員建議,遭洩漏的 API 金鑰絕不能只靠「刪除」撤銷——應先執行停用(disable)或金鑰輪換(rotate,意指馬上產生新金鑰讓舊的徹底失效),刪除則應視為延遲清理步驟,而非即時開關。

假設你是一位開發者,使用 Gemini API(Google 推出的 AI 語言模型服務)開發應用程式,某天不小心把 API 金鑰直接寫進程式碼並推上公開的 GitHub 儲存庫。你五分鐘後發現,立刻到 Google Cloud Console 刪除那把金鑰,以為這樣就安全了。但實際上,有自動掃描 GitHub 洩漏金鑰的機器人幾乎即時就抓到你的金鑰,並在這 23 分鐘視窗內持續呼叫你的 Gemini API——產生費用或讀取你的資料。正確做法是:先到主控台把金鑰「停用」(立即生效、無 23 分鐘延遲),再立刻產生一把新金鑰替換程式中的舊值,最後才刪除舊金鑰。「刪除 = 立即失效」是長久以來的常見誤解,但現在已確認不是。

T3
AI 如何重塑科學研究循環

科學發現不只是「問問題、找答案」,它其實是一個需要四種角色輪流配合才能轉動的循環:「提問者」(決定要研究什麼問題)、「提議者」(提出可能的答案或方向)、「驗證者」(確認答案是否正確)、「策展人」(判斷哪個發現值得繼續追下去)。一篇分析文章指出,AI(人工智慧)目前最擅長的是「提議者」這個角色——它能在極短時間內批量產出大量候選方案,就像一次買了幾百萬張彩票,再等人來挑哪張中獎。然而「提問者」和「策展人」依然是人類的工作:要研究哪個問題、哪個方向值得深挖,AI 目前仍無法自主決定。這個框架讓我們看清 AI 並非要取代科學家,而是重新分配了科學循環裡各角色的工作比重。

數學家陶哲軒(Terence Tao)輔助數學證明的方式是個很直觀的例子。他想推導一個複雜數學定理,傳統方式是數學家一步步在紙上推演,走錯了再回頭,耗時且全靠人腦。現在他用 LLM(也就是 ChatGPT 這類能對話的語言 AI)充當「提議者」,持續丟出「下一步可能的推導方向」;再由 Lean(一套能自動檢查數學邏輯對不對的程式)擔任「驗證者」,秒速篩掉站不住腳的步驟;最後陶哲軒本人作為「策展人」,看著驗證結果決定哪條路走得通、值得繼續。舊做法:一個人慢慢想,方向錯了才知道。新做法:AI 同時探索幾十條路,機器快速淘汰死路,人類只需挑選存活者。但「要證明哪個定理」這個問題,仍然是陶哲軒自己提的——AI 沒辦法替他定義研究題目。

T3
AI Agent 隔離沙盒管理工具

Agent Sandbox 是由 Kubernetes 社群(負責維護一套主流雲端伺服器管理系統的開源組織)開發的工具,專門用來在雲端環境中安全地運行 AI 代理(Agent,就是那種能自動幫你執行多個步驟任務的 AI 程式,例如自動查資料、寫報告、操控電腦介面的 AI)。每個 AI 代理在執行任務時都需要一個隔離的「工作間」,避免不同任務互相干擾,也確保資料在任務重啟後不會消失。Agent Sandbox 提供了這個「工作間」——技術上是一個有固定識別名稱、能持久保存資料的隔離執行單元(Pod),並支援擴充模組來增加更進階的管理功能。它的設計讓每次只跑一個同名的工作間(Singleton,也就是同一個代理不會意外同時開兩份),保持狀態一致性。

假設我想部署一個 AI 代理,讓它每天自動掃描新聞網站、整理摘要、存入資料庫。這個代理執行到一半需要記住「上次掃到第幾頁」這類中間狀態,還需要暫存下載的文章。用一般方式部署,伺服器重啟或任務失敗後,所有中間狀態就消失,代理等於每次從頭來。用 Agent Sandbox,就能為這個代理建立一個叫「news-agent-001」的固定工作間,搭配持久儲存空間——任務失敗重啟後,代理會在同一個工作間裡繼續,從上次中斷的地方接著跑,不需要重新從頭掃描整個網站。

T3
微軟 Webwright 網頁 Agent 框架

Microsoft Webwright 是微軟推出的一個開源框架,專門用來讓 AI 自動完成網頁上的複雜任務。這個框架的特色是讓 AI「代理人(Agent)」(就是能自主完成任務的 AI 程式)使用「終端機」(就是工程師輸入指令的黑色文字視窗)來控制瀏覽器,而不是直接操作圖形介面按鈕。Webwright 讓 AI 可以同時開多個瀏覽器視窗來查看不同頁面、收集資訊,而且只在需要的時候才截圖,大幅減少不必要的資源浪費。最重要的是,每個任務都會被整理成一份可以重複執行的 Python 程式碼腳本,讓整個操作流程可以被記錄、重現和修改。根據官方資料,這個框架在「長流程網頁任務(就是需要多個連續步驟才能完成的網頁操作,例如搜尋、比較、填表、送出)」的測試排行榜上達到了目前最好的成績。

假設我需要 AI 每天自動去某電商網站搜尋特定商品、比較 10 個競爭對手的最新售價,然後把結果整理到 Google 試算表。用傳統的網頁自動化工具(像 Selenium),你需要提前把每一個點擊步驟都寫死在程式碼裡,頁面一改版就全部壞掉。用 Webwright,AI 代理人會在終端機裡自己寫出並執行 Python 腳本,用瀏覽器視窗一步步瀏覽商品頁、讀取價格資訊,遇到彈窗或驗證碼還能自行判斷如何繼續,最終產出一份可以重跑的腳本——下次直接重跑就好,不需要重新讓 AI 想一次流程。比起讓 AI 每次從頭亂點,這種方式更穩定、也更容易除錯。

T3
微軟企業棄 Claude Code 換 Copilot

微軟(Microsoft)旗下負責 Windows、Surface 等產品的「體驗與裝置事業群」正在取消大部分工程師使用 Claude Code 的直接授權。Claude Code 是 Anthropic(一家 AI 公司)推出的 AI 程式碼編寫助理——你可以把它想成一個「會自動幫你寫程式碼、偵錯的 AI 同事」,工程師每天可以用它來產生程式碼、找問題、或解釋一段陌生的程式邏輯。受影響的工程師被告知,必須在 6 月 30 日前改用 GitHub Copilot CLI(微軟自家旗下 GitHub 平台的 AI 程式輔助工具)。這次調整的核心原因,是 Claude Code 採用「按使用量計費」模式——每次 AI 處理程式碼都要消耗大量「token(AI 的運算資源,可以理解成每次回應要花的錢)」,企業大規模使用後帳單遠超預期,顯示出目前 AI 程式輔助工具的費用結構,在大型企業內全面推廣時仍不划算。

假設你是微軟的軟體工程師,每天用 Claude Code 協助撰寫程式、做 code review(程式碼審查)、重構舊模組。Claude Code 每處理一次請求就要消耗 token,用量大的工程師一個月可能產生數十到數百美元費用。整個部門幾百人加總起來,月費可能高達數十萬美元。相比之下,GitHub Copilot 採訂閱制——每位工程師每月固定費用(約 19 美元),無論用多少次都不額外計費。微軟這次的決定,等於是在企業層面用真實數據說明:「按量計費的 AI 工具,大量使用時反而比訂閱制貴很多。」這對正在評估要導入哪種 AI 程式助理的公司,是一個很直接的成本對比參考。

T3
用 AI 寫更慢但更好的程式碼

很多人使用 AI 寫程式的目的是「快速大量產出程式碼」,但作者 Nolan Lawson 提出一個反直覺的觀點:AI(就是像 ChatGPT 這類會理解並生成文字與程式碼的智慧語言模型)其實也可以拿來寫「速度更慢、品質更高」的程式碼。他的方法是讓多個不同的 AI 模型同時審查同一份程式碼修改,各自列出發現的問題,再由一個主 AI 整合所有意見、去除重複項目,依嚴重程度排列,讓開發者優先修最危險的部分。這套流程在實際使用後不只揪出新程式碼的問題,還意外發現了原本就潛藏在程式庫裡的舊漏洞,整體程式庫品質因此提升。

假設你寫了一段「新增使用者登入功能」的程式碼,準備提交審查(就是把自己改好的程式碼送出去讓同事或工具檢查,英文稱 PR)。按照傳統做法,可能只靠一個 AI 快速掃一遍,或直接上線。用這套多模型審查方法,Claude、Codex、Cursor Bugbot 三個 AI 工具會同時讀同一份修改:Claude 指出「這裡對使用者輸入沒做驗證」、Codex 發現「這個函式在特殊情況下邏輯會出錯」、Bugbot 標記「這裡可能有效能瓶頸」;主 AI 把三份報告整合並去重,按嚴重程度排序。有個開發者 Ollie 分享親身經歷:AI 透過這個流程發現他的資料庫權限設定(Postgres 行級安全政策——一種控制哪些使用者能看到哪些資料列的資料庫功能)有安全漏洞,若按原計劃直接上線,這個漏洞就會進入正式環境,影響真實使用者的資料安全。

T3
Agentic 工程本質就是產品管理

Andrej Karpathy(前 OpenAI 共同創辦人、前 Tesla AI 總監,是 AI 領域最有影響力的研究者之一)在一場 Sequoia(矽谷最知名的創投公司)活動中宣稱,「vibe coding(靠感覺寫程式——就是把想法丟給 AI、直接叫它生出程式碼,自己幾乎不審查)」這個做法已經過時了。他提出的替代方案叫做「agentic engineering(用 AI agent 幹活的工程方式——AI agent 是能自己規劃、自動執行多步驟任務的 AI 程式)」。但文章作者 Jeff Gothelf 觀察到一件有趣的事:把 Karpathy 列出的七項工作(寫設計規格、監督計劃、審查程式碼差異、寫測試、建評估迴圈、管理權限、維持品質)去掉工程術語之後,這根本就是傳統 PM(product manager,產品經理——負責定義需求、排優先序、決定何時上線的角色)在做的事。核心洞見是:AI 把「執行」這件事自動化了,卻無法替代「判斷」——決定要解決什麼問題、設定方向、衡量成果是否真的對用戶有幫助,這才是人類最不可取代的價值所在。

假設你要做一個「客服自動回覆系統」。舊的 vibe coding 做法是:隨手寫幾句需求,丟給 AI,AI 生出一堆程式碼,你覺得看起來還行就上線了——結果客服 AI 一直答錯問題,你卻不知道哪裡出了差錯。Karpathy 說這種做法已不夠用。新的 agentic engineering 做法是:你先寫一份設計規格(這個系統要解決哪些用戶問題?不能做哪些事?),讓 AI agent 自動生出程式碼和測試,再設計一套評估迴圈(拿真實客服對話測試 AI 的回答準不準),最後根據指標決定何時可以上線。對應到 PM 工作就是:定義問題 → 排優先序 → 設成功指標 → 決定發布時機。舊做法在意「程式碼能不能跑」,新做法在意「這有沒有真的幫到用戶」——後者才是 AI 無法替你判斷的部分,也是 Karpathy 說真正有價值的地方。

T3
AI 評估應超越基準測試

這篇文章提出一個新思考框架叫做「WAC」(Wins Above Claude,意思是「比 Claude 多贏多少」)。作者認為現在流行的 AI 基準測試(benchmark,就是給 AI 考標準化試卷、測它寫程式或解數學題的能力)根本沒太大意義,因為真實工作環境有太多情境變數(內部工具、公司文化、特定流程),不是考卷能衡量的。過去 126 天市場上發布了 62 個新 AI 模型,各家都在搶排行榜第一名,但作者說這些數字跟你實際工作能得到多少幫助幾乎沒關聯。他借用棒球評估指標「Wins Above Replacement」(球員相對於替補球員多贏幾場)的概念,認為更有意義的問題是:「用了這個工具,你能比只用 Claude(一款普及的 AI 助理)多產生多少實際價值?」——也就是在自己真實工作流程下,衡量工具帶來的額外效益。

假設你是軟體開發者,要評估要不要把公司的 code review(程式碼審查)工具從 A 換成 B。傳統做法是看哪家在 HumanEval(業界常用的程式能力測試)得分高。但這些測試是在通用題庫上跑,不考慮你公司內部的程式規範、特定框架、或 Git 工作流程。按照 WAC 的思維,你應該直接讓工具 A 和工具 B 在你們公司真實的 PR(程式碼提交)上各跑一週試用,比較哪個發現的問題更多、建議更能直接採用——這樣的數字才能幫你做決策,而不是看排行榜誰第一。舊做法是「選評測分最高的」,新做法是「選在我的工作環境實際表現最好的」。

T3
用 AI 打造客戶成功 VP 的 10 個心得

SaaStr 公司用 AI 做了一個叫 Qbee 的「虛擬客戶成功副總裁」(Customer Success VP,就是負責確保客戶用得好、不流失的高階主管),整個開發過程零工程師,由他們的首席 AI 長 Amelia 用 Replit(一個可以用對話式指令寫程式的平台)搭配 Claude(Anthropic 出品的 AI 助手)完成。Qbee 的工作是主動追蹤每位客戶的使用狀況、發送個人化問候訊息、提醒截止日期、找出哪些客戶快要掉隊。結果相當驚人:CS 團隊的人工時數減少 70%,客戶登入率和準時提交率提升 10 倍。這篇文章整理了他們從無到有打造 Qbee 的 10 個核心心得,從設計理念、部署策略到每日維護,對想用 AI 強化客服或客戶成功流程的團隊很有參考價值。

假設你是一家 SaaS(軟體即服務,就是月付費訂閱那種產品)公司的客戶成功主管,手上管 300 個客戶,但只有 5 個 CS 人員,根本沒辦法每週主動聯繫每個人。以前只能等季度 QBR(季度業務回顧)才能發現哪個客戶快流失,往往為時已晚。導入類似 Qbee 的 AI agent(自動化助理)後,AI 每天自動拉取各客戶的使用數據(登入次數、功能使用率、未完成任務),用每位客戶專屬的 4~6 個資料點(例如:「你們上週報表提交率掉了 20%,下週五是截止日」)生成個人化訊息主動聯絡;人工 CS 只需處理 AI 標記為「需要人介入」的高風險案例。對比舊做法:以前 5 人團隊每季才能深度接觸 50 個客戶;現在 AI 每天觸及全部 300 個,CS 人員時間省下 70%,可以專注在真正需要人情味的棘手客戶上。

T4
T4
AI 訂閱正在悄悄塑造你

這是一篇分析訂閱制服務如何在你不知情的情況下,漸漸改變你行為和思考方式的意見文章。作者的核心論點是:訂閱服務不像買東西用完就算了,而是像「長期室友」一樣天天影響你的習慣和偏好,讓你在不知不覺中變成另一個人。特別值得注意的是 AI 訂閱服務(就是 ChatGPT、Claude 這類每月付費的 AI 對話工具)——因為這類工具會記憶你的喜好、學習你的說話方式,甚至能客製化和你互動的內容,而這背後公司的商業動機往往不透明。長期使用下,你的思考習慣、判斷力,甚至某些技能,可能正被這些工具默默塑造,而你卻是付費讓這件事發生的。作者建議:在按下訂閱按鈕前,先想清楚「這家公司要我變成什麼樣的人」是否符合你自己想成為的樣子。

假設你每天用 ChatGPT 幫你整理開會筆記和草擬郵件。第一個月覺得效率大增,但半年後你發現:自己沒有 AI 輔助時,連「從頭想清楚一件事」都變得費力了——不是因為你懶,而是你的大腦真的少練習了。AI 每次都幫你做得比你自己稍微好一點、快一點,你的大腦就停止鍛鍊那塊肌肉。對比舊做法:自己手動整理筆記雖然慢且痛苦,但你的邏輯思維和文字組織能力是有在用的;改用 AI 後,短期省了時間,長期卻可能讓你在最需要獨立判斷的時刻發現自己已經不太會了,而且你每個月都在付費維持這個狀態。

T4
AI搶工作恐慌的現實數據解讀

MIT 科技評論(一個專門報導科技影響的主流媒體)針對「AI 會大規模取代白領工作」這個說法,做了一次根據真實數據的理性檢驗。文章發現,儘管坊間不斷出現科技公司裁員的新聞(如 Coinbase、Meta、Cisco),美國勞工統計局的真實數據顯示,AI 對整體勞動市場的實際衝擊目前仍相當有限——只有五分之一的企業正在使用 AI,整體失業率也維持穩定,並沒有出現預期中的大規模失業潮。不過,研究也發現一個值得警惕的訊號:剛出社會的年輕人(22 到 25 歲)在 AI 高風險職位(軟體開發、客服)的職缺,在 2024 到 2025 年間下降了 16%,但年長的資深員工職位反而在增加。文章也回顧了過去「AI 將取代 XX 職業」的多個知名預言(如自駕卡車、放射科醫師),結果都沒有成真,提醒大家不要倉促下結論,真正需要關注的是轉變速度以及社會的應對能力。

假設你是一個剛畢業、想找軟體工程師工作的 24 歲大學生。過去的求職邏輯是:修完基礎程式課、找入門的初階開發職缺、邊做邊學成長。但根據斯坦福大學的研究,這類 22 到 25 歲的入門軟體開發職缺在 2024-2025 年間實際減少了約 16%——原因是許多公司發現 AI coding 工具(就是像 GitHub Copilot 這種能幫工程師自動補完程式碼、甚至生成整段功能的工具)可以讓一個資深工程師完成以前需要兩三個初階員工的工作量。對比之下,35 歲以上的資深工程師反而更吃香,因為有人需要懂得如何下正確指令給 AI、審核 AI 產出的品質、並和業務方溝通實際需求。所以 AI 目前的衝擊不是「把所有工程師都取代」,而是「壓縮初階職位、放大資深職位的價值」——這對剛踏入職場的年輕人是個值得正視的警訊。

T4
AI 安全要從董事會開始管

Google Cloud 營運長 Francis de Souza 發文指出,AI(人工智慧)帶來的安全風險已經不是 IT 部門關上門自己處理就好的事,而是要拉到公司高層甚至董事會層級來統籌。他特別點出幾個新型態威脅:第一是「shadow AI」(影子 AI),也就是員工私自使用公司沒有登記在案的 AI 工具,導致資料流向不受控;第二是 AI agent(能自主執行任務的 AI 助理)在幫人做事的過程中,可能挖出組織裡已經被遺忘的舊資料(例如廢棄的內部文件伺服器),意外造成資料外洩;第三是攻擊速度大幅壓縮,過去駭客發動攻擊到下一波行動之間有八小時緩衝,現在已縮短到 22 秒,防守方根本來不及反應。De Souza 的核心論點是:安全不能等系統上線才來補,也不能全靠員工自律,要從 AI 策略規劃階段就把安全內建進去。

假設你的公司導入了一套 AI agent 幫業務團隊整理客戶資料。這個 agent 為了完成任務,自動去搜尋公司內部所有可存取的資料來源,結果找到一台三年前沒人管的 SharePoint 伺服器(微軟的企業文件儲存平台),裡面存著已離職員工留下的舊合約和客戶個資。以前這台伺服器因為「沒人知道它還在」而被忽略,現在 AI agent 一來就把它挖出來了。如果公司沒有事先建立「AI agent 能存取哪些資料來源」的白名單管控,這些本該封存的資料就會在毫無警告的情況下被 AI 讀取、彙整甚至輸出,造成無意間的資料外洩。De Souza 的建議是,要在 AI 上線之前就把存取權限、資料範圍、行為邊界全部定義清楚,而不是等出事再來亡羊補牢。

T4
AI 替換不掉 SAP 和 Workday

AI 讓創業者更容易快速搭出輕量工具,能取代那些只做一件事的小型 SaaS(就是透過網路訂閱使用、不用自己架伺服器的軟體服務),但像 SAP、Workday 這種深植企業幾十年的核心大平台並不會被 AI 輕易取代。這些系統之所以難以替換,是因為它們已和企業的財務流程、法規合規要求、各部門系統緊密整合,牽一髮動全身。文章建議 IT 主管(公司裡負責資訊科技的決策者)不要過度擔心 AI 把整個 SaaS 市場掃掉,而是觀察哪些「單功能」小工具類別會因 AI 降低開發門檻而遭壓縮,並留意大平台如何把 AI 包進自己生態系繼續主導。這是一個「AI 衝擊哪裡被高估、哪裡被低估」的務實分析。

假設你公司現在用了一套獨立的費用申報工具(例如 Expensify),員工出差後把發票上傳,系統自動審核金額。這類只做一件事的小工具,現在的 AI 完全有能力讓工程師幾週內從頭打造一個差不多的替代版本——成本更低甚至免費。這代表這類獨立廠商的生存壓力極大,可能被企業自建或整合進大平台。但同一家公司的 SAP(負責跑整個財務流程、庫存、薪資、報稅)則完全不同:它和幾十個內部系統串接、和各國稅務系統整合、裡面跑著累積十幾年的業務邏輯,換掉的代價和風險極高。AI 就算能力很強,也無法短期內生出「取代 SAP」的方案——問題不在技術能力,而在組織整合的複雜度根本無法繞過。

T4
AI 生產力提速,主管成了瓶頸

AI(人工智慧)工具讓個別員工的工作產出大幅增加,但組織裡的主管卻陷入另一種忙亂——他們必須審查、核可的東西突然多出好幾倍,每半小時就有人送來一份需要確認的成果。哈佛商業評論(HBR,一個專門給企業管理者看的商業雜誌)的這篇文章指出,當「被管理的人」靠 AI 提速,「負責管理的人」卻還在用舊節奏運作,整個團隊的速度就會卡在主管這個環節。作者建議,未來的好主管需要做三件事:一、在工作開始前把方向說得更清楚,減少來回確認的次數;二、幫團隊聚焦在真正重要的事情上,而不是忙著處理 AI 大量產出的邊緣任務;三、建立更快的回饋循環(快速確認方向對不對),但不要事必躬親盯死每一個細節。這是 AI 時代管理模式必須跟著進化的警訊。

假設你管理一個 5 人的軟體開發小組。以前沒有 AI 輔助工具,一週的 code review(程式碼審查,主管確認工程師寫的程式是否沒問題)大概收到 5~8 份提交,你每天花 1 小時審查就夠了。現在大家都用 Cursor 或 GitHub Copilot(AI 程式碼輔助工具,能自動幫工程師補全或生成程式碼),同樣 5 個人一週產出了 20~30 份提交,你的審查時間一口氣膨脹到 4~5 小時,其他主管工作全部塞車。按照本文建議,解法不是叫大家「少用 AI 放慢速度」,而是主管要在每個 sprint(開發週期,通常兩週為一個循環)開始前把目標定清楚,讓工程師知道哪些功能優先、哪些暫時不做,減少「做了但不對方向」的無效產出;同時改成每天一次快速 15 分鐘確認方向,而不是等到最後才一次看完所有成果。