Anthropic(開發 Claude 這款 AI 助理的美國公司,與 OpenAI 的 ChatGPT 是主要競爭對手)於 2026 年 5 月 12 日推出「Claude for Legal」,這是一套專為法律工作設計的完整 AI 服務。這套服務橫跨 12 個法律業務領域,包含公司法、併購盡職調查(就是買公司前要做的全面審查)、勞動法、智慧財產權與訴訟等,並提供超過 20 個 MCP 連接器(可以把它想成讓 AI 直接插進其他軟體的插座),整合了 Westlaw(全球最主流的法律資料庫)、DocuSign(電子簽名平台)、Box(雲端文件管理)、Everlaw(電子證據平台)等核心工具。透過 Microsoft 365 整合,Claude 可直接嵌入律師日常使用的 Word、Outlook、Excel 與 PowerPoint,作為跨應用的統一 AI 助理。Freshfields、Quinn Emanuel、Holland & Knight 等國際頂級律所已在實際案件中部署。值得注意的是,研究人員已確認系統存在「提示注入漏洞」(攻擊者在文件裡藏惡意指令,誘騙 AI 忽略安全設定並執行非預期操作),對需處理高度敏感客戶資訊的律所構成潛在風險,建議正式部署前等待 Anthropic 公開修補報告。
一間律所承接了跨國併購案,需要審查數百份合約、比對法規並起草盡職調查報告。過去這項工作需要多名律師助理花費數週,分別在 Westlaw 查法規、在 Box 整理文件、最後彙整成 Word 報告。使用 Claude for Legal 之後,律師在 Word 裡直接向 Claude 提問:「找出這批合約中與台灣《公司法》相關條款衝突的內容」,Claude 自動連上 Westlaw 查詢法規、從 Box 讀取合約文件,並直接在 Word 文件中標注問題條款、附上法規引用來源,供律師逐一複核。整個流程大幅壓縮,且每個結論都有原始法條可追溯,比純靠人工翻閱文件更可稽核——舊做法的瓶頸是「人工找資料」,新做法的瓶頸變成「律師決策判斷」,後者才是真正有專業價值的部分。
NVIDIA(就是做顯示卡和 AI 晶片、近年市值衝上全球前幾名的那家公司)決定讓旗下超過一萬名員工,全面使用一套叫做 Codex 的 AI 程式助理。這套工具由 GPT-5.5(OpenAI 最新推出的 AI 模型,比 ChatGPT 更強一代)驅動,跟一般對話式 AI 不同,Codex 是一種「agent(AI 代理)」——就是會自己主動完成任務的 AI,不只是回答問題,而是真的去查程式碼、找 bug、寫修正、跑測試。部署範圍橫跨工程、研究、法務、行銷、財務等各部門,不只限工程師使用。每位員工都有獨立的雲端沙箱環境(隔離的虛擬電腦),Codex 在裡面工作,對正式生產系統只有唯讀權限(只能看、不能改),並採用零資料留存政策(AI 完成任務後,你輸入的內容不會被服務端保留)。實際成效驚人:複雜問題的除錯週期從數天壓縮至數小時,過去需數週的實驗一個晚上就能跑完。Jensen Huang(NVIDIA 執行長)點出核心差異:「聊天機器人回答問題,agent 執行工作。」
一名 NVIDIA 工程師遇到一個跨越數十個程式碼檔案的複雜 bug——某個 GPU 驅動程式更新後,特定計算核心(CUDA kernel,就是跑在 GPU 上的程式)在部分硬體上偶發性回傳錯誤結果。舊做法:他需要手動翻閱各模組、猜測哪段程式碼有問題、逐一修改測試,整個流程往往耗費一整個禮拜。新做法:他直接在 Codex 介面輸入需求,「幫我找出這次更新後 kernel 回傳值在 RTX 5090 上偶發不一致的原因,列出相關檔案並提出修法」。Codex agent 自動在沙箱環境中跨越整個代碼庫讀取、分析、撰寫修正,幾個小時內就端對端(從找問題到寫修正到產出測試)交出可審查的結果。工程師的工作從「自己寫程式碼」變成「定義問題、驗證 AI 的輸出」——這是工作模式的結構性轉變,不只是多了一個輔助工具。
AI 可解釋性(就是「研究 AI 到底在想什麼」的學科)一直有個核心難題:AI 模型的內部運算是幾千個數字組成的信號,人類根本看不懂。過去的工具要嘛給你一張複雜的圖要專家花半天解讀,要嘛只回答「是或否」,都沒辦法用人話直接說明 AI 正在處理什麼。Anthropic(開發 Claude 系列 AI 的公司)新發表了一篇論文,介紹一種叫 NLA(自然語言自動編碼器,Natural Language Autoencoder,一種可以自動把 AI 內部狀態翻成文字的模組)的技術,可以把 AI 模型在處理某個詞的當下「內心狀態」直接翻譯成幾句英文說明。這項技術已被實際用在 Claude Opus 4.6 上,可以針對任何一個對話時間點產生英文解說,而且不需要人工標注、也不需要事先設計好要問什麼問題(這就是「無監督」:AI 自己摸索出描述方法,不靠人類手動教)。
假設我在訓練一個客服 AI,懷疑它遇到憤怒的客戶時會產生不恰當的語氣。以前要診斷這個問題,我得看大量對話記錄,或自己寫偵測程式,費時費力。如果用 NLA,我可以把那段問題對話中的某個詞(例如客戶說「我很不爽」那個時間點)丟給 NLA 分析。NLA 會輸出幾句英文說明,例如:「模型正在處理強烈的負面情緒訊號,並預備以防禦性語氣回應」。這讓工程師不用再猜測 AI「腦袋裡」發生什麼,而是直接看到白話說明,接著可以針對性地調整訓練資料或對話設計(prompt)。相比舊方式——翻看上萬個數字或等事後分析日誌——NLA 的輸出直接、即時,大幅縮短除錯時間。
OpenAI(就是開發 ChatGPT 的那家公司)近期宣布停用他們提供給開發者的「微調(Fine-tuning)API」服務。所謂微調,就像是給一個「什麼都懂一點」的通才 AI 做「專業進修」——例如讓它讀大量法律文件,讓它比原版更擅長回答法律問題,或是讓它的語氣更符合某個品牌風格。這個功能長期以來是 AI 工程師的重要武器,許多人靠它達到「用便宜模型、發揮昂貴模型效果」的目標。現在 OpenAI 終止這項服務,代表一個更大的行業趨勢:對大多數 AI 工程師而言,微調的時代正在走向終點,取而代之的是「超長提示詞(Prompt,就是你每次對話前給 AI 的指示說明)」的新方向——直接在說明裡塞入大量背景知識、規則和範例,而不需要重新訓練模型。不過,像 Cursor(AI 程式碼編輯器)和 Cognition(估值達 250 億美元的 AI 公司)這樣的頂尖業者,反而在加大微調投入,說明這項技術並未消失,只是從「大眾工具」退縮為「少數精英」的專業領域。
假設你經營一家客服公司,想讓 AI 回答問題時語氣更符合品牌、答案更精準。過去做法是:對 OpenAI 的模型做微調,把幾千筆「問題→標準回答」的對話餵給它,讓它學會你公司的風格,付一次費用就永久有效,每次呼叫時不需要額外說明。現在 OpenAI 停用微調 API,你得換個方向:改用「超長系統提示詞」,把品牌規範、常見問答、回答風格全部塞進一大段說明文字,每次對話都帶著這段文字一起送出去。兩者的根本差異是:微調是「改造模型本身的神經網路」,永久有效但每次更新要重訓;超長提示詞是「每次對話都提醒 AI 規則」,彈性更大、可隨時修改,但每次對話的費用略高。對多數中小型應用來說,提示詞方案更實際,這也是行業整體轉向的原因——OpenAI 的決定不過是為這個趨勢補上了句點。
AI 領域正面臨「評測工具跟不上模型進步速度」的問題。過去用來衡量 AI 能力的測試題(benchmark,就像 AI 的期末考)已被頂尖模型拿到接近滿分,導致這些測試失去鑑別力。為了解決這個問題,研究社群正在開發更難、更貼近真實研究的新評測工具:例如由 64 位數學家(其中 38 位是教授)專為研究等級數學出題的「Soohak」,以及擴展至 61 個模型的醫療 AI 評測套件 Medmarks v1.0。與此同時,多個「科學代理」(agentic system,讓 AI 自主執行多步驟研究任務的系統)開始在這些困難測試上展現突破性成績——Google DeepMind 的「AI 協作數學家」在最難等級的 FrontierMath 數學測試(數學頂尖研究人員設計的超難題庫)上達到 48% 正確率,而名為 physics-intern 的系統則讓 Gemini AI 在理論物理測試上從 17.7% 躍升至 31.4%,主要靠將任務拆解給多個專門代理分工處理。
假設我是一位大學數學系的研究助理,想用 AI 加速定理推導工作。傳統上我只能用 ChatGPT 這類對話 AI 詢問問題,但它無法記住上次的計算結果、不能自動查文獻,也難以驗證推導的正確性。Google DeepMind 的 AI 協作數學家則是一個「非同步有狀態工作台」(意思是:AI 可以記住你之前說過什麼、同時平行跑多個任務、不用每次重新說明背景)。我可以把一道尚未解決的數學猜想告訴它,它會自動:①搜尋相關學術論文、②執行計算分析、③驗證推導步驟是否正確、④整理出可提交的正式輸出草稿。對比以前——我需要花幾週手動查文獻、自己計算再手動驗證;現在這套系統能串起整個研究流程,且在目前公開的最高難度數學測試上答對接近一半,是所有公開系統中的頂尖水準。
這篇整理了 2026 年 AI 推理基礎設施(就是讓 AI 模型實際跑起來的一套軟硬體系統)的幾個重要進展。首先,NVIDIA 最新一代 GPU GB200 在跑超大型 AI 模型(例如 Qwen3 235B,一個有 2350 億個參數的巨型語言模型)時,比上一代 H200 快了將近一倍:某項核心網路傳輸延遲從 586 微秒降到 313 微秒,意味著同樣的運算成本更低、回應更快。專為 AI 打造的雲端平台 Modal 也指出,AI 推理(就是 AI 實際回答問題、生成內容的過程)需要專屬系統架構,不能用傳統管理網頁服務的 Kubernetes(一種廣泛使用的雲端管理工具)硬套,因為 AI 有特殊的冷啟動和彈性擴容需求。向量資料庫 Qdrant(一種專門儲存 AI 用來搜尋語意相似內容的工具)更新到 1.18 版,新加了 TurboQuant 技術,記憶體用量減半但搜尋準確度幾乎不變。最值得注意的是史丹佛大學的 Shepherd 研究:他們讓 AI Agent(能自主執行多步驟任務的 AI 程式)的執行過程變得像 Git(工程師管理程式碼版本的工具)一樣,支援分支、回滾、精確重放和人工即時介入,讓 AI Agent 更容易監督、除錯和最佳化。
假設你在用 AI Agent 幫公司自動化一個多步驟流程,例如「掃描今年所有合約→摘要重點→整理成報表→寄給三位主管」。傳統 AI Agent 一旦在第三步(整理報表)卡住或出錯,你只能整個重跑,前面已經完成的查詢結果可能也跟著丟失,無從知道哪個步驟導致錯誤。用 Shepherd 架構的 Agent,每一步執行就像 Git commit(程式碼提交紀錄)一樣被快照下來:你可以在任何一步暫停、人工介入修正一個錯誤的判斷,再從那個精確節點繼續往下跑;也可以開「分支」同時測試兩種不同決策路徑,比較哪條最終效果更好;還能完整重現某次執行的每一步,方便找出 bug 在哪。研究顯示,加入人工即時監督後,AI Agent 在 CooperBench(評估 AI Agent 協作能力的標準測試)上的表現從 28.8% 躍升至 54.7%,幾乎翻倍。相較於舊做法「壞了就重跑、沒有辦法精確復原」,差距非常明顯。
AI agent(就是能自主完成多步驟任務的 AI 程式,例如幫你查資料、寫程式、操控電腦)正在從「展示性概念」轉變為「正式上線的生產系統」。OpenAI 預告了名為 Symphony 的新平台,讓每一個待辦工作都自動配一個持續運行的 Codex agent(OpenAI 的程式碼生成 AI),並且新增「電腦使用」功能,讓 Codex 能跨不同應用程式操作,而不需要完全接管整台電腦。LangChain(一個廣受歡迎的 AI 開發框架)把旗下 Chat LangChain 問答 AI 重新開源,這套系統每週已能處理近 2 兆個 token(token 是 AI 處理文字的基本單位,2 兆 token 約等於數億篇文章的內容量)。此外,管理長時間運行 agent 的「狀態」(state,即 AI 目前做到哪一步、記住了什麼)已成為重要的工程問題:LangGraph 推出 DeltaChannel 快照機制,只記錄「變動的部分」而非每次儲存完整狀態,讓大規模 agent 執行更有效率;Google 的 Gemini 互動 API 也引入加密「思考簽章」,讓 AI 在多輪對話中保留推理脈絡,開發者不需要手動管理這些複雜資訊。
假設你在用 LangGraph 開發一個能處理複雜任務的 agent,例如「自動幫我每天監控 50 個競爭對手網站、分析變動、寫成摘要報告」。這種任務可能要持續跑幾小時,中間要記住爬了哪些網站、哪些還沒爬、目前蒐集到什麼資料。舊做法是每一步都把「完整狀態」存下來——好比每分鐘都把整本筆記本影印一份備份,非常浪費空間和時間。LangGraph 新推出的 DeltaChannel 快照機制改成只記「這一步改了什麼」,好比只在筆記本上用不同顏色標出新增內容。結果是:相同任務的狀態存取速度更快、占用資源更少,agent 能更穩定地跑完整個流程,而不會因為中途崩潰就要從頭來過。
Anthropic(開發 Claude 系列 AI 的公司)為旗下最頂級的模型 Claude Opus 4.7 推出「快速模式(Fast Mode)」,目前以研究預覽版形式在 API(讓開發者把 AI 功能串進自己產品的程式介面)和 Claude Code(Anthropic 推出的 AI 程式輔助工具)中開放試用。快速模式的核心賣點是:輸出速度明顯更快,但並不是換用比較弱的小模型——用的仍是同一個頂級 Opus 4.7,品質不打折。目前這個功能是「opt-in(使用者主動選擇開啟)」,Anthropic 計畫未來將其設為預設。除了 Claude Code,Cursor、Windsurf、v0、Warp、Emergent、Factory 等熱門 AI 輔助開發工具也已同步支援快速模式。
假設你是一位工程師,用 Cursor(一個把 AI 助手整合進去的程式編輯器)寫程式,請 Claude Opus 4.7 幫你審查一段 300 行的程式碼並指出潛在的安全漏洞(就是程式裡可能被駭客攻擊的弱點)。平常模式下,Opus 4.7 回覆品質很高,但可能要等個幾秒以上;開啟快速模式後,同樣是 Opus 4.7 在思考和回答,但輸出速度大幅提升,讓你可以更快拿到審查結果、不必中斷工作節奏。過去要加速只能改用品質較差的輕量模型,快速模式打破這個取捨——在 Claude Code 中只需輸入 `/fast` 指令即可切換,其他支援平台也有對應的開關設定。
Google 在 Android 手機上推出了全新的 Gemini(Google 自家的 AI 助理,類似 ChatGPT 但整合在手機系統內)功能,這次升級的核心是「agentic AI(代理型 AI,意思是 AI 不只是回答問題,而是可以替你實際完成任務、執行一連串動作)」。新功能讓 Gemini 能夠跨不同 App 執行操作——例如同時查資料、填表單、寄信,全部靠一句話指令就能完成,不需要你自己一個個切換 App 手動操作。此外,使用者現在可以用自然語言(就是日常說話的方式,不需要寫程式碼)描述想要什麼樣的桌面小工具(widget,就是顯示在手機桌面上的小功能區塊,例如天氣、行事曆),AI 就會自動生成。這項更新標誌著 Android 手機正從「你主動操作 App 的工具」,演進為「AI 替你操作所有 App 的智慧代理」。
我想在週末出門前完成幾件事——查一下行程中的餐廳是否需要訂位、訂好之後寄確認信給朋友、再順便在瀏覽器填一份報名表。傳統做法是:自己開瀏覽器搜尋餐廳電話、切換到 Gmail 手動撰寫信件、再切到另一個網頁填表,每個步驟都要自己操作。有了新版 Gemini 的跨 App 代理功能,只需對手機說一句:「幫我查週六晚上鼎泰豐是否接受預訂,訂好後寄信通知小王,然後幫我填好這份報名表。」Gemini 就會依序開啟瀏覽器查詢、自動切換到 Gmail 撰寫並送出通知、再到指定網頁逐欄填寫表單——全程無需手動切換任何 App,AI 一氣呵成完成所有步驟。
阿里巴巴的 AI 研究團隊 Qwen 發布了最新圖像生成模型 Qwen-Image-2.0——這是一種根據文字描述自動產生圖片的 AI 工具,這次更新帶來多項明顯突破。最顯著的是文字渲染能力:它能在生成的圖片上正確顯示超長文字(最多相當於 1,000 個詞彙單位),並支援中文、英文等多語言排版,過去 AI 圖像工具在這方面幾乎都做得很差。模型在光真實感(讓 AI 生成圖片看起來更像真實照片的技術)上也大幅進步,細節紋理更豐富、更接近專業攝影的質感。此外,它對複雜指令的遵循能力更強——當你描述一個有很多細節要求的畫面,新模型能更準確地還原你的想法,不會亂改或漏掉重要部分。根據 75 人研究團隊的廣泛人類評估,Qwen-Image-2.0 在圖像生成與圖像編輯兩項任務上,都大幅超越前一代 Qwen-Image 模型。
假設我要做一張中英雙語的產品宣傳海報:上方是英文標語「Redefine Your Day」,中間是一大段中文產品說明,下方是高質感的商品特寫圖。用舊版 AI 圖像工具(如早期 Stable Diffusion 或 DALL-E 3),生成的圖片中文字幾乎必定亂碼——字體扭曲、文字錯排,中文更是幾乎不可用,最後還得手動開 Photoshop 把文字蓋上去。換成 Qwen-Image-2.0,只需一段提示詞描述版面配置與文字內容,模型就能直接生成中英文字體排列整齊、版面乾淨、圖像質感逼真的完整海報,省去後製補字的步驟,對需要快速製作多語言視覺素材的設計師或行銷人員來說,效率提升明顯。
Daybreak 是 OpenAI 推出的企業網路安全防禦計畫,讓 AI 主動幫企業找出系統漏洞並協助修補。這項服務整合了 LLM(就是 ChatGPT 這類能理解語言和程式碼的大型語言 AI)以及 Codex 的代理能力(Codex 是 OpenAI 開發的程式碼 AI,能自動讀懂、生成和分析程式碼;「代理能力」指 AI 能自主一步步完成任務,不用人一直下指令)。OpenAI 還找來 Cloudflare(CDN 與網路安全大廠)、Cisco(企業網路設備龍頭)、CrowdStrike(全球知名資安公司)、Oracle(資料庫與雲端服務商)及 Zscaler(零信任網路安全商)等主要資安廠商合作,共同提供完整的企業資安評估服務。企業現在可以主動向 OpenAI 申請「資安風險評估」,讓 AI 掃描並指出潛在的安全弱點,這讓 OpenAI 開始與 Anthropic(Claude 的開發商,也在做類似的 AI 資安模型)在 AI 資安市場正面競爭。
假設我是一家中型電商公司的 IT 主管,擔心公司的網路基礎設施可能有安全漏洞,但自己的資安團隊人手有限,無法全面掃描所有系統。以前的做法是聘請資安顧問公司手動進行滲透測試(就是模擬駭客攻擊來找漏洞),耗時數週且費用高昂,通常一年才做一次,中間出現的新漏洞完全來不及處理。現在透過 Daybreak,我可以向 OpenAI 申請資安風險評估,AI 代理會自動分析公司的程式碼、網路設定及系統架構,找出潛在弱點後直接生成修補建議報告,整個過程從數週縮短至數天,且能持續監控而非一次性人工檢查。舊做法:每次評估要花 10 萬以上、等三週報告;新做法:申請後 AI 自動掃描,快速產出弱點清單和修補指引。
Anthropic(開發 Claude AI 的公司)於 2026 年 5 月 13 日正式推出「Claude for Small Business」(Claude 小企業版),這是一套專為小型企業主設計的 AI 服務套餐,不需要任何技術背景就能上手。套餐內含 15 種現成的自動化工作流程(就是預先設計好的工作步驟清單,讓 AI 幫你從頭到尾完成特定任務,不需自己從頭設定),涵蓋財務、營運、銷售、行銷、人資、客服六大面向。服務整合了七款小企業常用工具:QuickBooks(財務記帳軟體)、PayPal(線上收付款平台)、HubSpot(客戶關係管理系統)、Canva(線上設計工具)、DocuSign(電子簽章服務)、Google Workspace 與 Microsoft 365。使用者透過 Claude Cowork 介面選好想要的任務後,Claude 會自動執行,完成後交由使用者審核再批准,全程保留人工確認機制。
假設我是一家小型電商老闆,每個月月底要對帳、查現金流、追應收款項。以前得在 QuickBooks 和 PayPal 後台之間手動比對數字,花半天時間算出盈虧報表,再一封一封寄催款信給逾期客戶。現在用 Claude 小企業版,我只要連結 QuickBooks 和 PayPal 帳號,選擇「月結對帳與現金流預測」工作流程,Claude 會自動把兩平台數字對齊、計算未來 30 天現金流、列出哪些應收款已逾期,並草擬好催款信讓我一次確認送出。原本半天的重複性工作可壓縮至幾分鐘審批,差異在於:舊做法是人工一筆一筆比對、新做法是 Claude 跑完後只需人工決策。
這篇文章討論的是:在 AI 幫你寫程式碼的時代,選哪一種程式語言(就是像 Python、Rust、TypeScript 這類,人類用來告訴電腦要做什麼事的「指令語言」)反而更加關鍵。一份涵蓋 13 種程式語言的測試報告宣稱,動態型別語言(如 Python、Ruby——這類語言讓你寫程式時不用嚴格宣告每個變數的資料類型,比較彈性)比靜態型別語言(如 Rust、TypeScript——這類語言要求你明確定義每個資料的型態,讓電腦在執行前就幫你抓問題)更便宜更快,但這份報告因為測試設計不公平而遭技術社群強烈質疑。真正重要的洞察是:靜態型別語言的「編譯器」(就是把你寫的程式碼翻譯成電腦能執行格式的轉換程式)能在 AI 生成的程式碼跑起來之前就挑出錯誤,讓 AI 立刻自動修正,等於每次犯錯都能即時拿到回饋;而 Python 這類動態語言的錯誤只有程式實際執行時才會現身,AI 需要更多「跑一次、失敗、再修」的循環。科技巨頭的行動也透露了方向:OpenAI 收購了 Python 生態工具公司 Astral、Anthropic 收購了 JavaScript 執行環境 Bun、Microsoft 把 TypeScript 編譯器用 Go 語言重寫後效能提升約 10 倍——這些投資顯示,AI 時代「工具鏈」(支撐程式語言運行的整套周邊工具)的效率,重要性不亞於語言本身。
我要開發一個「讀取用戶資料並存入資料庫」的 API 端點(就是讓前端網頁可以傳資料給後端伺服器的接口),決定用 AI 輔助工具 Cursor 自動生成程式碼。選用 TypeScript(靜態型別語言)時:AI 生成完整函式後,TypeScript 的編譯器立刻跳出提示——「第 23 行:這個函式預期收到文字,但傳入的是數字」。AI 看到這條明確的錯誤訊息,不需要真正執行程式,直接在同一輪對話中修正,30 秒內結束。換成 Python 的舊做法對比:AI 生成的程式碼語法完全正確,沒有任何即時報錯。同樣的資料型別問題要等到程式真正啟動、用戶實際傳入資料時才會爆出 runtime error(執行時期錯誤,也就是程式在跑的當下才發現的問題)。AI 此時需要重新取得錯誤訊息、理解報錯位置、再次生成修正程式碼,多跑了 3~4 個迭代循環。差距在哪:AI 一次生成 500 行程式碼時,靜態語言可能在編譯階段就一口氣攔截 20 個問題;Python 則需要 20 次「執行→失敗→修正」,每次都要重啟服務、重現問題,總耗時可能是前者的 5 倍以上。
這篇分析整合了多份研究與社群討論,探討當前 AI 大規模投資潮是否已進入泡沫狀態。MIT 追蹤 52 個企業機構的研究發現,95% 的 AI 試點(就是公司把 AI 導入實際業務的嘗試)沒有帶來任何回報,Goldman Sachs(高盛,全球頂尖投資銀行)的分析也指出 2025 年高達 7000 億美元的 AI 支出對美國 GDP(整體經濟產出)貢獻幾乎為零。更直接影響開發者的是 API 定價結構問題:目前 OpenAI、Google 等大型 AI 公司提供的 API(讓開發者接入 AI 能力的程式介面)都是以低於實際成本的補貼價格運營,過去兩年 token(AI 處理文字的計費單位)單價跌幅高達 80 至 90%,但這種補貼不可能永久維持。文章提醒,一旦定價「正常化」,現有的 AI 工作流程可能面臨 5 到 30 倍的成本衝擊,而許多開發者並不知道自己正站在補貼地基上。
假設你為公司建立了一個客服 AI Agent(可以自動回覆問題、串連多個步驟完成任務的 AI 程式),對話一開始每次呼叫 AI 約消耗 5,000 個 token。但 Agent 模式有個「複利效應」:每輪對話結束後,歷史紀錄會被保留並帶入下一輪,到第 50 輪時,每次呼叫可能暴增到 20 萬個 token——光是這個變化就讓成本放大了 40 倍。以現行補貼定價計算,月費看起來可能還算合理;但若 API 供應商按真實成本收費,同樣的 Agent 月費可能從幾千元跳升到幾十萬元,整個系統在財務上就站不住腳。預防方式是在架構層面主動設置 context window 截斷(限制 AI 能回看的歷史對話長度)、追蹤每個功能模組的 token 消耗量,並設計「降級路徑」——當 AI 成本超過閾值時,部分功能能自動切回傳統規則系統繼續運作,而不是直接讓整個服務停擺。
NousResearch(一家專注於開源 AI 研究的機構)推出了名為 hermes-agent 的開源 AI Agent 框架(Agent 就是能自主完成任務的 AI 程式,你給它一個目標,它自己想辦法執行)。這個框架最大的特色是內建「學習迴圈(Learning Loop)」——Agent 不只會執行交辦的任務,還會在過程中把「怎麼做更好」記錄下來,下次碰到類似情境就直接套用,越用越熟練,而不是每次都從零開始。與大多數 AI 工具是「無狀態」的不同(也就是每次對話結束就忘光光),hermes-agent 會把學到的東西寫進持久記憶,跨越不同使用時段持續累積。目前這個框架在 GitHub(全球最大的開源程式碼平台)上已有超過 14.7 萬顆星,是目前星數最高的開源 Agent 框架之一,最新版本支援超過 200 種 AI 模型、可接入 Telegram、Discord、Slack、WhatsApp 等 20 多個平台,最低只需約 150 元台幣的雲端主機就能部署。
假設你是一名內容編輯,每週需要整理大量競品的社群貼文並分類主題。第一週用 hermes-agent 設置一個分類 Agent,它花了一段時間摸索,把「產品發布類」和「活動促銷類」區分開來,分類準確率 80%。hermes-agent 的學習迴圈會把這次的分類邏輯寫進它的持久記憶;到了第三週,Agent 看到類似格式的貼文,直接套用記憶裡的規則,不用重新理解,準確率提升到 90%,時間也縮短了。換成一般的無狀態 AI 助手(例如直接呼叫 ChatGPT API),每次呼叫都是全新起點,你得在每次請求裡重新說明分類規則,框架本身不會自動記住任何東西,等於每週從頭教一次。
Ardent 是一個專門為 AI 程式碼助手(也就是像 Cursor、Claude Code 這類能自動幫你寫或修改程式的 AI 工具)打造的資料庫沙箱服務。所謂「沙箱」,就是一個和正式環境隔離的測試空間,讓 AI 在裡面隨便改也不會傷到真正的資料庫。過去 AI 助手在處理需要變更資料庫結構或資料的任務時,因為缺乏夠真實的測試環境,很容易生出有問題的程式碼,一旦套用到正式環境就可能讓整個資料庫壞掉。Ardent 利用 Postgres(一種全球廣泛使用的開源關聯式資料庫)的邏輯複製技術,在 6 秒內幫你分叉出一個「幾乎和正式環境一模一樣」的資料庫複本,讓 AI 或開發者在上面安心測試,改壞了也不影響正式資料。它採用「寫入時複製」(copy-on-write,就是只有在你真的改動某筆資料時,才把那部分複製一份,平時共用原始資料),所以就算資料庫大到好幾 TB,也能在幾秒內完成複本建立,不需要把整個資料庫搬一遍。另外還支援個資去識別化,可以在把複本交給測試環境前,先把姓名、電話等敏感資訊自動替換掉,確保測試過程不會洩漏用戶資料。
假設我正在用 Claude Code(一種 AI 程式助手)協助優化一張有幾億筆資料的訂單資料表查詢效能,直接在正式資料庫上測試風險太高。舊做法是手動建一個測試資料庫、花幾個小時匯入資料,或改用假資料——但假資料的分布和正式環境差太多,AI 根據假資料提出的索引調整方案,套到正式環境往往沒有效果。用 Ardent 後,我只需要把 Ardent 連上正式 Postgres,它在 6 秒內就生出一個帶有真實資料的複本,讓 Claude Code 在這個複本上跑 EXPLAIN ANALYZE(資料庫查詢計畫分析指令,用來評估查詢效率)、測試各種加速方案。就算 AI 下了一個糟糕的 ALTER TABLE 把表格結構搞壞,正式環境完全不受影響——丟掉那個複本、重新分叉一個就好,前後不超過 10 秒。這不只省掉建測試環境的幾小時,更因為資料是真實的,AI 提出的優化方案在正式環境也真的有效。
這篇文章描述了一個正在發生的文化轉變:AI Agent(就是能自主執行任務的 AI 助理,像 Claude、GPT-4 這類可以幫你寫程式、操作電腦的 AI)正在讓「為自己打造專屬軟體工具」變得前所未有的容易。作者以 Emacs(一款以高度客製化著稱的老牌文字編輯器,程式設計師可以把它改成幾乎任何形狀)比喻,稱此趨勢為軟體的「Emacs 化」。過去,要為自己寫一個 macOS 原生應用程式需要學習 Swift 等難度較高的程式語言,普通人幾乎做不到;而現在有了 AI Agent,作者在 30 分鐘內就完成了一個 macOS Markdown 查看器(用來瀏覽 .md 格式文件的小工具)。更關鍵的是,這次轉變改變了「什麼才是真正有價值的東西」——以前是程式碼本身,現在是「提示詞」(就是你告訴 AI 要做什麼的那段描述文字),因為提示詞才是重現和客製化軟體的真正資產。
假設你每天需要快速預覽 Markdown 文件(一種常見的筆記格式),但市面上的工具要嘛太複雜要嘛介面很醜。舊做法:要嘛湊合著用、要嘛花大量時間在 App Store 裡搜尋。新做法:打開 Claude 這類 AI Agent,描述「我需要一個 macOS 上的 Markdown 查看器,可以快速預覽,介面乾淨」,30 分鐘後你就有一個專屬的原生應用程式。而且你真正需要保存的不是那幾百行程式碼,而是你給 AI 的那段描述——下次想調整功能,再拿描述去修改就好。對比過去:自己寫需要學幾個月 Swift,外包需要花錢,找現成工具可能根本沒有完全符合需求的選項。
AI 聊天機器人(就是 ChatGPT、Google 的 Gemini 這類可以對話問答的人工智慧)在訓練時吃進了大量從網路上爬取的資料,其中包含許多人的手機號碼、電子郵件等個人聯絡資訊。問題在於,這些模型會「記住」訓練資料裡的具體內容,當有人向它查詢某人的聯絡方式時,它可能直接把真實的私人電話號碼說出來,甚至配上錯誤的脈絡——例如把某個普通人的 WhatsApp 個人號碼說成是某家公司的客服專線。目前各大 AI 公司雖然有部分隱私保護機制,但無法有效阻止這類洩露,受害者也很難要求 AI 公司徹底刪除自己的資料。現行隱私法(如歐盟 GDPR)通常不適用於已被公開爬取的網路資料,讓問題更難解決。
以色列開發者 Daniel Abraham 某天突然開始收到大量陌生人的 WhatsApp 訊息,這些人都在詢問支付應用程式 PayBox 的客服問題。原來,有使用者在 Google 的 Gemini(Google 推出的 AI 聊天助理)上問「PayBox 的 WhatsApp 客服是什麼」,Gemini 直接把 Abraham 的個人手機號碼當成答案吐出來——而 PayBox 根本沒有 WhatsApp 客服服務。這個號碼來自 Gemini 訓練時爬到的某筆舊資料,剛好包含了 Abraham 的私人手機。相比之下,用傳統搜尋引擎(如 Google 搜尋)搜同樣的問題,通常只會列出官方網站連結,讓使用者自己點進去找,而非直接生成一個看似正確卻實為他人私人號碼的答案;這正是 AI 聊天機器人「主動生成回答」與「被動索引網頁」的本質差異所造成的隱私風險。
這篇整理了幾個正在受到 AI 研究社群關注的「訓練最佳化」技術方向。第一類是最佳化演算法的改良:SOAP/Muon(一種訓練神經網路時調整參數的數學方法,目標是讓每一步訓練更有效率)的新變體在社群挑戰賽中刷新了紀錄,用更少的步驟訓練出同樣水準的模型。第二類是「超級最佳化」與 AI 系統的結合:有研究者用 Lean4(一種數學證明語言)自動搜尋更快的 GPU 運算核心(就是讓顯示卡跑 AI 的底層程式碼),在 NVIDIA A100 上找到平均快 1.8 倍的寫法,甚至重新發現了業界知名的 FlashAttention2 算法。第三類是對縮放定律(預測模型大小和訓練量如何影響效能的經驗公式)的重新審視:有人指出「每個參數訓練 20 個 token」這個舊規則其實依賴 tokenizer(把文字切成小片段的工具)的設定,用「bytes(位元組)」來衡量才更客觀。此外還有 Lighthouse Attention(訓練大型模型時降低長文本處理成本的技術)和 Renderers(加快 AI 代理訓練吞吐量超過 3 倍的框架)。
假設我要訓練一個能處理長篇文章的語言模型,長文本訓練(例如 128K token 的上下文長度)因為注意力機制(模型讀文章時「看」哪些字的計算過程)的計算量是句子長度的平方,費用非常高。用 Lighthouse Attention 的做法是:訓練期間換成計算量較低的「次二次方」近似版注意力,快到訓練後期再切回標準的注意力做短暫恢復訓練(recovery phase),最終部署時模型行為和普通版完全一致,但整體訓練成本明顯降低。對比舊做法,舊方法得從頭到尾跑完整注意力,費用可能貴上好幾倍。
Artificial Analysis(一家專門替 AI 模型打分、做比較測試的第三方機構)推出了名為 τ-Voice 的新基準測試——也就是一套標準化的「AI 語音能力考試」,專門評估「語音對語音(Speech-to-Speech,S2S)」AI 模型的實際表現。所謂語音對語音模型,就是那種你直接對著它說話、它也用聲音即時回應你的 AI 系統,是現在語音客服機器人或 AI 語音助理的核心技術。τ-Voice 的測試情境設計貼近真實生活——模擬的是實際客服通話中會碰到的各種問題,例如退貨、帳號問題、訂單查詢。測試結果令人意外:即便是目前最強的語音 AI 模型,也只能成功處理約一半的情境,冠軍是 xAI 公司(馬斯克旗下的 AI 公司)推出的 Grok Voice Think Fast 1.0,得分僅 52.1%,其餘模型表現更低。
假設我是一家電信公司,打算導入語音 AI 客服機器人,讓它 24 小時自動接聽「帳單查詢、方案變更、停話申請」等電話,減少真人客服人力。根據 τ-Voice 測試的情境模擬,即使選用市面上最強的 Grok Voice Think Fast 1.0,平均每接 100 通客戶來電,大約只有 52 通能被 AI 完整處理到客戶滿意為止,剩下將近 48 通仍需轉接真人。對比過去用純文字聊天機器人(例如 GPT-4 驅動的對話機器人),語音模型還需要即時聽懂說話、判斷語氣與停頓、並快速組出流暢回應,技術難度更高,因此在複雜問題上更容易失誤。這個測試告訴我們:語音 AI 客服目前還沒到「全自動」的程度,部署時仍需搭配真人備援機制。
越來越多研究團隊開始專門研究一個問題:AI 寫出來的程式碼是否安全?史丹佛大學相關研究團隊推出了名為 SecureForge 的研究項目,目標是找出並預防 LLM(就是 ChatGPT 這類會生成文字和程式碼的大型語言模型)在寫程式碼時可能暗藏的安全漏洞。這個研究使用「prompt optimization」(提示詞優化,就是系統性地調整問 AI 的方式,讓 AI 表現更好或暴露問題)來發現並修正 AI 生成程式碼的安全缺陷。更深層的意義是:現在的 AI coding agents(能自動幫你寫程式的 AI 工具,例如 GitHub Copilot、Cursor)已經強大到被大量依賴,如果不專門針對安全性做系統性評估,可能讓有漏洞的程式碼悄悄進入公司的軟體供應鏈,造成難以察覺的風險。
假設你用 AI coding agent 幫你寫一個「使用者登入驗證」功能,AI 可能生成看起來可以運作的程式碼,但其中暗藏 SQL injection(一種讓黑客只要輸入特殊字元就能入侵資料庫的漏洞)。SecureForge 的做法是:用優化過的提示詞先「誘導」AI 生成各種可能有問題的程式碼,再用同一套框架自動偵測哪些程式碼有安全疑慮。相比以前開發者寫完程式碼再事後用安全掃描工具(如 SonarQube)檢查的做法,SecureForge 試圖在 AI 生成階段就介入——讓有問題的程式碼根本不被輸出,而不是等進入代碼庫才補救,省去事後救火的成本。
Qwen 3.6 是阿里巴巴推出的最新開源 AI 語言模型系列(開源表示任何人都能免費下載到自己電腦上執行,不需付費使用外部服務)。這篇社群討論圍繞兩件事:第一是 MTP(Multi-Token Prediction,一種讓 AI 一次預測多個字以加快推理速度的技術)在本地推理工具(如 llama.cpp,一個讓你在自己電腦上跑 AI 的開源程式)中的支援狀況,目前仍需手動編譯特定分支才能使用,尚未正式整合進主線版本。第二是有人對 Qwen 3.6 35B A3B、Qwen 3.6 27B、Gemma 4 26B A4B、Nemotron 3 Nano 四個小型開源模型做了「長上下文理解」評測——把一篇學術論文加上對應程式碼一起餵給 AI,測試它能否讀懂並生成正確代碼。結果顯示四個模型都大幅超越舊有小型基準(如 Devstral Small 2),其中 Qwen 3.6 35B A3B 表現最佳;而社群使用者也分享了把 Qwen 35B(約 20GB)與 Gemma 26B(約 15GB)同時載入 32GB 記憶體電腦的實戰心得,前者負責需要閱讀大量程式碼的長任務,後者負責快速修 bug 和對話。
我是工程師,手上有一篇 AI 研究論文(例如介紹新型神經網路架構的學術文章)加上原始程式碼,想請 AI 幫我把論文裡描述的方法重新實作——這種任務需要 AI 同時讀懂上萬字的論文和程式碼,叫做「長上下文」處理。過去小型本地模型(例如 Devstral Small 2)因記憶體不足或能力有限,根本塞不下或讀不懂這麼長的輸入,若要做這種任務只能改用 GPT-4 或 Claude 這類付費 API。現在改用 Qwen 3.6 35B A3B,以 q4 量化(就是把模型壓縮以節省記憶體,代價是輕微損失精度)載入後僅佔約 20GB,搭配 llama.cpp 在本地執行,就能把整篇論文與程式碼一起輸入,得到比以前準確許多的實作結果,而且資料完全不需要離開自己的電腦。同時再掛一個 Gemma 26B(約 15GB)在旁邊,日常快速問答交給 Gemma,遇到需要深度理解大量代碼的任務再切換回 Qwen,兩者共用 32GB 記憶體就能同時常駐。
這篇社群討論整理了兩個在工作站硬體上跑超大型 AI 模型的實驗。第一個實驗展示如何用 Intel Optane 持久記憶體(一種介於普通 RAM 和固態硬碟之間的特殊記憶體,特色是容量大、速度比硬碟快得多)組裝一台能在本地跑 Kimi K2.5 的機器——Kimi K2.5 是約有 1 兆個參數(AI 模型的「神經連線數量」,愈多代表模型愈龐大複雜)的超大語言模型(就是像 ChatGPT 那樣能對話的 AI),在這套硬體上每秒能生成約 4 個 token(token 是 AI 處理文字的基本單位,大約每 1.5 個 token 對應一個中文字)。第二個實驗針對 RTX 4090 顯示卡(高階 AI 運算卡)測試降低功耗上限的效果,發現把功耗從 450W 降到 270W,「輸出文字」的速度幾乎沒有損失,只有「讀入提示詞」(prefill,就是 AI 開始回答前先消化你輸入內容的階段)速度下降約 15~20%。這兩個實驗都在探索同一個問題:如何用更低成本、更低耗電的方式在本地跑大型 AI 模型。
假設我手邊有一批敏感的公司文件要做自動摘要,不想把資料傳到雲端,想在本機離線跑超大型 AI 模型(模型愈大品質通常愈好):以往的做法是完全不可能在一般工作站執行 1 兆參數的模型,必須仰賴雲端 API 或花費數十萬元購置高階多卡伺服器。按照這個實驗的方案,可以在二手市場花約台幣 6~8 萬元湊齊一台配有 768GB Intel Optane 記憶體的 Xeon 工作站加上 RTX 3060 12GB 顯卡,用 llama.cpp(免費的本地 AI 推論軟體)就能啟動 Kimi K2.5。雖然每秒只能輸出約 4 個 token,不適合即時對話,但對批次處理長文件是可接受的,讓「完全離線本地跑超大型 AI 模型」從不可能變為可能。另外若你已有 RTX 4090 且想降低噪音與散熱壓力,可執行 sudo nvidia-smi -pl 270 把顯卡功耗上限設為 270W,幾乎不損失文字生成速度,即可大幅降溫降噪。
Needle 是由 Cactus Compute 公司發布的一個超小型開源 AI 語言模型,只有 2600 萬個參數(參數可以理解為模型學到的「記憶量」,參數越多模型通常越聰明但也越耗資源,ChatGPT 這類大型模型通常有數百億個參數)。這個模型專門用來做「工具呼叫」(就是讓 AI 判斷要使用哪個外部工具、以及怎麼用,例如:叫 AI 決定去搜尋網路還是查資料庫,並組好正確的查詢格式)。它的速度非常快——在一般消費者的電腦上就能達到每秒處理 6000 個字詞的速度,幾乎是即時反應。最令人驚訝的是,在工具呼叫這項任務上,它的表現打敗了比它大十倍以上的模型,包括 2.7 億參數的 FunctionGemma、6 億參數的 Qwen、3.5 億參數的 Granite 等。模型採 MIT 授權完全開源,任何人都能免費下載使用,程式碼與模型權重(就是模型訓練完的成果檔案)都已公開在 GitHub 和 Hugging Face 上。
假設你在開發一個 AI 助理 App,需要它能在用戶問「現在台北天氣如何?」時,自動呼叫天氣查詢 API(應用程式介面,讓程式向外部服務取得資料的橋樑)。傳統做法是把這個請求送到雲端的 GPT-4 或 Claude 大型模型來判斷要呼叫哪個工具、帶入什麼參數——但這樣成本高且需要網路。改用 Needle 後,你可以把它直接部署在用戶裝置本機上(因為只有 26M 參數,手機也跑得動),讓它負責「讀懂用戶意圖 → 決定呼叫 weather_api → 組好 JSON 格式參數」這整段流程,每秒能處理 6000 個 token(token 是文字的最小計算單位,大約等於一個中文字或半個英文單詞),延遲從數百毫秒降到幾毫秒。只有在需要生成自然語言回覆時,才把工具回傳的天氣資料送給大型模型潤飾成人話。結果是:工具路由這層完全不用花雲端 API 費用,省下大量成本,還能在沒有網路的環境下運作。
Meta(就是 Facebook、Instagram、WhatsApp 的母公司)發布了一個名為 Muse Spark 的基礎模型(foundational model,指的是像 ChatGPT、Claude 這類大型 AI 系統的核心技術,可以同時處理文字、圖片、語音等多種資訊)。這個模型現在已經悄悄在幕後驅動 Meta AI——也就是你在 WhatsApp、Instagram、Facebook、Messenger、Threads 裡看到的那個 AI 助理——而且它被設計成「小而快」,特別擅長科學、數學、健康等需要邏輯推理的問題。Muse Spark 的一大特點是多模態(multimodal,就是能同時看懂文字、聽懂語音、辨認鏡頭拍到的畫面),讓你可以用說話的方式自然對話,甚至可以打斷 AI、切換話題或換語言,AI 都能跟上。目前這項功能先向美國和加拿大用戶開放,並計畫整合到 Ray-Ban Meta 和 Oakley Meta 等 AR 智慧眼鏡(就是戴上去能顯示資訊、拍照錄影的太陽眼鏡)。
假設你在二手平台想買一台咖啡機,但不確定型號和市價。你打開 WhatsApp 的 Meta AI,對著手機鏡頭對準朋友家的咖啡機說:「這台多少錢?Facebook Marketplace 有沒有比較便宜的一樣款式?」——Muse Spark 驅動的 Meta AI 會即時辨識鏡頭裡的咖啡機品牌和型號(這就是「即時視覺辨識」功能),然後自動搜尋 Facebook Marketplace 和網路商品列表,回傳附近有在賣的二手品加上最低售價。以前你需要自己拍照、Google 搜尋品牌、再另外開 Marketplace 比價,三個 App 來回切換;現在只需要一句話,在同一個對話視窗裡就能拿到答案。
Modal 是一個 AI 雲端基礎設施服務,讓開發者可以把 AI 模型部署到雲端,由 Modal 負責管理底層的伺服器與 GPU(一種專門跑 AI 的特殊晶片)。「推論」(Inference)就是指拿已經訓練好的 AI 模型來實際回答使用者問題、生成文字或圖片,是 AI 服務日常運作最核心的動作。Serverless(無伺服器)是一種雲端架構概念,意思是「不需要一直開著機器等客人,有人來才啟動」——這樣可以省很多閒置成本。問題在於 AI 推論需要 GPU,GPU 從零冷啟動非常慢,以前要 2000 秒(約 33 分鐘),根本做不到「有需求才開機」。Modal 透過四項技術——預備 GPU 緩衝池、懶加載容器映像(只先載入幾 MB 的索引,其餘等需要時再取)、CPU 記憶體快照(把初始化後的狀態存檔,下次直接從存檔恢復,省掉重複的 Python 啟動流程)、以及 NVIDIA GPU 記憶體快照(把整個模型在顯示卡上的狀態存下來,跳過重新載入模型步驟)——把冷啟動時間壓縮至 50 秒,整體提速約 40 倍,讓 AI 推論服務真正實現 Serverless。
以 vLLM 為例——vLLM 是一個廣泛使用的開源框架,用來把 LLaMA、Mistral 等開源大型語言模型(就是 ChatGPT 那類會對話的 AI)包裝成可以對外提供服務的 API。假設你的 AI 聊天應用突然在某個時段湧入大量使用者,系統需要多開一台 vLLM 節點來分擔流量:舊做法下,從容器下載、Python 環境初始化到 GPU 載入模型完成,整個流程要 96 秒;套用 Modal 的 GPU 記憶體快照之後,系統把「模型已在 GPU 中就緒」的狀態存起來,下次新開節點直接從這個存檔點恢復,啟動時間降至約 14 秒——快了約 7 倍。整體場景從「流量來了先等 33 分鐘再說」縮短到「50 秒內上線新節點」,真正做到流量平峰時全關、尖峰時秒開,不再需要為了避免等待而浪費錢養一堆閒置 GPU。
Cactus Needle 是一個只有 2600 萬個「參數」(可以想成模型記憶的神經連結數量)的微型 AI 語言模型,比起 ChatGPT 背後動輒幾百億參數的大模型小了好幾千倍。它採用一種叫「蒸餾」(distillation,就是讓小模型去模仿大模型的輸出行為,把大模型的「知識」壓縮進小模型)的技術,從 Google 的 Gemini 3.1 提煉出來。由於體積極小,它可以直接在一般 Mac 或個人電腦上以每秒 6,000 個字元的極高速度處理輸入、每秒 1,200 個字元的速度生成回應,完全不需要連接雲端伺服器。更重要的是,模型的「權重」(weights,就是 AI 的學習成果,拿到後就能自己訓練或使用)完全公開免費下載,任何人都可以在自己的電腦上針對特定用途再進行「微調」(fine-tuning,用少量專屬資料讓模型更適合特定任務)。Cactus Needle 主打讓 AI 能跑在手機、智慧手錶、AR 眼鏡等消費性裝置上,讓 AI 不再依賴網路連線。
假設我是一個 App 開發者,想在智慧手錶 App 裡加入「隨時離線問答的私人健康助理」,讓使用者在沒有網路的戶外運動時也能即時查詢健身建議。傳統做法是把問題送到雲端 ChatGPT,但這需要網路而且有延遲;手錶的記憶體和算力有限,放不下一般的大型模型。用 Cactus Needle,我可以先在自己的 Mac 上用幾百筆健康問答資料做微調,把模型調成「懂健身知識的小助理」,再把這個只有 26M 參數的超小模型打包進手錶 App。實際運行時,手錶本地每秒能輸出 1,200 個字元,對話回應幾乎即時,完全不需連網。相比之下,舊做法要嘛在無網路環境下完全無法使用,要嘛得用更大的模型導致耗電暴增、裝置發燙。
OpenAI(美國知名 AI 公司,開發了 ChatGPT)發布了一套使用 Codex(一種能讀懂並撰寫程式碼的 AI 工具)建立「自我修復迴圈」的工作流程教學。所謂「自我修復迴圈」,就是讓 AI 代理程式(agent,能自主執行任務的 AI 程式)在完成一個任務後,自動回頭檢查自己的輸出有沒有問題,找到問題後再修復,修復完再驗證是否合格——不斷循環直到品質達標,或嘗試次數用完為止。整個流程分為三個階段:「審查」(Review,AI 看自己的輸出哪裡有問題)、「修復」(Repair,AI 根據審查結果做出修改)、「驗證」(Validation,AI 執行實際測試確認修復是否有效),每個階段都用結構化的 JSON 格式(一種電腦容易讀懂的資料格式)傳遞資訊,讓整個流程可以被追蹤和除錯。這套方法的核心設計理念是用「真實執行結果」(而非 AI 的主觀猜測)驅動下一輪改進,確保每次迭代都在解決真正存在的問題,最終輸出的可靠性比傳統單次生成高出許多。
假設我有一批 Jupyter Notebook(資料科學家常用的互動式程式碼文件),想讓 AI 批量更新其中已過期的 API 呼叫方式(API 就是不同程式之間互相溝通的介面,版本更新後舊寫法會失效)。舊做法是叫 AI 直接改完,但 AI 可能改錯或漏改,我還要一份份手動驗證,非常耗時。用這套迭代修復迴圈:先讓 AI「審查」每個 Notebook,把所有問題(例如哪一行用了已淘汰的舊版 API)以結構化清單列出;接著 AI「修復」,把問題逐一改掉並存成新版本;然後實際「執行」Notebook 看有沒有跑出錯誤,錯誤訊息再回饋給 AI 讓它繼續修。OpenAI 的示範中,一個 Notebook 兩次迭代就修好了,另一個三次迭代完成。差異在於:傳統單次 AI 改完就結束,改錯了要自己發現;這套流程 AI 自己執行、自己看錯誤、自己再改,最終交出來的是真正能跑起來的版本,不需要人工逐一驗收。
這篇研究介紹了一種訓練技術,讓只有 40 億個參數(參數就像 AI 大腦裡神經連結的數量,越多代表模型越龐大、越複雜)的小型語言模型(就是像 ChatGPT 這樣的對話 AI,但體積小很多)達到跟大型旗艦模型相近的表現。核心概念是「遞迴語言模型(RLM,Recursive Language Model)」——這種架構讓一個 AI 可以把複雜任務拆成子任務,再呼叫自己的「分身」來協作完成,類似一個主管把工作派給多個下屬但下屬其實都是同一個人在分身扮演。研究者採用「強化學習(RL,Reinforcement Learning)」這種讓 AI 靠不斷嘗試、獲得獎懲來自我進步的訓練方式,讓「主控模型」和「執行模型」共用同一套訓練策略,不需要各自維護獨立的龐大模型。測試結果顯示,這個 40 億參數的小模型能夠媲美 Anthropic 公司的 Claude Sonnet 4.6(一個公認效果優秀的商用大型語言模型),卻只需要一小部分的運算成本。
假設我要建一個「自動化客服機器人」,需要 AI 同時處理「理解客戶問題」、「查詢訂單資料庫」、「撰寫回覆」三個子任務。傳統做法是呼叫 Claude Sonnet 這類大型 API,每次都要付費,一個月下來成本可能很高。改用這篇論文的 RLM 方法,我只需部署一個共用策略的 4B 小模型:當「父 RLM」收到客戶問題後,它會拆解子任務、各自呼叫「子 RLM」(同一個小模型的不同執行個體)去查資料庫、草擬段落,最後整合輸出回覆。整個流程的推論成本可能只有原本呼叫 Claude Sonnet API 的十分之一,但實際回答品質在測試中達到同等水準。對需要大規模部署 AI 的企業或開發者來說,不必再在「效果好但貴」和「便宜但差」之間妥協。
研究人員訓練了近 1,300 個 AI 模型,推導出新的「神經縮放法則(就是預測訓練一個更強的 AI 需要多少資料和算力的數學公式)」,挑戰了業界沿用已久的訓練準則。現有慣例是:配置訓練資源時,每個「參數(parameter,模型裡儲存知識用的數值,越多代表模型越大)」配上 20 個「詞元(token,AI 閱讀文字時的基本單位,大約是一個英文單字或半個中文詞)」。研究發現這個 20:1 的比例只在特定「分詞器(tokenizer,把原始文字切成詞元的工具)」下才成立,並非放諸四海皆準的法則。正確做法應改用「位元組(byte,電腦儲存文字的最基本單位,不受分詞器影響)」來衡量訓練規模,如此在多語言環境下計算效率更高、資源分配更精準。
假設你要訓練一個中英雙語 AI 模型。英文文字用常見分詞器,一個詞元大約對應一個單字;但中文因字元結構不同,同樣的文字量被切出的詞元數卻多更多,每個詞元包含的「位元組資訊量」差異很大。若按舊有「20 詞元配 1 參數」的規則配置,中文語料的計算資源實際上會被低估,訓練出的模型對中文理解能力就比英文差。改用這項研究的建議,以位元組數取代詞元數來分配算力,中英文都按實際儲存量取得對等資源,訓練出的雙語模型兩種語言表現更均衡。對比舊做法,等於是把「以為公平實則偏心」的資源分配方式,換成了真正語言中立的計算基準。
AI 界最知名的學者之一 Yann LeCun(深度學習先驅,Meta 公司的首席 AI 科學家,因對 AI 的貢獻獲得電腦科學界最高榮譽圖靈獎)日前接受訪談,分享他對 AI 未來走向的核心觀點。他認為,目前的 LLM(就是 ChatGPT 這類「預測下一個字要說什麼」的大型語言模型)雖然在商業上很有價值,但光靠「預測文字」這個方法,永遠達不到真正像人一樣的智能,因為人類對世界的理解絕大多數來自親身感知和行動,語言只是其中一小部分。LeCun 認為,未來的 AI 系統必須建立在「世界模型(world model)」的基礎上,讓 AI 學習物理定律、因果關係(就是「做了某件事、會導致什麼結果」的邏輯),以及行動的後果,才能像人一樣預測未來、做計劃,並在真實環境中隨機應變。他認為這種方向的 AI 最終才能真正應用在機器人、醫療、工廠自動化和工業系統等貼近現實的場景。
假設你要部署一台工廠機器人,讓它在流水線上處理突發狀況(例如零件位置偏差)。目前的 LLM 型 AI 只能回答文字問題,無法完成「感知環境→推理後果→採取行動→驗證結果」這個完整迴圈,因為它從來沒學過物理世界怎麼運作。LeCun 主張的「世界模型」AI 則不同:它會先在內部「想像」各種行動的後果(類似人類動手前先在腦中預演一遍),選出最可能成功的方案再執行。實際差異就是:現有的 LLM 型機器人遇到訓練資料沒涵蓋的狀況,容易當機或做出危險動作;而有世界模型的 AI 能理解「如果我這樣抓,零件會掉」,進而自主調整動作——不需要人類事先寫好每一種例外處理的規則。
過去 AI 搜尋大多依賴通用 LLM(就是像 ChatGPT 這種什麼都能聊的大型 AI),但現在一種叫「agentic search model(搜尋代理模型)」的新型 AI 正在崛起——它是專門為「搜尋」這件事從頭訓練的小型 AI,體積更小、速度更快,卻比通用模型更擅長特定領域的查詢任務。這類模型的核心能力是「主動協調」:它不靠人事先寫死一套固定流程,而是自行決定要查哪個資料庫、要呼叫哪個子系統、最後把結果整合成完整答案,整個過程像一位有經驗的研究員在主動思考策略。與通用大模型的差異在於:GPT-5 這類模型擅長「八成通用情境」,但對特定業務領域(例如某家店的商品術語、某個產業的專業命名習慣)往往一知半解;搜尋代理模型則專注補足那「剩下兩成」的領域知識缺口。目前已有具體產品出現:SID 公司的 SID-1(強調小巧低延遲)、Glean(企業知識搜尋平台)的 Waldo,以及可針對特定資料集微調的 Charcoal。
假設我在一家傢具電商負責搜尋功能,客人輸入「bistro tables(小酒館桌)」,但公司內部把這類商品分類為「小型戶外桌」。傳統搜尋引擎靠字面關鍵字比對,完全找不到商品,客人只能空手離開;就算用通用大型 AI(如 GPT-5)也一樣,因為它並不知道這家店的術語習慣。若改用一個針對這家電商商品目錄訓練過的 agentic search model,它早已「學會」bistro tables 在這個語境等同於小型戶外桌,查詢時會自動對應到正確分類、回傳符合的商品清單——把原本零結果的死路,直接變成有效的購買轉換。這正是通用模型搞不定、但專用搜尋代理模型能處理的「最後那兩成」。
Microsoft(微軟)在 2026 年 4 月對 Copilot Studio(一套讓企業不需要寫太多程式就能建立 AI 助理的平台)推出了一批重要更新,重點在於如何統一管理和監控多個 AI 代理人(Agent,就是能自動執行任務的 AI 程式)協作運作。這次更新引入了 Agent 365,讓 IT 管理員可以從一個中央控制台集中管理所有部署中的 AI 代理人,不再需要分別進入不同系統逐一設定。新增的 Analytics Viewer(分析檢視員)角色,讓指定人員能查看代理人的執行效能與使用數據,但不需要給予他們完整的管理員權限,降低資安風險。此外,Work IQ API 支援多代理人編排(Multi-agent Orchestration,就是讓多個 AI 代理人分工合作、共同完成複雜任務)與推理能力,企業可以把繁瑣流程拆分給不同的 AI 代理人分頭處理,再由主協調代理人統籌結果。
假設一家企業 HR 部門想自動化員工入職流程:員工提交申請後,系統要通知 IT 開帳號、財務設薪資、法務確認合約、再通知主管安排第一天。以前要人工逐步通知,或請工程師撰寫複雜的自動化腳本,且每個子系統的 AI 助理各自管理、難以統一掌握。現在透過 Copilot Studio 的 Work IQ API,可以建立多個 AI 代理人——「IT 代理人」處理帳號申請、「財務代理人」處理薪資設定、「法務代理人」檢查合約——由主代理人根據進度自動分派工作並追蹤結果。IT 管理員透過 Agent 365 統一看到所有代理人狀態,分析師用 Analytics Viewer 查看哪個步驟最常卡關,兩者都不需要完整系統管理員權限。相比以前分散管理、各自設定,整個多代理人流程現在可以在單一平台集中治理,大幅降低企業導入 AI 的維運複雜度。
Googlebooks 是 Google 即將推出的全新筆電系列品牌(筆電就是可攜帶的電腦,類似 MacBook 或 Windows 筆電),和現有的 Chromebook(Google 的輕量筆電系列)不同,這次搭載的是 Android 系統(也就是大多數 Android 手機在用的那套系統)。最大亮點是從設計初期就把 Gemini(Google 開發的 AI 助理,功能類似 ChatGPT 或 Microsoft Copilot)深度整合進去,而不是事後加上的外掛功能。在 Googlebook 上只要在觸控板晃動游標,就會自動跳出全螢幕 Gemini 對話介面,隨時可以呼叫 AI。這個 AI 特別之處在於它能「看」到你螢幕上正在顯示什麼內容,並主動根據當前畫面提出建議,同時還能跨 app 整合資料,例如同時讀取你的行事曆、郵件和文件來回答問題。
假設你正在 Googlebook 上撰寫一封客戶回覆郵件,需要確認下週能不能開會、以及對方之前提過的付款條件。以前的做法:打開行事曆 app 查空檔 → 切換到合約文件找條款 → 切回郵件一條一條手動寫。用 Googlebook 的整合 Gemini,只要晃動觸控板叫出 AI,直接說:「幫我看這封郵件,確認我下週有沒有空、並找出之前和他討論的合約付款條件。」AI 直接讀取你螢幕上正在撰寫的郵件、自動撈出行事曆空檔與先前的合約文件,一次回覆草稿和資訊全部整合好,不用手動切換視窗或複製貼上。差別在於:以前要在三個 app 之間跳來跳去,現在一句話就讓 AI 幫你串好。
Google 預計在下週的 I/O 開發者大會上宣布 Android 手機的全面 AI 升級計畫。這次升級的核心是「App 自動化」——讓手機的 AI 助理 Gemini(Google 自家的大型語言模型,就像 ChatGPT 的 Google 版本)能替你跨應用程式自動完成任務,例如查完餐廳後直接幫你訂位、或從行事曆讀完會議再自動起草 Email。除了自動化之外,Gemini 還會帶來「客製化小工具」功能,讓你把常用的 AI 功能像貼紙一樣固定在手機桌面上。值得注意的是,大部分新功能不是綁在六月才推出的 Android 17 系統版本裡,而是透過 Google Play Services(Google 在幕後持續更新所有 Android 手機的底層服務)、個別 App 更新,或是特定廠商合作機型分批推出,意思是即使你不升級系統,也可能提前用到部分功能。
假設你想完成「整理今天開會記錄、寄給三位同事、並在行事曆上新增下次追蹤會議」這三件事。以前你要依序開記事本 App、Gmail App、Google 日曆 App,手動貼上資料操作三次。有了 Gemini 的 App 自動化之後,你只要對手機說「把今天的會議摘要寄給同事,並排下次會議」,Gemini 會跨越三個 App 自動完成,你只要最後確認送出就好。相比過去每個 App 各自的 AI 助手只能在自己的範圍內幫忙,這次的升級是讓 AI 真正能「跨 App 行動」,縮短操作步驟。
這篇分析文章拆解了 OpenAI、Anthropic、Google 等主要 AI 實驗室(也就是那些研發和運營 ChatGPT、Claude 等 AI 的公司)如何在財務上維持自身的存活和擴張。文章提出兩個核心指標:「每瓦特年的 token 數(tokens per watt-year)」——意思是同樣的電力成本下,AI 能處理多少次對話或任務,代表計算效率高不高;以及「每 token 的收入(revenue per token)」——每讓 AI 生成一個字或詞,能賺多少錢。這兩項指標相乘,得到「每瓦特年的收入」,這才是決定一家 AI 公司能不能靠自己的收入支撐擴張、而不必無限度仰賴外部投資的關鍵數字。文章也分析了各大科技巨頭(Google 保護廣告業務、Meta 開源壓低競爭對手成本、Microsoft 早期投資確保雲端收入)的不同盤算,並指出目前沒有任何一家實驗室真正達到財務自給自足。
Anthropic(就是開發 Claude 這款 AI 助手的公司)的情況最能說明問題所在。Anthropic 有 30 萬家企業客戶,其中超過 1000 家每年花費超過 100 萬美元,「每 token 收入」在業界數一數二的高。但問題是:用戶需求已超過他們的 GPU(用來跑 AI 的特殊計算晶片)供給量——換句話說,錢他們賺得到,但硬體跟不上。相比之下,OpenAI 擁有超過 9 億月活用戶,聽起來很厲害,但大量用戶是免費用戶,導致「每 token 收入」偏低。這兩個案例合在一起說明:光有龐大用戶量、或光有高付費客戶,都無法保證財務健康——必須同時在「計算效率」和「每次服務的單價」上都達標,才能在不靠外部融資的情況下持續擴張規模。
這篇文章探討在 AI 蓬勃發展的今天,「程式碼」(電腦能執行的指令文字)究竟扮演什麼角色。作者 Unmesh Joshi 在知名技術部落格 Martin Fowler 上指出,程式碼一直有兩個目的:一是讓電腦照指令執行,二是用文字記錄下開發者對這個問題領域的「概念模型」(就是把現實世界的邏輯,例如訂單、客戶、付款流程,轉化成電腦能理解的詞彙與結構)。隨著 LLM(像 ChatGPT 這種能寫程式的 AI)讓程式碼生成變得超級快速,第二個目的——清晰的概念模型——反而變得更加重要。作者特別警告一種「認知負債」的風險:當 AI 幫你快速生成大量程式碼,但開發者實際上並沒有真正理解這些程式碼在幹什麼,久而久之整個系統就會變得無法維護,像一座沒人看得懂地圖的迷宮。結論是:未來程式碼工作的重點,不在於更快生成程式,而在於建立更好的概念模型和統一的詞彙基礎。
假設一家電商公司要讓 AI 幫忙開發「退貨退款系統」。如果開發者沒有先定義清楚「退貨」、「退款」、「訂單取消」這些詞彙的確切差異——例如:退貨是要退還實體商品、退款是錢的動作、取消是在出貨前終止訂單——直接請 AI 寫程式,AI 可能用自己的理解混用這些詞,寫出一堆邏輯混亂的程式碼。表面上跑得動,但兩個月後沒有人知道為什麼某些訂單取消後錢沒有退回去。按照這篇文章的建議,開發者應該先花時間建立清楚的詞彙表和概念模型,然後在和 AI 協作寫程式時持續使用相同的用語——這樣 AI 生成的程式碼就有清楚的邊界和意圖,開發者也能真正理解程式碼在做什麼,而不只是堆積一堆沒人敢動的「AI 黑盒子」。
Parameter Golf 是一場機器學習優化競賽,規則類似高爾夫球——分數越低越好,但這裡的「分數」是指 AI 模型在資料集上的損失值(loss,就是 AI 預測與正確答案之間的差距),而「桿數限制」則是你能使用的參數數量(參數就是 AI 模型內部的調整旋鈕,數量越多模型通常越強,但所需的記憶體與運算成本也越高)。這次競賽吸引超過 1,000 名參與者提交了 2,000 多份解答,大家在嚴格的參數限制下竭盡所能壓低模型誤差。參與者運用的技術包含量化(quantization,把模型數字的精度從高精度壓縮成低精度,節省空間同時盡量保住效能)、精細調參(tuning,反覆調整訓練設定找出最佳組合),以及各種新穎的模型設計構想。特別值得注意的是,AI 程式碼代理(AI coding agent,就是能自動寫程式、跑實驗的 AI 助手)在這次競賽中扮演了舉足輕重的角色,顯示未來 AI 研究競賽可能越來越多人用「AI 輔助 AI 研究」的方式參賽。
假設你要在記憶體受限的嵌入式裝置上部署一個語音辨識模型,裝置只能跑 10 MB 以內的模型,但標準預訓練模型有 500 MB。參考 Parameter Golf 競賽中整理出的技術組合,開發者會這樣做:第一步用量化技術把模型從 32 位元浮點數壓成 8 位元整數,大小直接縮為原來的 1/4;第二步搭配剪枝(pruning,把貢獻極低的神經元直接刪掉),再進一步縮小;第三步用知識蒸餾(distillation,讓大模型把學到的「知識」轉移給小模型)補回一些準確率。舊做法是直接挑一個現成的小模型、接受準確率大幅下降;而 Parameter Golf 競賽所揭示的系統性技術組合,讓開發者能有條理地逼近「最小體積、最高準確率」的最佳平衡點,不再靠猜測亂試。
亞馬遜、Meta 和微軟的員工被發現「刷 AI 使用量」——也就是在工作中刻意多發送訊息、多呼叫 AI 工具,讓公司看到的使用紀錄數字很漂亮,但實際上並沒有真正借助 AI 提升工作效率。這個現象有個新名字叫「tokenmaxxing」,「token」指的是 AI 處理訊息的計量單位(可以理解成 AI 讀了多少字、說了多少字),員工為了衝高這個數字,便故意把 AI 塞進根本不需要它的任務裡。問題的根源在於企業把「AI 使用量多寡」當成衡量員工是否擁抱 AI 的標準,但用活動頻率來衡量生產力(productivity,即工作成果的效率),反而讓表演性使用取代了真正的效益。這個現象揭露了企業導入 AI 時的管理盲點:指標一旦變成考核工具,就很容易被反向操作。
假設公司規定「每位工程師每月 AI token 用量必須達到 50 萬」,並以此評估 AI 導入成效。但某工程師的日常工作是撰寫固定格式的測試報告,根本不需要 AI 輔助。為了達標,他開始每天把已寫好的報告餵給 AI,請它「重新排版一遍」,或把一封三行短信要 AI「詳細總結」。數字漂亮了,主管認為 AI 已深度融入工作,實際上工程師的產出速度和品質完全沒有改變。相比之下,如果公司改用「AI 協助下完成任務所需時間」或「人工覆核率下降幅度」等結果指標來衡量,就難以靠灌水作假,也更能反映 AI 真正帶來的價值。
企業資安公司 Versa 宣布在其 SASE(一種把網路安全功能整合到雲端、讓企業不需要自建機房安全設備的平台)中加入 CSPM(雲端設定安全檢查,自動偵測企業的雲端環境有沒有設定錯誤、留下安全漏洞)功能,讓企業不必在多個不同的安全工具之間來回切換就能看到整體狀況。更值得關注的是,Versa 即將推出一套 AI Agent 治理框架——當企業導入可以自主執行任務的 AI(例如能自動調整雲端設定的 AI 助手),這套框架可以設定「AI 未經人類確認不得自行修改重要規則」的控管機制。AI Agent 在企業環境中能否自主決策的邊界管理,已快速成為資安領域的新興議題。
假設一家公司導入了一套 AI Agent 來協助管理雲端基礎設施,負責自動調整伺服器設定、更新防火牆規則。在沒有治理框架的情況下,這個 AI Agent 若判斷某條防火牆規則「效率不佳」,可能直接修改設定,導致部分服務對外暴露或出現安全缺口,事後才被發現。有了 Versa 的 AI Agent 控制框架後,公司可以設定規則:「AI 要修改任何涉及網路存取控制的設定,必須先送出申請、等待 IT 主管核准」。AI 的行動被攔截在執行前,人類保留最終決策權,就像設了一道人工關卡,避免 AI 自動化帶來意料之外的系統變更。
Superset 是一個專門給 AI Agent(就是能自主執行任務的 AI 程式,例如幫你寫程式碼、查資料、跑測試的 AI 機器人)開發者使用的整合開發環境(IDE,就是像 VS Code 那種寫程式的工具),特別之處在於它支援「多 Agent 同時協作」的開發模式。這家公司把整個服務架設在 Vercel(一個網站與應用程式的雲端部署平台)上,並利用 Vercel 的「彈性運算(Fluid Compute)」功能,讓多個 AI 程式設計 Agent 可以真正地「同時並行」工作,不會互相等待排隊。目前 Superset 每週要執行 1,000 到 1,400 次程式部署、每天維持 600 個預覽環境(每個開發中的功能都有獨立的測試版本),而且程式碼提交量還在以指數速度成長,但系統仍能維持 30 秒內完成建置(build,就是把原始碼打包成可執行程式的過程)的速度。這個案例展示了「AI Agent 驅動的軟體開發流程」在實際規模下如何運作。
假設一個軟體開發團隊同時讓 10 個 AI 程式設計 Agent 各自負責不同功能模組(例如登入系統、搜尋功能、支付流程),每個 Agent 寫完一段程式碼就要立刻部署到獨立的測試環境讓人確認。傳統做法下,這 10 個 Agent 的部署請求會排隊處理,前一個沒好後一個不能開始,整個流程卡卡的,AI Agent 的優勢大打折扣。用 Superset + Vercel 的方式,這 10 個 Agent 可以真正同時觸發部署,各自在獨立的預覽環境裡跑,30 秒內每個人都能看到自己那段程式碼的執行結果,整個多 Agent 協作的速度才真正發揮出來。對比差異:舊做法等一圈可能要好幾分鐘甚至卡死,新做法讓 AI Agent 的並行開發不再受基礎設施拖累。
Turing Post 發布了一篇完整教學文章,用白話解釋現代 AI 語言模型(就是 ChatGPT、Claude 這類會對話的 AI)最核心的運作原理——「注意力機制」(Attention Mechanism)。這個機制最早在 2014 年由學術研究者為了改善機器翻譯品質而提出,核心概念是讓 AI 在處理每個詞的時候,能主動判斷句子裡哪些其他詞對理解它最重要,而不是把整句話壓縮成一個模糊的總結。2017 年 Google 發表的《Attention Is All You Need》論文把這個概念做到極致,打造出 Transformer 架構(就是所有現代大型語言模型的骨架),徹底改變了 AI 的面貌。文章也詳細說明了「QKV 機制」(Query 查詢、Key 索引鍵、Value 值——AI 內部用來計算哪些詞要互相參考的三種向量)以及「KV Cache」(讓 AI 記住對話歷史、不必每次都從頭重算的快取技術,大幅降低運算成本並加快回應速度)。整體來說,是一篇難得兼顧深度與易讀性的 AI 基礎知識整理。
假設我在 ChatGPT 裡打「愛因斯坦有什麼成就?」,然後接著問「他為什麼沒有因為相對論得諾貝爾獎?」——AI 必須知道「他」指的是愛因斯坦,而不是隨便某個人。舊式 AI 模型把整段對話壓縮成一個固定長度的向量(類比:把一整本書硬塞進一張便利貼),資訊一多就遺失細節。有了注意力機制後:第一步,每個詞都產生三種角色——「Q(我在找什麼?)」「K(我能提供什麼標籤讓別人找到我?)」「V(如果被選中,我貢獻什麼內容?)」;第二步,當 AI 處理「他」這個詞時,會拿「他的 Q」去跟對話裡所有詞的「K」比對,算出相似度分數,愛因斯坦的 K 分數最高,所以 AI 就從愛因斯坦的 V 提取資訊來理解「他」的意思;第三步,KV Cache 的作用是:AI 把之前算好的所有 K 和 V 存起來,下次你繼續追問時不必重算整段對話,直接查快取,速度快且省錢。對比舊做法:如果沒有 KV Cache,一段 100 輪的對話每次回答都要從頭計算 100 輪的內容,成本線性成長;有了 KV Cache,每次只需計算你最新那句話,成本幾乎不隨對話長度增加。