rsync 是一個全球通用的「檔案同步工具」(可以把甲電腦的資料完整複製到乙電腦,只傳有改變的部分,廣泛用在備份、伺服器部署等場合)。2026 年 5 月 rsync 發布 3.4.3 版修補六個安全漏洞,但更新後許多使用者發現備份功能失效、CPU(電腦處理器)用量飆高——這種「修好 A 壞掉 B」的現象稱為「迴歸(regression)」。這次迴歸的特殊之處在於:rsync 原創者在版本記錄中明白標注「tridge and claude」,代表他和 Claude AI 協作撰寫程式碼,社群稱這種「跟著感覺讓 AI 生成程式、不深入驗證邏輯」的方式叫 Vibe Coding。一位用戶在 GitHub(程式碼協作平台)發出 issue(意見回報)直接點名「請不要用 Vibe Coding 搞爛這個軟體」,引爆論戰。研究數據站在批評方這邊:AI 協寫的程式碼平均比人工撰寫的多出 1.7 倍嚴重問題,45% 含有 OWASP Top-10(業界定義的十大 Web 安全漏洞,包括 SQL 注入、身份驗證缺陷等常見攻擊手法)漏洞。更令社群擔憂的是,rsync 不是一般小工具,而是工業與政府環境的備份基礎設施,出現迴歸的代價難以量化。這個事件並不孤立:cURL(你每次呼叫 API 都可能用到的傳輸工具)、Ghostty、tldraw 都已限制或禁止 AI 生成的程式碼投稿。業界開始朝兩個方向思考:一是要求「人工在迴圈(Human-in-the-loop)」——每一行 AI 輸出都必須由工程師嚴格審查;二是改用 Go、Rust 等記憶體安全語言(設計上從根本防止某類安全漏洞)從架構層消除整類問題。
假設你是 Linux 系統管理員,每天透過 rsync 的 --compare-dest= 參數(增量備份選項,意思是「這次只傳跟上次不同的檔案」)執行伺服器備份腳本,依慣例升到修補了六個安全漏洞的新版 3.4.3。結果備份腳本靜默異常——檔案沒有正確同步、CPU 用量暴增,某些情境下備份完全沒有執行,卻沒有報出明顯錯誤,等到真正需要還原資料時才發現備份是壞的(Linux Mint Timeshift 和 Void Linux 的維護者都確認了這個情況)。對比 3.4.2 版時,相同的備份腳本長期穩定執行,沒有這些問題。正確應對方式:立刻用 rsync --version 確認版本號,如果是 3.4.3 就固定回 3.4.2;同時為備份流程加上驗證步驟(例如備份完後比對來源與目的端的檔案數量,或定期做還原演練),不能只靠 exit code 判斷備份是否成功。
Supermemory 是一套開源的「AI 長期記憶引擎」,專門解決 AI 助理(例如 ChatGPT、Claude)在對話結束後「什麼都忘記」的問題。傳統 AI 對話就像每次都是第一次見面,不記得你是誰、你說過什麼偏好、或先前討論的背景;Supermemory 讓 AI 能夠跨對話保存並快速取回重要資訊,並且知道哪些舊資訊已過期需要捨棄。2026 年 5 月剛發布的 SMFS(Supermemory 檔案系統,一套讓 AI 翻查大量記憶資料更有效率的新機制),讓 AI 查詢所需的次數減少 60%、成本降低 55%,準確率從 69% 提升至 81%。在 LongMemEval(評估 AI 在長對話中準確追蹤事實能力的業界標準測試)、LoCoMo(多步驟事實回憶測試)、ConvoMem(個性化與偏好學習測試)三項主流評測中,Supermemory 均拿下第一名。
假設我每天用 Claude 或 Cursor(AI 輔助寫程式的工具)開發專案,每次開新對話就要重新解釋「我的專案用 Python、資料庫是 PostgreSQL、我偏好不用全域變數、這個功能上週已討論過決定用 A 方案」……沒有記憶的 AI 就像每天都要跟換了班的新同事從頭說明。裝上 Supermemory 的 MCP Server(一種讓 AI 工具互相溝通的標準介面)之後,Claude Desktop 或 Cursor 不需要改任何程式碼,Supermemory 會自動從對話中抽取偏好和事實,存成你的個人 Profile;下次開新對話,AI 自動帶入你的背景,直接進入正題。對比舊做法(每次手動貼一大段「系統提示詞」說明自己的情況),既省時間,AI 也不會把過期的舊決定和新討論混淆。
Google 推出的開源 AI 模型 Gemma 4(一種能對話、回答問題的大型語言模型,類似 ChatGPT 背後的技術)通常需要高階 GPU(圖形處理器,一種昂貴的專業運算晶片)才能跑。這篇文章的作者展示了只用一台 2016 年的老 Intel Xeon 伺服器 CPU、搭配 128GB 普通記憶體,完全不需要 GPU,就能在「人類閱讀速度」下運行 Gemma 4 26B——一個有 260 億個參數的大型 AI 模型。關鍵是作者深入研究了推論引擎(讓 AI 模型實際運作的軟體)的 25 個優化參數,包括推測解碼(一種讓 AI 提前預測下幾個字以加速輸出的技術)、Flash Attention CPU 版本、記憶體鎖定等技巧。這個發現的意義在於:想在本地(自己的電腦或伺服器上)跑大型 AI 模型,不一定要花大錢買新硬體,舊設備配上正確的軟體設定也能用。
我手邊有一台 2016 年採購的舊伺服器,配備 Intel Xeon E5-2620 v4 CPU 和 128GB DDR3 記憶體,但沒有 GPU。我想在這台機器上本地跑 Gemma 4 26B 模型做文件摘要,不想把公司資料送到雲端 API。用傳統方式這台機器根本跑不動——Gemma 4 26B 模型光是權重就 25GB,加上對話所需的暫存空間(KV 快取)超過 80GB,而且 CPU 沒有 GPU 那種矩陣運算加速,速度慢到完全無法使用。但作者照文章的方法,使用 llama.cpp(一個能在 CPU 上跑 AI 模型的免費開源軟體),搭配 Q8_0 量化格式(把模型壓縮成 8 位元以節省記憶體)、推測解碼、Flash Attention CPU 版、以及另外 20 多個優化參數,這台老機器就能以人類可接受的速度生成文字。資料完全在本機處理,隱私無虞,而且成本只有電費——完全不需要每月付雲端 API 費用。
MPA(Materials Property Axiom,材料性質公理)是一個專門預測材料化學性質的 AI 模型,由中國新創公司深度原理(Deep Principle)開發。就像 AlphaFold(Google 用 AI 預測蛋白質立體結構的技術,讓生物製藥研發大幅提速)在生命科學界帶來突破,MPA 試圖在材料科學領域複製這樣的成就。研究者測試了 40 個真實工業應用的材料性質預測任務——從沸點、燃燒焓到生物活性——MPA 在 38 個任務上超越了過去所有主流模型,平均誤差降低約 14%。MPA 的關鍵創新在於把訓練 ChatGPT 那類大語言模型(就是會對話的 AI)的三階段訓練方式搬進了材料 AI:先大量預訓練,再進行「物理對齊」訓練(讓模型學會真實物理規律,而不只是死背數據),最後進行任務微調。這讓模型不只是記住見過的分子長什麼樣,而是真正理解「物理直覺」——即使遇到從來沒見過的全新分子結構,預測準確度也不會大幅下降。
假設一家藥廠化學家想預測一個全新合成的有機分子的沸點(蒸餾純化時需要知道)和生成焓(合成反應的能量需求),但這個分子的骨架結構是過去數據庫裡從未出現過的。傳統機器學習方法——包括過去最強的幾個材料 AI 模型——在「骨架劃分測試」(訓練資料和測試資料的分子骨架完全不重疊,強逼模型真正泛化而非靠記憶)中往往誤差暴增,因為它們本質上是在「比對相似分子的記憶」。MPA 在這個嚴苛條件下仍比第二名低 14.6% 的平均誤差,因為它學到的不是「這個形狀的分子沸點大概是多少」,而是背後的物理規律(哪些原子貢獻沸點、哪些性質可以原子加和計算)。更實際的是,MPA 已整合進深度原理的 Agent 工具,研究者現在可以直接在 sciclaw.cn 用自然語言詢問材料性質,不需要自己跑程式碼。
Nvidia 發布了一個叫 Nemotron 3 Ultra 的大型 AI 語言模型(就是能回答問題、寫文章、分析資料的那種 AI),這個模型是「開源」的,意思是任何人都可以免費下載、修改、部署,不需要付費給 Nvidia。根據 Artificial Analysis 這個專門評估 AI 能力的測試平台,Nemotron 3 Ultra 在美國所有開源 AI 模型中分數最高,得了 48 分,超越 Google 的 Gemma 4(39 分)和 OpenAI 的 gpt-oss-120b(33 分)。不過全球排名裡,中國的 Kimi K2.6 拿了 54 分仍然領先;目前最強的 AI 是 Anthropic(Claude 的開發公司)的 Opus 4.8,得 61 分,但那是要付費才能用的封閉模型。這個模型還有個亮點是速度——每秒能生成超過 300 個 token(大約每秒 200 個中文字),比能力相當的中國競爭對手(DeepSeek、Moonshot 只有每秒 50 到 100 個 token)快了 3 到 6 倍。預計 6 月 4 日在 Hugging Face 和 OpenRouter 等平台正式上線。
假設你要在公司自架一套 AI 問答助理系統,需要處理大量文件摘要,而且預算有限、不想每月付訂閱費給 OpenAI 或 Anthropic,也不想用中國模型(因為資料隱私疑慮)。以前你最好的免費美系選擇大概是 Meta 的 Llama 系列,但 benchmark 分數只有三十幾分,回答複雜問題時常出錯。現在可以改用 Nemotron 3 Ultra:benchmark 分數是美系開源最高的 48 分,回答品質明顯提升;加上速度每秒 300 token,一段 300 字的回應不到 1 秒就跑完,用戶體驗流暢。整套系統跑在自家伺服器上,資料不外流,而且完全免費。唯一的限制是,如果你需要的是頂尖能力(61 分等級),目前仍需付費用 Claude Opus 4.8——但在「免費可自架、能力最強」這個條件下,Nemotron 3 Ultra 現在是最佳美系選擇。
Nvidia(英偉達,全球最大 AI 晶片公司)在 GTC Taipei(台北 AI 開發者大會)一口氣公布三項 Physical AI(讓 AI 控制實體機器的技術)新系統。第一項是 Cosmos 3,這是一套「世界模型」(World Model,指能在腦海中模擬現實環境、預測下一刻會發生什麼的 AI 系統),能同時理解文字、圖像、影片、聲音和動作指令,分為高品質版 Super、快速推論版 Nano、以及可在機器設備上即時運算的 Edge 版。第二項是 Alpamayo 2 Super,一個專為自動駕駛設計的 AI 大腦,規模達 32 億參數(可以理解為 AI 模型的神經元數量,越多代表學習能力越強),能做全車 360 度感知,並對每個決定輸出「推理鏈」說明原因,便於安全法規審查。第三項是 Isaac GR00T,一套開放式人形機器人參考平台,身高約 183 公分、配備 75 個關節自由度(讓機器人能做各種精細動作),搭載 Jetson AGX Thor T5000 AI 晶片,由 Unitree 製作硬體,預計 2026 年底開放購買,史丹佛機器人中心、ETH Zurich 等多所頂尖大學參與研究。
假設你在開發自駕車,最難訓練的是「路上幾乎不會發生的危險情況」,例如:貨車翻倒擋路、逆向腳踏車突然衝出。以前的做法需要真的開車上路幾萬小時才有機會蒐集到這類資料,極稀少且無法人工製造。現在 Alpamayo 2 Super 搭配同步發布的 OmniDreams(罕見交通場景生成工具),能讓 AI 自動「憑空生成」逼真的稀有交通情境影片當作訓練素材——車輛 AI 在虛擬環境裡先練幾百萬次「遇到翻倒貨車怎麼辦」,再上路測試。舊方法需要大量真實事故錄影(難取得)加上人工標注(耗人力),新方法用合成資料快速填補空缺,讓車輛 AI 在極短時間內學會應對各種罕見危機。而 Cosmos 3 則能為機器人手臂生成「要夾取葡萄需要移動到哪個角度、出多少力」的精確動作指令,讓機器人不需反覆真實試誤就能學會精細操作。
OpenAI(就是開發 ChatGPT 的公司)在 2020 年曾關閉旗下的機器人研究部門,當時認為訓練資料不足、且先專注純軟體 AI 進展更快。如今他們在 2025 年 1 月重新組建了機器人團隊,這支新團隊源自一個叫「世界模擬」(world simulation,讓 AI 學習物理世界如何運作)的研究項目,同時也吸收了影片生成工具 Sora 團隊的部分成員。短期目標是讓機器人協助專業工程師建設基礎設施(例如蓋資料中心、鋪設電力網路)。長遠來說,執行長 Sam Altman 的願景是「每個人都有一台機器人,幫你做任何你需要的事」——就像現在每個人都有一支智慧型手機一樣普及。這次重返機器人領域,背後動機還包括蒐集真實世界的動作資料,用來強化 OpenAI 的 AI 模型對物理環境的理解能力。
想像一家科技公司要建設新的資料中心(就是儲存和運算資料的大型廠房)。傳統上這需要大量人力進行重複性的搬運、組裝、配線工作。按照 OpenAI 的近期計劃,機器人會在人類專業工程師的指導下,承擔其中繁重的基礎施工部分——例如搬運伺服器機架、協助佈線。和過去工廠機器人的差別在於:OpenAI 的機器人背後有 AI 大腦,能理解語言指令並適應不同場景,而不只是重複固定動作。更重要的是,這些機器人執行任務時產生的大量真實世界互動資料,會反饋給 OpenAI 的 AI 模型訓練,讓 AI 更了解物理世界的規律——所以機器人對 OpenAI 來說不只是產品,也是蒐集「現實世界訓練資料」的工具。
Aaron Brethorst 在 2026 年 5 月發表的文章,討論 AI(就是 ChatGPT、Claude 這類能對話的人工智慧)時代下,人類工作的真正優勢在哪裡。文章的核心論點是:AI 能快速生成程式碼,但無法自行驗證程式碼裡的業務邏輯(就是「這段程式做的事,是否符合真實世界的規則」)是否正確。這個觀察背後有個哲學概念叫 Polanyi's paradox(波蘭尼悖論):人類有一種「內隱知識」,就是「你知道什麼是對的,但說不清楚為什麼」,就像母語者能感覺句子是否自然,卻無法背出所有語法規則一樣。薪資計算、醫療帳單、法律、精算等複雜行業,充滿了只有在真實工作中踩過坑才知道的邊界條件——AI 生成的答案外觀往往完全合理,卻可能藏著致命錯誤,而沒有領域經驗的人根本看不出來。Stack Overflow 2026 年報告也印證:AI 時代,工程師的核心競爭力不再是「能不能寫出來」,而是「能不能判斷對不對」,深度領域知識的市場價值反而正在上升。
我是一名薪資系統工程師,公司引入 AI 工具來加速開發。我請 AI 生成美國薪資系統中的 garnishment(薪資扣押——就是法院命令雇主從員工薪資中直接扣除的款項,例如贍養費或學貸)計算邏輯。AI 在 30 秒內生成了一段看起來完整清晰的程式碼。但問題在於:每個美國州對扣押上限的規定不同,有些州是可支配所得的 25%,有些是 30 倍最低時薪保留額度,德州等州對特定類型扣押還有豁免條款。AI 版本套用了一個「看起來合理」的全國通用規則,在德州卻會讓公司違法。如果我沒有在真實業務中踩過這個坑,完全看不出 AI 的答案哪裡有問題——因為它的措辭太過自信、格式太過完整,沒有任何蛛絲馬跡。舊做法靠人工翻法規手冊要花好幾天;新做法是 AI 秒出程式碼,但前提是有一個懂業務的人能在五分鐘內抓出潛在錯誤——差別在人,不在工具。
YouTube 上訂閱人數超過 1.11 億的知名創作者 PewDiePie(本名 Felix Kjellberg)於 2026 年 5 月 31 日公開了他自己開發的 AI 助手介面,叫做 Hermes WebUI,並以 MIT 授權(一種任何人都可以自由使用、修改、散布的開放授權)釋出原始碼。這套工具讓使用者能在自己的電腦或伺服器上架設一個私人 AI 助手,不需要依賴 ChatGPT 或 Claude 這些雲端服務,所有對話都在自己家裡跑。它最大的亮點是「跨對話持久記憶」:一般 AI 工具每次開新視窗記憶就清空,Hermes WebUI 會把你的個人偏好、過去交代的任務備忘、以及 AI 自動整理出的「工作 SOP」全部存成可以直接用文字編輯器打開來看的純文字檔,電腦重開、換模型都不會消失。這個專案發布當天就衝破 10,000 個 GitHub Stars(代表大量開發者收藏),且有 137 位外部貢獻者跟進,顯示不只是粉絲流量,而是有真正的工程師在參與。
假設你想在家裡搭一個每天幫你整理工作資訊的私人 AI 助手。你用 `python3 bootstrap.py` 一行指令裝好 Hermes WebUI,連上 Ollama(一種讓你在自家電腦跑開源 AI 模型的工具)。第一天你告訴 AI「我每天早上九點前要知道昨天的 Slack 摘要,格式要條列式」,AI 把這個偏好存進 `~/.hermes/profile.md`。第二天重開電腦,不用再說一遍,AI 直接記得你的要求。幾次互動後,AI 還會自動生成一個叫 `summarize_slack.md` 的 skill 檔(類似一份工作 SOP),下次你問到類似任務,AI 直接呼叫這份 SOP 而不用從頭推理。對比 ChatGPT:每次新開對話就要重新說明背景;即使用了 ChatGPT 的記憶功能,你也看不到 AI 到底記了什麼、也不能直接改。Hermes 的所有記憶都在你自己的電腦上、可直接用記事本打開修改,這是雲端服務做不到的透明度。
Anthropic(就是開發 Claude 這款 AI 助理的美國公司)在 2025 年宣布了一條特別的面試規定:求職者在現場面試時,完全不能使用任何 AI 工具——包括他們自家的 Claude。背後的邏輯是:當 AI 幾乎能幫你完成所有技術工作,公司更需要知道你「自己」怎麼思考,尤其是面對倫理困境(就是「怎麼做都不完全對」的兩難局面)時的判斷力。他們設計了多達五輪的面試,最後一關叫「文化面試」,有一票否決權——只要這關過不了,前面技術表現再好都沒用。CEO Dario Amodei 本人花了 40% 的工作時間親自參與這道篩選,整個公司要找的不只是技術強的人,而是真正認同公司使命(安全地開發 AI)、在壓力下能捍衛自己立場的人。政策後來做了修正:準備期可以用 Claude 潤飾履歷和練習,但現場面試仍全面禁用;這個轉變折射出整個頂尖 AI 公司招募生態的深層轉型:「使命對齊」正在取代「純技術能力」成為最終門檻。
假設你是一位有五年工作經驗的工程師,想申請 Anthropic 軟體工程師職位(年薪最高可達 49 萬美元)。以往的備考策略是猛刷演算法題、磨練 coding 技巧,面試時還可以邊想邊問 AI 怎麼優化程式碼。但在 Anthropic 的現場面試,你的螢幕上不能有任何 AI 助手,必須完全靠自己解題。更關鍵的是:最後一關文化面試會直接問你「你有哪些不尋常的信念?有人不同意你時,你怎麼捍衛立場?」——這不考程式,考的是你的思想框架與世界觀。就算技術五關全過,文化面試沒過,申請直接終止。舊做法:「你能不能寫出好程式」;新做法:「你能不能獨立思考、你的世界觀跟我們合不合」。這對求職者意味著:以後備考頂尖 AI 公司,除了刷題,還要整理自己對 AI 安全和倫理的真實立場,練習在沒有提詞機的情況下清晰表達自己的觀點。
Clipto 是一款完全跑在你自己電腦上的 AI(AI 就是讓電腦模仿人類判斷與理解的技術)媒體搜尋工具,讓你用自然語言——就像平常說話或打 Google——查找電腦裡成堆的影片、音訊、播客和會議錄音。最關鍵的特點是「全本地」:所有分析和辨識都在你的機器上完成,完全不把任何音訊或影像上傳到任何雲端伺服器,隱私留在自己手中。它支援多種搜尋維度:不只找對話關鍵字,還能認人臉(輸入某人名字就能找出他出現在哪些影片的哪個時間點)、辨識動作(例如搜尋「握手」就能找到所有握手片段)、識別場景(地點、物件),甚至找電影製作細節(鏡頭類型、幀率)。硬體門檻較高,需要蘋果 M1 以上晶片、至少 24GB 記憶體,一台 M5 MacBook Pro 大約需要 24 小時建好 2TB 影片的索引;建好之後每次搜尋就很快,也支援連接 Adobe Premiere Pro 剪輯軟體直接在工作流程裡查詢。
假設你是一位 YouTube 創作者,硬碟裡存了五年、幾百 GB 的訪談錄影,現在想剪一支回顧影片,需要找出「受訪者 A 談到 AI 改變工作」的那幾段。舊做法是一個個打開影片、手動拖進度條,或依靠模糊的檔名,可能耗掉一兩個小時還不一定找到。用 Clipto,先花一次性 24 小時讓工具掃遍整個影片庫建立索引,之後只要在搜尋欄輸入「受訪者 A、AI、工作」,工具比對所有影片的語音辨識結果,幾秒內列出所有相關片段的精確時間戳,點一下就跳到那段。搭配 Adobe Premiere Pro 插件,整個查找和跳轉可以直接在剪輯軟體裡完成,不用切換視窗。全程不上網,也不用擔心客戶的保密訪談內容外流。
電影《永不妥協》的原型人物、美國知名環保律師 Erin Brockovich,在 2026 年 4 月啟動了一個全國性的 AI 資料中心投訴追蹤網站。AI 資料中心是大型伺服器機房,也就是讓 ChatGPT 這類 AI 服務能夠運作的實體建築,它們耗電量巨大、用水量驚人,並且往往 24 小時持續發出低頻噪音。網站上線一個月內,收到將近 4,000 份來自全美各地居民的投訴,舉報內容涵蓋噪音擾鄰、水資源過度使用、電費暴漲,以及最常見的問題——在居民毫不知情的情況下,地方官員就悄悄簽署了 NDA(保密協議,就是簽了就不能對外說的合約),讓資料中心偷偷通過審批。2026 年 5 月 Gallup(美國最具公信力的民調機構之一)的調查顯示,約七成美國人反對在自家附近興建 AI 資料中心,這個反對率甚至高於核電廠。Brockovich 強調她並非反對 AI 本身,而是反對「許可證拿到才公告、社區排除在外、官員先簽 NDA」的黑箱決策模式,並把這場運動定位為「民主問責」戰線。
以 xAI(馬斯克旗下的 AI 公司)位於田納西州孟菲斯的資料中心為例。當地居民事後才得知,地方官員在社區完全不知情的情況下就已簽署 NDA 並核准設立。資料中心開始運作後,居民陸續反映夜間噪音、電費飆漲、用水量暴增等問題;等到想去地方規劃會議發言,才發現批准早已生效,根本沒有公眾參與的窗口。過去這類遭遇各自孤立——單一社區自己抗爭,沒人看到全國的模式。現在透過 brockovichdatacenter.com,每一筆投訴都標記在地圖上:哪裡有資料中心、居民反映什麼問題、是否牽涉 NDA。全美各地投訴一旦匯成視覺化地圖,原本被企業視為「偶發個案」的問題,立刻變成可被媒體、立法者和倡議團體持續追蹤的系統性議題——對 AI 公司而言,過去低調操作的擴張模式,未來面臨的公眾壓力和法律風險將大幅升高。
CS336 是史丹佛大學(Stanford University,美國頂尖理工大學)開設的一門課程,專門教你「從零開始」親手建造一個大型語言模型(LLM,就是 ChatGPT 這種會對話的 AI 背後的核心技術)。課程涵蓋從資料收集與清理、設計模型架構(Transformer,轉換器,一種現代 AI 最常用的神經網路結構)、實作高效訓練,到最終部署前的微調與對齊(讓 AI 更聽話、避免亂說話)等完整流程。最關鍵的是:課程錄影、講義和所有作業程式碼都已公開在 YouTube 與 GitHub 上,任何人都可以免費跟著學,不需要是史丹佛學生。主講教授 Percy Liang 和 Tatsunori Hashimoto 都是自然語言處理(NLP,讓電腦看懂人類文字)領域的知名研究者。
假設你是一名軟體工程師,想搞清楚「GPT 這種 AI 到底是怎麼訓練出來的」,但市面上大多數教學都停留在概念層面,沒有完整可執行的程式碼。照著 CS336 的作業走,你會從頭寫出分詞器(Tokenizer,把文字切成 AI 能讀的小單元)、親手實作 Transformer 模型架構、使用 Common Crawl(網路爬蟲收集的海量網頁文字資料集)練習資料清理與去重、跑 FlashAttention2(讓 GPU 訓練速度大幅加快的優化演算法),最後做監督微調(SFT,用問答範例讓模型更擅長回答問題)。整套作業跑完後,你對「LLM 為什麼要這樣設計」的理解會從「看過名詞」升到「能改 code、能找 bug」,遠比只讀論文或看部落格文章深入得多。
VAST 是一家中國 AI 公司,專注開發「世界模型」(World Model,意思是讓 AI 能像真實世界那樣持續模擬場景、物件位置和互動狀態的技術,目標是讓 AI 生成的虛擬環境像現實一樣「活著」)。他們日前完成 A+ 和 A++ 兩輪合計近 2 億美元融資,投資方包括渶策資本、百度風投、榮耀等機構。與此同時,VAST 正式對外披露世界模型技術路線,命名為 Project Eden。Eden 的核心設計是把「狀態追蹤」和「畫面生成」分成兩件事來做——底層系統持續記錄場景裡每個物件的位置與狀態(就像遊戲伺服器追蹤所有玩家坐標),另一套系統再把這些狀態即時渲染成逼真畫面。這樣的好處是:鏡頭轉開後場景不消失,多人可以同時在同一空間互動,算力成本也不會隨人數暴增。VAST 旗下的 Tripo 系列 3D 生成工具已被業界廣泛使用,並開源超過 30 個相關專案。
假設我想開發一款多人 AI 虛擬場景應用:玩家甲在場景左邊蓋了一棟建築,玩家乙從另一個方向走過來,應該還能看到那棟建築。傳統做法是每次渲染都重新生成,場景狀態難以持久保存,算力也會隨使用人數爆增。用 Eden 的世界模型架構,底層結構化狀態層持續維護「建築存在於座標 XYZ」這件事,無論誰的視角、什麼時間點進入場景,都能看到一致的世界。多人同時上線時,算力是線性增加(多一人多一份,不是指數暴衝)。此外,開發者還可以讓 AI 智能體在場景裡 7×24 小時自主探索,自動產出互動資料來訓練模型,省掉大量人工標注成本。對比舊方式,舊方式場景只在畫面裡存在、鏡頭移開就消失;新方式場景永久存在、支援多人真正共享同一空間。
Agnes AI 是一家進入全球前十名的 AI 研究機構,今天正式宣布將旗下三款核心 API(應用程式介面,就是讓開發者在自己的軟體裡呼叫 AI 能力的工具)全部永久免費開放使用。這三款 API 分別對應文字生成、圖片生成、影片生成三種不同的媒體形式,等於一次把「全模態(全部類型的媒體都能處理)」的能力打包免費釋出。以往開發者要在應用程式裡同時使用文字、圖像、影片 AI,通常要分別付費給不同服務商;現在只要串接 Agnes AI 的三個 API 就能全部搞定。對中小團隊來說,這大幅降低了開發與測試的費用門檻,讓更多人有機會把高品質 AI 能力整合進自己的產品。
假設你要開發一個「自動為部落格文章配圖並生成短影片預告」的工具。過去你需要:先呼叫 OpenAI 或 Claude 的 API 生成文字摘要(按用量付費)、再呼叫 Midjourney 或 DALL·E 的 API 生成封面圖(按張付費)、最後找 Runway 或 Sora 生成 15 秒短片(按秒付費),三個服務分開串接、分開計費,一篇文章可能要花幾十美元。現在只需串接 Agnes AI 的三個免費 API:用 Agnes-2.0-Flash 生成摘要文字、用 Agnes-Image-2.0-Flash 生成封面圖、用 Agnes-Video-2.0 生成短影片——全程零成本,開發期間可以無限次測試重試,不用擔心帳單爆炸。
WindBorne Systems 是一家美國 AI 氣象新創公司,他們最新推出的 AI 天氣預報模型「WeatherMesh 6」(第六代版本),預報準確度已超越了包括 ECMWF(歐洲中期天氣預報中心,歐美氣象界最權威的政府機構,類似氣象界的聯合國)在內的頂尖官方機構。這個模型以 Transformer(一種 AI 架構,也是 ChatGPT 使用的核心技術)為基礎,每小時自動更新一次預報,而傳統政府氣象模型通常六小時才更新一次。更驚人的是,公司表示這個模型「五天前的預報準確度,相當於傳統預報前一天的水準」——也就是說它能提前五天就做到別人只能提前一天才能達到的精確度,解析度還細到 3 公里。這背後的關鍵優勢是他們自己操作約 400 顆高空氣球,在全球 15 個地點蒐集第一手即時氣象數據,直接餵給 AI 模型,形成競爭對手難以複製的數據護城河。
假設你要規劃一場五天後在山區舉辦的戶外活動,想知道當天天氣是否適合出行。傳統政府氣象服務(如 NOAA 或歐洲氣象中心)的五天預報誤差通常很大,頂多給你「晴時多雲偶有陣雨」這種模糊答案。但用 WeatherMesh 6,由於解析度達 3 公里(傳統模型通常 10 公里以上),而且它五天後的預報精度等同傳統模型「隔天才能給出」的水準——這意味著你提前五天看到的天氣預測,其可靠程度相當於傳統系統在活動前一天才能告訴你的答案。主辦方可以更提早、更有把握地決定要不要取消或調整場地,而不是臨前一天才能確認、屆時什麼都來不及改。
Nvidia(就是做顯示卡和 AI 晶片的美國大廠)發表了一款叫做 RTX Spark 的全新晶片,這是他們第一款專為 Windows 筆電設計的 SoC(System on Chip,把 CPU、GPU、記憶體整合在同一顆晶片上)。最大特色是最高可搭載 128GB 共享記憶體(CPU 和 GPU 共用同一塊記憶體,不需來回搬資料、不依賴雲端),性能達 1,000 TOPS(FP4,一種衡量 AI 計算速度的單位),讓 Windows 筆電也能在本機執行大型 AI 模型。Nvidia 把這顆晶片定位成讓「AI Agent(就是能自動幫你完成任務的 AI 程式)」在 Windows 上終於可用的關鍵,直接挑戰蘋果 M 系列晶片(MacBook 那種 CPU/GPU 共享記憶體的設計)和 Qualcomm(另一家 ARM 架構晶片廠)。ASUS、Dell、HP、聯想、微軟 Surface、MSI 等主流品牌預計從 2026 年秋季推出搭載此晶片的裝置。
我想讓筆電完全離線地跑一個 AI 代理,幫我讀 100 份 PDF 並自動分類摘要。目前有兩條路:一是送到 OpenAI/Anthropic 雲端 API(資料都上傳到外部,有隱私疑慮);二是買台 M3 Max MacBook(128GB 統一記憶體)才能本機跑 70B 等級大模型(擁有 700 億個參數的 AI,需要大量記憶體才能運行)。有了 RTX Spark 的 Windows 筆電,同樣可以擁有 128GB 統一記憶體、完全離線執行同等規模的大語言模型(LLM,就是 ChatGPT 這種會對話的 AI),不需要連雲端、也不需要換成 Mac,Windows 環境下就能達到相同的本機 AI 推理能力,差別是現有 Mac 用戶已能做到,而 Windows 用戶要等到 2026 年秋天裝置上市後才有這個選擇。
微軟(Microsoft,開發 Windows 系統和 Office 軟體的科技巨頭)計劃推出一款全新整合 App,把原本分散在各個地方的 AI 工具全部集中到同一個入口。洩漏的截圖顯示,這款 App 預計包含三個主要分頁:GitHub Copilot(幫助工程師寫程式的 AI 工具)、Cowork(AI 協作工作區),以及一個名叫 Scout 的功能——Scout 是「全時待機型 AI 代理人(always-on AI agent,就是不需要你每次手動喚醒、能一直在背景幫你監視或執行任務的 AI)」。微軟這次大整合的動機是,過去這些 AI 工具各自為政,使用率偏低;整合成單一 App 希望讓更多人養成習慣使用。此外,App 中已看到 Teams(微軟的企業即時通訊軟體,功能類似辦公室版的 LINE 群組)的影子,這暗示 Scout 未來可能能從遠端自動幫你操作其他程式,不只是回答問題而已。微軟預計在 Build 2026 開發者大會正式對外發表。
假設你是一個行銷主管,現在的工作流程是:打開 Teams 確認工程師有沒有回你、切換到 Copilot 網頁請 AI 幫你寫報告、再到 GitHub 查看開發進度——每天要在三個工具之間來回切換,費時費力。如果 Copilot Super App 上線,你打開同一個 App,在 Cowork 分頁讓 AI 整理今天的會議重點,Scout 這個 always-on 代理人就能自動在背景監看 Teams 的新訊息、判斷哪些需要你回覆,並在固定時間把摘要推送給你——全程不需要你手動在工具之間跳來跳去。和現在的差異是:過去 AI 只能「幫你想」、你自己去執行;新整合後 AI 能「幫你跑」、自動跨工具完成任務。
Nvidia 預計在 2026 年 6 月的 Computex 台北電腦展上發表多項 AI 重點產品。首先是 N1X 筆電晶片,搭載 20 顆 ARM 架構處理器核心,內建相當於 RTX 5070 等級的繪圖晶片,並特別強化 VRAM(AI 運算專用的高速記憶體,決定能跑多大的模型)的分配機制,讓筆電在本地跑 AI 模型的能力顯著提升。其次是「Vera Rubin」AI 資料中心平台(就是給大型企業和雲端服務商用來訓練、部署 AI 的伺服器基礎架構),目標是鞏固 Nvidia 在企業 AI 算力市場的龍頭地位。Nvidia 還會重點展示「實體 AI」(Physical AI,讓機器人和自駕車具備感知與決策能力的技術)與「代理 AI」(Agentic AI,讓 AI 自動完成多步驟任務而不需人類逐步介入),顯示該公司正從單純賣晶片,轉向布局整個 AI 自動化生態系,遊戲相關公告則相對較少。
假設你是想在自己筆電上本地跑 AI 語言模型(就是像 ChatGPT 那樣的對話 AI,但跑在自己電腦裡、完全離線不用連網)的開發者。現在主流消費級筆電 VRAM 只有 8GB,通常只能跑 7B(70 億參數)以下的較小模型,回答品質有限、速度也慢。換成搭載 N1X 晶片的新筆電後,改善的 VRAM 分配機制可以把更多系統記憶體動態調給 AI 運算使用,相當於可跑的模型規模從 7B 提升到 13B 甚至更大——離線能用、不用付雲端 API 費用,且回答品質明顯更好。企業端則有 Vera Rubin 資料中心平台:如果公司需要自訓大型模型或在內部部署 AI,這套新一代架構提供比前代更高的算力效率,訓練時間和成本都能下降。
這篇文章討論用「強化學習(Reinforcement Learning,簡稱 RL,一種讓 AI 透過反覆嘗試、獲得獎勵來學習的方法)」來訓練大型語言模型(LLM,就是 ChatGPT、Claude 這類對話 AI)時,一個容易被忽略的技術陷阱。AI 在訓練時會先產生一段文字,程式接著需要把這段文字的「每個詞該得到多少信號」算出來。問題出在中間有一步「重新切詞(re-tokenize)」:原本的詞元(token,AI 看文字的最小單位)被解碼成文字後,如果再重新編碼,可能因為邊界差異導致出來的 token 序列不完全一樣,讓算出的「哪些地方該被強化」跑位,稱為「梯度飄移(gradient drift)」。正確的做法是:保留原始 token buffer 一路傳到底,永遠不要對已解碼的文字重新做 tokenize,才能保持訓練訊號的準確性。這個方法依賴一個現代 chat template(對話格式模板)普遍都已滿足的特性——「前綴保留(prefix-preserving)」,所以實際上直接可用,不需要改模型架構。
假設你在用 PPO 或 GRPO(兩種常見的強化學習演算法)來做 LLM 的 fine-tuning(微調,即在基礎模型上針對特定任務再訓練)。流程是:模型根據提示產生一段回應的 token 序列,接著你的程式把 token 解碼成可讀文字,然後送去評分、算 loss(損失值,訓練時衡量「有多差」的數字)。舊作法通常在算 loss 前會把文字重新 tokenize 一遍,這樣做在大多數情況沒問題,但當文字包含特殊字元、多語言邊界或 BPE(一種切詞演算法)邊界敏感詞時,新舊 token 序列會有 1~2 個 token 的位移,導致梯度計算錯位、訓練不穩定,最終模型學歪。正確做法是在採樣時就把 token 存進一個 buffer,後續所有計算都從這份 buffer 讀,完全略過「解碼→重新 tokenize」這一步。對比舊作法:舊的偶爾產生 NaN loss 或訓練跑著跑著突然崩;新的梯度穩定,訓練曲線更平滑。
pi-dynamic-workflows 是一個為 Pi(一種 AI 程式助理平台)新增「動態工作流」功能的開源擴充套件。它讓 AI 助理可以自己撰寫一段 JavaScript(一種常見的程式語言)腳本,把一個大任務拆分給許多「子助理」(subagent,可以理解成同時運作的多個 AI 小幫手)平行執行,最後再把所有結果匯整成一份報告。每個子助理都擁有獨立環境,能讀寫檔案、執行終端機指令、呼叫 AI 產生結構化輸出,就像一個完整的 AI 對話回合一樣有能力。這套做法特別適合「同一類工作要對大量對象重複執行」的場景,例如同時審查幾十個檔案、從多個角度分析同一份程式碼、或是大規模重構。
假設我維護一個有 40 個模組的後端專案,想一次完成三件事:安全性漏洞掃描、效能瓶頸找點、程式碼風格一致性審查。用傳統方式,得分別發三輪指令給 AI,每輪等它跑完才能繼續,整體費時且需要手動彙整。改用 pi-dynamic-workflows,AI 會自動生成一段工作流腳本,同時派出多個子助理分頭讀各模組、跑三個面向的分析,彼此互不干擾,最後統整成一份涵蓋所有面向的報告。原本可能要請 AI 來回數十次才能完成的任務,現在一個指令就自動化執行完畢,省去大量手動串接的等待時間。
企業裡的 AI Agent(就是那種能自動執行任務的 AI 助手,像是幫你送出請假申請、自動審核費用報帳)目前最大的問題不是 AI 本身不夠聰明,而是「授權」這個環節沒處理好。公司的系統有很多資料和功能,不是每個人都有資格查或修改——例如薪資資料只有 HR 能看、財務審批需要主管權限。AI Agent 如果沒辦法識別並遵守這些限制,就容易做出越權行為,拿到不該看的資料、或幫沒有資格的人做決定。Workday(一家大型企業 HR 與財務軟體公司)提出的解法是:把它原本儲存員工、流程、權限的「核心系統」直接拿來當 AI 的管理層,讓 AI 在執行任何動作前都先確認有沒有授權,並整合 Google 的 Gemini(Google 出的大型語言 AI 模型)來強化準確度。這個架構對醫療、金融、HR 等受嚴格法規監管的行業特別重要,因為越權操作可能直接觸法。
假設公司有一個 AI Agent 幫 HR 部門自動處理請假審批流程。傳統做法下,AI 只管「讀資料、做決策、送通知」,授權設定是另一套邏輯,常常對不上。結果可能發生這種情況:某員工透過 AI 提交了一筆本來不符合資格的津貼申請,但 AI 不知道這個人沒有這個津貼資格,就直接批准——這在薪酬法規嚴格的環境等於出錯。Workday 的新架構是:AI Agent 在執行每一步操作之前,都會對照 Workday 自己的「系統記錄」(System of Record,就是儲存每個員工職位、角色、權限的主資料庫)確認「這個人有沒有資格做這件事」,有資格才放行,沒資格就擋下並記錄。換句話說,AI 的行為邊界是用公司既有的權限資料動態決定的,而不是另外寫一套獨立規則。這讓 AI 在受嚴格監管的環境下也能安全部署,不會因為「AI 不懂權限限制」而造成合規問題。
Devin 是 Cognition 公司開發的 AI 程式設計代理(就是可以自己寫程式、跑測試、甚至把整個開發流程自動化的 AI 工具)。他們的工程師 Ido Pesok 分享了一個重要里程碑:現在 Devin 被觸發的次數,超過一半是「非同步模式」(意思是在背景自動執行,不需要人一直盯著操作),已超越過去那種需要人即時互動的方式。這個轉變帶出了一個硬性門檻:每次程式要合併進主分支之前,Devin 必須先自動驗證測試通過,才能允許合併——這不再是「有就好」,而是強制要求。突破點來自工程師開始同時平行啟動 10 到 20 個 Devin,每個 Devin 都有自己獨立的開發伺服器,這在一台筆電上根本做不到,必須靠雲端資源才能實現。
假設你的團隊要把一個新功能合進主程式庫。舊做法是工程師開一個 Devin,等它跑完測試,再手動決定要不要合併;整個流程要排隊、一個個跑,而且人得守在旁邊。新做法是:一旦有人提出 PR(程式碼合併申請),系統自動在雲端同時啟動 15 個 Devin,每個 Devin 都有獨立測試環境,各自驗證不同情境。全數通過後才自動放行合併;任何一個失敗就擋住。對比差異:測試時間從「依序排隊」變成「同時並跑」,速度提升十倍以上,全程不需要人在場盯著——merge pipeline 變成真正的自動化。
Inherent 是一家由前 DeepMind 研究員創辦的倫敦 AI 新創,剛完成 5,000 萬美元(約 15 億台幣)的種子輪融資,正在打造一個叫 Faraday 的科學研究平台。Faraday 的核心概念很特別:一般的 AI 工具是「你問問題,AI 給答案」,但 Faraday 反過來——它的工作是幫你想清楚「哪個問題值得問」。這個平台讓 AI 代理人(就是會自動執行任務的 AI 程式)和人類研究員搭檔合作,AI 在困難的科學問題上不斷迭代嘗試,人類負責提供判斷力、品味與倫理把關。Inherent 的目標是讓 AI 和人類合力找到任何一方單獨都無法達到的科學發現,類似歷史上盤尼西林、微波爐等意外突破的過程,只是加速到 AI 的規模。
假設我是一位癌症研究員,實驗室想找新的治療方向,但每年新發表的論文多達幾十萬篇,人力根本看不完。傳統做法是:自己設定研究方向,再用文獻搜尋工具查資料、用 ChatGPT 整理摘要。Faraday 的思路不同:它的 AI 代理人主動掃描大量科學文獻和實驗資料,嘗試找出「哪個假設最有可能帶來突破、哪個問題最少人關注但答案潛力最大」,再把候選問題呈現給研究員判斷。相當於有個 AI 不只在替你查資料,而是在替你「想研究策略」——人類把精力集中在最有價值的地方,而不是淹沒在海量文獻裡。目前平台尚未公開上線,仍在早期開發階段。
NotebookLM 是 Google 推出的 AI 筆記與研究工具,讓你上傳文件、PDF、網頁之後,可以直接對著這些資料提問、整理重點或生成摘要,比起直接問 ChatGPT 更不容易捏造不存在的資訊。Google 即將為它加入三個新功能:第一是「Personal Preferences(個人偏好)」,會學習你過去的使用習慣,自動調整回答的語氣和技術深度,讓 AI 越用越像是為你量身打造的助手。第二是「Connectors(連接器)」,類似 MCP(一種讓 AI 能直接串接外部系統的標準介面),初步會支援 Gmail、Google Drive、Google Calendar,讓 NotebookLM 直接讀取你的信件或雲端檔案,不用再手動上傳一份份文件。第三是「Canvas(畫布)」,可以把你的研究資料自動轉換成互動時間軸、解說網頁,甚至輕量小遊戲,讓輸出不只是文字摘要。目前三項功能都尚未正式開放,推出時間 Google 未公布。
假設我要研究「某公司的產品發展歷史」,目前做法是把十幾份 PDF 上傳到 NotebookLM,再一問一答整理。新的 Connectors 功能上線後,我可以直接讓它讀取 Google Drive 裡我存的資料夾,省去上傳步驟;Canvas 功能則可以把整理結果自動輸出成互動時間軸頁面,而不是一大篇文字;Personal Preferences 會記住我偏好條列式且不要太多技術術語的風格,下次不用重新說明。對比現在每次都要手動上傳、每次都要重新交代偏好、輸出只有純文字,這三個功能合起來讓流程更順,研究成果也更容易分享。
NVIDIA 推出了「MCG Toolkit」(Model Card Generator,模型卡片產生器),這是一個能在一分鐘內自動生成 AI 模型說明文件的工具。所謂「模型卡片(model card)」,是一份標準化的技術文件,用來說明一個 AI 模型的用途、訓練資料、效能表現、偏見風險等重要資訊——就像產品說明書一樣,讓使用者知道這個 AI 怎麼用、有什麼限制。這個工具背後使用了 RAG(Retrieval-Augmented Generation,讓 AI 先查詢既有文件再整合回答、減少憑空捏造)技術,自動從 GitHub、HuggingFace 等來源讀取程式碼和說明文件,再用大型語言模型(LLM,就是 ChatGPT 這類會對話的 AI)整合成結構化說明書。對於需要符合歐盟 AI 法規等監管要求的企業而言,這個工具可以大幅降低人工撰寫文件的成本,測試顯示平均 80 秒完成,完成率達 91%、準確度 76%。
假設你的公司開發了一個用於貸款審核的 AI 模型,需要提交給監管機關一份說明文件,內容要涵蓋:這個模型怎麼運作、訓練了哪些資料、有沒有種族或性別偏見、在哪些情況下可能判斷失準。過去這份文件往往需要工程師和法務花幾天人工整理。現在用 NVIDIA MCG Toolkit,只要把 GitHub 倉庫連結貼進去,工具會自動掃描程式碼與 README 文件,用 RAG 提取關鍵資訊,大約 80 秒就能輸出一份符合 Model Card++ 格式的完整說明書,包含偏差分析、可解釋性、隱私、安全四個子章節。如果某些欄位資料不夠,系統會直接標記「未找到」而非亂猜——比人工撰寫更透明,也節省大量時間。
微軟宣布 2026 年是 AI 代理(就是能自動執行工作的 AI 程式)從「輔助工具」升格為「實際操作員」的關鍵一年。過去 AI 助理需要使用者一步步下指令才能幫上忙;現在微軟的新設計是讓 AI 代理自己接手整個工作流程,從頭到尾把事情做完,不需要人每個步驟都要插手。這次微軟同時推出四項配合功能:Word 裡的 Legal Agent(法律代理)可以自動審查合約、提出修改建議;Copilot Cowork 讓 AI 在背景自動執行多步驟任務;Researcher 功能新增 Critique(讓多個 AI 模型互相交叉查核答案準確性)和 Council(同時請多個模型回答同一問題、比較差異);以及 Agentic Outlook,讓 AI 自動整理信箱、處理行事曆衝突、起草追蹤回覆。這些功能主要透過 Microsoft 365 Copilot 的「Frontier 計畫」(早期體驗方案)開放,目前以美國用戶為主。
假設你是公司法務,每天收到十份合約要審查。以前的做法是自己逐頁讀、找出對公司不利的條款,再手動打開修改意見——一份至少兩小時。現在開啟 Word 的 Legal Agent,把合約丟進去,AI 會自動對照公司的審查標準清單,把風險條款標出來、直接在文件裡加上「追蹤修訂(tracked changes)」的紅字修改建議,並附上法律依據來源——整個過程只需幾分鐘。你只需要最後確認 AI 建議是否正確、決定接不接受,真正需要人判斷的決策才是你的工作,重複性的掃描工作交給代理全自動執行。
這篇文章介紹「背壓」(Backpressure,一種訊號機制,讓下游系統告訴上游「我現在忙不過來,慢一點或停一下」)如何套用到 AI 代理(Agent,就是能自動執行任務的 AI 程式,例如自動寫程式、自動查資料、自動提交修改)的架構設計上。在傳統軟體流水線裡,背壓讓生產者根據下游的負載決定加速、暫停或丟棄工作;套用到 AI Agent 就是讓 AI 在把成果交出去之前,先自己跑一輪驗證流程,確認品質達標才往下送,否則退回去繼續修。這種設計讓 AI 能更長時間「無人監督」地工作,同時減少讓人工審查者收到一堆低品質輸出的狀況。最終效果是:讓人類仍然留在整個流程裡、不被完全取代,但需要介入的時機大幅減少、處理的內容品質也更高。
假設你讓一個 AI Agent 自動幫你的專案修 bug、提 PR(Pull Request,就是「我改了程式碼,請你看一下要不要合入主線」)。舊做法是 AI 修完就直接送出來,結果你一開信箱就看到 20 個 PR,其中 15 個品質很差——程式跑不起來、或是修了 A 又壞了 B。套用背壓機制後,AI 每次準備送 PR 之前,會先跑自己的驗證流程(背壓偵測):若測試沒過、程式碼品質不達標,就退回去自己再修,不直接推出來。結果你收到的 PR 數量大幅減少,但大多數能直接合入;對比舊做法,你的審查負擔降低,AI 也能更長時間自主跑任務,不需要你中途一直介入盯著。
Meta(就是做 Facebook、Instagram、Reels 的公司)發表了一套叫 SilverTorch 的新系統,專門負責決定你在滑 Reels 或 FB 動態牆時,下一則應該給你看什麼內容。以前,推薦你看哪部影片的流程分成很多個獨立小服務:先找「可能喜歡」的候選內容、再過濾不適合的、然後算分排名——這些步驟各自跑在不同程式裡,互相傳資料非常耗時。SilverTorch 提出了「索引即模型(Index as Model)」的新做法,把所有步驟合併成一個完整的神經網路(就是一個像 ChatGPT 那樣的大型 AI 計算程式),讓整條推薦流程在 GPU(繪圖晶片,也大量用來跑 AI)上從頭到尾一次完成,不再需要來回切換不同服務。實測數據非常驚人:吞吐量(每秒能處理的推薦請求數)提升 23.7 倍,運算成本效率提升 20.9 倍,部分步驟甚至比原本的 CPU 方案快了 291 到 523 倍。
以前 Meta 想在 Reels 推薦流程裡加入「神經重排」(用更複雜的 AI 模型重新為影片排序,讓結果更精準),需要工程師在 Python(AI 開發語言)和 C++(基礎設施語言)兩套環境間來回協作,光是一個小改動的部署週期就要好幾週。用 SilverTorch 之後,整條推薦流程都在同一個 PyTorch(Meta 開源的 AI 訓練框架)程式碼庫裡,工程師改好直接跑,不需跨系統溝通。拿 8000 萬部影片做端對端測試,新系統速度大幅領先,候選影片池從原本的數千部擴展到數十萬部,推薦結果更多元;而舊系統因為微服務往返延遲,根本沒有餘裕做這種大規模神經重排。
當你的應用程式要做「語意搜尋」或「AI 幫你找相似內容」,背後通常要把每段文字變成一串數字(叫做向量),然後存進資料庫快速查詢——這種查詢方式叫做「向量搜尋」。如果資料量小,直接一筆一筆比對就好;但資料一旦累積到幾百萬筆,就需要選對「索引策略」(就像圖書館的分類系統,決定怎麼整理書才能快速找到)。這篇 TigerData 的指南整理了 Postgres 資料庫裡三種主要的向量索引方法:HNSW(記憶體夠用時最省事的選擇,查詢速度快、準確率高)、IVFFlat(資料量大但記憶體有限時的折衷方案,省記憶體但需要多調參數)、以及 StreamingDiskANN(資料大到記憶體裝不下時才用,直接從硬碟讀)。文章也介紹了「混合搜尋」——把向量搜尋和傳統關鍵字搜尋(BM25,類似 Google 舊版的詞頻比對演算法)合用,讓找到的結果又準又全。
假設你在做一個「AI 客服查詢系統」,裡面有 500 萬筆過去的客服對話記錄,用戶問「我的訂單什麼時候到」,系統要撈出最相關的幾筆過去對話供 AI 參考。如果只用關鍵字搜尋,只能找到含「訂單」「到」這些字的記錄,問「幾時收到貨」就找不到;純向量搜尋能抓語意,但如果資料有 500 萬筆,全部比一遍太慢。這時應該選 HNSW 索引(如果伺服器記憶體 32GB 以上夠用),啟動後查詢速度可降到毫秒級;若記憶體不夠,就改用 IVFFlat,但要調好「桶的數量」參數才不會漏掉結果。如果同時啟用混合搜尋(向量 + BM25),像「訂單 #12345 在哪」這種含特定數字的問題也能被精準抓到,而不只靠語意模糊比對。舊做法(單純 B-tree 索引)根本不支援語意查詢;沒有這套選型知識就直接上 HNSW,可能記憶體爆掉或查詢速度不如預期。
這篇文章討論如何設計 AI 代理人(Agent,就是能自主完成任務的 AI 系統,例如幫你自動回信、查資料、下訂單的 AI)的「觸發機制」——也就是讓 AI 代理人知道「現在該開始工作了」的那個訊號要怎麼送。很多人以為只有兩個選擇:一是 Webhook(就像訂餐後讓餐廳主動打電話通知你「餐點好了」)、二是 Polling(就像你每隔幾分鐘自己打去問「好了嗎」)。但這篇文章指出,真正的核心問題是「交付保證」——你的系統必須能正確處理訊息重複、遺漏、亂序這些現實情況。Webhook 通常「至少送一次」但可能亂序或重複;Polling 如果太頻繁會超過 API 速率限制;更成熟的方案是使用 CDC(Change Data Capture,即「資料庫變動追蹤」,每次資料有變動就自動記錄)或訊息匯流排(Message Bus,像中間轉運站確保訊息不遺失,例如 Kafka)。成熟的代理人系統通常同時結合多種方式:快速事件觸發+定期對帳補漏+「冪等性設計」(同一個訊息收到兩次也不會執行兩遍)+持久化執行環境,讓代理人在遇到網路錯誤、重試或等待外部系統時都能安全存活、不出錯。
假設我想建一個 AI 代理人,功能是「每當資料庫有新訂單進來,就自動寄一封確認信給客戶」。最簡單做法是 Webhook:資料庫收到新訂單 → 觸發 Webhook → AI 代理人收到通知 → 執行寄信。但問題來了:若網路瞬斷導致 Webhook 沒收到,訂單確認信就永遠不寄;若同一筆訂單觸發了兩次 Webhook,客戶就收到兩封信。按照本文的成熟設計:(1)改用訊息匯流排(如 Kafka),每個訊息都有序號、隨時可重播補漏;(2)代理人處理每筆訂單前先查「這個訂單 ID 我處理過了嗎?」(冪等性檢查),處理過就跳過,確保同一筆訂單不重複執行;(3)同時設定每小時一次的 Polling,掃描有沒有「應該被處理但還沒處理到」的訂單(對帳補漏)。這樣即使訊息遺漏或重複,結果都正確——每筆訂單只寄一封確認信,不多不少。
KTX 是一個開源工具,專門解決 AI 助理(就是像 Claude、ChatGPT 這類可以幫你寫程式碼的 AI)在查詢公司資料庫時容易寫錯 SQL(一種跟資料庫對話的程式語言)的問題。通常 AI 面對公司資料庫時,不知道公司內部對「用戶數」「收入」這些指標的精確定義,容易自己亂猜、寫出跟公司規範不符的查詢語句。KTX 的做法是把公司認可的指標定義、資料表關聯規則、資料庫結構說明,統一整理成一個 AI 可以搜尋的「本地知識庫」,讓 Claude、Codex、Cursor 等 AI 工具每次生成 SQL 前先查這份知識庫,用公司核准的定義而不是自己發明的邏輯。這樣資料工程師就不必每次都人工核查 AI 有沒有亂用自訂指標。
假設我是某電商公司的資料工程師,主管要我用 AI 幫忙生成每週銷售報表的 SQL 查詢語句。公司有自己定義的「有效訂單」——排除退款、測試訂單的特殊邏輯——但 AI 不知道這些規則,直接寫出來的 SQL 會把退款訂單也算進去,數字就跑偏了。有了 KTX,我先把公司的「有效訂單」定義、相關資料表的 JOIN 邏輯(就是多張表格怎麼串在一起查)、欄位命名規則都匯入 KTX;之後讓 Claude 或 Cursor 幫我寫 SQL 時,這些 AI 工具會先查 KTX 的知識庫,找到公司正確的「有效訂單」定義,再生成符合公司規範的查詢。舊做法是 AI 生成完還要人工逐行審查有沒有亂用指標,新做法 AI 直接用對的定義,省去大量人工核查時間。
Hex 是一家做資料分析平台的公司,他們自己建了一套叫「Shoebox」的內部評測系統,專門用來測試和比較他們的「資料代理人」(Data Agent,就是能自動幫你查資料、跑分析、回答數據問題的 AI 助手)。這套系統讓工程團隊可以把新版本的 AI 代理和穩定的正式環境版本互相比較,看看哪個在不同條件下表現更好。他們測試的面向包括:系統提示詞(prompt,也就是給 AI 的指令)、採用的語言模型(LLM,就是 ChatGPT、Claude 這類會對話的 AI 核心)、AI 的記憶功能、搜尋方式,以及工作環境的情境設定。除此之外,Hex 還特別創造了一個叫「Shorelane Commerce」的虛擬假公司,這家公司有很亂的倉庫資料,目的是模擬真實業務場景——因為那些只考「把自然語言問句轉成資料庫查詢語句(SQL)」的簡單測試,根本無法反映真實 AI 代理要面對的模糊情況、複雜脈絡和混亂資料。
假設你是 Hex 的工程師,要改進 AI 代理的記憶功能(讓它記住使用者過去的查詢習慣,下次回答更準確)。舊做法:手動跑幾個查詢、肉眼看結果、「感覺好像有變好」——但根本說不出差了多少。有了 Shoebox 之後,你把「記憶功能更新版」和「原本正式環境版」同時送進系統,讓它們都處理 Shorelane Commerce 那家假公司的混亂倉庫資料(例如:欄位名稱不一致、有空值、同一張表有多個版本),系統會自動記錄每次回答的準確率、完成速度、需要幾次追問才能答對,最後產出比較報告。這樣你就有客觀數字支撐決策,而不是靠直覺說「感覺新版比較好」。
Neo4j(一家專做「圖資料庫」的公司)推出 Virtual Graph 新功能。圖資料庫是一種把資料存成「節點+關係連線」的資料庫形式,不是傳統的表格,特別擅長分析「A 跟 B 有什麼關係、B 又跟 C 怎麼連」這類多層跳躍問題。但過去要用圖分析,你得把資料從 Snowflake 或 Databricks(企業常用的雲端資料倉庫平台)複製搬過去,要建管線、花時間。Virtual Graph 解決這個痛點:資料完全不用動,它把圖形查詢語言 Cypher(專門用來查詢節點與關係路徑的語法)自動翻譯成一般 SQL(最普遍的資料查詢語言),直接在你原本的資料倉庫上執行圖分析。系統還內建 AI,能自動從現有表格結構生成圖資料模型,幾分鐘就能上手。對 AI 開發者而言,特別是在做 GraphRAG(讓 AI 透過關係圖回答多層問題的檢索技術)或知識圖譜相關應用,這代表不用另建一套圖資料庫基礎設施就能跑圖推理,省下大量工程成本。
假設你在 Snowflake 上存了公司的供應鏈資料——廠商表、產品表、採購單表——想查「如果某家二階供應商停工,最終會影響哪些客戶?」這類問題需要跨多層跳躍:廠商 A → 供貨給廠商 B → 製造產品 C → 賣給客戶 D。傳統做法要先把資料搬進 Neo4j 圖資料庫才能查,可能花幾天建管線。用 Virtual Graph,你把 Snowflake 工作區接上後,AI 自動把表格關係轉成圖模型,幾分鐘後就能寫 Cypher 做多層路徑查詢,系統在背後把它翻成 SQL 在 Snowflake 上執行——資料沒有移動、現有的權限設定和資料更新頻率全部保留,查詢結果和直接在 Snowflake 跑一樣即時。
Expanse 是一個由 YC(美國知名新創加速器 Y Combinator)孵化的新工具,專門解決大型 GPU 電腦叢集(就是許多 GPU 伺服器串聯的計算設施,常見於 AI 研究機構、大學和大型企業)嚴重浪費資源的問題。研究顯示,這類叢集平均只有 30%~40% 的資源被真正用到,因為使用者為了怕申請太少導致計算任務中途崩潰,習慣多申請 2~3 倍資源保險。他們在英國國家級 HPC(高效能運算)設施測試,從 12.2 萬個任務中發現 59% 的算力白白浪費,換算成雲端費用等於一個叢集一個月燒掉 850 萬美元。Expanse 的做法是在任務提交前,讀取程式碼和硬體環境,用深度學習模型(一種可自動從資料中學習的 AI 技術)預測這個任務實際需要多少資源,並比較 GPT-5.5、Claude Opus 4.8 等主流大型語言模型(就是 ChatGPT 這類會對話的 AI)準確 8 倍。
假設你在一所大學的 AI 研究中心,要提交一個訓練語言模型的任務。以前不確定需要多少 GPU 記憶體,通常會多申請 3 倍保險,結果其他研究員要用 GPU 卻得等。用 Expanse 之後,系統在你按下送出前,會自動分析你的 Python 程式碼和訓練腳本,預測「這個任務實際只需要 4 張 A100 GPU、48GB 記憶體」,並給出信心區間讓你判斷風險。若程式碼有可能因記憶體不足在執行一半時崩潰,它還會直接指出第幾行有問題、怎麼修。整個叢集有效使用率因此從 35% 提升,讓更多任務能同時跑,不再互相卡位。
Wi-Fi 8 是下一代企業無線網路標準。業界分析師預測,新一代 Wi-Fi 8 企業無線接入點(Access Point,就是辦公室天花板上那個發射無線訊號的設備)將在硬體裡直接內建 AI 推論晶片——AI 推論(inference,就是讓 AI 模型在本地執行計算判斷,而非把資料傳到遠端才處理)。目前大多數 Wi-Fi 設備的智慧化仰賴雲端或中央控制器,但高延遲與高頻寬成本讓廠商開始轉向「邊緣 AI」架構,讓接入點本身就能做即時決策。Cisco、Ruckus、Cambium 等大廠已明確表態支持這個方向:接入點在本地處理干擾偵測、頻道選擇等即時任務,雲端只負責分析長期趨勢,大幅提升企業網路的效率與擴展性。
假設一棟辦公大樓有 200 台 Wi-Fi 接入點。舊做法是每台接入點持續把訊號強度、干擾資料上傳到雲端控制器,控制器分析後再下達「切換到頻道 6」之類的指令——這個來回可能需要數秒,而且萬一網路壅塞或斷線,控制器就管不到了。換上內建 AI 推論的 Wi-Fi 8 接入點後,每台設備自己就能在幾毫秒內偵測到附近微波爐或藍牙設備的干擾,並立即自動切換到較乾淨的頻道,無需等候雲端回應。網管團隊只需在雲端查看長期統計報表(例如哪個樓層干擾特別頻繁),不需讓每台接入點時刻上傳原始遙測資料,節省頻寬並降低整體管理複雜度。
AI 代理(就是能自動判斷並執行任務的 AI 程式)正被企業拿來管理複雜的網路設備和資安補丁作業。傳統上,企業系統發現安全漏洞後要花 30 到 90 天才能完成修補;但現在 AI 也在加速攻擊者找漏洞的速度,迫使企業必須在 24 小時內修好,手動作業根本跟不上。Gluware 這家網路自動化公司的 CEO 提出「信任層」概念:在讓 AI 自動執行網路設備修改前,必須先建立審核和驗證機制,確保 AI 不會在未經核准的情況下隨意更動網路設定。他們開發了 DIAL(一種能讀懂不同廠牌網路設備語言的語意翻譯層,已驗證 306 個版本、測試過 45 萬台設備)以及 Titan 平台(整合漏洞掃描 CVE 映射、風險評估和修復驗證的一站式工具,獲 ONUG 最佳展示獎)。
想像一家跨國企業的資安工程師,早上系統回報一個 CVE 漏洞(CVE 是業界用來編號安全漏洞的系統,每個號碼代表一種已知攻擊路徑)影響到全公司 1,000 台路由器。舊做法:工程師要手動確認每台設備版本、寫補丁腳本、排定維護窗口,往往拖 30 天以上。用 Agentic NetOps 做法:AI 自動掃描所有設備清單,確認受影響型號並標記優先級,透過信任層送交主管批准後,自動下發補丁指令並在 24 小時內完成修補,最後自動驗證設定正確。信任層的作用是:AI 不能自行說執行就執行,必須通過審核閘道,防止 AI 誤判或被攻擊者利用自動化機制做壞事。差異就是:舊做法人工費時且常跟不上攻擊速度,新做法 AI 自動化但有人在中間把關。
一篇觀點文章,作者認為我們正在進入「新網路時代」——就像 2000 年代網路泡沫後一樣,AI 狂熱雖然會有泡沫破裂的時刻,但不代表 AI 不重要,而是它會從「商業核心賣點」慢慢變成「基礎建設」(就像電力和網路一樣,是底層工具,不是商業護城河本身)。作者主張,那些把「AI 長」(Chief AI Officer,專門負責 AI 策略的高層主管)設為核心職位、把 AI 當成公司本身商業模式的企業,最後會失敗;真正存活下來的,是把 AI 悄悄融入產品和服務「實作策略」的公司。文章也點名具體公司預測:蘋果因 AI 依賴度低而安全;OpenAI 和 Anthropic 因開源替代品(任何人都可以免費下載、自己架設的 AI 模型)崛起,最終可能被收購或倒閉;NVIDIA 的晶片護城河也比外界想像的脆弱。
假設我是一家 AI 客服新創的創辦人,現在要決定市場定位。舊做法:把整個公司定位成「我們是 AI 客服公司」,把商業賣點建立在某家大廠的 GPT / Claude API(應用程式介面,就是向 AI 廠商租用服務的管道)上,聲稱「用最新 AI 幫你回客訴」。問題是,一旦開源模型(如 Llama、Qwen,免費可自架的 AI 模型)品質追上來,任何工程師都能在自家伺服器用免費模型架一套,你的差異化就消失了。新做法:定位成「幫企業管客服達成率的平台」,AI 只是後台自動分類和建議回覆的工具,客戶付費買的是「客服解決率提升 30%」的成果,不是 AI 本身。換了不同的底層模型,客戶不在意也不受影響。對比差異:前者的護城河靠 AI 廠商的 API 加持,市場商品化後就塌;後者的護城河是流程整合和資料積累,AI 換一個照樣跑。
以往要把資料做成互動圖表或地圖,通常得買 Tableau、Looker 這類商業智慧(BI)工具,動輒每月幾千到幾萬元。這篇文章示範了一套零元替代方案:用 DuckDB(一個免費的嵌入式資料庫,可以直接在瀏覽器或本機跑 SQL 查詢)處理資料、Astro/Leaflet/SVG 做前端介面(都是免費的網頁技術)、GitHub Actions 定時自動更新、部署到靜態網站托管。最關鍵的是,作者指出 AI 輔助編程(像是用 Claude 或 Copilot 幫你寫程式碼)讓這種客製化資料產品變得更容易上手——即使不是資深工程師也能自己做出來。這套方案的前提是:不需要公司層級的權限管控、跨部門共享指標定義,或是複雜的分析流程。
假設你負責公司的某項公開資料(例如每月的城市停車違規數),想做一個地圖讓同事能看到哪些區域違規最多。用傳統 BI 工具,你需要設定資料連線、買授權、花時間學工具介面。但這套零元方案是:把公開的 CSV 資料下載下來,用 DuckDB 寫 SQL 做清洗和彙總,用 Leaflet 把彙總後的數字畫在地圖上,再用 Astro 包成靜態網頁部署到 GitHub Pages(完全免費的靜態網站托管)。GitHub Actions 每天自動下載最新資料並重新建置網頁。搭配 AI 輔助編程,你可以直接把「我需要一個顯示各區違規次數熱點地圖的 Leaflet 元件」丟給 AI,讓 AI 幫你寫出大部分程式碼。整個過程費用:$0;相對應的 BI 工具授權:每月可能上萬元。
MOR(Merge-On-Read,意思是「讀取時才做合併」)是一種資料儲存的架構設計,和傳統的 CoW(Copy-On-Write,「寫入時複製整個檔案」)正好相反。傳統 CoW 每次資料有任何改動,都要把整個大檔案從頭重寫一遍,就像每次修改 Word 文件都要把整本書重新印刷——改一個字也要整本重印,非常慢。MOR 改成「先把每次的改動快速記在一個小的記錄檔後面」,然後在系統不忙的時候,讓背景程式慢慢把這些記錄整合進主資料裡。這樣寫入資料的速度變得非常快,特別適合需要大量頻繁寫入的場景,像是即時串流資料(streaming,就是資料不斷流進來,例如感測器讀值、金融交易紀錄)和 CDC(Change Data Capture,變更資料捕獲,意思是把資料庫每一次改動都記錄下來的技術)。代價是讀取時系統要多做一步「把主資料和還沒整合的記錄拼在一起」的動作,讀取略慢,且需要管理背景整合(compaction)的排程與資源。
我在管理一個電商平台的即時庫存資料倉儲,每秒有數百筆庫存異動(下單扣庫、補貨增量、退貨還原)要寫進資料庫。用傳統 CoW 架構,每次異動都要把整張大庫存表重新整個寫一遍,系統被寫入壓力塞住,資料幾乎是準即時。換成 MOR 架構後,每筆異動只在後面加一行記錄,幾乎是瞬間完成;系統趁夜間低峰,才把當天累積的數萬筆記錄全部合併整理好。查庫存時,系統自動把主表加上當天還沒整合的記錄拼起來回傳。讀取速度比原本慢約 20%,但寫入吞吐量提升了數倍,再也不會因為寫不進去而讓前端庫存顯示延遲。