大曉機器人(由商湯科技聯合創辦人王曉剛創立的具身智能公司)聯合香港中文大學 MMLab,同時發布了兩項重要成果。第一個是 Kairos-Homeworld:全球第一個專門用來訓練機器人的虛擬家庭環境,收錄了 30 萬套從真實中國住宅取得的房屋格局,以及 5000 個可以互動的 3D 家庭場景——機器人可以在這個虛擬空間裡反覆「練習」家務動作,不需要進入真實家庭試錯。第二個是 Kairos 3.0-4B:一個 4B 參數的世界模型(World Model,就是讓 AI 能在「腦子裡」預測「做了某個動作之後,環境會怎麼變化」的技術),推理速度比 NVIDIA Cosmos 2.5(NVIDIA 是全球頂尖 GPU 晶片公司,Cosmos 是其專為機器人設計的世界模型)快了 72 倍,並支援多款國產 GPU。這兩項成果讓機器人公司不必花費龐大成本蒐集真實家庭資料,就能在大規模模擬環境中訓練家用機器人。
假設我是一家開發家用清潔機器人的公司,想讓機器人學會「在不同廚房格局中找到抽屜、拿出鍋具」這個動作。傳統做法必須跑進真實住家逐一拍攝錄製,每種戶型都得重新收資料,成本極高,且不同地區格局差異大,難以規模化。改用 Kairos-Homeworld,可以直接從 30 萬套中國真實戶型資料庫自動生成各種廚房配置,機器人在模擬環境裡反覆練習幾萬次,進入真實廚房時已見過大量格局變化。Kairos 3.0-4B 世界模型則負責讓機器人在伸手之前「想像預演」——預測「往左伸手會碰到抽屜還是牆壁?」——72 倍的速度優勢代表這套預演在中低階 GPU 上也能流暢運行,大幅降低部署門檻,對沒有 NVIDIA 頂級硬體的團隊來說格外實用。
OpenAI 為美國的 ChatGPT Plus 和 Pro 付費用戶推出了全新記憶系統,記憶容量直接翻倍(2 倍),並加入「記憶摘要」介面和更多用戶控制選項。所謂記憶系統,就是讓 ChatGPT 在不同對話之間「記住你這個人」的功能——比如記得你的職業、語言偏好、常見工作情境——不用每次重頭說明背景。這次升級讓 AI 能記住更多細節,而且用戶可以主動打開摘要頁面,查看「AI 到底記了我哪些事」,並可逐條刪除或修改,比舊版更透明、更好控制。OpenAI 把這個升級定位為長期記憶研究的成果,從最初「手動儲存筆記」,到「AI 自動整理記憶(類似夢境式歸納)」,現在進化到更聰明的主動記憶管理系統。同一波更新還包括:開發者 API 新增「內容審核分數」(讓開發者能自動偵測用戶訊息是否違規),以及 Codex iOS 插件的展示(可以直接在手機上熱重載預覽 app)。另外同期值得注意:Google 開源模型 Gemma 4 12B 被壓縮成 2-bit 版本僅 4.66 GB,可在個人電腦本機執行;開源視覺語言模型(能同時理解圖像和文字的 AI)Molmo2 在頂尖 AI 學術會議 CVPR 亮相,支援影片追蹤與計數;LlamaIndex 釋出 ParseBench,一個針對文件解析能力的標準評測,含 2000+ 頁人工驗證資料。
假設你是一位行銷主管,每天用 ChatGPT Plus 協助起草文案和規劃任務。升級前,你告訴 AI「我在台灣、用繁體中文、偏好精簡語氣、平常用 Notion 管任務、時區是 UTC+8」——但 AI 的記憶容量有限,可能只記住一兩條最重要的,其他細節下次對話就忘了,你得重新說。升級後記憶容量翻倍,這五項都能被保留。更重要的是,你現在可以進入記憶摘要頁,看到 AI 記了什麼,如果它誤記了「你喜歡長篇回覆」(其實你不喜歡),可以直接點進去刪掉,而不是靠每次對話重新糾正——省掉了大量重複溝通的成本,AI 回應準確度也更高。
Anthropic(開發了知名 AI 助理 Claude 的美國公司)旗下有一個名叫 Mythos 的 AI 模型,目前已派駐約六名工程師進駐美國國家安全局(NSA,美國最大的情報與網路作戰機構),協助把這個 AI 模型調整成能進行「進攻性網路作戰」的工具。所謂進攻性網路作戰,就是主動入侵別國的電腦系統或網路,而非只是被動防禦;報導指出目標包括中國和伊朗的網路基礎建設。這個 Mythos 模型在此之前並未公開對外發布,算是外界第一次知道 Anthropic 有這樣一個專為政府任務調教的模型。更值得關注的是,Anthropic 官方對 AI 使用的限制聲明(例如不得用於大規模監控)明確只適用於美國公民,對外國人或外國政府的類似行動不受公司政策約束,這讓外界對 AI 公司的道德立場與雙重標準產生了強烈質疑。
假設 NSA 分析師要滲透某中國政府機構的內部網路,傳統做法需要人工撰寫探測腳本、手動研讀漏洞報告,整個準備過程可能耗費數週。透過像 Mythos 這類專門調教過的 AI 模型,分析師只需描述目標環境——例如「對方用什麼防火牆、什麼作業系統版本、哪個 VPN 服務」——AI 就能自動生成對應的滲透測試程式碼(就是用來找出並利用系統漏洞的程式),並快速整理出可能的入侵路徑,幾分鐘內完成人工需要幾天才能做的漏洞分析。和過去相比,核心差異在於速度與規模:以前需要頂尖駭客團隊才能執行的複雜攻擊,透過 AI 輔助,門檻大幅降低,也讓政府機構能以更快的節奏進行大範圍的網路作戰任務。
Anthropic(開發 Claude 系列 AI 的美國公司,是 OpenAI 和 Google 的主要競爭對手之一)似乎正在為一個比現有「Mythos Preview」更強的新版模型做發布準備。這個新版的內部代號叫「Oceanus」,目前正在進行「紅隊測試」——就是邀請特別篩選過的外部人員,想盡辦法讓 AI 說有害的話、透露不該透露的資訊,或做出危險的事,目的是在公開上線前把安全漏洞都找出來修好。這類紅隊流程通常在正式公開上線前一週左右啟動,意味著新模型的公開時間可能非常近。不過測試途中出了意外:有人把還在保密中的模型接上中國的 API 服務拿去販賣,測試計劃因此被暫停,目前還不清楚是否會影響正式發布日期。
假設你現在每天都在用 Claude 協助寫程式碼或整理文件——目前用的可能是 Claude Sonnet 或 Opus 這類公開版本,Oceanus(Mythos 系列新一代)傳聞比 Mythos Preview 更強。若一切順利、發布時間未受影響,未來幾週你可能就會看到 Claude 新版在官網上線。相比之下,沒有紅隊流程就直接上線的 AI,其安全漏洞往往要等到大量用戶踩雷才會被發現,Anthropic 的這套紅隊文化是他們比競爭對手更謹慎的地方——只是這次有人鑽了空子,讓流程被迫中斷,後續發展值得持續關注。
Anthropic(就是開發 Claude AI 的公司)開源了一套完整的自動化資安工具,叫做「Defending Code Reference Harness」。這個工具能讓 Claude AI 全自動地「找漏洞 → 驗證 → 整理報告 → 自動修補」整個安全流程,而且分成七個環節(建置、偵察、尋找、驗證、去重、報告、修補)依序執行,全程幾乎不需要人工介入。工具在 gVisor 沙箱(一種隔離環境,類似把 AI 關在一個封閉的小房間裡操作,防止它不小心影響到真實系統)中執行,而且網路只允許連到 Claude API,確保安全。除了自動化管道,也提供互動式指令(如 `/threat-model`、`/vuln-scan`、`/patch`),讓資安工程師可以逐步操作,最後 Anthropic 也有商業託管版本 Claude Security,適合需要企業級支援的組織。
假設你是一家公司的資安工程師,要定期審查公司所使用的某個 C 語言函式庫(函式庫就是別人寫好的程式積木,你的產品引用它)有沒有記憶體漏洞。傳統做法是人工逐行讀程式碼,或跑靜態分析工具(但這類工具只能找已知的固定錯誤類型,創新手法往往漏掉)。換成這套工具的做法:先在 Claude Code 裡輸入 `/threat-model targets/mylib` 讓 Claude 建立威脅模型、標出最危險的攻擊面,接著執行 `vp-sandboxed run mylib --runs 5 --parallel`——工具會自動派出多個 AI 代理(agent)同時在隔離容器中探索不同的輸入路徑找漏洞;找到疑似問題後,再用另一批 agent 在全新容器中重現並驗證,確認是真實漏洞而非誤報;最後自動產生結構化報告加上可直接套用的修補 patch。相較之前可能要花數天的人工審查,這套工具能在數小時內跑完完整流程,還附上可利用性分析報告,讓工程師能快速決策是否套用修補。
Generalist AI 是一家美國 AI 新創公司,專注於讓機器人擁有「通用智能(就是讓機器人不只會做一個固定動作,而是能靈活應對各種任務,像人一樣)」,目標是把這套技術部署到全球工廠、倉庫、農場、醫院乃至太空的機器人身上。他們剛完成 4 億美元(約台幣 130 億元)的融資,由知名 AI 創投 Radical Ventures 領投,NVIDIA(全球最大 AI 晶片公司)、亞馬遜創辦人貝佐斯的家族投資基金,以及 AI 學界傳奇人物李飛飛(史丹佛大學教授、ImageNet 資料集的發明人)都是投資方。他們的核心方法類似 ChatGPT 背後的「Scaling Law(擴展定律——模型愈大、資料愈多,能力就愈強)」:他們 2024 年底推出的 GEN-0 首先在機器人領域驗證了這條定律,確認機器人的 AI 愈大就真的愈靈活;2025 年 4 月上線的 GEN-1 則進一步達到「商業可用」等級,在各種真實任務上成功率達 99%,執行速度比業界過去最佳方案快 3 倍,代表機器人通用智能已正式進入可量產部署階段。
想像一個物流倉庫要用機器人搬包裹。過去的做法是工程師預先設定好機器人的每個動作(抓哪裡、放哪裡),只要箱子尺寸不同、或貨架位置換了一排,機器人就會卡住、要重新寫程式,每次改動都是工程師的人力成本。用 Generalist AI 的 GEN-1,倉庫讓機器人在真實環境中邊工作邊學習——面對從來沒見過的新型包裝箱,機器人能靠自己摸索出最佳抓取方式,成功率達 99%,也就是說 100 個包裹頂多一個失誤,而且執行速度比舊方案快 3 倍。具體差異是:以前每次環境變動就要工程師介入重新設定,現在機器人自己能適應,倉庫同樣的機器人數量、單位時間能處理的包裹量直接變成三倍。
Replicas 是 2026 年 Y Combinator(一個知名的美國新創加速器,孵化過 Airbnb、Stripe 等公司)投資的新創公司,由兩位創辦人 Connor Loi 與 Saai Arora 共同創立。它做的事很直白:把 Claude Code、Codex 這類「AI 自動寫程式工具」(就是給它一個任務、它自己動手寫程式交差的 AI)從你的個人電腦搬到雲端伺服器上執行。這樣做的最大好處是 AI 可以不間斷地在背景工作——你睡覺時它繼續處理任務,早上醒來就有寫好的程式等你審查,不需要讓自己的電腦一直開著。每個任務都在獨立的虛擬環境(隔離 VM,可以理解成「雲端上的一次性工作沙盒」)中執行,自動抓取程式碼、安裝所需套件、啟動資料庫,完成後把成果以 PR(Pull Request,即「程式碼審查請求」,讓人確認後才正式合入)的形式送出。目前已有超過 20 家 YC 投資的新創在使用,有客戶高達 95% 的程式碼提交都是透過 Replicas 完成。
假設你是小團隊裡唯一的工程師,需要為一個舊系統的 100 個 API 端點(「程式對外溝通的接口」,例如「查詢使用者資料」這個功能就是一個端點)逐一補上自動化測試。傳統做法要花一個工程師好幾天埋頭苦幹,而且這段時間你只能做這件事。有了 Replicas,你可以在 GitHub 的 PR 留言裡打 @replicas 請幫這個端點加上測試,Replicas 就在雲端啟動一個 AI(比如 Claude Code),讓它自動讀你的程式碼、產生對應的測試、確認測試跑得過,最後提交 PR 等你審查。你可以同時派出多個 AI 處理不同端點,出去開會、下班睡覺都沒關係,回來看 PR 通知就好。跟自己電腦上跑 AI 工具相比,最關鍵差異是:本機同時跑多個 AI 容易「打架」(搶著修改同一份程式碼),Replicas 讓每個 AI 在獨立空間工作、互不干擾,且 CI(持續整合,就是「每次送出程式碼後自動跑測試的機制」)失敗時 AI 還會自動修到過關才送出。
蘋果的 M3 Ultra 晶片(搭載在 Mac Studio 這台桌機裡)最近在 AI 開發者社群引發熱烈討論,原因是它可以在單台消費級電腦上完整執行 DeepSeek R1 671B 模型——DeepSeek R1 671B 是目前最大的開源 AI 語言模型之一,「671B」代表模型有 6710 億個參數(就是模型學到的知識量),通常只有大型伺服器叢集才能跑這麼大的模型。M3 Ultra 的關鍵優勢在於它最多支援 512GB 的「統一記憶體(Unified Memory)」——這是一種 CPU 和 GPU 共用的記憶體架構,可以把全部容量都給 AI 模型使用,而一般的 NVIDIA 顯示卡(GPU)頂多只有 32GB 的顯存,根本裝不下 671B 大模型。實測結果顯示,M3 Ultra 執行 671B 模型時整機功耗只需 160~180W,遠低於 NVIDIA RTX 5090 顯卡的 575W 設計功耗;推論速度約每秒 15~20 個字(tok/s),不算快但流暢可用。這讓 Mac Studio M3 Ultra 成為目前少數能以單機、低功耗在本地完整跑超大開源模型的消費級選擇,對需要「資料不上雲」的企業或開發者特別有吸引力。
假設你是一家法律事務所的工程師,想在內部架設一套 AI 助理,用最強的開源模型 DeepSeek R1 671B 來分析機密合約,但客戶資料絕對不能傳到 OpenAI 或 Google 的雲端。舊做法是租用雲端 GPU(如 AWS 的 A100 叢集),按小時計費,24 小時服務一個月可能需要數萬台幣,且資料仍要傳出公司網路。用 M3 Ultra 512GB Mac Studio 的新做法:一次性購買約 9,999 美元(約 33 萬台幣),把 671B 模型完整載入本機記憶體,每次員工查詢回應速度約每秒 15~20 字,整台機器一個月電費只需 15~25 美元(約 500~800 台幣)。相較之下,RTX 5090 顯卡雖然頻寬更高(1,790 GB/s 對比 M3 Ultra 的 819 GB/s),但 32GB 顯存裝不下 671B 模型,必須把模型拆分到主記憶體反覆交換(稱為 offload),速度反而更慢。
智源研究院(北京人工智慧研究院,BAAI)和清華大學合作,開發了一個名叫 Brainμ 的腦科學多模態基礎模型(就像 ChatGPT 是專門讀懂語言的 AI,Brainμ 是專門用來讀懂大腦訊號的 AI)。這個模型可以統一處理不同儀器記錄的神經訊號——包括腦電圖(EEG,就是頭上戴電極帽量腦波)、雙光子鈣成像(用光學方式觀察神經細胞活不活躍)、以及 Neuropixels(一種超細電極陣列,可同時偵測數百個神經元的放電)——把這些來自不同儀器、格式完全不同的資料,全部轉換成統一格式讓 AI 一起分析。研究團隊用超過 7 萬個晚上的睡眠記錄來訓練 Brainμ,讓它學會從海量腦部數據中找出規律。利用這個模型,研究首次直接證明了「記憶回放」(大腦在睡眠中重播白天學過或經歷過的事情)不只是記憶鞏固的結果,它還會反過來影響睡眠的品質與結構,相關成果於 2026 年 6 月發表在頂尖學術期刊《科學》(Science)上。
研究人員想搞清楚:大腦在睡眠中重播記憶,這個過程究竟會不會反過來影響睡眠本身?傳統做法是靠人工標記腦波資料,一晚一晚手動分析,不但費時費力,跨實驗室、跨儀器的資料也幾乎無法互相比對。現在用 Brainμ,研究人員把不同儀器、不同小鼠的睡眠腦波資料全部丟給模型,統一成 AI 可讀的表示格式。模型分析超過 3,000 個小鼠睡眠夜次後發現:讓小鼠在白天經歷「負面記憶」(例如輕微電擊),睡眠中的記憶重播就會讓牠們的睡眠碎片化(睡睡醒醒、不連續);而「正面記憶」的重播則反過來讓睡眠更加穩定連續。這個發現靠人工幾乎不可能在如此大規模的資料上驗證,但 Brainμ 讓整個分析流程在 10 個月內持續穩定自動完成,大幅降低了腦科學研究的門檻,也為理解精神疾病伴隨的睡眠障礙提供了新線索。
WPS 筆記是中國金山辦公(就是做 WPS Office 這套辦公軟體的公司)在 2026 年 6 月正式推出的一款「AI 原生」筆記軟體。「AI 原生」的意思是,AI 不是後來加上去的附加功能,而是從頭就內建在整個筆記流程裡的核心設計。這款軟體有五個主要能力:收錄(支援語音、圖片、網頁等多種格式輸入,適合會議記錄、課堂筆記、白板拍照等場景)、理解(圖片能用 OCR(光學字元辨識,就是讓 AI 讀懂圖片裡的文字和圖表)自動解析,音頻能即時轉換成文字並區分不同發言人)、整理(用 AI 從專案、人員、主題、時間等多個維度自動打標籤,取代傳統手動建資料夾)、搜尋(跨文字、圖片、音頻三種格式統一搜尋),以及複用(內建 AI 助手「WPS 靈犀」可幫你摘要整理筆記)。特別值得一提的是,WPS 筆記還支援 MCP(一種讓不同 AI 工具可以互相串接和溝通的通訊協定)接入,可以跟 Cursor(程式碼編輯器)和 Claude(Anthropic 的 AI)等工具連動使用。
假設你是一個工程師,程式出現 bug 需要回頭查之前的開發決策記錄。以前你要手動翻資料夾、在一堆文字記錄裡關鍵字搜尋,可能要花 30 分鐘才找得到。改用 WPS 筆記後,你在開發過程中可以隨手語音記錄決策和問題,軟體會自動辨識語音內容、轉成文字、打上「錯誤排查」「某個功能模組」等標籤。等到出問題要查資料時,直接搜尋症狀描述,AI 就會跨格式翻找你之前的語音筆記、白板照片和文字記錄,把相關內容全部整理出來。官方實際案例顯示,這樣的問題排查時間從 30 分鐘縮短到 3 分鐘。
WorkBuddy 是騰訊雲推出的企業 AI 效率工具,這次企業版的核心亮點是「數位員工」——可以把各部門累積的知識、工作流程包裝成一個 7×24 小時不停歇的 AI 助手,讓全公司員工都能共用。除了個人用 AI,這次還加入了「人機協作專案」功能,讓真人員工和 AI Agent(就是能自動執行任務的 AI 程式)一起協作、共享資料和工具,共同推進複雜任務。企業後台可以管理哪些員工能用哪個 AI、統計用了多少資源、進行成本分析,也支援部署在自家伺服器(私有化部署,讓資料不用傳到外部雲端)。官方數據顯示,自 2026 年 3 月初上線以來平均每兩天更新一次,並已成為中國 Q1 最受歡迎的企業 AI 效率服務。
假設一間公司的客服部門,以前新人要花兩週才能熟悉所有產品手冊和客服 SOP。現在部門主管把內部 FAQ、產品說明、退換貨規章全部上傳到 WorkBuddy 的知識庫,然後發布一個「客服助理數位員工」給全部門。新進員工或值班人員遇到不熟悉的問題,直接問這個數位員工,立刻得到根據公司最新資料的完整回答——不用翻手冊、不用煩資深同事。以前新人第一週只能接簡單案件,現在第一天就能獨立處理大部分問題。與傳統的公司內搜尋系統相比,差別在於:搜尋只是找到文件、讓你自己讀;數位員工是真正理解你的問題、給出完整的操作建議。
這篇文章在討論一個關鍵問題:人形機器人(就是外形像人、雙腳走路的機器人)雖然吸引大量投資,但四足機器人(就是四條腿像狗一樣的機器人)才更可能先打入一般家庭。文章以蔚藍科技的 BabyAlpha 系列為例,這款機器狗已在中國 295 座城市賣出超過 25,000 台,九成進入家庭,累計與用戶互動超過 6,500 萬次。最新款 BabyAlpha A3 內建一顆 70 億參數的本地大語言模型(就是一個縮小版、可以裝進機器人晶片裡的 ChatGPT 級 AI 大腦),不需連網就能自主對話和行動,推理速度每秒 280 個 token(相當於 AI 每秒能處理、回應約 280 個中文字)。作者的核心論點是:PC、智慧型手機、電動車都是先靠消費市場普及才帶動整個產業,具身智能(讓機器人真正能在現實世界動起來的技術)也應如此——先讓機器狗進家庭、積累真實數據,再談人形。
假設我想買一個 AI 機器人陪伴獨居老人、每天幫忙在家裡巡邏一圈、偵測有沒有人跌倒。如果選人形機器人,目前市面上的產品定價動輒十幾萬台幣起跳,雙腳平衡技術還不穩定、摔倒風險高,而且量產困難、交期長。選蔚藍科技的 BabyAlpha A3 機器狗,四條腿穩定性遠高於兩條腿、能爬樓梯和地毯,內建本地 AI 大腦不依賴雲端,買回家就能用。更重要的差異是:機器狗跑進每個家庭後,每天產生的真實互動數據(老人的行為、空間佈局、突發狀況)都在訓練 AI 變更聰明;人形機器人則還在實驗室等技術突破。一個現在就能買、一個要等五到十年——這就是「機器狗先行」戰略的核心主張。
Cloudflare(一家讓網站跑更快、更安全的雲端基礎設施公司)宣布收購 VoidZero,也就是開發 Vite(前端打包工具,幫開發者把程式碼壓縮打包成瀏覽器能跑的格式)、Vitest(自動化測試框架)、Rolldown、Oxc 等主流開源前端工具的核心團隊。Cloudflare 強調 Vite 仍維持開源(MIT 授權、不綁特定廠商),並額外捐出 100 萬美元給獨立的 Vite 生態系基金,讓社群不用擔心被壟斷。開發者社群普遍認為,這次收購讓 Cloudflare 得以一手掌握「AI agent(能自動執行任務的 AI 程式)友善的全端開發棧」——從前端打包工具、執行環境、儲存、AI 推論(讓模型實際跑起來的過程)、部署到資安,全都包在一個平台裡。知名開發者 Wes Bos 把 Cloudflare 的策略形容為「在組裝一個可以直接交給 LLM(大型語言模型,也就是 ChatGPT 這類會對話的 AI)去做網站的整齊套件」。
假設你是一個開發者,想讓 AI agent 自動幫用戶生成個人網站。過去你得自己串接好幾個服務:用 Vite 打包前端程式碼、在 Cloudflare Workers 部署後端邏輯、另接 R2 儲存用戶檔案、再呼叫 Claude 或 GPT 的 API 讓 AI 生成內容。這些服務雖然可以搭配,但需要自己處理各平台之間的認證、格式轉換和設定,出錯時也很難追蹤是哪一段出問題。Cloudflare 收購 VoidZero 後的目標,是讓整個流程「一站完成」:AI agent 拿到任務後,能直接在 Cloudflare 平台內呼叫前端工具、執行、儲存、部署,不需要跳出去找別家服務,整個 AI 代理流程的摩擦大幅降低。
Cursor(一款專為 AI 協作設計的程式碼編輯器,用起來像 VS Code 但內建了強大 AI 助手)新增了兩個實用功能。第一是「畫布(Canvas)」:你在 Cursor 裡和 AI 對話後,AI 可以直接生成一個可分享的網頁應用程式、報表或內部工具,不用再另外複製貼到其他地方,同事不需要安裝 Cursor 就能直接打開連結使用。第二是「脈絡探索器(Context Explorer)」:AI 在幫你寫程式時,它的「記憶空間」(即能同時考量的資訊上限,也叫 Context Window(上下文視窗))是有限的,脈絡探索器會用視覺化方式顯示這塊空間目前被哪些東西佔用——例如哪些程式檔案、哪些對話紀錄、哪些 AI 工具回傳的結果——讓你了解 AI 為何有時候會「忘掉」你之前說過的事。
假設你是一個產品經理,想請 Cursor AI 整理這週的 bug(軟體缺陷)報告並做成摘要報表。以前你要先讓 AI 生成文字,再手動複製到 Google Docs 或 Notion 排版。現在用畫布功能,你直接告訴 Cursor「幫我做一個 bug 摘要報表」,AI 生成可分享的互動頁面,你複製連結傳給主管,主管什麼都不用裝就能看。若過程中 AI 開始答非所問,你開啟脈絡探索器,發現有 60% 的記憶空間被一個大型程式檔佔掉;找到根因,你請 AI 先忽略那個檔案再繼續,問題馬上改善。
一位開發者把 Claude Code(Anthropic 推出的 AI 程式設計助理工具)透過 MCP(Model Context Protocol,一種讓 AI 工具直接連上外部資料庫的標準橋接協定)接上 Polymarket(一個讓人用加密貨幣對各種事件結果下注的預測市場平台)的完整交易資料庫,裡面儲存了約 13 億筆交易紀錄、270 萬個錢包地址。接通之後,他不需要懂任何資料庫語法,只要用白話文問問題,Claude 就會自動把問題翻譯成 SQL(查資料庫用的程式指令)並執行查詢。分析結果顯示,只有約 20% 的錢包最終獲利,僅 2.4% 超過 1,000 美元獲利,絕大多數利潤集中在頂端 0.1% 的錢包,Claude 還主動點出幾個疑似內線交易或機器人操作的可疑行為模式,讓評論者建議直接找調查記者跟進。
假設你想調查某個大型交易平台是否存在異常行為。過去你必須自己學 SQL、設計查詢邏輯、反覆試錯,光是「找出在重大公告前 30 分鐘內下大注的錢包並統計勝率」這一個問題,可能就要花數天時間,而且很難知道「還有哪些異常沒被發現」。現在,你透過 MCP 把 Claude Code 接上資料庫,直接輸入:「哪些錢包在重大新聞發布前剛好買了對的那一邊?他們的歷史勝率是多少?」Claude 立刻生成 SQL、執行、回傳結果,還順帶提示:「這些錢包的勝率是隨機預期的三倍,建議進一步追蹤資金來源。」對比舊做法:一個人花幾天反覆寫查詢,只能問幾個預設問題;Claude Code 讓你像聊天一樣不斷追問,主動挖出意料之外的模式。
Mira Murati 曾是全球最大 AI 公司 OpenAI 的技術長(就是負責整個公司技術方向的最高主管),她在 2024 年底離職後自己創辦了一家 AI 公司叫做 Thinking Machines Lab。這次她在沉寂約 18 個月後首次接受媒體專訪,宣布了兩件事:第一,公司已推出名為 Tinker 的 API(就是讓開發者用程式串接的介面),可以讓開發者直接透過 API 對開源 AI 模型做微調(fine-tuning,就是把已訓練好的 AI 模型針對你自己的資料或任務再加工調整),省去自己架設訓練伺服器和環境的麻煩。第二,她透露公司正在研發一種叫「互動模型(Interaction Models)」的全新 AI 對話方式:不像現在的 AI 要等你打完一整句話才開始回應,這個新技術會以每 200 毫秒(即 0.2 秒)為間隔,持續分析使用者的音頻、文字與影像輸入,讓 AI 能即時捕捉停頓、插嘴、中途修改意思等真實人類對話的自然節奏。整體而言,這是她創業後首次對外明確說明公司的技術方向。
以已發布的 Tinker API 為例:假設你想把 Meta 釋出的開源模型 Llama 打造成一個專門回答公司內部法規的聊天機器人,過去你需要自己租 GPU 伺服器、設定訓練環境、撰寫微調腳本,從零到完成可能要幾天甚至幾週。用 Tinker API,你直接把公司文件上傳並指定基礎模型,透過 API 發出微調請求,Thinking Machines Lab 的伺服器幫你跑完訓練並回傳調整好的模型,整個流程可以壓縮到幾小時,不需要自己管任何訓練基礎設施。至於還在開發中的「即時互動模型」技術,目標是讓 AI 能在 0.2 秒內偵測到「你說到一半改變了主意」,而不是等你打完一整句才回應——這將讓語音 AI 助理更接近真實人類對話,而非現在問一句等一句的輪流模式。
Poke 是一間新創公司,讓用戶只需傳普通簡訊就能使用 AI 助理幫忙處理日常事務。現在,Poke 成為第一個獲得 Apple 官方核准、可在「Messages for Business」平台上運作的 AI 代理(agent,就是可以代替你執行任務的 AI 程式)。Apple Messages for Business 是 Apple 提供給航空公司、零售商、飯店等企業的官方 iMessage 通道,讓企業可以透過 iMessage 跟顧客溝通,過去只限企業客服使用,從未開放給第三方 AI 代理進駐——直到 Poke 通過審核。Poke 先前已在 SMS 短訊、Telegram 和 WhatsApp 累積處理超過 1 億則訊息,進入 iMessage 生態系是其重大里程碑,也象徵 AI 代理正式打入蘋果的封閉商業服務體系。為了取得核准,Poke 花了數個月完成 Apple 嚴格的合規審查,包括提供真人客服支援及遵守 Apple 的介面設計規範。
假設你訂了一張機票,航空公司透過 iMessage 傳來確認訊息。過去你只能點進 App 或打電話才能更改座位。現在若航空公司接入 Poke,你可以直接在同一個 iMessage 對話視窗打:「我下週二的班機可以改成靠窗座位嗎?」Poke 的 AI 會理解語意、查詢你的訂單並完成改位——全程在 iMessage 裡搞定,不用下載任何新 App、不用記操作步驟,就像傳訊息給朋友一樣自然。對比舊做法,過去要打電話排隊、或在 App 裡一層層點選菜單,現在用自然語言說一句就完成,這就是「AI 代理接管日常服務」的具體體現。
全球最大網路基礎設施公司之一 Cloudflare 的執行長 Matthew Prince 宣布,現在網路上的流量有超過一半(57.4%)來自機器人(也就是自動化程式的請求,不是真人在滑瀏覽器),真人流量只剩 42.6%。他原本預測這件事要到 2027 年底才會發生,但因為 AI 代理(就是能自動上網查資料、執行任務的 AI 程式,例如 ChatGPT 的聯網功能、各種自動化助理)爆炸性成長,提前好幾年就到了。這代表大多數造訪你網站的「訪客」其實都是程式在抓資料,不是真人在看內容。因此 Cloudflare 已推出平台讓網站主可以設定「付費才讓爬取」的機制,Prince 認為未來網路的走向就是「爬取要收費(pay to crawl)」。
假設你是一位部落格作者,每天寫 AI 相關文章。現在 GPT、Claude、Gemini 等各家 AI 公司的爬蟲每天自動抓取你的文章數千次,用來訓練模型或即時回答使用者問題——但你分文未得,爬蟲還消耗你的主機頻寬,且不會看你頁面上的廣告,廣告收入也跟著縮水。有了「爬取收費」機制後,你可以在 Cloudflare 的平台上設定規則:AI 公司每次爬取你的文章需付費,付費後才能合法取得你的內容。對比現在的做法,機器人只要沒被封鎖就能免費抓走你的所有文字,你能做的最多就是修改 robots.txt 說「請不要來」,但 AI 公司不一定遵守,你也沒有任何議價籌碼;爬取收費制讓內容創作者第一次有機會對 AI 的使用收取報酬。
Topics 是由 Braintrust(一間幫 AI 開發者偵錯與評估 AI 應用效能的工具公司)推出的新功能,專門用來分析 AI agent(就是能自動執行任務、做決策的 AI 程式)在真實環境運作時留下的「追蹤記錄」(trace,就像飛機黑盒子,完整記錄 AI 每一步做了什麼、呼叫了哪些工具、產生了哪些回應)。問題在於,這類記錄往往長達「百萬 token」(token 是 AI 處理文字的基本單位,1 token 約等於 4 個英文字母;百萬 token 大約相當於幾百萬個字),一般的 NLP(自然語言處理,讓電腦讀懂人類語言的技術)工具根本讀不完,更別說找出規律。Topics 的靈感來自 Anthropic(就是做 Claude AI 的公司)發表的 Clio 研究論文,設計了一條六步驟自動化流程:預處理 → 抽取分析面向 → 向量化(把文字轉成數字,讓電腦計算相似度)→ 聚類(自動把相似的記錄歸在一起)→ 命名 → 分類。最關鍵的是第一步讓 LLM(大型語言模型,就是 ChatGPT、Claude 這類對話 AI)先把超長記錄壓縮成摘要,後續步驟就不必直接處理原始巨型記錄,整個流程才得以運作。
假設你公司部署了一個 AI 客服 agent,每天幫數千名用戶解答帳務、技術問題。三個月後你發現用戶滿意度下滑,但每天產生的追蹤記錄超過上萬條,每條記錄幾十頁長,根本看不完。用 Topics,系統會先讓 AI 把每條超長記錄壓縮成簡短摘要,再自動計算哪些記錄彼此相似,把它們歸成一堆堆「群組」並自動命名(例如:「退款流程卡住」「帳號登入失敗」「多步驟查詢跑到一半停住」)。你打開 Topics 儀表板就能立刻看到:「退款類問題佔全部案例 32%,且失敗率最高」——舊做法需要工程師花幾天手動抽樣幾百條慢慢讀,現在幾分鐘就能定位主要問題類別,知道哪裡最需要優先修。
這篇論文研究如何讓 Qwen-Image-2.0(阿里巴巴開發的圖像生成 AI,就是那種「輸入文字就能自動畫圖」的工具)跑得更快。原本這類 AI 每生成一張圖片,需要在電腦內「一步一步計算」二三十次甚至更多,每次都很耗時。「少步蒸餾(few-step distillation)」技術的目標是把步數從數十步壓縮到只需四、五步,大幅加速出圖速度。傳統做法只在意選哪種「損失函數(就是訓練 AI 時衡量答對或答錯的計分規則)」,但這篇研究發現,訓練食譜裡的其他三件事同樣關鍵:你餵給 AI 的訓練資料怎麼搭配(data composition)、讓小模型向大模型學習的方式(teacher guidance)、以及訓練時把「生圖」跟「依指令改圖」兩種任務怎麼混搭(task mixture)。最終產出的模型叫做 Qwen-Image-Flash,是一個快速版的圖像生成 AI。
假設你在用 Qwen-Image-2.0 這個 AI 畫圖工具,你輸入「一隻穿著太空衣的貓咪站在月球上」,原版模型要跑 20 個計算步驟才能輸出一張高品質圖——在算力有限的裝置上(例如一般 GPU 伺服器)可能要等好幾秒甚至更久。改用蒸餾後的 Qwen-Image-Flash,只需要 4~6 步就能出圖,速度理論上快三到五倍以上。但重點是:以前大家以為「把蒸餾算法設計好就夠了」,這篇研究發現其實「訓練時餵的圖片資料要夠多樣、指令改圖任務要跟文生圖任務混著訓練」這些「廚房決策」同樣決定最後品質——光換算法而不調這些,蒸餾版模型出來的圖品質就會明顯下降。
NVIDIA 發布了 Nemotron 3.5 Content Safety,這是一個專門用來判斷 AI 系統輸出內容是否「安全合規」的審核模型。簡單說,當你建了一個 AI 聊天機器人(就是像 ChatGPT 這樣能對話的人工智慧),你需要一個「把關員」確保 AI 不會輸出有害內容、違規資訊或不恰當的圖片文字。Nemotron 3.5 就是扮演這個把關員角色,它能同時審查文字和圖片(多模態),支援 12 種語言(包含繁中、簡中、日語、阿拉伯語等)加上約 140 種語言的零次學習泛化,而且企業可以輸入自訂規則讓它依照自家政策審查,不是固定死一套標準。更特別的是,它能輸出「審核推理過程」——告訴你「為什麼判定這則內容違規」——這對需要合規稽核、留存審查紀錄的企業場景非常關鍵。效能方面,多語言內容審核平均準確率 92.7%,且比同類方案延遲低 3 倍。
假設你是一家醫療保健公司,建了一個讓病患詢問健康資訊的 AI 助理,每天處理上千則對話,偶爾有使用者試圖讓 AI 輸出不安全的藥物建議。你可以把 Nemotron 3.5 插進系統,輸入一條自訂規則:「禁止提供具體藥物劑量建議、禁止鼓勵自我傷害」。AI 助理要輸出任何回答前,Nemotron 3.5 先審查這則文字——若判定違規,立即擋下並回傳「不安全」標記,同時附上一段推理說明(例如:「此回應涉及具體藥物劑量,違反醫療安全政策 §3」)。這條說明可直接存進稽核日誌。相較於以前要分別建文字過濾規則引擎、再接另一套圖片審核服務、再做多語言翻譯前處理,Nemotron 3.5 一個模型全包,且因為模型輕量(基於 Gemma 3 4B),可以直接部署在自家伺服器而不需把敏感資料送往第三方雲端。
Asana(一款廣泛使用的工作管理軟體,用來追蹤任務清單、專案進度、跨部門協作)最新推出了名叫 Dash 的 AI(人工智慧)助理,官方定位是你的「AI 首席幕僚」。Dash 會同時監控你在 Asana 裡的任務、電子郵件、行事曆和通訊軟體(如 Slack),主動幫你偵測「這個專案快出問題了」之類的風險,並推薦下一步行動。Dash 不只是被動提建議,它還能統一調度 Asana 的其他 AI 功能模組(稱為 AI teammates,就是可自動處理特定例行工作的 AI 分工角色),並在取得你的同意後,直接替你觸發預先設定好的自動化流程——也就是說,它能真的幫你動手執行,而不只是「告訴你要做什麼」。
假設你同時負責管理三個跨部門專案,團隊分散用 Gmail、Slack 和 Asana 溝通。傳統做法是你每天要手動切換視窗、逐一確認進度,才能整理出今天哪個環節有風險,這往往要花掉 1 到 2 小時。用 Dash 後,它自動整合所有工具的資訊,主動告訴你:「設計稿審查進度落後 3 天,可能影響下週的客戶 demo」,並建議你「傳一封跟進訊息給設計主管」或「更新 Asana 截止日期」。你確認同意後,Dash 就直接幫你發訊息或修改任務——對比以前自己逐一操作,省去了大量手動切換與確認的時間。
越來越多企業在試用 AI 之後,開始把正式上線的 AI 工作負載從公有雲(就是 AWS、Azure、Google Cloud 這類租用的雲端服務)搬回自家機房的「私有雲」。調查顯示,超過一半的受訪組織正在或計劃在私有雲上跑「生產推理」(就是讓 AI 模型真正對外服務、不只是測試)。Broadcom 旗下的 VMware Cloud Foundation 9.1 就是瞄準這個需求,提供一整套讓企業能在自己硬體上部署 AI 的軟體平台,支援 AMD、Intel、Nvidia 各家 GPU,並內建「零信任安全」(每個存取都要驗證身分,不依賴「進了公司網路就信任」的老舊假設)。企業考慮回到私有雲的三大原因是:一、資料和智慧財產不想交給第三方;二、公有雲帳單隨 AI 用量暴增難以預測;三、下一波 AI agent(能自主執行多步驟任務的 AI)需要更穩定、可控的基礎設施才能放心上線。
假設一家金融公司想讓 AI 每天自動審閱數千份客戶合約並標出風險條款。如果用公有雲跑,合約內容會上傳到 AWS 或 Azure 的伺服器,可能觸發金融監理的資料境外傳輸規定,而且每個月 AI 推理費用可能高達數十萬且難以預測。改用 VMware Cloud Foundation 9.1 建的私有雲,合約資料完全留在公司自家的 GPU 伺服器裡,查帳時能提供完整稽核紀錄,每月成本也是固定的硬體折舊而非浮動帳單。和過去相比,舊做法是公有雲方便但管不住資料和成本;新做法是在自己的機房複製一套差不多的雲端彈性,同時保留完整控制權。
Open Code Review 是阿里巴巴開源的 AI 程式碼審查命令列工具(CLI,就是在終端機裡輸入指令來操作的工具)。它讀取 Git diff(你這次改動的程式碼片段),把有問題的檔案送給可自行設定的 LLM(大型語言模型,就是 ChatGPT、Claude 這類會對話的 AI)進行分析,透過 agent(具備工具使用能力的 AI 代理人,可以主動查找資料、執行動作)產出精確到每一行的結構化審查意見。工具能讀取完整檔案、搜尋整個程式碼庫、查看相關檔案做背景理解,給出深度審查報告。核心設計理念是把確定性的工程規則和 AI 各司其職,讓規則做規則的事、AI 負責需要理解語意的事。
假設你剛寫了一個處理用戶登入的函數,準備提交 PR(把程式碼推上去請人審查)。傳統做法要等同事花十幾分鐘手動讀你的程式碼才能給意見。換用 Open Code Review,在終端機執行指令後,工具自動取出你這次的 diff,把相關檔案一起送給你設定的 AI(GPT-4、Claude 等均可),AI 代理人會主動查你呼叫的其他模組、搜尋整個 codebase 的相關邏輯,在 30 秒內給出像「第 47 行缺少對空值的處理,建議加 if user is None 的判斷」這樣精確到行號的具體建議,而不是泛泛的「記得做輸入驗證」。對比人工 review,速度快幾十倍,且不受同事忙碌程度影響。
這篇研究文章提出一個核心論點:在 AI 競賽中,真正的關鍵資源不是演算法或資料,而是硬體。AI 依靠「機器勞動」——也就是讓電腦持續不斷地運算處理任務——這種運算方式比人類勞動便宜太多,理論上需求可以無限擴充。然而,支撐這一切的半導體(也就是晶片,讓電腦能運算的核心零件)製造能力,目前只集中在全球幾十家公司手中。這篇文章的核心警示是:誰掌控半導體製造,誰就掌控了整個 AI 產業的未來。
假設你是一家 AI 新創公司,有充足資金、頂尖工程師和大量訓練資料,想訓練一個比 ChatGPT 更強的大型語言模型(LLM,就是 ChatGPT 這類會對話的 AI)。你面臨的最大瓶頸不是技術,而是取得高階 GPU(用來加速 AI 運算的特殊晶片)。這些晶片全球只有少數公司能製造:最先進的晶圓代工(把晶片設計轉成實體的工廠)幾乎只有台積電能做;而台積電賴以生產的光刻機(把電路圖精密「印」到晶片上的機器),全球只有荷蘭 ASML 一家能供應。你有錢、有技術,卻只能排隊等這幾家公司的產能分配——這就是「壟斷」的現實:硬體供應鏈的極度集中,讓少數幾十家企業對 AI 的發展速度握有絕對的決定權。
Meta(Facebook 的母公司)出品的 Ray-Ban 智慧眼鏡有一款配套手機 App 叫做 Stella,一位資安研究員(專門找出科技產品安全漏洞的人)在仔細研究這款 App 的程式碼後發現:裡面已經內建了一套完整的臉部辨識系統(讓 AI 辨認出鏡頭前是哪個人的技術),包含三個神經網路模型(AI 用來分析影像的核心運算元件,總大小約 100MB)和一套向量資料庫(儲存並搜尋人臉特徵數值的資料庫)。這套系統目前在一般使用者帳號上是靜默狀態——功能齊全但沒有開放給大眾使用,使用者介面上也看不到相關選項。研究員實際執行了端對端測試,整套辨識流程能正確運作,未被辨識的人臉會自動儲存到手機的暫存資料夾等待後續配對。Meta 至今尚未就此發表官方回應,此研究與《WIRED》的報導同步發布。
假設你戴著 Meta Ray-Ban 眼鏡走在路上,鏡頭拍下前方路人的臉。研究員實測發現,Stella App 內建的這套流程會這樣自動運行:第一步,SCRFD 模型(3.4MB)偵測畫面中有沒有人臉;第二步,KPSAligner 模型裁切並對齊人臉位置;第三步,SFace 模型把這張臉轉換成一串 2048 個數字(可想成「人臉的數位指紋」),並存進手機本地的 SQLite 向量資料庫;第四步,與已知人臉比對,若匹配成功就透過「nametags_recognition」通知推送給戴眼鏡的人。整套流程完全在手機本地端執行,不需要上傳到雲端伺服器——這與過去臉部辨識必須依賴後端伺服器計算的做法不同,代表即使在沒有網路的環境也能運作。目前 Meta 尚未在正式功能中開放此系統,但程式碼與模型已完整預裝在 App 中。
RAG(Retrieval-Augmented Generation,一種讓 AI 回答前先去查資料庫、避免憑空捏造答案的技術)系統裡,真正決定 AI 回答品質的不是 AI 模型本身,而是「撈資料的那一層」。研究發現,約五分之一的 RAG 查詢會產生誤導或錯誤資訊,其中 47% 的根本原因出在撈資料環節,而不是 AI 模型的錯。撈資料分三個關卡:第一關「重新整理問題」,系統把用戶的問題改寫成更能找到答案的形式;第二關「找資料並篩選」,在資料庫裡撈出最相關的內容片段;第三關「組裝給 AI 看」,把找到的片段拼成一段文字讓 AI 讀完再回答。最危險的問題叫「靜默失敗」(silent failure):撈資料撈漏了關鍵內容,但 AI 仍然給出一個聽起來流暢、有自信、有引用來源的答案——你根本不知道它說的其實不完整。
合規部門用 AI 助手查「SAR(可疑交易報告)申報截止日是幾天?」舊做法是把政策文件用固定大小切割(每段 500 個字),系統從文件裡撈到第 4.2 節:「24 小時內申報」,AI 信心滿滿地回答了這個數字。但問題是:政策第 4.3 節還有例外規定「10,000 美元以下交易有 72 小時寬限」,偏偏切割點正好落在兩節之間,第 4.3 節整段被漏掉了。員工照 AI 的答案操作,在小額交易情況下可能就違規了,而系統從頭到尾沒有任何警告。改用「語意切割」後——按文章段落標題切割、相鄰段落保留重疊——撈資料時同時取回 4.2 和 4.3 兩節,AI 完整回答「一般 24 小時,10,000 美元以下有 72 小時寬限」。舊做法的缺陷不在 AI 模型,在切資料的方式;這就是為什麼怎麼撈資料是產品層級的設計決策,而不只是工程細節。
以前寫軟體的流程是:PM(產品經理,負責決定要做什麼功能的人)寫規格書 → 工程師看懂後手動寫程式碼 → 測試人員確認沒 bug → 才能上線。現在 AI 可以自動幫你寫程式,瓶頸從「怎麼把想法變成程式碼」變成了「怎麼確認這段 AI 寫的程式碼是正確的」。這個轉變讓 PM 的角色大幅升級:他們現在可以把需求直接寫成 AI 能執行的「驗證條件」(就是列出功能要通過哪些測試才算做好),AI 會自動產出程式碼並不斷改到符合條件為止,整個過程完全不需要工程師手動寫功能。工程師也因此轉向建設「防護網」——測試、自動化審查、持續整合(就是讓機器每次有人改程式都自動跑測試確認沒壞掉)——讓整個團隊出錯的成本降低。整體來說,AI 消除了以前「PM 寫完規格到工程師動手」之間那段漫長等待,讓想法可以更快變成真正上線的產品。
OpenAI 有一位 PM,週一把一份用 Markdown 格式(一種純文字排版語法)寫好的需求文件交給 AI。文件裡寫清楚這個功能要達到哪些條件——例如「使用者按下按鈕後 3 秒內要看到結果」、「如果輸入空白要顯示錯誤提示」。AI 根據這些條件自動寫出程式碼、自動驗證每個條件是否達成,不達成就自動修改。到了同週五,功能已經部署上線——全程沒有任何工程師手動寫程式碼。對比以前的做法:PM 寫規格 → 排進工程師待辦清單(可能等好幾週)→ 工程師理解規格、寫程式、測試 → 才上線。現在少掉了「等人排隊、翻譯規格」這兩個最慢的環節,PM 從距離產品最遠的人,變成距離出貨最近的人。
OpenProse 是一個開源工具,專門解決「AI 代理(像 Claude Code、Codex 這類能自動寫程式、執行複雜任務的 AI 助手)每次開新對話就忘光上次設定」的問題。它讓你把一次成功的 AI 協作工作流程,用近似英文的邏輯語句寫成一份「合約文件」(.prose.md 格式的文字檔),之後只要執行這份合約,AI 代理就會按照裡面寫好的步驟重現整個流程——輸入什麼、要保證輸出什麼、中間怎麼處理都明確規定。它不是一個需要整個遷移進去的框架,而是在你已在用的 AI 工具上多加一層「合約」:Claude Code、Codex、任何支援子代理的工具都能跑同一份 OpenProse 程式。每次執行還會自動留下「收據」(執行紀錄),記錄 AI 真正做了什麼、產出了什麼,讓「任務完成」不再只是 AI 自說自話。
假設你用 Claude Code 幫一個朋友把學術論文從期刊 A 格式轉成期刊 B 格式——表格、引文樣式、章節編號全部要對。你花了半小時調整指令,AI 終於完美執行,朋友驚呆了。但下週另一個朋友也需要同樣服務,你開新對話,AI 又從零開始,什麼都記不得,你得再花半小時重新摸索。有了 OpenProse,你可以執行 session-to-prose 指令,把那次成功的 Claude Code 對話紀錄自動轉成一份 .prose.md 合約:裡面寫明「需要輸入:原始論文檔、目標期刊格式指南」「保證輸出:符合期刊 B 格式的 .docx,且引文格式 100% 套用」。下週只要執行 prose run,AI 代理照著合約一步步跑,每個子步驟各自在隔離環境執行、互不干擾,跑完留下完整執行紀錄。對比舊做法:每次靠運氣看 AI 這次有沒有「靈光」;新做法:跑合約,有紀錄可查,失敗了可以看是哪一步出問題。
Airbnb(全球最大民宿短租平台)的 CEO Brian Chesky 宣布計劃成立一個全新的人工智能實驗室,專注於開發 AI 使用者介面與互動設計。Chesky 表示他對目前市面上的 LLM(大型語言模型,也就是 ChatGPT、Claude 這類會對話的 AI)感到不滿足,認為現有產品還不夠成熟,尚未達到 Airbnb 想要合作的程度。Chesky 計劃以創辦主席身分參與新實驗室,但不親自領導,同時仍繼續擔任 Airbnb 的 CEO。他與 OpenAI CEO Sam Altman 私交深厚,早在 2006 年就透過 Y Combinator(矽谷頂尖創業加速器)相識,並曾在 2023 年 OpenAI 董事會風波中協助 Altman 重返領導位置。
如果這個 AI 實驗室日後真的推出產品,你可能會看到一種全新型態的 AI 使用介面——不是現在 ChatGPT 那樣的純文字對話框,而是更直覺、更貼近日常操作習慣的界面設計。舉個例子:你想訂民宿,現在要手動輸入「台北 6 月 15 日雙人房」;如果 AI 介面更進化,它可能能理解你的語氣、偏好與狀態,主動問你預算、幫你比較選項、直接完成整個訂房流程,而不只是被動回答問題。不過目前實驗室仍在規劃階段,方向聚焦在「使用者互動與設計」,尚無任何具體產品發布。
資料中心(就是放了幾千台電腦、專門處理 ChatGPT 這類 AI 服務的超大型機房)通常要花一到兩年才能蓋好。Meta(Facebook 母公司)最近在俄亥俄州借鑑了 Tesla 工廠停車場搭帳篷加速汽車生產的策略,用巨型帳篷式臨時建築取代傳統磚瓦廠房,每座帳篷約 11,000 平方公尺,六座同步建造。目的是把建設時間砍半,讓 AI 晶片(就是讓 AI 能高速運算的特殊處理器)盡快上線。帳篷內採用模組化燃氣渦輪機自備電力,不需等公用電網牽線,Meta 今年預計砸下 1,450 億美元在 AI 資料中心,帳篷方案是壓低成本、搶時間的創意解法。
假設你是 Meta 的 AI 基礎設施團隊,公司剛採購一大批 AI 晶片,要盡快讓它們上線跑模型訓練。傳統做法是蓋一棟永久建築的資料中心——申請建照、打地基、拉電力、安裝冷卻系統——最快也要 18~24 個月。Meta 的帳篷方案:先在空地架好防水防風的大型帳篷結構(幾個月搞定),用自備的模組化發電機供電,晶片裝進去就能立刻開始跑 AI 訓練。等永久建築落成再遷入。差別是:搶到了將近一年的先發優勢,同樣的算力可以更早產出成果,競爭對手則還在等工期。
Ollama 是一個讓你在自己電腦上直接跑 AI 語言模型的工具(不需要連到 ChatGPT 那種雲端服務,模型和資料都不離開你的電腦)。Ollama Model Tester 則是一個輕量的命令列程式(就是在終端機黑底白字視窗裡輸入指令用的小工具),讓你用同一個問題批次測試多個本機 AI 模型,並把每次回應自動存成檔案方便逐一對比。它完全不依賴額外套件,只需要 Python(一種程式語言,多數電腦已內建)就能啟動,降低了安裝門檻。輸出結果按提問分資料夾整理,同一問題在不同模型或多次執行的回應都聚在同一目錄下,讓你快速找到並並排對比。
假設我想找「最適合替我摘要長文的本機 AI 模型」,手邊裝了 llama3.1:8b 和 gemma3:1b 兩個模型,卻不知哪個品質較好。我把摘要任務寫成 prompt.txt,先執行 python3 ollama_model_test.py --model llama3.1:8b --prompt-file prompt.txt --runs 3 --temperature 0.7,跑三次確認它不是「靠運氣」答對;再換 --model gemma3:1b 用完全一樣的指令跑。工具會把所有結果存到 ollama-runs/ 下,同一個 prompt 的輸出聚在同一子資料夾,裡面 llama3.1-8b.md 和 gemma3-1b.md 各自記錄回應內容、token 數與耗時。打開兩個 .md 直接對讀,發現 llama3.1 摘要比較完整,當下就決定以後摘要任務指定用它——比起土法煉鋼地逐一手動問、自己複製貼上比較,省去大量重複操作和整理時間。
CrowdStrike(全球知名的企業資安公司,專門做入侵偵測和防護)宣布與 NVIDIA 合作,把資安防護直接內建進 NVIDIA Vera BlueField-4 STX 智慧網路卡(一種能在資料封包傳輸過程中直接執行運算和安全邏輯的特殊網路硬體,不需要靠主機 CPU)中。這項整合的目的是讓「AI 工廠」(就是大規模跑 AI 模型的伺服器集群,例如訓練 GPT 這類大型語言模型的機房)能在最靠近資料流量的地方做安全管控,不再只靠外層的防火牆。傳統資安往往在機房邊界把關,一旦攻擊者進入內網,就能自由接觸各台伺服器;現在安全政策跑在每張網路卡晶片上,每台 AI 伺服器都有自己的門衛。對於大規模部署 AI 系統的金融、醫療、政府機構等大型企業,這代表資安防護從「城牆模式」升級為「零信任逐台守衛」。
假設一家銀行在自己的私有資料中心跑 AI 詐騙偵測模型。舊做法是在機房入口架防火牆,但一旦攻擊者滲透進內網,就能在 AI 伺服器之間「橫向移動」(駭客術語,意思是在內網各台機器之間跳來跳去擴大控制範圍),竊取訓練資料或修改模型輸出結果。有了 CrowdStrike + NVIDIA BlueField-4 STX 的組合後,資安策略直接跑在每台 AI 伺服器的網路卡晶片上:進出這台機器的所有流量都受到即時監控,一旦偵測到可疑行為(例如某台機器突然嘗試大量連線其他伺服器),直接在網路卡層就能攔截,不需等到主機 CPU 介入。相比舊做法,攻擊者就算突破邊界也難以蔓延,AI 工作負荷的資料和模型參數也多了一層硬體級保護。
傳統 IT 安全更新(也就是「補丁」,指修復電腦系統安全漏洞的程式包)通常按固定排程執行,例如每月一次或每週五才處理。但現在 AI 掃描漏洞的速度已快到讓這套舊模式完全跟不上。根據 Anthropic(開發 Claude AI 的公司)的研究,他們的 Claude Mythos Preview 模型在短短幾週內就發現了超過一萬個高嚴重性漏洞——傳統人工安全審查可能要幾個月才做得完同樣的事。這代表「AI 發現漏洞」到「IT 團隊修補完畢」之間,存在幾天甚至幾週的危險空窗期,駭客可能趁機入侵。Red Hat 建議企業改用「事件驅動型自動化」——也就是系統一偵測到嚴重漏洞就立刻自動啟動防護措施,而不是等下一個排定的維護時段。
假設公司某台伺服器被 AI 掃描工具偵測到一個嚴重漏洞(風險評分 9.8 滿分 10,非常危險)。舊做法:這筆記錄進待辦清單,等下週五例行補丁視窗才處理,中間有五天暴露窗口,任何人都可能在這段時間利用漏洞入侵。新做法是用 Event-Driven Ansible(Red Hat 推出的自動化平台,可設定「一旦發生 X 事件就自動執行 Y 動作」):系統在偵測到漏洞的瞬間,自動觸發預先批准好的工作流程——先把這台伺服器從網路隔離、撤銷相關存取憑證,同時通知人工審查員確認。確認後系統自動推送修補程式。關鍵的「隔離」動作即時發生,不用等排程也不用等人批准,整體曝險時間從幾天縮短到幾分鐘。
Amazon 推出了 Proteus 機器人的最新 AI 升級版,這台機器人現在可以靠人工智慧技術理解工人用「日常說話方式」下達的指令,不需要操控特定系統介面。以前工人要指揮機器人得使用固定格式的命令,現在直接說「把那批重貨車移去包裝區」,機器人就會自己判斷優先順序、規劃行走路線、決定出發時機。Proteus 外型像一台大型掃地機器人,能搬運沉重的貨台車,並在大型物流中心內長距離移動。這個升級系統目前在 Amazon 實驗室測試中,計畫 2027 年上半年先在歐洲倉庫正式部署。
想像一位倉庫工人在出貨尖峰時段需要快速調配物資。以前他必須打開控制介面、手動選機器人、設定路線與優先度,操作步驟多又費時。現在他可以直接對 Proteus 說:「今天下午三點前要出的那批貨比較急,先把那幾台車搬去出貨區。」機器人收到後,自己計算最快路徑、決定哪台車先搬、何時出發,不需要工人一步步設定細節。和舊做法相比,工人省去繁瑣操作介面的時間,機器人也能因為理解上下文(哪批貨急、哪邊路暢通)而更靈活地因應現場狀況。