Anthropic(開發 Claude AI 系列的美國公司)於 2026 年 6 月 9 日正式向大眾發布了 Claude Fable 5,這是他們目前最強大的 AI 模型(人工智慧系統),能夠處理複雜的軟體工程、知識分析和圖像理解任務。Fable 5 是史上第一款對一般大眾開放的「Mythos 級」模型——這個等級原本只有少數經特別審核的機構才能取用,現在透過 Claude Pro、Max、Team 和企業方案的訂閱用戶都可以直接使用。根據第三方評測平台 Hex Analytics 的測試,Fable 5 是首個在「複雜長期分析任務」的核心基準測試(衡量 AI 解決難題能力的標準化考核)中達到 90% 分數的模型,遠超過此前任何可公開取用的 AI。為了防止被用於危險用途,Anthropic 為 Fable 5 設計了特殊安全機制:一旦偵測到提問涉及網路攻擊、生物武器或化學合成等高風險領域,模型會自動拒絕並切換回較舊的安全版本 Claude Opus 4.8,公司聲稱已完成超過 1,000 小時安全測試,目前尚未找到能完全繞過防護的通用方法。
假設我是一位財務顧問,需要整理一份「某跨國集團過去十年所有投資項目的風險分析報告」,這類任務需要閱讀大量財報文件、交叉比對數據並梳理邏輯脈絡,傳統做法人工處理往往要花費數天。改用 Claude Fable 5 後,我可以一次上傳相關文件,要求它依時間軸整理所有投資項目、分析各項潛在風險、找出跨項目的規律,並輸出完整報告草稿。以前用 Claude Opus 4.8 做類似工作,模型有時在文件量大時會「失去脈絡」導致前後矛盾;Fable 5 在同類基準測試中的正確率達到 90%(Opus 4.8 明顯未達此標準),意味著長文件、多步驟推理的任務,輸出品質和邏輯一致性都有顯著提升。
FrontierCode 是由 AI 程式開發公司 Cognition 推出的新版程式碼評測基準(用來衡量 AI「寫程式能力」有多強的標準化考題)。與現有評測不同,傳統評測(如 SWE-Bench)只看 AI 寫的程式「能不能跑過單元測試(就是自動化程式檢查)」就算過關;但 FrontierCode 模擬真實工作情境——程式碼不只要能跑,還要乾淨、不引入新 bug、符合維護規範,也就是「能不能實際合併進主線(merge,讓程式碼成為正式產品的一部分)」。每個任務由開源專案維護者設計,耗費 40 小時以上,並從回歸安全性、可讀性、範圍控制、測試品質、可維護性五個維度評分。測試結果震驚業界:目前最強的模型 Claude Opus 4.8 在最難的子集上得分只有約 13%,遠低於舊評測動輒 50% 以上的成績,顯示 AI 寫程式遠非如媒體宣傳的「已被解決」。
假設我是一個開源專案維護者,請 AI(如 Claude 或 Codex)自動完成一個新功能的開發。在 SWE-Bench 舊標準下,只要 AI 寫出來的程式通過所有自動化測試,就算「任務完成」。但 FrontierCode 模擬的是真實 code review(程式碼審查)流程:AI 是否順帶破壞了其他功能?有沒有引入不必要的複雜邏輯?測試案例夠不夠完整?代碼風格是否一致?如果這五項都要及格,Opus 4.8 目前只能通過約 13% 的任務。換句話說,如果你是工程師,AI 替你寫的程式有 87% 機率仍需要大幅修改才能真正合進產品主線——這和「AI 即將取代工程師」的說法存在很大落差。同時,業界也開始討論「coding agent(自動寫程式的 AI 系統)如何設計才更可靠」:最佳實踐已從「一次性下指令」轉向「給 AI 明確目標、驗收標準、加人工審查節點」的結構化流程。
這篇文章匯集了多個 AI 工具的重大更新消息。中國 AI 公司 Moonshot 為其開源(程式碼公開、可自由修改)程式撰寫助手 Kimi Code 新增一鍵安裝、拖曳影片作為撰碼參考等功能,並同步推出桌面版 AI 助理 Kimi Work,可同時分配最多 300 個子任務、記住使用者偏好、瀏覽網頁並提供財務工具整合。Google 的小型開源模型 Gemma 4 推出 QAT 版本(QAT 是「量化感知訓練」,一種讓模型體積縮小但盡量保住智能水準的技術),最小版本 Gemma 4 E2B 僅需約 1GB 記憶體,讓普通電腦甚至手機都能在本地執行。即將發布的開源模型 MiniMax-M3 在業界測評(Intelligence Index,一個綜合比較各模型智能水準的榜單)中拿下 55 分,可能成為目前最強的開源模型,且支援 100 萬字的超長對話記憶。推理框架 vLLM-Omni(讓開發者在自己伺服器上部署 AI 模型的工具)也升級至 0.22.0,開始支援機器人控制、語音合成(TTS)等全新 AI 種類,顯示 AI 服務正從純文字快速擴展到多媒體與實體世界。
假設我是一名獨立開發者,想在自己的 MacBook 上本地執行一個實用的 AI 語言模型,不用雲端 API、不用月費。過去在筆電上跑像樣的模型,通常需要 4~8GB 記憶體,舊機型根本帶不動。現在透過 Google Gemma 4 的 QAT 版本,同等水準的模型壓縮到僅需約 1GB 記憶體。具體操作是:用 llama.cpp(一個讓你在本機執行 AI 的開源工具)下載 QAT Gemma 4 E2B 模型,整個模型大小不到一部手機高清電影,裝完即可在無網路環境進行對話或程式碼生成;再搭配同步新增的 MTP 支援(Multi-Token Prediction,讓模型每步預測多個字而非一個字,顯著加快輸出速度),整體使用體驗比舊做法快且省資源。相比之前只能在雲端跑、每月付 API 費、資料還得傳到外部伺服器,現在同等效果可以完全離線、在本機上完成。
Google 同步宣布多項 AI 產品升級:NotebookLM(一個能幫你上傳文件、讓 AI 整理與分析的工具)新增「代理式對話」功能——也就是 AI 不再只是被動回答,而是可以主動拆解任務、多步驟完成分析,並支援更多輸出格式,對 Ultra 訂閱用戶開放。同時,Google AI Plus 訂閱費從每月 7.99 美元降到 4.99 美元,雲端儲存翻倍至 400GB;Google 搜尋也升級為以 Gemini 3.5 Flash 為預設 AI 模型,強化多模態搜尋(也就是可以用圖片、語音等多種方式下搜尋指令)。蘋果在年度開發者大會(WWDC)上展示全新 Siri:這版 Siri 能感知目前螢幕畫面、直接操作 App、記住你的個人情境,互動也更自然。技術層面有個值得注意的細節:蘋果裝置內建的 AI 模型是一個 200 億參數(參數是衡量 AI 模型規模的數字,越大通常代表能力越強)的「查詢路由」架構(Query-Routed Architecture),每次回應時只從快閃記憶體(NAND,也就是手機內建儲存晶片)載入需要的「專家模組」到工作記憶體(RAM),而不是把整個模型常駐記憶體——這是一種針對手機儲存與電力限制特別設計的非標準架構,在業界較為罕見。
假設你用 NotebookLM 整理一份 80 頁的競品分析報告。以前你必須手動一問一答:「第三章講什麼?」「第五章跟第三章有什麼矛盾?」每一步都要你指揮。新版代理式對話讓你可以直接說「幫我整理這份報告的關鍵結論,並找出各章節之間互相矛盾的地方,最後輸出成結構化摘要」——AI 會自行規劃步驟、逐段分析、彙整結果,一次完成。相比之下,舊版 NotebookLM 只能回應單一問題,無法自主拆解多步驟任務,遇到複雜需求時使用者要反覆手動推進。至於蘋果新版 Siri 的情境感知:以前你收到一封含航班資訊的郵件,要手動截圖、切換到行事曆 App、複製貼上時間和航班號;現在你可以直接說「把這封信的班機加進行事曆」,Siri 看著螢幕上的郵件自動完成所有步驟,不需要你離開當前畫面。
Apple 在 2026 年全球開發者大會(WWDC,Apple 每年舉辦的軟體新功能發布盛會)上,宣布大幅升級旗下語音助理 Siri——核心改用 Google Gemini(Google 開發的 AI 大型語言模型(就是 ChatGPT 這種會對話的 AI),類似 GPT-4 的技術)驅動,讓 Siri 具備更強的理解與對話能力。同時,Apple Intelligence(蘋果內建的 AI 功能套組,讓手機各種 App 都能有 AI 輔助)也全面升級,能跨 App 讀取上下文,例如在打電話時自動拉出你和對方的 Mail、訊息記錄輔助對話。iOS 27(iPhone 的新版作業系統)預計對 iPhone 11 以上機型開放,帶來 AI 照片編輯(透視調整、畫面延伸、智慧填補空白)、系統全域語音輸入優化,以及 Shortcuts(捷徑 App,讓使用者用自動化流程串接各種操作)支援用白話文建立自動化。Apple 強調所有 AI 運算過程中,用戶資料只用於執行當下請求,不儲存、不用於其他用途,並允許第三方安全專家持續驗證這項承諾。
假設你是一位業務,剛接到老客戶的電話,但完全忘了上週和他用 iMessage 說好什麼交貨日期。以前你需要一邊說「等我查一下」、一邊掛電話或開 App 手動翻找,既尷尬又浪費時間。現在 iOS 27 的新 Phone App 會在通話進行中,自動把你和這位客戶的 Mail 往來、過去的 iMessage 對話摘要整理後,直接顯示在通話畫面上——你立刻就能看到「上次確認交貨日期是 6/15、對方要三台 M4 Pro」。舊做法:通話中一邊查 App 一邊說話,容易顯得不專業。新做法:Apple Intelligence 幫你把跨 App 的資訊即時整合到通話介面,不需要任何額外操作,就像有一個助理坐在旁邊幫你翻資料。
Google 推出了 Gemini 3.5 Live Translate(即時語音翻譯功能),底層使用 Gemini 3.5——也就是 Google 自家最新的 AI 大型語言模型(類似驅動 ChatGPT 那種技術)——專門處理語音的即時翻譯。它最大的特點是「邊說邊翻」,不需要等一整句說完才開始轉換,能大幅減少對話中的停頓感。此外,系統聲稱能保留說話者的語調、語速與聲調高低,讓聽起來不像過去那種平板機械腔。最直接的影響是在 Google Meet(Google 的視訊會議平台,類似 Zoom)上:支援語言從原本的 5 種,一口氣跳升至超過 70 種,讓全球更多語言的使用者都能無障礙開會。
假設我是一名台灣業務,需要在 Google Meet 上和印尼客戶開視訊會議。舊做法只支援 5 種主流語言,雙方通常被迫都用不太流利的英語溝通,或另外請翻譯人員在旁口譯。現在開啟 Live Translate 後,客戶說印尼語,系統幾乎同步把語音翻成中文傳給我,我說中文也即時翻成印尼語傳給對方。整場會議不需要停下來等翻譯、不需要手動複製貼上文字到 Google 翻譯,雙方各說各的母語就能完整溝通,會議流暢度接近面對面。相比舊做法節省了請口譯的費用,也不再因語言障礙卡住商談節奏。
Google 有一個叫「AI 摘要」的功能(就是在你搜尋時,頁面最上方會出現一段 AI 幫你自動整理的重點答案),德國一家地區法院最近針對這個功能做出了具有歷史意義的判決。法院認定,這些 AI 摘要不是 Google 單純轉述別人的話,而是 Google 自己的發言,因此如果 AI 寫的摘要內容有誤,Google 必須承擔法律責任。過去,搜尋引擎通常受到「平台免責」保護(就像留言板不必為用戶的留言負責,因為它只是提供地方、不是作者),但這次法院明確指出,AI 生成的摘要不適用這項保護。這起案件的起因是 Google AI 摘要錯誤地把兩家出版商與詐騙事件扯上關係,而且那些說法根本不存在於任何引用來源中,完全是 AI 自己憑空捏造的。這項判決被視為全球 AI 生成內容法律責任的重要先例,可能影響各國如何規範 AI 產品。
假設有一家台灣出版社,讀者在 Google 搜尋它的名稱,頁面最上方的 AI 摘要卻自動生成「該出版社曾因詐騙讀者被投訴」。這段話沒有出現在任何連結的文章裡,完全是 AI 自己憑空產出的。在這次德國判決之前,Google 可以主張「我只是搜尋引擎,那些話不是我說的,是 AI 根據網路資料生成的,我不是內容製作者」來規避責任——就像電話公司不必為通話內容負責一樣。但德國法院現在說:不,AI 摘要是 Google 親自生產的內容,Google 就像一家出版商,必須為每一句話的真實性負責。這代表出版社可以直接向 Google 求償。對 AI 開發者來說,這個判決意味著:未來凡是讓 AI「整理、摘要、代表系統發言」的功能,都可能面臨類似法律責任,不能再躲在「平台只是中介」的保護傘後面。
Xiaomi(就是那家做手機的中國科技公司)和推論技術合作夥伴 TileRT 聯手推出了名為 MiMo-V2.5-Pro-UltraSpeed 的超高速 AI 語言模型(LLM,就是像 ChatGPT 那樣能回答問題、寫文章的 AI)。這個模型有高達 1 兆個參數(參數就是 AI「學習」後記下來的知識權重,數量越多代表模型規模越大),在 8 張一般商用 GPU 的伺服器上,推論速度可達每秒 1,000 個 token(token 可以想成 AI 說話時的「字詞單位」,每秒 1,000 個大約等於每秒輸出超過 700 個英文單字)。速度之所以如此驚人,靠的是兩項技術:一是 FP4 量化(把模型的計算精度壓縮,讓運算更快、更省記憶體,品質只損失少許),套用在 MoE 架構(Mixture of Experts,一種讓模型每次只動用部分「專家神經元」的設計)的專家層上;二是 DFlash 投機解碼(Speculative Decoding,一次預測整個 token 區塊而非逐一預測,大幅減少等待時間)。目前透過限量 API 試用(API 就是讓開發者把功能接進自家程式的技術介面),從 6 月 9 日到 6 月 23 日開放,費率是標準版的 3 倍,但輸出速度約快 10 倍。
假設你在開發一個即時客服 AI 助理,需要使用者送出問題後,AI 在 0.5 秒內回應完整答案(約 200 個字)。用現有的 ChatGPT API 或 Claude API,一般推論速度約 60–80 tokens/秒,輸出 200 字的回答大概需要 2–3 秒,使用者明顯感受到「在等 AI 打字」。換成 MiMo-V2.5-Pro-UltraSpeed 的 1,000 tokens/秒,同樣 200 字的回答不到 0.2 秒就能輸出完畢,介面幾乎感覺不到延遲。實際差異是:同一台 8 GPU 伺服器,舊做法要達到相同回應速度,你得多買近 10 倍硬體;用 MiMo UltraSpeed,等於用現有硬體把吞吐量拉高一個量級,對需要即時互動的應用(語音助理、即時翻譯、線上對話機器人)特別有意義。
微軟在 2026 年 Build 大會上,宣布把 AI Agent 執行環境(Agent Runtime,也就是讓 AI 工作代理能持續運行的底層框架)OpenClaw 開源並免費提供。OpenClaw 負責讓 AI 代理(Agent,就是能自動在背景持續執行工作任務的 AI 程式)有地方「住」和「跑」,任何開發者都能免費取用。同時發布的 Scout 是微軟自己基於 OpenClaw 打造的常駐工作代理,能在背景持續監看並代為執行任務。微軟不靠 OpenClaw 本身收費,而是靠圍繞它的「控制平面」(Control Plane,即企業管理整批代理所需的後台工具組)賺錢,包含身分驗證、政策管理、操作稽核紀錄、企業統一管理等功能。
一家企業想替 50 名業務各部署一個 AI 代理,讓代理 24 小時自動整理 CRM(客戶管理系統)資料、篩選潛力客戶、起草跟進郵件。開發團隊可以直接用免費的 OpenClaw 執行環境架設這 50 個代理,不需支付任何執行授權費。但公司合規部門要求:每個代理必須用對應員工的企業帳號登入、業務部代理不得存取財務資料、所有代理操作都要留下可被稽核的紀錄——這些需求就必須接上微軟付費的控制平面服務才能實現。相較於之前需要整包購買微軟代理方案,現在開發者能先用免費 OpenClaw 快速驗證技術可行性,確認要正式導入企業後,再評估控制平面的費用,大幅降低了從零開始嘗試 AI 代理的門檻。
Google DeepMind 與獅子山共和國教育部合作,針對 Gemini 的「引導學習」(Guided Learning)功能——一種不直接給答案、而是靠追問引導學生自己想清楚的 AI 教學工具——進行了一項長達八週的隨機對照實驗(和醫學臨床試驗同一種方法:將學生分成兩組,一組用 AI,一組照常上課,最後比較成績)。實驗對象是 Port Loko 地區 12 所學校的 1,763 名國中生。結果相當驚人:使用引導學習的學生數學成績平均進步,折算成實際學習進度約等於 1.2 到 1.7 年的課程量,而這一切只花了八週。更值得注意的是,有 69% 的學生達到或超過預定使用量——教育科技工具業界的正常自發使用率通常只有 5%,代表學生真的在用、而不是被動應付。這項研究也顯示 AI 並未取代老師,而是讓老師從「講台上講課」的角色轉變為「引導學生討論」的促進者,對師生雙方都有正面影響。
假設一位獅子山國中生在學二元一次方程,他打開 Gemini 問「這題怎麼解?」。一般 AI 工具通常直接給出解題步驟,學生抄完就沒了,對理解沒什麼幫助。但 Gemini 的引導學習模式會反問:「你覺得等號兩邊應該先做什麼?」「移項之後 x 的係數變成多少?」,一步步用問題逼學生自己推導。實驗中分析了 11 萬 3 千多次師生對話紀錄,發現 Gemini 在 76% 的回應中是提問引導,只有 2% 是直接給解法。到了第八週,學生主動要求「解釋概念」的比例從第一週的 68% 升至 90%,直接索取答案的從 25% 降到 10%——學生的學習習慣在短短兩個月內就被重塑了,這正是傳統「請 AI 寫作業」模式所做不到的事。
Apple Intelligence 是蘋果公司推出的一套 AI(人工智慧)功能,包含升級版 Siri 語音助理、摘要文件、智慧回覆等,原本要推給全球 iPhone 用戶。然而歐盟有一條叫做「數位市場法(DMA,Digital Markets Act)」的競爭法,規定像蘋果這樣的超大型平台,不能把系統特權只留給自家的 AI,必須讓其他公司(如 Google Assistant、ChatGPT)的 AI 助理也能平等使用 iPhone 的系統功能。蘋果向歐盟申請 18 個月豁免期,想先上架自家 AI 再慢慢開放,但歐盟直接拒絕。蘋果因此決定整個暫停在歐盟推出 Apple Intelligence 的新功能,等於歐盟用戶目前完全無緣這批 AI 升級。歐盟委員會強調,DMA 要求的是「開放互通」,並不代表要降低隱私標準,其他公司也可以被要求達到同等安全水準。
假設你住在法國,用最新款 iPhone,在 App Store 看到蘋果廣告說「Siri 現在可以幫你跨 App 完成任務、讀懂整個 PDF、自動整理郵件」。但你打開設定,根本找不到這些功能。原因是 DMA 要求蘋果若要推 Siri AI,就必須同時讓 Google 的 Gemini 或 OpenAI 的 ChatGPT 也能呼叫同樣的 iPhone 系統接口(例如打電話、開相機、存聯絡人)——蘋果認為這樣會有安全疑慮,所以選擇直接不上。相較之下,Google 已針對 Android 完成 DMA 合規,歐盟 Android 用戶可以正常使用 Gemini 的 AI 功能。同樣一款 AI 助理,在美國版 iPhone 上可用、在歐盟版上沒有,根本原因是平台開放政策的監管衝突。
這篇論文研究了一個實際問題:訓練 AI 模型時,有一個叫「超參數調整」的環節——就是替 AI 模型找到最佳「設定值」,例如學習速度要多快、每次讀多少資料等等,設定差了模型就會訓練出來效果很差或浪費大量算力。過去都靠數十年歷史的傳統數學演算法(像 CMA-ES、TPE,可以想成是「聰明的大規模搜尋機器」)來自動找好設定。研究者測試了讓現代 LLM(大型語言模型,就是 ChatGPT、Claude 這類會對話的 AI)直接接管這個調整工作,看看 AI 能不能比傳統演算法更聰明地找出好設定。結論出乎意料:傳統演算法在有限算力下仍然穩定勝出;但研究者設計了一個叫「Centaur(半人馬)」的混合架構,把傳統演算法的優勢加上 LLM 的能力,哪怕只用 8 億參數的小型 LLM,效果也超越了純傳統或純 LLM 方式,成為最強組合。
假設我正在訓練一個自己的小型語言模型,計算資源有限(只能跑 50 次實驗),需要找出最佳的學習率、批次大小等組合。舊做法:丟給 TPE 演算法,它會根據每次結果自動決定下一組要試的設定,搜尋效率高且穩定。新做法:讓 Claude Opus 或 Gemini 看過去的實驗紀錄,請它建議下一組設定——結果發現 LLM 容易在多輪之後「忘記」哪些方向已試過,無法像 TPE 一樣累積進展。Centaur 做法:CMA-ES 維護一個「目前搜尋到哪裡」的狀態,LLM 只負責解讀狀態並提出針對性建議,兩者分工——即使是很小的 0.8B 模型也能讓最終調出的模型效果超過單用傳統演算法或單用大型 LLM 的結果。差異:純 LLM 因缺乏持久記憶而表現不穩,純傳統演算法不懂利用語意資訊,混合架構取兩者之長。
這篇論文提出了一個叫做 PR-CAD 的系統,讓人可以用自然語言(就是一般說話的方式)描述想要的機械零件或工業設計,AI 就會自動生成對應的 CAD 檔案(CAD 就是工程師用來畫精密設計圖的電腦輔助設計軟體,像是齒輪、支架、外殼這類零件都靠它繪製)。過去,畫 CAD 需要專業訓練,使用者要熟悉複雜指令才能操作;而 PR-CAD 把「生成新設計」和「修改既有設計」整合在同一套 LLM(LLM 就是 ChatGPT 這種大型語言模型,能理解並生成文字)代理中,不需要分開用兩套工具。研究團隊還引入了強化學習(RL,一種讓 AI 透過反覆試錯來學習的訓練方法,類似訓練遊戲 AI 自己找最佳策略)來強化 AI 對設計意圖的理解與精準定位,讓生成結果更符合需求、更容易控制。實驗結果在多個公開基準測試上達到當前最佳水準(SOTA)。
假設我是一位小型製造商,需要設計一個固定電路板用的 L 型鋁合金支架,但我沒學過 SolidWorks 或 AutoCAD。傳統做法是:要嘛花錢請工程師畫圖,要嘛自己花幾週學 CAD 軟體、手動輸入每個尺寸和座標。用 PR-CAD 的話,我直接輸入文字:「設計一個 L 型支架,水平臂長 40mm、垂直臂高 30mm、厚度 2.5mm,垂直臂上有兩個 M3 螺絲孔,孔距 15mm」,系統就會輸出可直接送廠加工的 CAD 模型。如果我覺得孔距太小,再輸入「把螺絲孔孔距改成 20mm」,系統能精準定位到那兩個孔並只修改孔距,不動其他部分——這正是「生成 + 編輯一體化」的關鍵,省去反覆從頭重畫的麻煩。
這篇 arxiv 論文研究了一個出乎意料的發現:在 AI Agent(就是能自主執行多步驟任務的 AI 程式,例如自動查資料、寫報告的 AI 助理)裡做搜尋時,傳統的「grep 搜尋」(一種用關鍵字直接比對文字的老方法,類似 Windows 的「在檔案中搜尋」)竟然比「向量搜尋」(一種把文字轉成數學向量、用語意相近度尋找資料的現代 AI 技術)更準確。研究者用 116 道問題測試了多個 Agent 框架,包括 Claude Code、Codex、Gemini CLI 等主流工具,結果 grep 在大多數情況下都勝出。這個結論令人意外,因為業界普遍認為向量搜尋(也稱 RAG——讓 AI 回答前先查資料庫、避免憑空捏造的技術)是更先進、更聰明的做法。研究還發現,Agent 框架的設計方式——也就是工具把搜尋結果回傳給 AI 的呈現格式——對最終答案準確率的影響,不亞於搜尋方法本身的選擇。
假設你要開發一個能查詢歷史對話紀錄的客服 AI Agent,讓它從大量過去的對話裡找到相關資訊來回答使用者問題。目前最主流的做法是建立向量資料庫:把所有對話轉成向量,查詢時找語意最相近的段落給 AI 參考——這是標準 RAG 方式。但根據這篇論文的實驗,如果改用 grep 讓 Agent 直接搜尋關鍵字,命中率反而更高。差異在於:向量搜尋把文字「轉譯」成數學時,精確詞彙(如人名、日期、產品型號)的語意可能被稀釋或失真;grep 直接比對原始文字,對這類需要完全匹配的查詢更可靠。更關鍵的是,研究顯示 Agent 如何「接收」搜尋結果(直接嵌入對話 prompt 還是寫成檔案讓模型另外讀取)對答案品質的影響同樣重大——意味著光是改搜尋方法不夠,整個框架的工具設計都需要一起考慮。
科技策略分析師 Ben Thompson 在 Stratechery 發表深度分析,探討蘋果如何透過 iPhone 在 AI(人工智慧)時代維持競爭優勢。蘋果推出了一款「200 億參數的端側混合專家模型」(就是一個可以直接在 iPhone 上運算的 AI,查詢時只啟動部分模組而非整個模型,大幅降低運算需求),讓 Siri 能存取使用者的私人訊息、電子郵件、語音信箱等個人資料,給出更貼合情境的回答。蘋果同步擴大「Private Cloud Compute」(私有雲計算——一種讓 AI 在雲端處理時仍保護隱私的架構),採用 Nvidia 晶片並部署於 Google 資料中心運行。Thompson 認為,相比微軟著力於「雲端 Agent」(Agent 就是能自主完成複雜多步驟任務的 AI 程式)的 B2B 路線,蘋果聚焦個人情境感知的做法更符合一般消費者需求,而掌握裝置端私人資料的 iPhone 正是蘋果難以被取代的護城河。
假設我想問「上週媽媽傳訊息說她要來我家,是哪天?」這種需要查私人訊息的問題,以前 Siri 完全回答不了,只能把你丟去自己翻訊息 App。現在透過 App Intents 框架(一套讓 Siri 和各個 App 深度溝通的機制),Siri 可直接存取 Messages 記錄、Email 收件匣,甚至你手機螢幕上正顯示的內容,整合後直接回答「上週三,媽媽說她禮拜五下午要來。」相較之下,ChatGPT 或 Google Gemini(Google 的對話 AI)無法存取你的裝置私人資料,只能回答通用問題。蘋果的差異化正在於那塊競爭對手碰不到的個人數據——只要你的生活都在 iPhone 上,Siri 就能做到外部 AI 服務做不到的事。
這篇文章討論一個越來越普遍的問題:工程師用 AI 助手(就是 GitHub Copilot、Cursor 這類能自動幫你寫程式的工具)快速產出大量代碼,但這些代碼往往複雜難懂、難以維護。作者把這個現象比喻為「AI 明星開發者」——就像過去那種技術很強但只顧自己衝刺、不管別人能不能看懂的天才程式設計師,AI 也會在幾分鐘內產出幾萬行別人讀不懂的代碼。更嚴重的是,AI 沒有記憶,每次對話都是全新開始,所以不同聊天視窗產出的代碼風格不一、邏輯各異,比單一明星開發者留下的爛攤子更難整理。一旦沒人看懂這些代碼,團隊就只好繼續靠 AI 去理解和修改,形成「越來越依賴 AI 才能維護 AI 寫的代碼」的惡性循環。作者提出的解法是:讓人主導架構決策,AI 只負責寫小段落的輔助代碼,同時刻意保持架構簡單、讓整個團隊都能看懂。
假設一個開發者要做一個「自動分類使用者回饋」的功能。他用 AI 助手在三個不同的對話視窗裡,分別寫了資料讀取、分類邏輯、和結果輸出三個模組。AI 每次都不知道上一段對話的上下文,所以三個模組用了三種不同的變數命名風格、兩種不同的錯誤處理方式、還有一套只有 AI 自己看得懂的抽象層。三個月後出現 bug,原開發者已離職,新同事完全不知道從哪裡下手,只好重新丟給 AI 分析——AI 解讀完又生出另一段修改代碼,讓整體結構更加複雜。相比之下,如果當初用傳統方式、由人親自決定模組邊界和命名規則,只讓 AI 負責填入具體演算法,後續維護成本會低得多。
AI 代理人(就是能自己主動執行任務的 AI 程式,比如自動回信、查資料、跨系統完成申請流程,不需要人每一步都去操作)的企業導入量,預計在未來兩年內暴增 300%。這跟過去的「自動化」(傳統自動化是你設定好步驟讓電腦照做,中間要人工接手)不同——AI 代理人能自主判斷、協調多個複雜任務,幾乎不需要人介入。早期導入企業的客服、人資、業務部門,已經出現 30 到 50% 的生產力提升。調查顯示,86% 的人資長認為「如何管理 AI 代理人」將成為他們工作的核心任務,但同時有 73% 的人資主管指出,員工根本不清楚 AI 會怎麼影響自己的工作。文章也指出,到 2030 年,四分之三的現有職務將需要重新設計、再培訓或重新部署。
Wipro(一家大型跨國 IT 服務公司)導入了一套專門回答員工人資問題的 AI 代理人。以前員工問「我的休假還剩幾天」「薪資單在哪裡下載」這類問題,人資部門要花最多 48 小時才能回覆;導入 AI 代理人之後,同樣的問題 5 秒內就能得到答案。人資人員不再花時間回答重複性問題,得以轉去做更有價值的工作,例如設計員工發展計畫或優化福利制度。差異就是:以前等兩天、現在等五秒,而且人類員工的時間被解放出來做更需要判斷力的事。
MIT 科技評論(全球最具公信力的科技媒體之一)的資深編輯 Will Douglas Heaven 在 2026 年倫敦 SXSW(一個結合科技、音樂、電影的國際創意節)上發表演講,整理出他眼中此刻 AI 最關鍵的五大現況。第一,AI 工具已從「新奇玩意兒」變成日常辦公室工具,但對就業影響幾乎沒有確切數據。第二,AI 造成的真實傷害正在浮現——包括 deepfake(深度偽造,用 AI 無中生有製造出逼真的假影片或假照片)煽動暴力,以及聊天機器人被指控誘導用戶自傷,已有訴訟案件。第三,反 AI 情緒正在組織化,從娛樂業者到環保人士都在抗議 AI 的高耗能和對就業的衝擊。第四,AI 協助科學研究是目前最令人振奮的方向,Google DeepMind 的 Co-Scientist 能幫研究員自動生成假設和實驗設計。第五,整體而言 AI 發展方向仍不明朗,編輯建議大家「準備好跑馬拉松,而非百米衝刺」。
以「AI 加速科學研究」這個趨勢為例:一位癌症研究員想找出某種基因突變和腫瘤擴散之間的關係,過去他需要花幾週讀文獻、和同事開會討論,才能擬出一個可以測試的假設(就是「我猜測 A 基因如果出現 B 突變,可能會讓腫瘤更容易轉移到肺部」這類科學猜想)。現在用 Google DeepMind 的 Co-Scientist(共同科學家 AI),研究員把研究問題輸入系統,AI 幾小時內就能自動梳理現有文獻、提出多個可測試的假設,並草擬對應的實驗方案,讓研究員直接審查、挑選最有潛力的方向進行。差異在於:以前「想出一個新假設」可能要花幾週甚至幾個月,現在縮短到幾小時,科學家可以把精力留給真正的實驗執行。OpenAI 更宣稱目標是在 2028 年前建構出「完全自動化的研究員」——一個能自主完成從提出假設到驗證結果全流程的 AI 系統。
AI 每次回答問題都需要消耗大量電力,產業把每一個 AI 生成的文字單位叫做「Token(語言模型處理的最小文字單位,大約半個中文字或一個英文字)」,Token 用得越多耗電越多。根據預測,從 2025 年到 2030 年,全球 AI 的 Token 調用量將暴增 212 倍,到 2030 年光是 AI 算力的耗電量就會達到 465 太瓦時——比整個日本一年的總用電量還多,外界開始擔憂「電力供應跟不上 AI 成長」的問題。中國內蒙古正在嘗試一套新解法:由遠景科技和騰訊合作,在赤峰市建一個 2GW(2 吉瓦,相當於兩座大型燃煤電廠的發電量)的 100% 再生能源電力系統,直接把風力和太陽能的電送進旁邊的 AI 資料中心,繞過大電網、省去電網過路費,對外宣稱是「全球首個 100% 綠電直供資料中心」,可把能源成本降低 40% 以上。這套系統還結合「物理 AI(把物理規律寫進 AI 模型、讓預測更貼近現實而非只靠統計數據拼湊)」的大型語言模型(就是 ChatGPT 這種會理解文字的 AI)來預測未來風速和日照,讓電力供給和算力需求能即時配合,不會因風力忽大忽小而供電不穩。
假設我是一家 AI 服務公司,每月電費是最大運營支出,而且公司要求達到「零碳排放」目標,傳統接市電(大部分是煤電)兩個條件都滿足不了。採用赤峰模式:選址在內蒙古,當地風力和日照充足,建設風機和太陽能板(合計 2GW),電纜直拉進旁邊的資料中心,不繞電網;同時部署一個結合氣象數據和物理公式的大型 AI 模型,可提前幾小時預測「今晚幾點風速下降、發電量減少多少」,讓伺服器調度系統在電力充裕時多跑 AI 推論任務、電力吃緊時則減量。根據項目數據,能源成本可降低 40% 以上,全程 100% 綠電——對比傳統方案:以前 AI 公司只能被動接受漲價的市電,現在透過綠電自供把最大的成本項砍掉近一半,同時還能取得碳權(可交易的「我不排碳」憑證,可賣給其他需要碳抵消的企業),形成額外收入。
Transformer(一種讓 AI 同時考慮所有文字關聯的神經網路設計,底層核心叫「注意力機制」)目前是幾乎所有主流 AI 的基礎架構,包括 ChatGPT、Claude、Gemini 等大語言模型(LLM,就是會對話的 AI)都用它。它成為業界標準,不是因為最「像大腦」或最優雅,而是因為「愈加資料、愈加算力,效果就愈好」的擴展特性特別穩定可預期,這在 AI 研究史上相當罕見。但 Transformer 有一個根本弱點:注意力機制(Attention,讓每個字都能「看到」所有其他字)的計算量隨上下文長度急速增加——同時處理的文字愈多,耗費的記憶體與算力呈平方倍成長,代價極高。這篇分析文章探討的核心問題是:Transformer 是 AI 的「終局架構」,還是只是第一個真正能規模化的架構,未來將被更有效率的設計所吸收取代?作者傾向後者——Transformer 可能不是終點,而是起點。
假設你要讓 AI 讀完一整本 100 萬字的長篇小說,然後回答「主角在第 3 章做的決定,和第 89 章的後果之間有什麼關聯?」這種跨越極長距離的問題。用 Transformer 架構的模型,必須在記憶體裡維護一個隨閱讀內容不斷增長的「KV Cache(Key-Value 快取,就是 AI 讀過的每個字的印象筆記)」,到第 100 萬個字時這份筆記會佔用巨量記憶體,甚至難以負荷。這正是為什麼現有 AI 模型往往有「上下文長度限制(context window,意指 AI 一次能記住多少字)」——不是 AI 不夠聰明,而是 Transformer 架構本身的算力代價太高。相比之下,研究者正在開發的替代架構(例如 Mamba、RWKV,都是用固定大小的「狀態記憶」取代不斷增長的快取)理論上可以以固定記憶體讀完整部小說,速度不隨長度急速劇增。今天用 Transformer 的 AI 遇到超長文本就卡關,而下一代架構可能不再有這個瓶頸——這就是研究者認為 Transformer 雖然今日稱王,但仍有被超越空間的原因。
這篇文章討論的是 AI 代理(Agent,就是能自主規劃並執行多步驟任務的 AI 系統,例如自動幫你查資料、寫程式、操作電腦)的評測方式正在發生根本性轉變。以前評測 AI 都是用人工設計的「考題」(合成任務),現在開始改用真實使用者的操作記錄來衡量效能。例如 Arena 推出的 Agent Arena 排行榜,收集了超過 100 萬次真實使用場景,透過因果追蹤(一種判斷「是這個 AI 工具造成好結果,還是其他因素」的統計方法)來評估各家 AI 代理的表現。評分項目包含:任務成功率、使用者讚美與抱怨比例、指令跟隨能力、從錯誤中恢復的能力,以及「工具幻覺」(AI 憑空呼叫不存在的工具指令)的發生率。同時 Hugging Face 與 Mecado 合作推出 CADGenBench,專門評測 AI 能否從工程圖或設計檔生成正確的 3D 模型,代表 AI 評測範圍已從文字、程式碼擴展到有「物理正確性」要求的工程製圖領域。更深層的趨勢是:好的評測題目本身就可以成為 AI 訓練資料,讓評測和訓練形成正向循環。
假設你是工程師,想知道「我的 AI 代理工具(例如 Cursor、Claude Code)在用戶的實際工作流程中,哪種情況最容易失敗?」。過去的做法是:找幾十道預設好的測試題讓 AI 作答,但這些題目往往太乾淨、太理想,跟真實使用情境差很多,導致測試結果好但用戶回饋差。現在 Agent Arena 的做法是:直接從 100 萬次真實用戶操作記錄裡,用統計方法找出「哪個 AI 代理執行框架讓用戶的任務成功率明顯提升」。具體來說,它不是讓用戶投票說哪個比較好(投票容易受偏見影響),而是觀察「用戶在用了某個框架後,有沒有繼續追問、有沒有稱讚還是抱怨、有沒有被卡住後自己修好」,用這些真實行為指標推算效能差異。對比舊做法:以前你只知道「在考試題上 A 比 B 好 5%」,現在你能知道「在真實任務裡 A 讓用戶卡殼的機率低 12%、工具幻覺發生率少一半」,這樣的數據對產品改進才真正有意義。
這篇文章整理了幾條當前 AI 研究的前沿方向。第一,Anthropic(開發 Claude 的公司)在科學部落格中提出一個重要觀點:AI 在寫程式方面進步遠快於生物學,不是因為 AI 本身不夠聰明,而是因為生物學的資料庫和研究工具一開始根本不是為了讓 AI 代理人(agent,就是能自主執行任務的 AI)使用而設計的——基礎建設的落後才是瓶頸。第二,多家科技大公司(包括 HuggingFace、Meta、NVIDIA 等)組成聯盟,共同接手維護一個名為 OpenEnv 的開源框架,目標是讓 AI 訓練中的「環境層」(也就是 AI 與外界互動的模擬場景)有統一的標準,讓不同實驗室和開發者都能共用。第三,一家名為 Hivemind 的公司推出了「持續學習」系統——把 AI 助手(如 Claude Code、Cursor 這類寫程式 AI)實際使用時留下的操作紀錄,轉化為可重複使用的技能,讓 AI 越用越聰明。第四,AI 研究圈最近對訓練神經網路的「優化器算法」(optimizer,決定模型怎麼調整自身參數的數學方法)展開熱烈爭論,有研究者聲稱即將推出比現有主流方案更好的方法。
假設你每天用 Claude Code(一種 AI 程式助手)幫你 debug(找出並修復程式錯誤)。Hivemind 的持續學習系統會把你每次 debug 的完整過程——「遇到什麼錯誤訊息 → AI 怎麼提問 → 你怎麼回答 → 最後怎麼解決」——全部錄下來當作「軌跡(trace)」。系統從幾千條這樣的紀錄中提煉出規律,例如「當出現 ImportError 時,優先檢查虛擬環境是否啟動」,並把這條規律打包成一個可重複呼叫的技能。下一次你或其他用戶遇到同樣的 ImportError,AI 不需要再從零開始推理,而是直接套用這個已學會的技能,跳過多餘步驟直接給出解法。相比之下,傳統 AI 每次對話都是「全新的開始」,無法從過去的成功經驗累積——這就是持續學習想解決的核心差距。
中國政府計劃在未來五年內,投入約 2950 億美元(約台幣 9.4 兆元)建設全國性 AI 資料中心網絡,規模極為龐大。計劃特別要求至少 80% 的設備必須採用國產供應商技術,主要是華為(一家中國科技巨頭,同時生產自家的 AI 晶片,稱為「昇騰」系列)。這等於幾乎完全把美國晶片大廠輝達(NVIDIA,就是製造讓 AI 訓練跑得飛快的高階處理器的公司)排除在外。與此同時,台灣也在考慮立法,將走私 AI 晶片到中國的行為首次列為刑事犯罪,顯示兩岸在 AI 晶片供應鏈上的地緣政治緊張持續升溫。
假設你是一家中國的 AI 新創公司,想訓練一個大型語言模型(LLM,就是 ChatGPT 那種能對話、能寫文章的 AI)。以前可以花錢租用裝有輝達 H100 晶片的高效能伺服器——輝達晶片目前是全球訓練 AI 最主流的硬體,支援 PyTorch(一套廣泛使用的 AI 開發工具)等成熟生態系,幾乎所有開源教學和工具都以它為標準。但在新政策推動下,政府投資的資料中心大量換成華為昇騰晶片。你的團隊必須改用華為的硬體和配套軟體框架,而這套生態系正在追趕中,開源工具支援較少、社群資源也薄弱。同樣訓練一個模型,可能遇到更多相容性問題,或是效能比輝達硬體差一截。簡單說:強制國產化讓中國 AI 開發者與全球主流工具鏈脫鉤,長期影響研發速度與成本。
OpenAI(就是做出 ChatGPT 的那家 AI 公司)大幅改變了過去的激進目標。他們之前宣稱要在 2028 年前建立「完全自主的 AI 研究系統」,意思是讓 AI 自己做研究、自己寫論文、自己推進 AI 發展,幾乎不需要人類介入。現在,執行長 Sam Altman 和首席研究員 Jakub Pachocki 一起發表聲明,明確說「完全自動化一切並非我們想要的未來,這樣既令人感到空虛,也很危險」。他們改口強調,未來應是 AI 與人類研究者「協同合作(兩者搭配、互補)」的模式,人類仍需負責設定方向、做出判斷和權衡取捨,而非讓 AI 完全取代人類。Altman 和 Pachocki 也提議成立一個國際組織,協調全球 AI 開發節奏,必要時可以放慢最前沿 AI 的研究速度,讓社會有更多時間適應。
假設你是一位 AI 研究員,你的公司正在考慮要不要完全讓 AI 自動生成實驗方案、自己跑測試、自己分析結果,然後人類只看最後報告。過去 OpenAI 的路線圖暗示「全自動 AI 研究流程」會在 2028 年成為現實,所以許多公司開始朝這個方向規劃,甚至討論要裁減研究人員。但這次聲明等於踩了煞車:OpenAI 說他們 2028 年的實際目標是「AI 處理大量研究工作,但仍與人類研究者搭配」——AI 出力氣、人類做決策。對比之下,舊預期下你的公司可能規劃全面讓 AI 包辦研究;新版本下,正確做法是規劃「AI 提速、人類監督」的混合工作流,把人留在關鍵決策環節,而不是直接拿掉人。
SchemaFlow 是 OpenAI 發布的一套 AI 輔助工作流程教學範例,展示如何讓 AI(就是像 ChatGPT 那樣的語言模型)自動化處理企業資料庫(用來儲存和管理數據的系統,例如會員資料、訂單記錄)的變更請求。整個流程涵蓋:接收使用者以白話描述的修改需求、自動解析成結構化規格、分析這個變更可能影響哪些資料表和系統、自動產生 SQL 語法(讓電腦執行資料庫操作的程式指令)、加入安全防護避免危險操作,以及自動產出變更說明文件。範例是零售業「會員等級」資料庫,但這套架構可套用到各種企業的資料管理場景。
假設你是零售公司的工程師,業務部門提出「在會員資料表新增『黃金會員』等級,設定點數升等門檻」的需求。傳統做法是:業務寫 email → 工程師理解需求 → 手動評估影響範圍 → 自己寫 SQL → 請人審核 → 才能執行,耗時數天,且溝通落差常造成錯誤。套用 SchemaFlow 架構後:業務直接用白話描述需求,AI 自動解析成結構化規格,分析哪些資料表和應用程式會受影響,產生對應的 SQL 語法,並加入防護確保不誤刪資料,最後自動生成變更文件供審核。整個流程從數天縮短到數小時,且人工溝通造成的錯誤大幅減少。
最近有研究實際測量了 AI 程式輔助工具(就是像 GitHub Copilot 或 Cursor 這類在工程師打程式時幫忙自動補全、建議程式碼的工具)在真實公司的效果。數據顯示,這些工具讓「Pull Request(PR,就是工程師把寫好的程式碼交出去讓同事審查的那道程序)」的完成速度提升了大約 10% 到 15%,不過實際中位數(超過一半公司的真實表現)只有大約 8%。更值得注意的是,研究指出「寫程式碼本身」在工程師的日常工作中只佔一小部分——光是程式碼寫得更快,並不會讓整個開發流程等比例加速,因為審查程式碼、規劃功能、測試品質、以及跟同事協調等環節,仍然是整體速度的瓶頸,而 AI 目前還沒能顯著加速這些部分。
假設你是一家 SaaS 公司(就是提供雲端訂閱軟體服務的公司)的後端工程師,每週大概能寫出並送審 3 個 PR。引入 AI 程式助手後,研究預測你可能能寫到 3.2 到 3.5 個 PR——大概每個月多完成 1 到 2 個功能。聽起來不錯,但問題是:你的 PR 送出去之後,還要等同事花時間審查、QA 測試員跑測試、PM 確認需求有沒有改、前後端協調整合——這些流程的速度並沒有跟著 AI 一起變快。結果就是:你寫 PR 更快,但 PR 堆在審查隊列裡等的時間一樣長,真正上線的速度不一定提升多少。舊做法是「寫得慢、審得也慢」;現在是「寫得稍微快一點、但審查仍是瓶頸」。這個研究對公司主管的意義是:光是購買 AI 工具讓工程師寫程式更快,還不足以解決整體交付速度的問題。
Perplexity(一家以 AI 搜尋引擎聞名的公司)與哈佛商學院合作,發布了一份研究報告,測試他們的 AI 代理(就是一種能自己規劃、自己一步步執行任務的 AI 程式,不用人全程盯著)「Perplexity Computer」在真實知識工作上的效率。傳統用搜尋引擎的工作方式是:AI 找到資訊,但整理、寫文件、寫程式等後續步驟都要人手動完成;Perplexity Computer 這類 AI 代理則從頭到尾自動包辦——搜尋、整合資料、寫程式、產出成品一條龍,人只需要設定目標和最後確認。研究橫跨軟體開發、財務、行銷、法律、醫療等八大產業,結果顯示:使用 AI 代理後,完成同一任務的時間縮短了 87%、成本降低了 94%——大概就是原本要花一整天的工作,現在只需要不到 2 小時。其中程式設計類任務省最多,時間節省高達 92%;整體滿意度也明顯提升,不滿意率從 2.9% 降到 1.3%。
假設我是行銷分析師,主管要我「整理五家競爭對手上季的產品更新與定價變動,產出比較報告」。傳統做法:我要一家一家用 Google 搜、手動開 Excel 記錄、截圖貼進 Word,再自己寫摘要,整個流程大概要 3 小時。用 Perplexity Computer:我只輸入目標——「研究這五家公司過去三個月的產品更新與定價,產出比較表格和摘要」——AI 代理會自動搜尋各家官網、新聞稿、產品頁面,比對資料後直接生成結構化報告,約 20 分鐘完成,品質與人工整理相當。核心差異在於:原本「查→複製→整理→寫→排版」五個人工步驟,現在壓縮成「輸入目標→等結果」,人的時間全部集中在最後判斷和決策,不再卡在資料搬運。
OpenAI 執行長 Sam Altman 與首席研究員 Jakub Pachocki 發布了一篇公開文章,說明 OpenAI 現階段的三個核心目標。第一個目標是打造「自動化 AI 研究員」——也就是讓 AI 能自己做科學研究、進行實驗,不再需要人類研究員逐步操作。第二個目標是加速全球經濟成長,同時確保這些利益能廣泛分配給所有人,而非只有少數大公司受益。第三個目標是讓地球上每個人都能擁有一個「個人 AGI(通用人工智慧,指能像人類一樣處理任何任務的 AI)」,就像每人都有一位全能私人助理。他們認為 OpenAI 已進入第三個發展階段,核心問題從「能不能做到」轉變為「如何讓先進 AI 更普及、更便宜、更安全、更易用」,並主張讓 AI 影響力廣泛分散比集中在少數人手上更安全。
假設你是一位沒有技術背景的小型企業主,現在想用 AI 分析你的客戶購買行為,你必須先訂閱 ChatGPT Plus、學會怎麼寫提示詞(prompt,就是給 AI 下指令的文字),或者花錢請工程師幫你串接 API(應用程式介面,就是讓兩套軟體互相溝通的橋樑)——這些都是門檻。若 OpenAI「全民 AGI」的願景成真,未來你的手機或電腦裡可能內建一個能主動理解你業務狀況的 AI 助手,它會自己抓取你的銷售紀錄、提出改善建議、甚至起草給客戶的信件,完全不需要你懂任何技術。對比今日現況:大多數人使用 AI 仍需要一定的學習成本和訂閱費用;OpenAI 的目標是讓 AI 像自來水或電力一樣,成為每個人隨手可用的基礎設施。
過去幾年,AI 技術發展最大的阻礙是「模型本身不夠聰明」——AI 不懂專業知識、常常答錯。但這個情況已經改變了。最新研究顯示,現代的大型語言模型(LLM,就是 ChatGPT、Claude 這種能對話的 AI)在許多專業領域,已達到與專用軟體相當的水準。Anthropic(開發 Claude AI 的公司)做了一個測試:讓 Claude 分析「核磁共振光譜」(NMR,一種化學家用來判斷分子結構的檢測技術,就像幫分子拍 X 光),結果 Claude 的表現和化學家長年使用的專業軟體 ChemDraw、MestReNova 不相上下——而且 Claude 沒有接受任何化學專項訓練。這代表瓶頸已從「模型夠不夠強」轉移到「怎麼讓 AI 真正融入工作流程」——AI 需要能存取真實資料庫、實際執行程式碼、產出可追蹤的報告,而不只是在對話框裡打幾行看起來合理的回答。
假設你是藥廠的分析化學家,每天要分析數十份 NMR 光譜(機器打出來的化學分子「指紋圖」),判斷合成出來的化合物結構是否正確。傳統做法是打開 MestReNova 軟體,手動比對特徵峰再寫分析報告,整個流程可能耗掉一到兩小時。新的可能是:直接把儀器輸出的原始檔案丟給 AI,讓它完成光譜判讀——Claude 在 Anthropic 的測試中,確實能在不靠專用軟體的情況下解出分子結構。但「模型能答對」還不夠,要在真實工作中落地,AI 還必須能連上儀器資料庫、執行驗算程式碼、輸出帶有方法說明與數據來源的正式報告。這套「讓 AI 真正運作起來的基礎設施」(又稱 agentic workflow,讓 AI 能自動串接工具、資料庫與驗算步驟的工作流),才是現在最難解決的部分,也是 K-Dense Web 這類公司正在建構的核心價值。
影子 AI(Shadow AI,指員工私自使用未經公司核准的 AI 工具)正在企業中悄悄蔓延。許多員工為了提升工作效率,會自己用免費的 ChatGPT 帳號或其他生成式 AI(就是 ChatGPT 這種可以對話、寫文章、分析資料的 AI)服務來處理公司業務,卻渾然不知這樣做可能把客戶資料、合約內容、財務數字等敏感資訊上傳到公司外部的系統。傳統 IT 部門的做法是直接封鎖、禁止使用,但這往往引發員工反彈,也無法解決根本需求。最有效的應對策略是雙管齊下:一方面深入了解員工為何要使用這些工具、他們真正的工作流程是什麼,另一方面主動提供符合公司資安標準的替代方案,同時定期清查授權(license,軟體使用許可)和 token(AI 計費單位,可簡單理解為「AI 用量」)的使用情況,以降低資安風險與資源浪費。
假設公司行銷部門需要快速把 30 頁內部報告濃縮成一張重點簡報,但公司沒有任何核准的 AI 工具可用,員工就自行用個人手機登入 ChatGPT 免費版,直接把報告內容貼進去。這份報告裡可能包含尚未公開的季度業績數字或大客戶名單,一旦上傳到外部 AI 平台,就可能觸犯個人資料保護法規,甚至讓競爭對手取得商業機密。按照這篇文章建議的做法,IT 部門應該先主動訪談行銷人員,搞清楚他們最常需要的是什麼(快速摘要文件),然後採購並部署一個資料不外傳的企業版 AI 工具(例如 Microsoft Copilot 企業版或架設在公司內部的私有 AI),而不是僅僅發一封禁令郵件。這樣員工有合規工具可用、效率不打折,公司的敏感資料也不會外流到陌生的雲端服務。
Amazon Bedrock AgentCore Runtime(亞馬遜雲端服務 AWS 推出的 AI 代理程式執行平台,專門用來在雲端跑各種自動執行任務的 AI 程式)新增了互動式終端機(就是像黑色命令視窗那樣可以打指令的介面)直接存取功能。開發者現在可以透過新的 InvokeAgentRuntimeCommandShell API(一種讓程式與平台溝通的介面指令)像遠端連線一樣,直接進入正在執行中的 AI 代理程式(AI agent,就是能自動完成多步驟任務的 AI 程式,例如自動分析資料、寫程式、查資料庫)的工作階段。這個終端機連線支援顏色顯示、按 Tab 鍵自動補全指令、Ctrl+C 強制中斷、視窗大小調整,以及斷線後自動重新連接——這些都是一般終端機使用者習以為常的功能,過去在 AI 代理環境裡卻沒有。相較於之前只有「一次性執行單一指令就結束」的舊功能,現在可以維持一個持續存在的互動式連線,更便於開發者即時除錯和監控 AI 代理的執行狀態。
假設我在 AWS Bedrock 平台上部署了一個 AI 代理程式,讓它自動跑資料分析任務(讀取雲端資料、執行 Python 程式、輸出報告)。舊做法:如果中途出錯,我只能查看日誌記錄檔,猜測哪裡有問題,再整個任務重跑一次,既費時又難以找到根本原因。新做法:透過新的 InvokeAgentRuntimeCommandShell API,我可以開一個終端機視窗直接連進正在執行的代理工作階段,輸入診斷指令查看當前狀態(例如:輸入 `ls /tmp` 看暫存檔案有沒有產出、輸入 `cat error.log` 讀取錯誤記錄),甚至即時手動干預調整某個設定再繼續跑——就像遠端 SSH 連線進一台伺服器排查問題一樣直覺,差異是現在連進的是 AI 代理的執行環境,讓除錯效率大幅提升。
Microsandbox 是一個開源工具,讓開發者能在幾毫秒(1 秒的千分之一)內,在自己的電腦上快速啟動一個輕量級的虛擬電腦(micro VM,就像在你的電腦裡面再開一台隔離的小電腦,兩者互不干擾)。這個工具特別為 AI Agent(會自動幫你執行任務的 AI 程式)設計,官方形容它是「讓 Agent 擁有自己電腦的最簡單方式」。使用時不需要額外架設伺服器或讓背景程式常駐,直接嵌入你的應用程式就能用。Microsandbox 支援 MCP Server(讓 AI 工具與外部服務溝通的標準介面),並內建針對 Claude Code、Cursor、Codex 等程式碼 AI 的整合工具,讓這些 AI 能直接在安全隔離的環境中執行程式。
假設你正在用 Claude Code(Anthropic 推出的 AI 程式設計助理)自動化處理一批程式任務,Agent 需要實際執行程式碼、安裝套件、甚至跑測試。過去有兩種選擇:一是讓 Agent 直接在本機執行,但有安全風險(一不小心可能刪到重要檔案或改到系統設定);二是設定雲端沙箱服務(如 E2B),但需要網路連線且要付費。用了 Microsandbox 之後,Claude Code 可以透過 MCP 介面呼叫 Microsandbox,在不到 100 毫秒內於本機啟動一個隔離虛擬電腦、在裡面安裝套件、執行程式、取得輸出結果,全程不碰你真實的系統目錄,任務完成後虛擬機自動消失。差異就是:不需要網路、零雲端費用、啟動速度幾乎和本地執行一樣快,安全性卻和雲端沙箱一樣好。
「迴圈工程(Loop Engineering)」是一種新興的開發方式,核心想法是:不要再由你自己一句一句告訴 AI 編程助手(就是像 Cursor、Copilot 這類幫你寫程式的 AI 工具)要做什麼,而是設計一個「自動系統」來替你做這件事。你只需要定義最終目標,這個自動系統就會不斷生成指令、驅動 AI 執行、評估結果,循環下去直到任務完成——整個過程幾乎不需要你手動干預。目前這個做法還在早期摸索階段,實際使用時要留意 token 費用(每次 AI 呼叫都要錢,迴圈多了成本會爆)以及輸出品質需要監控,但它很可能代表未來開發者與 AI 協作的主流模式。
假設我要完成「幫現有 Web 應用新增完整的使用者帳號驗證功能(含登入、登出、註冊、測試、文件)」。傳統做法:我得反覆手動提示——「先寫登入頁面 HTML」→ 看輸出 → 「現在寫後端 JWT 驗證邏輯(JWT 是一種讓伺服器確認你身份的加密票券)」→ 看輸出 → 「再補單元測試」→ 看輸出……每一步都要我盯著、判斷、再提示,十幾個來回才能完工。迴圈工程的做法:我先寫一段程式邏輯,定義「完成標準」(所有測試通過、API 文件生成、程式碼通過格式檢查),然後啟動迴圈——系統自動把大任務拆成子任務、依序提示 AI 執行、檢查每一步的輸出是否達標,不達標就自動重試或換策略,直到所有完成標準都打勾才停。我中途去喝咖啡回來,功能已經做完,我只需要做最終的 code review。舊做法要花 2 小時盯著螢幕反覆提示;迴圈工程讓你只花 10 分鐘設計目標和規則,剩下的交給系統跑。
Paul Kinlan(Google 的網頁平台開發倡導者)在這篇文章中分析了 LLM(大型語言模型,就是 ChatGPT 這類能對話的 AI)與網頁開發的關係。他認為我們正在進入一個「Web 黃金時代」,因為 LLM 大幅降低了建立網站和工具的門檻,讓更多非工程師也能動手做。不過他也點出一個關鍵隱憂:LLM 的訓練資料往往落後現實一年以上,意思是 AI 學到的網頁技術是舊的,可能推薦已被淘汰的框架或做法。他還特別提到 WebMCP(一種讓 AI 代理程式——就是能自動執行任務的 AI——在不同網站之間串接工具的新標準),認為這可能讓 AI 助理在網頁上自動完成跨平台操作,是一個很有潛力的方向。
假設我要建一個「比較各電商平台價格」的工具,在沒有 AI 之前,需要請工程師爬取各網站資料、設計資料庫、做比價介面,可能要幾個月。現在用 LLM 加上程式碼生成工具(如 Claude Code、Cursor),非工程師也能在幾天內描述需求、讓 AI 產生程式原型。但 Kinlan 的警告很實際:如果 AI 推薦的技術方案是一年前的舊框架(例如一個已被更好套件取代的工具),你得到的是一個跑得動但用了過時技術的產品——就像拿 2024 年的地圖在 2026 年導航。未來若 WebMCP 標準成熟,AI 代理程式甚至能直接在瀏覽器裡跨網站自動操作,例如自動登入電商、查詢庫存、比價、下單,全程不需要人工點擊,徹底改變現有的網頁互動方式。
這篇分析指出,把「獨立 AI Agent(就是能自動幫你完成任務的 AI 程式,例如自動訂行程、自動整理信件)」當成核心產品來創業,風險其實很高。原因是 OpenAI、Google、Anthropic 這些頂尖 AI 大廠,隨時可以把你做的事情直接內建進他們的平台,你的產品瞬間就沒了競爭優勢。真正有護城河的機會,是去做「讓 AI Agent 跑得更好的工具和基礎設施」——也就是做 AI Agent 背後需要的零件和管道,而不是又再做一個 Agent 本身。這個邏輯就像淘金熱時代,賣鏟子比挖金礦更穩定。
假設你開發了一個「AI 助理幫業務員自動整理 CRM(客戶關係管理系統)資料並寄出跟進信」的 Agent 產品,初期用戶反應不錯。但幾個月後,Salesforce 直接在平台裡內建同樣功能,HubSpot 也跟進了,你的獨立工具頓時失去賣點。反觀,若你轉而開發「讓 AI Agent 在執行多步驟任務時能可靠地記住中間狀態」的記憶管理套件(Memory Management SDK),不管哪個 Agent 產品崛起,它們都需要你的元件——Salesforce 的 AI、HubSpot 的 AI、甚至創業公司的 AI 全都是你的潛在客戶。差異就是:做 Agent 本身,你在跟大廠直接競爭功能;做基礎設施,你是在幫所有人解決共同的技術難題。
Transload 是一家新創公司,利用貨運碼頭原本就有的監視攝影機(CCTV),配合 AI 電腦視覺技術,自動測量每一件貨物的長、寬、高,完全不需要工人額外操作或把貨物搬到專用儀器前量測。他們使用的核心技術叫「單眼深度估測」(monocular metric depth estimation,就是只靠一支普通攝影機拍的影像,讓 AI 推算出物體在現實中的真實三維尺寸)——這項技術近年進步神速,已能從舊有的安全監視器畫質裡算出夠準確的尺寸。系統會先把碼頭工人掃描條碼的時間點,對應到影像裡正確的那件貨物(他們嘗試用 VLM(Vision Language Model,就是能看懂圖片的大型 AI 模型)來做這件事,但發現它的辨識結果不穩定,最後改成自行訓練一個更可靠的 3D 辨識模型);確認貨物之後,再從單一攝影機角度估算出立體邊界框,直接算出長、寬、高和體積。整個流程完全在背景進行,不影響工人的日常作業動線。
假設我是一家台灣整車貨運公司的計費主管,寄件人申報一個棧板尺寸是 100×80×120 公分,但貨物實際是 130×110×160 公分,多佔了更多車廂空間,我卻按照申報尺寸收費,這筆差額就是白白損失的收入。過去的解法是在碼頭裝專用的雷射尺寸掃描機台,工人要把每件貨物額外搬到機台前量一次,耗時又塞車,大多數公司只抽查少數幾件。接了 Transload 之後,工人照常掃描條碼就結束,攝影機自動記錄那個時間點、辨識是哪件貨、從影像估算真實尺寸。如果跟申報尺寸不符,系統自動附上影像截圖作為帳務證據,讓公司向寄件人補收差額。他們現有客戶之中,約 10% 的貨件存在尺寸申報錯誤——這些過去全是無聲的收入流失。
Agora Cosmica 是一個由德國非營利組織開發的開源學習平台,讓使用者可以用語音和 30 位歷史人物(如哲學家、思想家)進行 AI 對話,學習他們的人生智慧。平台特別強調隱私保護——語音辨識(把說話轉成文字的技術)和語音合成(把文字唸出來的技術)全部在自架伺服器上執行,不儲存任何對話紀錄,也不需要建立帳號。每位歷史人物都有 12 段有聲故事,還附有「事實查核」說明哪些內容有史料依據、哪些是 AI 推測重建的,避免讓人分不清真假。使用者也可以把多位歷史人物召集成一個「議會」,讓他們一起討論某個問題。
假設我想了解蘇格拉底(古希臘哲學家)怎麼看待「人應不應該說謊」。我打開 Agora Cosmica,選擇蘇格拉底,用語音說出問題。系統用 Faster-Whisper(一個開源的語音轉文字 AI 工具)聽懂我說的話,再用 Kokoro TTS(把文字轉成語音的 AI)以蘇格拉底的語氣朗讀回答。整個過程在歐盟伺服器上執行,對話結束後不保留任何紀錄。相比直接問 ChatGPT,差別在於:這裡的蘇格拉底回答會標注「哪些話出自原著、哪些是 AI 創作」,而且完全不經過 OpenAI 或 Google 的伺服器,個資不外流。每天有 30 則免費訊息,也可以完全自架在本地電腦上執行。
昆侖行是2026年3月剛成立的具身智能(讓 AI 住在機器人身體裡、能動手做事的技術,特斯拉的人形機器人 Optimus 就是這類)新創公司,由兩位重量級業界人士共同創辦:任庚(前阿里雲中國區總裁)和郎咸朋(前理想汽車自動駕駛總裁,在 AI 領域深耕15年)。昆侖行的技術哲學與業界主流作法不同——他們拒絕「堆數據」的方式,也就是靠餵 AI 大量訓練資料讓它進步的做法,認為這只是「給 AI 一根拐杖」,治標不治本。他們聚焦三個核心方向:原生模型(從頭重建 AI 大腦)、Agent 架構(讓 AI 能自主規劃並完成複雜任務的設計,Agent 即「自主行動的 AI」)、以及物理因果驅動的數據體系。最引人注目的是估值速度:公司2026年3月16日才剛成立,月底估值就已遠超10億美元,被業界稱為「10天獨角獸」,並落戶北京亦庄獲得政府專班支持。
假設某工廠要讓機器人學會組裝一款新型零件。用現在業界主流的方式,工程師要錄幾千小時的示範影片餵給 AI,模型才能學會動作。昆侖行的路線主張從根本上讓 AI 理解物理世界的因果關係——為什麼要這樣夾?夾的力道跟材質和形狀有什麼邏輯關係?如果這條路線成功,同一台機器人面對新零件時,不需要每次重新收集大量示範資料就能快速適應,對製造業降低 AI 機器人部署成本有潛在影響。不過目前昆侖行仍在研發中,尚無公開可用的產品或論文,這則新聞的主要意義是觀察具身 AI 賽道又多了一位有分量的創業者。
SpaceX 正在計畫把資料中心(就是放了大量伺服器、讓 AI 做運算的大型機房)發射到地球軌道上運作。馬斯克(Elon Musk,特斯拉和 SpaceX 的老闆)在公司準備上市(IPO,就是公開在股市掛牌賣股票)前,公開聲稱這個計畫在工程上幾乎沒什麼難度。不過現實差距相當大:第一顆「AI 衛星」的運算能力大約只等於一個 Nvidia GB300 機架(一組高階 AI 運算設備)。而 Google 自己的研究指出,若要在太空真正跑完一個大規模 AI 訓練任務,大約需要將近一萬顆這類衛星緊密協同運作才夠——這表示目前的計畫離實用還有極其遙遠的距離。
假設你是一間 AI 新創,想評估未來是否能租用「太空運算資源」來訓練一個大型語言模型(LLM,就是像 ChatGPT 那樣能對話的 AI)。SpaceX 的軌道資料中心理念是借助太陽能持續供電、不受地面電力和散熱限制。然而,第一代 AI 衛星的運算量只相當於地面一個 Nvidia GB300 機架,而 Google 估計真正訓練一個有規模的 AI 模型需要約 10,000 顆衛星緊密配合同步傳輸資料——這在軌道上是尚未解決的工程難題。換句話說,若你今天靠地面 GPU 叢集能在一個月內訓完模型,要等軌道資料中心真正可用且規模夠大,現階段看起來仍是遙遠的未來。
NAVER(韓國最大的搜尋與科技公司,旗下有 LINE 通訊軟體)宣布與 NVIDIA(生產 AI 運算晶片的美國科技大廠)合作,在韓國建立大規模「主權 AI 基礎設施」——所謂主權 AI,就是由本國企業自己掌控的 AI 算力,不依賴美國的 AWS、Google Cloud 等外國雲端服務。這套設施初期規模為 55MW(相當於約五萬戶家庭的用電量),最終目標擴展到 GW(十億瓦)等級,規模是初期的數十倍。NAVER 採用 NVIDIA 的 DSX 平台(一套涵蓋硬體設計、軟體堆疊到資料中心管理的全套 AI 基礎設施解決方案),目標是像「工廠流水線」一樣快速複製和擴建「AI 算力中心」,首站從韓國世宗市的 GAK 資料中心開始。這項合作最終希望讓企業、政府機構和全球 AI 雲端客戶,以更低的「token 成本」(每次讓 AI 生成一段回應所花的費用)使用 AI 服務。
假設一家韓國政府機關想部署 AI 文件審查系統,每天需要處理數百萬份公文。過去,若使用美國雲端服務,敏感政府資料得跨境傳輸,不僅有資料主權疑慮,延遲也較高。有了 NAVER 自建的主權 AI 基礎設施,政府機關可以把 AI 運算留在韓國境內的伺服器上,符合在地資料法規,延遲更低、費用更便宜。NVIDIA 的 DSX 平台讓 NAVER 不必每次都從頭設計資料中心,而是能像「積木」一樣快速複製已驗證的架構——從 55MW 擴建到 GW 等級所需的時間,遠比傳統做法短。