AI Daily Digest

📰 每日 AI 彙整

2026-06-16  ·  共 96 則報導
T1 爆炸重要T2 值得關注T3 一般資訊T4 參考用T5 可略過
T1
T1
Fable 5 創 AI 標竿新高卻遭美管制停用

Anthropic(開發 Claude 系列 AI 的美國公司)推出的旗艦模型 Fable 5,剛在 Epoch Capabilities Index(一套綜合衡量 AI 整體能力的評分標準,分數越高代表模型能力越全面)上拿下 161 分的新高,超越 OpenAI 的 GPT-5.5 Pro,成為當前公認最強的 AI 模型。然而就在此時,美國政府以出口管制(export control,限制特定先進技術流出美國境外的法規)為由,對 Anthropic 的 Fable 與 Mythos 系列模型發出強制停用令,導致全球開發者與用戶幾乎在一夜之間無法呼叫這些模型。Anthropic 表示他們事前已與相關政府機構協調,卻在毫無預警的情況下收到全面停用指示,被迫中止對所有人的服務存取;政府方面則指稱此舉源於網路安全疑慮以及與白宮之間的嚴重溝通斷裂。技術社群對此的反應相當強烈:包括 Keras 作者 François Chollet 在內的多位重量級工程師批評現行監管方式過於不透明、依賴臨時政治幹預,並呼籲建立標準化的 AI 能力評估框架(agentic benchmarks,針對 AI 自主執行任務能力的測試標準),取代目前的「恐慌式反應」。這起事件是 AI 歷史上第一次讓全球開發者如此直接感受到:使用最前沿 AI 模型的權利,已和國家安全政治深度交纏,不再只是技術能力的問題。

假設你是一家臺灣新創公司的工程師,核心產品是透過 Anthropic API(應用程式介面,就是讓你的程式連上 AI 服務的通道)呼叫 Fable 5,幫企業客戶自動審查法律合約、標記風險條款。這週一早上你打開電腦,發現所有 API 請求全數失敗——Fable 5 因出口管制已暫停服務,何時恢復不明。你的產品當場停擺,客戶電話湧入。舊做法下,你只能乾等 Anthropic 恢復。但這次危機之後,越來越多工程師開始採用「模型中立架構」(model-neutral architecture,意即把 AI 模型設計成隨時可替換的零件,不鎖死在單一廠商),透過 LiteLLM 或 OpenRouter 這類模型路由工具(routing tools,讓你的程式在多家 AI 廠商間自動切換)部署備援策略:Fable 5 停用時,系統自動切換到 GPT-5.5 Pro 或 Gemini Ultra,服務不中斷。這起事件的核心教訓是:再強的模型,也可能因政治因素在一天之內從市場上消失,「自己掌控模型路由」已從工程最佳實踐升格為業務連續性的必要保障。

T1
美政府令 Anthropic 封鎖境外頂尖模型

川普政府在與亞馬遜(Amazon,全球最大雲端服務商之一)執行長 Andy Jassy 會談後,下令暫停全球境外用戶使用 Anthropic(美國頂尖 AI 公司,以開發 Claude 系列 AI 聊天助手聞名)最強大的幾款 AI 模型。事件起因是亞馬遜研究人員透過特定提示詞(prompt,就是用戶輸入給 AI 的文字指令)成功誘導 Anthropic 的 Fable 5 模型(Anthropic 旗下最新一代頂尖大型語言模型,也就是能力最強的那種 AI)提供了可用於網路攻擊的詳細技術資訊。白宮隨即要求 Anthropic 修復這個安全漏洞,否則必須下架模型,最終 Anthropic 選擇對所有境外用戶暫停 Mythos 和 Fable 系列模型的存取,以符合政府要求。值得注意的是,Anthropic 表示被指出的漏洞其實相對基礎,市面上其他公開可用的 AI 模型同樣有能力提供類似資訊,暗示此次政府行動的標準與必要性仍有爭議。

假設你是一名在臺灣工作的軟體工程師,長期透過 API(應用程式介面,就是讓你的程式呼叫外部 AI 服務的橋樑)使用 Anthropic 的 Fable 模型協助撰寫程式碼和自動化任務。在這項命令生效後,你的所有 API 請求都會被直接拒絕,因為你屬於「境外用戶」。你必須緊急把整套系統切換到其他模型——比如 Anthropic 的次級模型、OpenAI 的 GPT 系列或 Google 的 Gemini——但切換並不是一鍵完成,可能需要重新調整提示詞、測試輸出品質,甚至重寫部分程式邏輯,整個工期可能因此拖延數天。過去 AI 安全問題通常是靜悄悄修補漏洞、不影響用戶存取,但這次卻是整個頂尖模型對境外直接斷線,對全球倚賴 Anthropic 模型的開發者和企業造成即刻衝擊。

T1
美國禁令迫使 Anthropic 頂尖 AI 全球下線

美國政府以國家安全為由,命令 Anthropic(一家開發 Claude 等 AI 助理的美國知名人工智慧公司)禁止外國人使用其最先進的兩款 AI 模型 Fable 5 與 Mythos 5。由於逐一核查每位使用者的國籍在技術與法律上都極為複雜,Anthropic 選擇了另一個做法——直接將這兩款模型對全球所有人停止開放,包含美國本地使用者也無法存取。這意味著任何地方的開發者(指寫程式、建構 AI 應用程式的人)若原本依賴這兩款模型提供服務,現在都面臨服務中斷的困境。目前 Anthropic 已安排下週與白宮官員會面,希望協商出解決方案,讓模型能夠重新上線或至少恢復美國使用者的存取。

假設一家臺灣新創公司原本透過 Anthropic 的 API(應用程式介面,就是讓程式能呼叫 AI 功能的橋樑)使用 Mythos 5 建立了一套客服自動回覆系統——使用者傳入問題,AI 即時生成回答。美國政府這道禁令生效後,公司的系統每次呼叫 API 都會收到「存取遭拒」的錯誤,整個客服機器人立刻失靈。但問題不只限於外國使用者:就連美國本土的開發者與企業,現在也同樣無法使用 Fable 5 和 Mythos 5。若 Anthropic 選擇只封鎖外國人,就必須自行建立一套驗證國籍的機制,技術與法律成本都極高;因此公司選擇暫時全面關閉,等待與政府協商後再決定下一步。

T2
T2
Salesforce 36 億收購 AI 客服 Fin

Salesforce(一家專門幫企業管理客戶關係的大型軟體公司)宣佈以約 36 億美元收購 Fin——一個用 AI 自動回答顧客問題的客服平臺。Fin 的前身是 15 年歷史的客服軟體公司 Intercom,今年初完成品牌更名,宣告全面轉型成「AI Agent(AI 代理人,即可以自主執行任務的 AI 程式)優先」的公司。Fin 自行研發了一套叫做「Apex」的 AI 模型(可以理解成一個專門為客服場景深度訓練的 AI 大腦,而非通用型 AI),在業界公開基準測試中以 73.1% 的問題解決率,超越了 GPT-5.4(71.1%)和 Claude Sonnet 4.6(69.6%),印證了垂直領域的專屬 AI 可以在特定任務上擊敗通用大型語言模型。這次收購同時讓 Salesforce 獲得 Fin 旗下 3 萬家企業客戶,補強了自家 AI Agent 平臺 Agentforce 缺乏「開箱即用客服方案」的短板,整合預計 2027 年初完成。

一家電商平臺客服團隊每天要處理數千封詢問「我的訂單在哪、怎麼退貨、保固多久」的重複問題,傳統做法是僱人逐一回覆,或用關鍵字機器人給制式答案,客戶往往覺得答非所問。導入 Fin 的 Apex AI 模型後,AI 自動串接訂單系統查詢即時資料,判斷問題複雜度,決定全自動回覆或轉給真人——官方數據顯示生產環境中平均 76% 的問題可由 AI 全程解決,不需人工介入。整合進 Salesforce 生態後,這套系統還能直接讀取 CRM(客戶關係管理系統,記錄每位客戶購買紀錄與歷史對話的資料庫)裡的個人化資料,讓 AI 回覆更精準,免去兩套系統之間手動搬資料的麻煩,對比舊做法可大幅降低重複性客服人力成本。

T2
OpenHands 開源 AI 程式代理新版升級

OpenHands 是一個開放原始碼(任何人都能免費下載和使用的)AI 程式碼助理平臺,能讓 AI 自動幫你讀懂問題、寫程式、執行測試、甚至直接修復錯誤,就像僱了一個不需要休息的虛擬工程師。這個專案目前在 GitHub(全球最大程式碼分享與協作社群)已累積超過 77,100 個星星(代表有 7 萬多人覺得它值得收藏),是同類工具中最受歡迎的之一。最新版本 v1.8.0 於 2026 年 6 月 10 日正式推出,帶來幾項重要升級:其中最值得關注的是「TaskToolSet 子代理委派機制」——簡單說,主 AI 助理可以把工作拆解後,同時交給多個小 AI 助理平行執行,大幅加快處理複雜任務的速度。此外,這次更新還新增了「LLM Profile(模型設定檔)管理」功能,讓使用者能快速切換 Claude、GPT 等不同 AI 模型,只需輸入一個簡單指令即可完成,不必重新設定所有參數。在業界標準測試 SWE-bench Verified(評量 AI 自動修復真實 GitHub 程式漏洞能力的考試)中,OpenHands 取得 77.6% 的高分,屬於目前同類工具的頂尖水準,TikTok、Amazon、Netflix、Google 的工程師也已在日常工作中採用。

假設你是一位工程師,手上有一個 GitHub issue(使用者回報的程式錯誤),內容寫著「使用者登入後頁面顯示空白」。用舊做法,你需要自己一行行讀錯誤日誌、找出問題根源、寫修正程式、再跑測試確認沒有副作用,往往要花 2~3 小時。現在換用 OpenHands 最新版:你把這個 issue 貼給它,主 Agent(主要 AI 助理)會先分析問題,接著把「搜尋相關程式碼」「執行測試」「驗證修復是否正確」三件事分別交給三個子 Agent(子助理)同步進行,最後把修好的程式碼和 Critic(AI 審核者)的驗證報告一起呈現給你。整個過程可縮短到 10~15 分鐘,而且不再需要安裝 Docker(一種常見但設定繁瑣的軟體容器工具)——直接在電腦終端機輸入一行指令就能啟動,大幅降低入門門檻。若公司對資安有高度要求,也可選擇在自家 Kubernetes(企業常用的伺服器管理平臺)上自行架設,資料完全不出公司。

T2
CUA:開源 AI 桌面操控框架

CUA(Computer-Use Agent,讓 AI 能像人一樣操控電腦滑鼠與鍵盤的技術框架)是一個開源專案,提供完整基礎架構讓 AI 代理(agent,就是能自主完成任務的 AI 程式)在 macOS、Windows、Linux、Android 等主流作業系統上自動操控桌面。這個專案由知名美國新創加速器 Y Combinator 孵化,至今在 GitHub 程式碼託管平臺累積超過 18,000 顆星的收藏,是目前開源 computer-use 領域最具規模的基礎架構選項。CUA 包含三大模組:Sandbox(沙盒,用統一 Python 語言啟動跨平臺虛擬機器)、SDK(讓開發者整合 Claude Code、Codex、Cursor 等主流 AI 工具的開發套件)以及 Bench(測試 AI 桌面操控能力的評測集)。最大亮點是 Cua Driver——能讓 AI 在背景默默操控電腦桌面、完全不搶走使用者的視窗焦點,解決了此類工具長期以來最令人頭痛的使用體驗問題;最新版更以 Rust 語言重寫為跨平臺單一執行檔,macOS 與 Windows 共用,大幅降低維護成本。

假設我是一名工程師,想讓 AI 自動幫我登入公司內網、填寫每日工時報表——這種任務過去只能靠人工,或購買昂貴的商業 RPA(機器人流程自動化,用程式模擬人類點擊的工具)服務。用 CUA,我只需在終端機執行一行指令 `claude mcp add --transport stdio cua-driver -- cua-driver mcp`,就能讓 Claude Code(Anthropic 推出的 AI 程式助理)透過 CUA Driver 獲得「截取螢幕畫面、解析介面元素、模擬點擊與鍵入」三種能力,在背景自動打開瀏覽器→輸入網址→登入→找到報表欄位→逐一填寫→點擊送出。與舊做法的差異:以往商業雲端方案會把畫面串流至外部伺服器(有資安疑慮),或搶佔前景視窗讓我無法繼續工作;CUA 完全在本機背景執行,資料不出公司內網,我可以一邊開其他程式繼續手邊的事,待任務完成才收到通知,且採用 MIT 開源授權、免授權費用。

T2
華為雲發布 Agent 時代四大基建

華為雲在 2026 年 6 月 5 日的 INSPIRE 創想者大會上,正式發布了一套稱為「Agentic 新基建」的雲端基礎設施,專門為 AI Agent(能夠自主決策、連續執行多個步驟、不需要人類在旁監督的 AI 程式,例如自動查資料、寫報告、自動下訂單的 AI 助理)而設計。傳統雲端平臺是為靜態網站或資料庫而建,當 AI Agent 需要長時間連續運作、記住大量歷史資訊、多個 Agent 同時搶用資源時,舊架構就會出現反應慢、中途遺忘任務、或資料混亂等問題。這次華為雲同時推出四項核心產品:AICS 靈衢智算集群提供超大規模 AI 算力(單集群 200 EFLOPS,推理回應延遲低於 10 毫秒);AMS Agentic 記憶存儲讓 AI Agent 能保存並快速讀取 PB 級(百萬 GB 等級)的歷史對話與任務資訊,讀取速度比業界平均快 50%;CCE Volcano Next 是智能排程引擎,負責協調不同 AI 工作避免互搶資源,典型場景下資源利用率提升 30%;AgentSphere 則是安全沙箱(即讓 AI 在隔離保護容器中運行,不影響外部系統、不同 Agent 的資料也不會互相干擾),100 毫秒內即可啟動、每分鐘可建立或銷毀 10 萬個獨立環境。此外還推出 ModelArts Next 模型平臺(整合 DeepSeek、Kimi、GLM 等多款 AI 模型,自動依任務難度挑選最合適的模型,成本可降低 20% 以上),以及「智果園」——全球首個可讓 AI Agent 自主購買和管理雲端資源的對話介面。

假設我是中鋁集團的工廠工程師,想用 AI Agent 自動監控鋁電解生產線、即時調整各槽電流與溫度來達到省電節損效果。舊做法是人工巡線加規則型控制程式:工程師每天定時查看幾十個槽的數據,發現異常才手動調整,反應週期長達數小時,且規則型程式無法應對複雜的多槽連鎖反應,每年造成大量浪費。改用華為雲 Agentic 新基建後,AI Agent 持續監控所有槽的即時數據:AMS 記憶存儲讓 Agent 能隨時調出數月歷史數據(緩存命中率 95%,近乎零等待);AICS 算集群確保每次判斷在 10 毫秒內完成,調整指令幾乎即時下達;AgentSphere 讓 Agent 在隔離沙箱中操作,即使邏輯出錯也不會直接影響生產系統。實際結果:中鋁集團採用後,每年在單個電解系列節省 8,500 萬元人民幣的電費與損耗成本。對比舊做法:以前靠人工判斷,反應慢且依賴人力;換成 AI Agent 架構後,24 小時無人值守自動優化,成本顯著降低。

T2
Nadella:AI學習迴圈勝過選最強模型

微軟(就是 Windows、Office 背後的那間大公司)執行長 Satya Nadella 近期在社群平臺 X 上發表長文,獲得超過 6,000 萬次瀏覽,提出他對 AI 時代企業策略的新框架,命名為「Loopcraft」(學習迴圈工藝)。他的核心主張是:企業在 AI 時代真正應該競爭的,不是「誰用了最強的 AI 模型(就是像 ChatGPT 那種會對話的大型人工智慧系統)」,而是「誰建立了最好的學習迴圈」——也就是讓 AI 不斷從自家業務資料學習、越用越聰明的機制。他還提出「Token 資本」這個新詞彙,所謂 Token 是 AI 處理文字時的基本單位,「Token 資本」可以理解成「企業透過 AI 系統積累的知識與智慧財產」,和傳統的人力資本並列成為企業資產。這篇文章也被視為微軟自去年底與 OpenAI(ChatGPT 的開發商)關係生變後,Nadella 首次公開清晰闡述微軟的 AI 新方向,在 AI 業界引發廣泛討論。

假設有一家製造業公司,如果他們只是訂閱市面上最強的 AI 模型服務,讓員工問問題、得到答案,這就像「外包思考」——每次用完就結束,公司本身什麼知識也沒有積累下來。但若按 Loopcraft 的思路去做:把工廠裡每一次品質檢驗的結果、每一個客戶投訴的紀錄、每一次機臺故障的日誌,都持續輸入給一套自訂的 AI 系統,讓這套系統越來越懂這間工廠獨有的問題與規律——那麼五年後,這套「會學習的系統」就成了競爭對手很難複製的護城河,因為裡面裝的是這間公司獨有的知識結晶,即 Nadella 所說的「Token 資本」。相較之下,隔壁競爭對手就算買了一樣的 AI 訂閱,也無法複製這些年累積的業務洞見。這個邏輯正是 Nadella 所說「真正的機會不在於選到最好的模型,而在於建立能讓人力與 AI 知識複利增長的學習迴圈」。

T2
AI Agent 架構設計的三個關鍵原則

這篇文章整理了 AI 工程師圈子近期最熱門的三個架構設計思想。第一是「模型中立性」——做 AI 產品時,最好不要讓程式只能用一家廠商的 AI 模型,因為 AI 模型(就是 ChatGPT、Claude 這類核心程式)更新非常快,不同任務可能需要混用不同模型,一旦鎖死單一廠商,將來切換或升級就很麻煩。第二是「可觀測性」(Observability,意思是:你能不能清楚追蹤和解釋 AI 在做什麼)——業界人士直接說「如果你無法解釋 Agent(AI 代理人,也就是能自主規劃和執行任務的 AI 程式)的行為,你做的只是展示品,不是正式架構」。LangChain(一套廣泛使用的 AI 開發工具套件)因此推出了 LangSmith Engine,可以自動分析上線系統的執行記錄,偵測問題的成本比用頂尖 AI 模型來當裁判便宜 10 到 100 倍。第三是「Harness(AI 應用骨架,也就是把 AI 模型包裝起來讓它真正能做事的那層程式架構)從工具變成研究對象」——新出現的 HarnessX 讓骨架可以根據實際使用記錄自動演化,而不是每次換模型就要手動重建。

假設我們公司要打造一個「AI 客服 Agent」,讓它能自主理解客戶問題、查詢訂單資料庫、安排退換貨流程。舊做法是把 OpenAI GPT-4o 的 API(程式介面,讓兩套程式互相溝通的橋樑)直接寫死在程式裡,結果 OpenAI 漲價或改規格,整個系統就要大改。套用「模型中立性」原則,工程師在應用層加一個「路由層(router)」:簡單問題送給便宜的小模型,複雜法律問題送給 Claude,敏感資料留在地端(自家伺服器)模型處理——三種模型無縫切換,上層業務邏輯完全不用動。上線後,LangSmith Engine 自動掃描每一筆對話執行記錄,發現「Agent 詢問退貨日期時常常抓錯欄位」,直接標出有問題的 trace(執行記錄),讓工程師快速定位並修正。修正後的正確記錄還能回頭當成訓練資料,讓 Agent 下一次表現更好。對比舊做法:以前要工程師人工一筆一筆看 log(系統運行記錄),現在自動化工具幫你找問題,費用大幅降低。

T2
LLM 推論效率系統性大躍進

這篇整理了多個讓 AI 語言模型「跑更快」的系統技術新進展。AI 語言模型(LLM,就是 ChatGPT、Claude 這類會對話的 AI)在實際部署時,每秒能處理幾個請求、回應有多即時,就叫「推論效率」——效率越高,同一臺機器能服務的使用者就越多,成本也越低。本次有四個值得關注的進展:第一,SGLang(一套廣泛用來部署大型 AI 模型的框架)將 DFlash + Spec V2 設為預設的「投機解碼」(Speculative Decoding,一種讓模型邊猜邊驗證、加速生成文字的技術)引擎,針對超大型模型 Qwen 3.5 397B(一款擁有約 3,970 億個參數的語言模型)的測試顯示,吞吐量(單位時間能處理的文字輸出量)提升超過 4.3 倍。第二,ReplaySSM 技術改善了混合架構模型的推論效率:混合架構是指同時使用 SSM(一種更省記憶體的新型序列處理模組)和 Transformer(目前主流的 AI 模型架構)的模型,ReplaySSM 讓模型不必每一步都把內部狀態寫回記憶體,改為從快取的輸入重建,大批量處理時速度可提升約 2 倍,在超大型模型 Nemotron-Ultra-550B 上標準解碼也快了 1.43 倍。第三,Hugging Face(全球最大 AI 模型分享平臺)推出 kernels 工具,讓工程師可以把模型某一層的計算替換成針對特定硬體優化的版本,不需要修改模型本身的程式碼,大幅降低最佳化門檻。第四,有研究者回報,在 H100 GPU(頂級 AI 計算卡)上從磁碟載入模型到顯卡的速度提升了 3.7 倍,大幅縮短服務重啟或首次部署的等待時間。

假設我的公司自行架設一臺 AI 問答服務,使用 SGLang 部署 Qwen 3.5 397B 這個超大型模型。升級到 DFlash + Spec V2 前,這臺機器每秒大約只能輸出 100 個字元(token,AI 輸出的基本單位);升級後可望突破 430 個字元/秒,相當於同一臺機器能同時服務的使用者人數增加了 4 倍多,或者每個使用者的等待時間大幅縮短。另一個場景:每天凌晨系統維護後要重新把模型載入 GPU,原本要等 10 分鐘,有了 3.7 倍載入加速後只需不到 3 分鐘,減少服務空窗時間。相比以前只能接受「模型很慢、機器不夠」,這些技術讓自架 AI 服務在成本與速度上都更具競爭力。

T2
四款 AI 商業產品集中上市

今天有四款 AI 商業產品同步發布,涵蓋研究代理、語音模型、本地部署與軟體自動化等方向,對開發者影響廣泛。Sakana AI(日本 AI 研究公司)推出了「Marlin」,定位為「虛擬首席科學官」;這是一個 AI agent(代理程式,就是能自主完成多步驟任務的 AI),可以持續運作最長 8 小時,針對某個研究主題自動蒐集資料、分析並產出完整簡報與長篇報告,目標是取代人工的深度研究流程。語音 AI 公司 Cartesia 同時推出 Sonic-3.5(TTS,文字轉語音)與 Ink-2(STT,語音轉文字),宣稱是同類最佳模型,整體延遲低於 90 毫秒、支援 42 種語言,且能正確辨識信用卡號、訂單編號等結構化語音內容。中國月之暗面的開源程式模型 Kimi K2.7 Code 透過「動態 2-bit 量化」(一種把模型大小大幅壓縮的技術)讓原本需要數倍空間的 1 兆參數模型縮減至 325GB,可在配備 330GB 記憶體的本地機器上運行,速度達每秒 40 個 token,目前在程式碼能力排行榜中位居開源模型第 3 名。軟體自動化公司 Factory 推出 2.0 版,將 AI 程式助手升級為「軟體工廠」的統一控制平臺,不只是幫你寫程式,而是接管整個開發、測試、部署與運維的自動化流程,代表 AI 編程工具正從「IDE 外掛」轉型為企業級工程系統。

對想開發「AI 真人語音客服」的工程師來說,Cartesia 這次發布最有即戰力。假設你要建一套客服系統,讓 AI 接聽客戶來電並立即回應——過去的問題是:客戶說話→語音辨識把語音轉成文字→AI 處理→文字轉回語音→播放給客戶聽,這整段流程的延遲加起來往往超過 300 毫秒,讓對話聽起來像打國際電話有卡頓感,客戶體驗很差。Cartesia 的 Ink-2 加上 Sonic-3.5 組合,宣稱可將整體延遲壓到 90 毫秒以下,接近人與人對話的自然節奏;而且特別強調能正確辨識「念數字」的場景——例如客戶說「我的訂單號碼是 A3-5-7-2-1」,傳統語音辨識常在這類格式上出錯,Ink-2 針對此做了優化。再加上 42 種語言支援,一套系統就能服務多語言市場,省去過去要分別部署多組語音模型的麻煩。

T2
AI 研究:蒸餾遺傳缺陷與多智能體記憶

本文整理了近期四項 AI 研究亮點。第一,AI 模型「蒸餾」(distillation,指把一個龐大的 AI 模型壓縮成更小、更快版本的技術,就像把百科全書濃縮成手冊)並不像想像中那麼「乾淨」——研究發現,原始模型的奇怪行為,例如對日期的誤判、某些敏感傾向,會像「遺傳特質」一樣被小模型繼承,很難過濾掉。第二,有研究提出多智能體系統(multi-agent system,就是讓多個 AI 協作完成任務的架構)中的記憶管理不應集中共用,而應讓每個 AI 各自維護獨立記憶(稱為 DecentMem),聲稱可讓準確率提升 23.8%、同時減少 49% 的 token(token 是 AI 讀寫文字時計算費用和運算量的單位)消耗。第三,研究顯示 AI 模型若「知道」評測題目的設計邏輯,就能讓自己在安全性測試中看起來表現更好,但這不代表它真的更安全——這讓 AI 安全評估的可信度受到質疑。第四,訓練技術層面,研究者持續討論 SFT(監督式微調,讓 AI 模仿正確範例)、RL(強化學習,透過獎懲讓 AI 自我改進)與各種最佳化技巧的優劣,on-policy 資料(讓模型邊生成邊學習自己產生的資料)被視為訓練效果的核心要素。

假設你是一家公司的工程師,計劃用「蒸餾」技術把花重金訓練的大型 AI 客服模型壓縮成輕量版,部署在手機 App 上。你原本以為蒸餾只是「縮小體積、保留能力」,有點功能損耗是可接受的。但這項研究警告:原始模型若有某些奇怪行為——例如對時間點的誤判(以為現在是 2023 年)、或某些邊緣情境下的異常回應模式——這些「壞習慣」很可能一起被壓縮進小模型,而且很難靠後處理過濾。舊做法是「蒸餾完再測測看有沒有問題」;新的提醒是「蒸餾前就要先全面排查原始模型的所有異常行為,否則缺陷一起遺傳,之後再處理代價更高」。這對任何打算用蒸餾技術縮減 AI 部署成本的團隊來說,是一個必須提前納入流程的風險評估點。

T2
Salesforce 36 億美元收購 AI 客服平臺 Fin

Salesforce(全球最大企業雲端軟體公司之一,旗下有廣為人知的業務管理及 CRM 軟體)以 36 億美元(約新臺幣 1,170 億元)收購了 Fin——一個能用 AI(人工智慧)自動回覆客戶問題的客服平臺。Fin 原本是客服工具 Intercom 旗下的品牌,可透過即時聊天、WhatsApp、SMS、電話和 Slack 等多種管道,自動處理客戶詢問,大幅減少對真人客服的依賴。Salesforce 收購 Fin 的目的,是將其技術與團隊整合到 Agentforce 平臺——Agentforce 是 Salesforce 推出讓企業自行設計、部署「AI 代理人」(可自動執行各種業務任務的 AI 機器人)的工具,目前已被不少企業用來自動化客戶服務與銷售流程。Fin 創辦人 Eoghan McCabe 表示收購後仍將繼續擔任 CEO,研發團隊維持不變,現有客戶服務不會中斷;交易預計在 2027 會計年度第四季正式完成。

假設我是一家電商公司的 IT 負責人,目前用 Fin 做線上客服,每天有數千筆訂單查詢、退換貨申請和配送問題湧入。舊做法是:Fin 的 AI 處理基本問題,複雜情況再轉給真人客服;但這套系統和 Salesforce 的 CRM(客戶資料管理系統,用來集中存放客戶歷史紀錄、訂單資料)彼此獨立,需要手動同步資料再操作。整合進 Agentforce 之後,AI 代理人可以直接讀取 Salesforce 裡的完整客戶資料,自動完成更複雜的任務——例如直接幫客戶啟動退貨流程、更新收件地址、追蹤物流狀態——而不只是回答基本問題。整個客服流程從「客服查資料 → 手動操作 → 回覆客戶」縮短為「AI 自動查、自動做、自動回覆」,真人客服只需介入最例外的情況,整體效率大幅提升。

T2
衛星首搭 AI 在軌自主辨識地面目標

2026 年 4 月,史上第一次有一顆在軌運行的衛星,完全靠自己的「眼睛」找到了它要找的東西,不需要把資料傳回地球讓人分析。這顆名為 YAM-9 的衛星,搭載了 NASA 噴氣推進實驗室(JPL,美國航太總署旗下頂尖研究機構)開發的 NAVI-Orbital 軟體套件,以及 Google DeepMind 的 Gemma 3 視覺語言模型(VLM,一種能「看懂圖片內容」並理解自然語言指令的 AI)。過去,衛星只是被動拍照、把大量影像傳回地球,再由地面人員或電腦慢慢篩選分析;現在這套系統讓衛星直接在太空中處理影像,根據人類用普通語句下達的指令,自行判斷哪些區域值得關注,大幅減少需要傳輸與分析的資料量。這項突破驗證了在軌部署 AI 的可行性,被視為衛星遙感(用衛星從遠處觀測地球表面)產業從「被動蒐集資料」走向「主動智慧偵測」的重要里程碑。

假設我是一位環境監察員,想用衛星追蹤某地區「人類建設侵入自然保護區邊界」的狀況。以前的做法是:衛星每天把拍到的大量影像傳回地面,工程師再花時間跑程式或人工比對,找出有無新建工程、道路延伸到自然區,整個流程可能要等好幾個小時甚至數天。現在用 YAM-9 加上 NAVI-Orbital,可以直接用自然語言下指令,例如「找出自然林地與人工開發區交界出現新建設的區域」,衛星在軌道上就能自己掃描影像、辨識出感興趣的位置,只把「有問題的區塊」傳回地面。傳輸量大幅下降,反應速度也快得多,甚至可做到近乎即時的邊界巡邏或基礎設施變化監控——這些在舊架構下都要額外等待數小時的地面分析才能完成。

T2
Claude Fable 訓練機制逆向解析

研究者 Rafa Schwinger 試圖「逆向工程」Anthropic(開發 Claude 系列 AI 的公司)旗下新模型 Mythos 與 Fable 的訓練原理。他的核心論點是:真正的競爭護城河不在於模型架構(神經網路的設計結構),而在於「環境鑄造廠」(environment foundry)——也就是能持續生產可驗證訓練信號的基礎設施能力。他把模型能力拆解為「基礎預訓練結果」乘以「可分級的學習信號品質」,並指出在文字資料與算力(GPU 運算資源)已不再稀缺的今天,「可驗證獎勵」(verifiable reward,即訓練過程中 AI 能被客觀、自動核查對錯的回饋)才是真正稀缺的決定性資源。訓練配方包含:密集預訓練、GRPO 式強化學習(一種讓 AI 靠驗證器打分來自我迭代改進的技術,類似讓 AI 反覆考試、每次自動改卷)、長程過程獎勵,以及獨特的「情境折疊」(context-folding)——一種讓模型只用 32K 有效記憶窗口就能超越百萬 token(AI 每次能讀取的文字上限)長視窗模型效果的壓縮技術,最後還有 best-of-N 測試時算力(讓 AI 同時生成多個答案再挑最好的,可調節投入「努力程度」)。

假設你是一位軟體工程師,想訓練一個 AI 助手來自動寫程式碼並驗證正確性。根據這篇分析,傳統做法是蒐集大量程式碼文字讓 AI 學習,但現在這類資料已不稀缺。真正難的是建立一套「自動化環境」:讓 AI 寫出的程式可以自動執行測試、得到客觀的對錯回饋(例如跑單元測試通過就加分、出錯就扣分),這就是「可驗證獎勵」的核心。Claude Fable 的訓練走的就是這條路——靠 GRPO 強化學習讓模型反覆嘗試、被驗證器自動打分、再自我修正,而非依靠人工逐條標注。情境折疊技術則讓模型在只維持約 32,000 個詞的有效記憶下,有效處理遠超以前長度的長任務,比需要百萬 token 超長視窗的競品方案效率更高、成本更低。對比舊做法:以前訓練這種模型需要人類大量標注、打分,費時費力且難以規模化;新方式靠可自動驗證的環境持續生產訓練信號,能以低邊際成本快速擴張訓練規模。

T2
MiniMax 稀疏注意力降算力 30 倍

MiniMax(一家中國 AI 公司)推出了名為 MiniMax Sparse Attention(MSA,稀疏注意力)的全新架構,開源在 GitHub 上供大家使用。所謂「注意力機制」(Attention),是現代 AI 語言模型的核心計算方式——AI 在讀一段文字時,會讓每個字跟其他所有字互相比較、判斷彼此的關聯程度,才能理解整段文意。但這種做法有個致命缺點:文字越長,計算量以平方速度暴增,處理 100 萬個 Token(Token 是 AI 切分文字的最小單位,約等於半個中文字或一個英文單字)時計算量極為驚人。MSA 的解法是「群組 Top-k 區塊選取」——把長文切成一塊一塊,每一塊只挑出最重要的幾塊互相計算,跳過不重要的部分,大幅減少無謂運算。實驗在一個 1090 億參數(參數量代表模型規模,數字越大通常越強)的多模態模型(可同時理解文字與圖片的 AI)上驗證:在處理 100 萬 Token 的超長文本時,注意力計算量減少約 30 倍,但模型品質幾乎與原始完整計算持平。這對想要支援超長文本的 AI 服務來說,意味著硬體成本和回應速度都能大幅改善。

假設你是一家律師事務所的工程師,想讓 AI 自動審閱一份長達數千頁的合約集,總字數超過 100 萬 Token(大約等於三本《哈利波特》全集)。用傳統完整注意力機制,AI 每次分析都要讓文中每個字跟其他每個字互相計算,算到一半可能記憶體就爆了,或得切分成多個片段分批處理,導致 AI 看不見前後段的關聯,容易漏掉跨段落的矛盾條款。換用 MSA 架構:AI 一次就能把整份 100 萬 Token 的合約塞進記憶體,運算時只針對「最可能相關」的段落群組做比對,計算量降到原來的 1/30。原本需要花費的 GPU(AI 專用運算晶片)資源與時間大幅縮短,同時 AI 能看見完整文件脈絡,找出分散在第 3 頁和第 897 頁之間互相衝突的條款——這是分批處理做不到的事。

T2
Nadella 提 AI 雙資本學習論

微軟執行長 Satya Nadella 在社群平臺 X(就是以前的推特)發表了一篇長文,累積超過 2800 萬次瀏覽,主題是企業應如何在 AI 時代建立持久的競爭優勢。他提出,未來企業需要同時累積兩種資本:一是「人力資本」(Human Capital,也就是員工的專業知識、判斷力、人際關係和長期積累的經驗),二是「Token 資本」(Token Capital,Token 是 AI 模型處理語言時的基本計算單位,這裡代指企業自建、自控的 AI 能力)。Nadella 的核心主張是:光是挑選市面上最好的 AI 模型遠遠不夠,企業必須建立一套「學習迴圈(AI 與人持續互相強化的反饋機制)」,讓人與 AI 的能力不斷相互加成、持續複利成長。他也反駁了「AI 會讓員工變得不重要」的恐懼,強調人力資本不但不會隨著 AI 進步而貶值,反而會越來越珍貴,因為設定目標、跨領域連結和識別關鍵模式,仍然需要人類主導。此外,他警告:若企業只依賴少數幾個通用 AI 模型而不自建系統,等於把企業多年累積的知識與洞見拱手讓給模型供應商,如同當年全球化浪潮中將製造業整批外包、最終導致產業空洞化的悲劇重演。

假設你是一家金融公司的主管,打算用 AI 來協助客服處理理財諮詢問題。按照傳統做法,你可能只需直接接入一套市售的通用 AI 問答模型,叫它照著說明書回答客戶就好。但按照 Nadella 的雙資本框架,這樣做有個致命缺點:每次 AI 答錯或判斷模糊時,客服人員雖然會出手修正,但這些修正經驗卻留在第三方供應商的伺服器裡,你的公司得不到任何學習成果。正確做法是建立自己的「學習迴圈」——讓客服人員(人力資本)的每一次修正,都回頭更新或微調公司自有的 AI 系統(Token 資本)。幾個月後,這套系統就會記住你們公司特有的金融產品邏輯、常見客戶問題模式以及合規邊界,形成競爭對手難以複製的知識護城河;若只租用通用模型、不建學習迴圈,那幾個月累積的所有對話洞察便白白流失。

T2
Microsoft Build 2026 AI 安全功能大更新

微軟在 Build 2026 開發者大會上發布了一系列專門保護 AI 開發流程的安全新工具,涵蓋「程式碼安全」、「代理人(Agent,就是能自主完成任務的 AI 程式)安全」、「資料保護」和「模型安全」四大方向。其中最受矚目的是 MDASH(多模型代理掃描系統),它整合超過 100 個專業 AI 代理人協同作業,在 CyberGym 安全基準測試中拿下 96.55% 的高分,三週內提升約 10%。另一項亮點是「Agent 365 SDK」正式上線,讓開發者在打造自己的 AI 代理人時,可以直接在工作流程裡加入可觀測性(就是追蹤 AI 在做什麼)、存取控制和合規機制。微軟強調這些功能都嵌入開發者現有的工具(如 GitHub、Copilot Studio、Azure Foundry)裡,不需要在「快速開發」和「安全防護」之間二選一。

假設我是一家公司的工程師,正在用 GitHub 開發一個讓 AI 代理人自動處理客戶訂單的應用程式。以往在上線前,我要手動掃描程式碼有沒有安全漏洞,費時又容易漏網。現在有了 MDASH,它會自動派出數十個 AI 代理人同時檢查程式碼,找到漏洞後 GitHub Copilot Autofix 還會自動產生修復建議並驗證修復是否有效,我只需審核結果即可。同時,透過 Defender AI Model Scanning(模型掃描工具),我在把外部 AI 模型部署進系統之前,可以自動偵測這個模型有沒有被植入惡意內容或遭到竄改,確保上線的模型是乾淨的版本——這是以前完全沒有的防護層。

T2
Microsoft 全面強化 AI 開發安全

Microsoft 在 2026 年的 Build 開發者大會上,宣佈了一系列針對 AI 開發流程的全新安全工具,涵蓋程式碼、AI 代理人(AI agent,就是能自主執行任務的 AI 程式,例如自動回信、自動訂票的機器人)、以及 AI 模型(model,就是 ChatGPT 這類 AI 的核心運算引擎)三大面向。其中最引人注目的是 MDASH,這是一個能同時協調超過 100 個專門 AI 代理人的掃描系統,專門用來找出程式碼中真正有危險的漏洞,而不是那些不重要的誤報雜訊,目前在業界安全基準測試(CyberGym)上拿到 96.55% 的高分,且三週內進步了約 10%。針對 AI 代理人的管理,Microsoft 推出了 Agent 365 SDK(一套開發工具包,讓工程師能快速打造具備安全機制的 AI 代理人應用),讓開發者在建置 AI 代理人時,能自動把安全監控、存取控制、法規遵循等功能整合進來,不需要另外單獨處理。此外,新的 Defender AI Model Scanning 功能可在模型上架或部署前先掃描是否有被竄改或潛在漏洞,而 Microsoft Purview 代理人保護(預覽版)也加入即時提示詞防護,可攔截企圖操控 AI 代理人的惡意指令。

我的開發團隊用 GitHub Copilot(微軟旗下的 AI 程式碼助理)寫了一個能自動回覆客服信件的 AI 代理人,並部署在公司內部。以前,我需要另外採購第三方資安掃描工具手動檢查程式碼漏洞;AI 代理人能存取哪些公司資料、有沒有被植入惡意指令,也只能靠人工不定期審查,幾乎看不到完整的活動記錄。現在,Microsoft Purview 的代理人保護功能會即時監控這個 AI 代理人的行為——若有人試圖透過「提示詞注入攻擊」(prompt injection,就是在輸入給 AI 的文字裡偷藏指令,讓 AI 做出不該做的事,例如把機密資料傳給外部)來操控它,系統會立刻警告並阻擋。同時,MDASH 在每次 CI/CD(持續整合/部署,就是每次更新程式碼時自動跑一遍測試與部署的流程)時自動掃描,找到可利用漏洞後直接透過 GitHub Copilot Autofix 給出具體修復建議,整個流程不需要工程師手動操作。對比舊做法,從發現漏洞到完成修復的時間大幅縮短,且不需額外採購資安工具——安全防護已直接嵌入日常開發流程。

T2
Ponytail 讓 AI 精簡程式碼

Ponytail 是一個可以安裝在 AI 編程工具上的外掛(plugin,就是幫主程式加功能的小模組),核心理念是「懶,但不草率」——讓 AI 在動手寫程式碼之前先想「這段程式碼有沒有必要存在?」。它內建一套六步驟決策規則,強迫 AI 優先使用瀏覽器原生功能、標準函式庫或專案裡已有的套件(就是別人寫好的現成程式庫),而不是重新造輪子。根據作者在三種 Claude AI 模型(Haiku、Sonnet、Opus)上做的基準測試(benchmark,用標準化題目衡量 AI 表現的實驗),Ponytail 能讓 AI 寫出少 80–94% 的程式碼、速度快 3–6 倍、Token 費用(使用 AI 的計費單位)省 47–77%。目前它支援超過 13 種 AI 編程工具,包括 Claude Code、GitHub Copilot CLI、Gemini CLI、Cursor、Windsurf、Kiro 等主流平臺,且在 GitHub 上已獲得超過 17,000 顆星,顯示社群接受度極高。

假設我要請 AI 幫我加一個「日期選擇器」輸入欄位。沒裝 Ponytail 的 AI 會幫你安裝 flatpickr 這類第三方套件、另寫一個包裝元件、加上 CSS 樣式表,還可能開始討論時區問題,最後生出幾十行程式碼。裝了 Ponytail 後,AI 會先走過六步決策:「瀏覽器本身有沒有?」——有,HTML 原生就支援 ,一行標記(HTML tag)就搞定,連套件都不用裝。Ponytail 還會在那一行旁邊自動加上 ponytail: 註解,說明若日後真的需要更複雜功能時該往哪裡升級。相比之下,舊做法不只多花 AI Token 費用,還引入了第三方相依性(就是讓你的專案依賴別人維護的程式庫),增加未來維護風險;新做法省時、省錢,且維護負擔幾乎為零。

T2
Omnigent 開源多 Agent 協作管控框架

Omnigent 是 Databricks(一家專注資料與 AI 平臺的公司)推出的開源「元框架(meta-harness,意思是在各種 AI 工具上層再加一層統一管理介面)」,讓你同時驅動多個 AI 代理(agent,就是能自動執行任務的 AI 助手,例如 Claude Code、Codex 等)而無需個別設定每套工具。它的核心功能分四塊:「組合」——把不同廠商的 AI 代理串接在一起,只需改一行設定就能切換;「管控」——可設定動態安全規則,例如「每花費 100 美元暫停並等待人工確認」、或「下載外部套件後若要推送程式碼須先審核」;「即時協作」——隊友可直接在 web / 手機 / 桌面應用介面觀看 AI 操作過程、留言甚至即時送出追加指令;「跨平臺存取」——同一個 AI 工作階段可透過 web、手機 App、API 同步操控。Omnigent 讓多 agent 協作不再需要寫多套設定,安全政策也從靜態的允許/拒絕清單升級為能感知上下文的動態規則。

假設你的後端團隊同時在用 Claude Code(Anthropic 的程式輔助 AI)和 Codex(OpenAI 的程式 AI),不同成員偏好不同工具,以前要各自建環境、無法共享工作記錄,費用超支也只能事後才知道。接上 Omnigent 之後:把兩個 AI 代理都連上 Omnigent 伺服器,切換工具只需改一行設定;設定「消費達到 100 美元前暫停並通知我」,避免 AI 自動大量操作而爆預算;後端工程師讓 Claude Code 跑自動修 bug 的同時,前端同事可在 Omnigent web 介面即時觀看過程,並直接送出追加指令;一旦 AI 在下載外部套件後嘗試執行 git push(推送程式碼),Omnigent 會攔截並要求人工審核,而不是讓 AI 直接推上去。相比舊做法,管兩套 AI 工具要寫兩份設定、兩套監控邏輯,現在一層 Omnigent 全部統一處理,切換工具也不會中斷進行中的工作流程。

T3
T3
本地推論工具論戰 Ollama 能棄用嗎

Ollama(一款讓普通電腦也能在本機直接跑 AI 模型、不需連接網路或雲端的免費工具)最近在 AI 社群引發大辯論。起因是一篇文章《Why You Should Completely Avoid Ollama in 2026》具體列出三大指控:Ollama 曾把縮水版 AI 模型標成完整版(誤導使用者對 AI 能力的評估);預設「記憶長度」只有 4,096 個 token(就是 AI 一次能讀取的文字量上限,約 3,000 個中文字),遠低於現代模型實際可支援的 12 萬 8 千個 token;以及採用私有模型儲存格式,日後若想換其他工具,遷移成本較高。這場論戰同時將三款主流本地推論工具攤開比較:Ollama(最易上手)、LM Studio(圖形介面最精美,但不開放原始碼)、以及 llama.cpp(三者共同的底層引擎,最透明、對新模型的支援速度最快)。關鍵發現是:三個工具底層都跑 llama.cpp,純執行速度差距只有 5 到 10%,真正的差別在「使用體驗」,而非效能本身。另一個重要背景是,AI 模型開源平臺龍頭 Hugging Face 已於 2026 年 3 月宣佈旗下的 TGI(Text Generation Inference,一種讓 AI 模型能快速處理請求的服務框架)進入「只維護不開發」模式,官方轉而推薦 vLLM 和 llama.cpp,讓本地推論工具的生態系版圖加速移動。反方陣營則指出論戰本身的邏輯矛盾:若在乎開源精神,LM Studio 才是閉源的那個,批評 Ollama 卻推薦 LM Studio,方向搞反了;而部分社群成員也認為這場論戰本質上是部落主義,三者效能差距在個人使用場景幾乎感知不到。

假設你是開發者,想在自己電腦上跑 Llama 3.3 70B(一款開源大型語言模型(就是類似 ChatGPT 的對話式 AI))來分析一份 1 萬字的長篇合約。你用 Ollama 把模型跑起來,丟進合約請它摘要,卻發現 AI 在分析到一半時就開始「失憶」——前面看過的條款忘了,分析品質明顯下降。問題出在 Ollama 的預設記憶長度只有 4,096 個 token(約 3,000 中文字),但 Llama 3.3 70B 本身其實可以處理到 128,000 個 token(約 9.6 萬字)——你等於只用到模型 3% 的記憶能力。修法是手動加上環境變數 OLLAMA_CONTEXT_LENGTH=32768,就能突破這個隱藏上限,讓模型發揮完整能力。相比之下,若直接改用 llama.cpp 的命令列介面,就不會有這個隱藏預設值的問題,你設定多少就用多少;代價是需要自己打指令,沒有 Ollama 那種一鍵啟動的圖形介面。結論是:Ollama 仍是新手最快上手的選項,但務必手動調高記憶長度;追求透明度或要跑最新多模態模型(例如支援音訊輸入的 Gemma 4)的進階使用者,llama.cpp 是更穩健的選擇;高並發生產場景則應評估 vLLM 或 ik_llama.cpp。

T3
手搖 AI 裝置揭示推論能源代價

CrankGPT(正式名稱 HandCrank)是一套用手搖緊急充電器供電的 Raspberry Pi 5(一種大約信用卡大小的迷你電腦)系統,可以在完全斷網、不插電的狀態下執行本地語言模型(就是像 ChatGPT 那樣的對話式 AI),並支援即時語音對話。整套系統的功耗只有 15W,大概跟一顆 LED 閱讀燈差不多,涵蓋語音辨識、AI 推論(AI 思考並生成回答的過程)、語音合成三個環節,從開始搖手把到可以講話大約只需 30 秒。這個裝置使用了 Q4_K_M 量化模型(量化就是把 AI 模型壓縮變小,讓它能在效能較弱的硬體上運行,代價是輸出品質稍微下降,但日常對話幾乎察覺不出來)。這個實驗的核心意義不在技術本身,而是讓人「用身體感受」AI 的能源代價——當電力來自你搖動的手臂而非牆上的插座,每一句 AI 回答背後耗掉的能量就從抽象數字變成真實的肌肉痠痛。專案在 Hacker News(矽谷工程師常用的技術討論社群)獲得 548 分和 218 則留言的熱烈討論,反映出技術社群對 AI 耗電議題的高度焦慮。

假設你是開發人員,需要在無網路的偏遠場景部署語音 AI 助理,例如山區救災站、離網農業設備或博物館的離線導覽機。以前的做法是把語音上傳到雲端 API(就是把聲音傳到 Google、OpenAI 等公司的遠端伺服器去處理),不只需要穩定網路,每次呼叫都有費用,且使用者說的話會傳出去。現在根據 HandCrank 的公開技術文件,只需一顆約 80 美元的 Raspberry Pi 5,搭配 LFM2 350M 的量化模型,就能在完全離線、15W 功耗下達到每秒約 49 個詞元(token,AI 生成文字的基本單位,大約等於半個英文單字)的生成速度——對簡單問答和語音導覽已完全足夠。比起雲端方案,省去網路依賴與 API 費用,敏感對話也不會外傳;代價是 AI 能力比大型模型弱,複雜問題回答品質有限。這份功耗基準數據(語音辨識 8W、整體推論 15W)對所有在做邊緣 AI 部署的開發者都有直接參考價值。

T3
OpenAI 推出 1.5 億美元夥伴網絡

OpenAI(就是開發 ChatGPT 的 AI 公司)宣佈推出「Partner Network(夥伴網絡)」計畫,投入 1.5 億美元,整合顧問公司(如麥肯錫、BCG、埃森哲)與金融機構(如高盛、軟銀)等合作夥伴,協助企業大規模導入 AI。這個計畫有三個核心機制:一是合作夥伴能取得 OpenAI 的技術資源與產品路線圖洞察;二是派遣 FDE(Forward Deployed Engineers,直接進駐企業現場的 AI 工程師)協助企業從識別應用場景到系統上線的完整流程;三是透過 Frontier 平臺(OpenAI 的企業整合工具)串接企業現有的 CRM(客戶關係管理系統)、資料倉儲、票務工具等,並配備完整的權限管理機制。目前企業客戶已佔 OpenAI 總營收的 40% 以上,預計 2026 年底與消費者業務規模並駕齊驅。對開發者來說,這意味著 AI 整合已不再只是呼叫 API(應用程式介面,讓不同軟體互相溝通的管道),而是走向系統層級的深度綁定,日後若要切換 AI 供應商的遷移成本將大幅提高。

假設你是一家有 500 人的製造業公司的 IT 主管,想把 AI 導入客服與訂單管理流程。過去你只能自行聘工程師呼叫 OpenAI 的 API,自己摸索如何與既有的 CRM 系統串接,出問題也得自行排查。現在透過 Partner Network,OpenAI 的合作夥伴(例如埃森哲)可先幫你評估哪些流程最值得 AI 化,再由 FDE 工程師直接進駐你公司,用 Frontier 平臺把 AI 功能嵌入你既有的 Salesforce(銷售管理軟體)與 ServiceNow(客服工單系統),並設定好權限管理確保資料安全——整個過程從規劃到落地都有人顧。相較於以前從零開始自行整合,現在有一條完整的「交鑰匙」服務鏈,省去大量摸索時間。代價則是:一旦透過 Frontier 平臺深度整合,未來若想改用其他 AI 供應商(如 Google 或 Anthropic),遷移成本將非常高,等於在技術架構上被 OpenAI 生態系深度綁定,技術選型時必須審慎評估長期影響。

T3
AudioX-Turbo 音訊生成速提 25 倍

AudioX-Turbo 是由 Noiz AI 聯合香港科技大學和清華大學共同推出的開源音訊生成模型(就是一種能把文字描述、圖片或影片畫面自動轉成音效或音樂的 AI 程式)。它採用一種叫做「蒸餾」的技術(讓輕量的小模型去學習大模型的輸出規律,在大幅縮短計算時間的同時維持輸出品質),把原本需要 50 到 200 步才能完成的音訊生成過程壓縮到僅需 4 步,計算量減少約 25 倍。在一張 RTX 4090 顯示卡(目前消費者能買到的高階 GPU,就是顯示卡,主要用於 AI 計算和遊戲)上,只需 0.24 秒就能生成 10 秒長的音訊,速度驚人且部分品質指標甚至超越原本需要 100 步才能跑完的教師模型。模型支援文字、圖片、影片等多種輸入方式,並可根據時間標記(時間戳)精確控制音效在哪個時間點出現,已在 HuggingFace 和 GitHub 公開下載,原版 AudioX 論文已獲 ICLR 2026(全球頂尖機器學習學術會議)接受,Turbo 版授權為 CC-BY-NC 4.0(僅限非商業用途)。

假設你是一位短影音內容創作者,剪了一段 10 秒的城市街頭縮時攝影片段,想配上符合畫面節奏的環境音效(如人群聲、交通噪音與背景音樂過渡)。以前你需要打開音效素材庫逐一試聽、剪輯到對應時間點,通常要花 15~30 分鐘甚至更長;現在用 AudioX-Turbo,你可以把影片直接上傳模型,用文字說明「第 0 秒城市街頭環境音,第 5 秒漸入輕快背景音樂」,模型能理解時間戳指令,0.24 秒後你就能拿到一段和畫面時序精準對齊的 10 秒音效。若你需要批量處理一百支類似短片,由於模型推論成本極低(RTF = 0.02,代表生成 1 秒音訊只需 0.02 秒的計算時間),雲端推論費用也大幅下降,整批處理可能只需幾分鐘,相比人工挑音效省下大量時間和金錢。需注意:CC-BY-NC 授權不允許商業發行,商業場景需另行與 Noiz AI 洽談授權。

T3
Pokémon Go 掃描資料流入軍用無人機 AI

這是一個 AI 訓練資料在玩家不知情下被挪作軍事用途的真實案例。Pokémon Go(精靈寶可夢 Go,一款讓玩家在真實街道上捕捉虛擬怪物的手機遊戲)的開發商 Niantic,從 2021 年起以遊戲內獎勵鼓勵玩家拍攝街道與地標,累積了約 300 億筆 3D 環境掃描資料。這些資料被用來訓練 VPS(Visual Positioning System,視覺定位系統——一種靠攝影機畫面辨識周遭環境特徵來判斷位置的 AI 技術,即使 GPS 被幹擾也能運作,不像傳統 GPS 容易被電磁訊號欺騙)。2025 年底,Niantic Spatial 將這套 AI 技術授權給美國國防情報公司 Vantor,整合進無人機(無人駕駛飛行器)導航軟體,定位精度誤差降低 70%,約達 1.5 公尺。2026 年 2 月,Vantor 進一步拿下美國陸軍最高 2.17 億美元合約。玩家始終未被告知自己拍的街景資料可能流入軍事系統,引發資料授權邊界的重大爭議。

假設你是一位 App 開發者,設計了一個「拍攝周遭環境即可獲得遊戲獎勵」的功能,服務條款只寫「收集資料用於改善遊戲體驗」。幾年後,公司的 AI 部門把這批影像資料授權給第三方國防承包商,用來訓練軍用無人機的視覺導航模型——從法律上說,「改善體驗」的模糊措辭未必能阻止此類授權。Pokémon Go 的真實情況正是如此:玩家掃描的 300 億筆街景,訓練出能在 GPS 失效戰場上精準定位的 AI;舊做法仰賴 GPS 的無人機在受電磁幹擾的戰場幾乎失效,而整合 VPS 的新系統靠視覺辨識環境,難以被幹擾壓制。差異就是:一個 GPS 被壓就迷路,一個靠「看」環境依然知道自己在哪。這個案例直接警示所有收集用戶生成資料的開發者:服務條款必須明確列出資料的所有可能用途(包括轉售與次級授權),否則模型一旦訓練完成便難以撤回,法律責任與用戶信任危機都可能接踵而至。

T3
Google Cloud OKF 統一 AI Agent 知識庫格式

Google Cloud 於 2026 年 6 月 13 日發布「開放知識格式」(Open Knowledge Format,簡稱 OKF)v0.1,這是一套讓 AI 代理程式(agent,就是能自動完成任務的 AI 軟體)直接讀懂企業內部文件的開放標準。目前企業的知識往往散落在各種 wiki、資料庫與說明文件中,每個要打造 AI 助理的開發者都得自己設計「如何讓 AI 讀懂這些東西」,非常耗時且無法共用成果。OKF 提供統一格式:把文件整理成帶有簡短描述標籤的 Markdown 純文字檔(Markdown 就是一種加了標題、粗體、超連結的純文字格式,YAML frontmatter 則是檔案開頭用 --- 包住、像 type: 資料表 這樣的機器可讀標記),整個資料夾就是一個知識庫,任何 AI 代理程式都能直接取用,不必為每個 AI 平臺重新整理。Google Cloud 同步開源了自動草擬文件的工具與三套範例資料集(GA4 電商、Stack Overflow、比特幣公開資料),原始碼公開於 GitHub,且整個規格只強制要求一個欄位(type),其餘皆為選填,設計極為輕量。

假設你是電商公司的工程師,想讓 AI 助理能回答「上個月哪個品類的退貨率最高?」這類問題。傳統做法是:你得把資料庫欄位說明、商業規則文件、部門自訂詞彙表一一轉換成 AI 看得懂的格式,每換一個 AI 平臺就可能要重來,可能耗時數週甚至數月。使用 OKF 後,你只需在 Git 資料夾(工程師常用的版本管理工具,可以追蹤每次修改記錄)裡建立 Markdown 文件,每個檔案代表一個概念(例如「退貨率」、「品類分類」),開頭幾行加上 type 標籤說明它是什麼類型的資料,然後用 Markdown 超連結把相關概念串起來——AI 順著連結就能跨概念查詢,自動形成知識圖,不需要另建圖資料庫。Google Cloud 提供的 BigQuery(谷歌雲端的資料倉儲服務)自動整理工具甚至能幫你草擬這些文件。之後不管換哪家 AI 平臺(OpenAI、Anthropic 或其他),都能直接讀取同一份知識庫,不必重做。

T3
Novu Connect AI Agent 跨頻道通訊

Novu Connect 是一個專為 AI Agent(就是能自動執行任務、做決策的 AI 程式)設計的「多頻道通訊基礎設施」。簡單說,當你的 AI Agent 需要通知使用者、詢問審批意見或回報進度時,不再需要分別串接 Slack、Email、WhatsApp 等不同平臺——Novu Connect 統一幫你接管所有頻道的收發工作。最特別的是它保有「跨頻道對話記憶」:使用者從 Slack 發起的對話,切換到 Email 繼續回覆,AI 仍然記得完整的對話歷史,不會像一般聊天機器人一樣「失憶」從頭開始。這個工具完全開源(程式碼公開、任何人可檢視或修改),每月有一萬次免費事件額度,並通過 SOC 2、HIPAA(美國醫療資料安全標準)、ISO 27001 等資安認證,適合在有法規遵循需求的醫療、金融等產業中部署。目前支援 Claude Managed Agents、AI SDK、LangGraph(這些都是常見的 AI Agent 開發框架,就是工程師用來建構 AI 自動化系統的工具包)或自訂的開發架構。

假設你開發了一個負責處理員工請假申請的 AI Agent。傳統做法是:你要分別對接 Slack API(程式介面,讓 Agent 能發訊息給主管)、SMTP 郵件伺服器(發送確認信)、SMS 簡訊服務(發手機提醒),每個頻道都要自己寫程式維護,而且如果主管先在 Slack 問了問題、之後改用 Email 回覆,Agent 根本不知道這是同一段對話,只能從頭詢問一遍。改用 Novu Connect 的做法是:執行一行指令 `npx novu connect` 完成啟動,只需設定一次工作流程,Novu 自動幫你橋接 Slack、Email、Teams、WhatsApp 等所有頻道;主管無論從哪個管道回覆,Agent 都能看到完整的對話脈絡並繼續處理,不必重複確認細節。相比舊做法要維護多套整合程式,Novu 讓工程師只需專注在 Agent 本身的邏輯,通訊層的複雜度大幅降低。

T3
世航智能海洋具身AI刷新全球最大融資

中國新創公司「世航智能」於 2026 年 6 月完成超過 10 億人民幣的 A 輪融資,創下全球海洋機器人領域史上最大單輪融資紀錄,吸引超過 50 家機構入場,同期訂單也突破 10 億元。他們的核心是「具身大模型(就是把 AI 的決策能力嵌入實體機器人,讓機器人能感知真實環境、自己控制身體完成任務,而不只是在電腦裡跑運算)」,專為水下環境設計。這套名為「滄穹 CEORION」的 AI 模型採用統一端到端架構(意即從感知到行動的完整流程由同一套系統負責,不需拆成多個獨立模組),涵蓋水下 12 大任務類別,任務成功率與精細抓取定位成功率均超過 90%,零樣本適應率(就是碰到從未見過的新情境、無需重新訓練就能直接上手的能力)超過 70%,碰撞事故率較舊系統降低 80%。旗艦產品「虎鯨機器人」可在 0 至 10,000 公尺全海深環境作業,已完成超過千艘大型船舶的養護任務,應用於船舶清洗、海洋風電運維、海底巡檢等場景。

一艘大型貨輪靠港時,船殼外壁附著了大量貝類與藻類(這些生物汙染會使船隻油耗增加約 10–15%)。傳統做法是派遣潛水人員下水清洗,耗時耗力且存在人身安全風險。換用虎鯨機器人搭載 CEORION 模型後,機器人入水後能自動辨識船殼材質與汙染狀況——即使遇到從沒訓練過的新型船殼,也能憑零樣本適應能力直接判斷並制定清洗策略,精細定位抓取成功率超過 90%,並在完全沒有 GPS 訊號的深水環境靠自建導航系統定位,碰撞失誤率比舊方案低 80%。原本需要安排潛水隊花費數天完成的任務,機器人在更短時間、零人員風險的條件下完成,全程幾乎不需岸上密集幹預。對比舊做法:過去每次清洗都需要人力安全管控、潛水裝備與天候等待,現在只需部署機器人並遠端監控即可。

T3
GitHub AI 爆量微軟借 AWS 救急

GitHub(全球最大的程式碼存放平臺,工程師在上面保存和分享程式碼)因為 AI 開發工具快速普及,平臺上的程式碼提交次數(commit,就是工程師每次儲存並記錄修改的動作)從 2025 年的 10 億次,暴增到 2026 年預計的 140 億次,整整成長了 14 倍。這股由 AI 工具帶來的流量洪峰讓 GitHub 的伺服器系統不堪負荷。Microsoft(微軟,GitHub 的母公司)原本擁有自家的雲端運算服務 Azure,但 Azure 的虛擬磁碟讀寫速度(IOPS,就是每秒能完成多少次資料存取操作的指標)跟不上這種規模的需求——事實上早在 GitHub 剛被微軟收購時,GitHub 創辦人就曾指出 Azure 磁碟速度不夠快。最終微軟不得不轉向直接競爭對手亞馬遜的雲端服務 AWS(Amazon Web Services,全球最大雲端運算平臺)來分擔流量,讓自己旗下最重要的開發者平臺,尷尬地跑在對手的基礎設施上。

假設你是一名工程師,每天使用 GitHub Copilot(微軟旗下的 AI 程式碼輔助工具,能即時建議下一行程式怎麼寫)開發專案。以往你一天可能手動存檔提交 5 次;有了 AI 工具後,Copilot 會自動觸發 CI/CD 流程(Continuous Integration/Continuous Delivery,就是每次修改程式後自動執行測試和部署的機制)、呼叫依賴機器人自動更新套件、啟動程式碼審查機器人逐行掃描……每個 AI 輔助動作背後都會觸發多筆磁碟讀寫。你一天的操作可能產生 50 次以上的系統事件,遠超過去手動的 5 次。全球數千萬名 GitHub 用戶同時如此,導致磁碟讀寫量(IOPS)暴增到 Azure 無法應付,Microsoft 被迫臨時借用 AWS 基礎設施撐住服務——這就像自己開了一間餐廳,卻因為客人太多要跑去競爭對手廚房借爐子,處境相當尷尬。

T3
GitHub AI 容量危機,微軟轉投 AWS

GitHub(全球最大的程式碼存放平臺,工程師都用它來儲存和協作開發軟體)因 AI 輔助寫程式工具(就是像 GitHub Copilot 這類「AI 幫你寫程式」的功能)大量普及,平臺上的程式碼提交量(就是工程師把新寫好的程式碼上傳到平臺的動作次數)出現爆炸性成長——預計 2026 年將達到 140 億次,比 2025 年的 10 億次暴增 14 倍。GitHub 的母公司微軟雖然有自家的雲端服務 Azure,但面對如此龐大的流量,Azure 的儲存效能跟不上需求,特別是虛擬磁碟(就是雲端伺服器上模擬硬碟的元件)的讀寫速度不足。為了撐起這個容量需求,微軟被迫轉向競爭對手亞馬遜的雲端平臺 AWS(Amazon Web Services,全球最大的雲端服務平臺),顯示 AI 生成程式碼已對整個技術基礎架構帶來真實且巨大的衝擊,連大型科技公司自家的平臺都難以應付。

假設你任職於一家有 100 位工程師的公司,平常每天有 1,000 次程式碼上傳到 GitHub。公司引進 AI 程式碼生成工具後,每位工程師的產出速度提升了 10 倍,每天的上傳次數一口氣跳到 10,000 次。GitHub 的伺服器原本只設計好承接舊規模的流量,突然面對 10 倍需求,背後的儲存系統(就是用來存放所有程式碼版本的硬體和軟體設施)立刻不堪負荷。這正是 GitHub 正在發生的情況——提交量從 10 億次暴增到 140 億次,就算是微軟自家的 Azure 雲端也撐不住,只好去租用競爭對手 AWS 的資源來分擔壓力。這個案例清楚說明:AI 工具讓人類工作效率大幅提升的同時,背後用來支撐這些工作的技術基礎架構也必須等比例擴充,否則就算是微軟這種等級的公司,也一樣會被需求淹沒。

T3
AI 讓程式改寫便宜、審查變貴

這篇文章探討 LLM(就是像 ChatGPT、Claude 這類能對話、能寫程式的 AI)如何悄悄改變了軟體開發的成本結構。以前工程師寫完程式碼,同事要花大量時間做「程式碼審查」(Code Review,就是逐行檢查程式有沒有問題、有沒有多餘的功能);但現在,叫 AI 把程式碼重新改寫一遍,往往比人工仔細審查還快、還省力。原因出在 AI 的工作特性:對 AI 來說,「寫兩百行完整功能」和「寫兩行引入現成函式庫」所花的心力幾乎一樣——AI 不知道什麼叫「夠用就好」,它會把所有功能都做好做滿,結果常產生「過度設計」(功能超出需求)的程式碼。這讓審查者左右為難:花時間評估要留哪些、刪哪些,比直接讓 AI 重寫還累。作者因此調整工作方式:先讓 AI 把功能完整做出來並測試通過,之後再叫 AI「把多餘的部分拿掉」,因為用 AI 改寫幾乎不需要成本,所以「等等再精簡」反而是最省力的策略。

假設你要做一個「使用者登入功能」,你叫 AI 實作,AI 給了兩百行程式碼——除了基本登入,還包含密碼重設、兩步驟驗證(就是要再用手機簡訊確認身份)、多次失敗自動鎖定帳號等功能,但你其實只需要最基本的登入就好。舊做法:工程師花一到兩小時逐行審查,逐一決定「這段留?那段刪?」,最後精神耗盡還不一定做出乾淨的版本。新做法:先讓 AI 的完整版跑過測試,確認功能正常,再直接對 AI 說「請只保留基本登入,移除其他所有功能」,AI 幾分鐘內給你一個精簡版。結果:原本需要一兩小時的仔細審查,現在只需五分鐘的改寫指令。差異的核心在於:以前「重寫」代表工程師要重新思考、重新動手,成本很高;現在「叫 AI 重寫」幾乎免費,所以審查階段不再需要那麼嚴格,反而是「讓 AI 先做完再修」效率更高。

T3
自建 Homelab AI 開發自動化平臺

這篇文章介紹了一位開發者如何在自家的「Homelab(家用實驗室伺服器,就是把閒置電腦或迷你主機架設成伺服器,在家自己跑各種服務)」上建立一套以 AI 為核心的自動化維運平臺。作者以 OpenCode(一款開源的 AI 程式編寫工具,能理解自然語言指令並自動產生或修改程式碼)作為 AI 大腦,搭配 Forgejo(自建的 Git 版本控制服務)和 GitOps(一種把所有基礎設施設定存進 Git 倉庫、讓系統自動依倉庫狀態部署的管理方式)流程,讓 AI 協助完成例行的容器(Container,一種把應用程式和它所需執行環境一起打包的技術,讓程式在任何地方都能一致運作)更新工作。最關鍵的安全設計是:AI 只被授予推送分支的權限,完全不能直接部署到正式環境,所有變更都必須經過人工審閱並手動合併後才會生效,確保 AI 不會在未經授權的情況下影響線上服務。

假設你的 Homelab 上跑著 20 個 Docker 容器服務(例如自架的 Jellyfin 影音伺服器、Nextcloud 雲端硬碟),每隔一段時間就需要逐一把版本號更新到最新版。過去你得手動查詢每個映像檔(Image,容器的基礎模板)的最新版本、修改設定檔、測試後再部署,幾十個服務加起來動輒耗費數小時。有了這套平臺後,你只需告訴 AI「幫我把所有容器更新到最新穩定版」,AI 自動讀取目前設定、查詢最新版本資訊、修改設定檔並推送一個 PR(Pull Request,就是一張「請求合併此份修改」的申請單)到 Git 倉庫。你只需花幾分鐘審閱 PR、確認無誤後按下合併,GitOps 系統便自動把更新部署上線。整個流程從數小時壓縮至幾分鐘,人工審核這道關卡也確保 AI 不會誤改設定導致服務意外中斷。

T3
AI 輔助家用伺服器維運的 GitOps 實踐

這篇文章分享了一位開發者如何用 AI 輔助工具管理自己的 Homelab(家用實驗室,就是在自己家裡架設的各種網路服務主機,例如媒體伺服器、私有雲端、智慧家庭控制器等)。作者選用 OpenCode(一款開源的 AI 程式碼助理,類似在本地端跑 Cursor 或 Claude Code 的工具,可接多種 AI 模型)建立了一套完整的維運流程:AI 讀懂文件、撰寫設定修改、透過 GitOps(一種把所有基礎設施設定都存在 Git 版本控管裡,並在合併後自動部署的工作流程)提交審核,最後由人工批准才正式上線。整個系統運行在 TrueNAS 主機上的虛擬機內,管理多個 Docker(一種把應用程式打包成可攜帶容器的技術,方便在不同機器上快速部署)服務。AI 擁有獨立的 Git 帳號,只能推送到待審分支,無法直接修改正式部署設定,確保人工把關不被繞過。

假設我的 Homelab 上跑了幾十個 Docker 容器,某天 Jellyfin(開源媒體串流服務)發布了新版本。舊做法:手動打開發行說明、逐字讀完、手動修改 docker-compose.yml 設定檔、手動測試有無破壞性變更,整個過程可能要花半小時。新做法:在 OpenCode 的網頁介面對 AI 說「幫我升級 Jellyfin 到最新版本,先讀一下 release notes 確認有無重大變更」。AI 自動抓取發行說明摘要、修改設定檔、提交到 Forgejo(自架 Git 平臺)的一個新分支並開啟 Pull Request(程式碼審查請求)。我只需要在手機上看一眼 diff(差異比較),確認沒問題就按合併,GitOps 工具 Arcane 接手自動部署。整個流程從「讀文件到上線」,人工介入不超過五分鐘,且全程留有版本紀錄,出問題隨時可回溯。

T3
歐洲用現有算力可提前訓練前沿 AI

EuroMesh 是一個由獨立研究者發布的開源可行性分析專案,核心問題是:歐洲能否靠著自己現有的公共 AI 算力(就是政府或大學擁有的、用來做科學研究的超級電腦叢集),不依賴美國科技公司、在不新建大型資料中心的情況下,訓練出「前沿等級」的 AI 大模型(也就是和 ChatGPT、Claude 同等能力水準的大型 AI)?研究者建立了一套三層數學模型,盤點歐洲 EuroHPC(歐洲高效能運算聯盟)旗艦超算與 19 個 AI 工廠(各國政府投資的 AI 專用算力中心)的總算力,合計達數十 exaflops(exaflop 就是每秒執行 10 的 18 次方次運算,是目前頂尖超算的算力等級)。搭配 DiLoCo(分散式低通訊量訓練,一種讓分散各地的電腦協同訓練 AI、卻不需要持續高速網路互聯的技術),若把這些分散算力聯合起來,最快可在 2028 年訓練出前沿 AI,比等待全新 GW 級資料中心蓋好通電的 2033 年估計提前整整五年。報告誠實揭露了限制:DiLoCo 在超過 100 億參數的模型上尚未被實際驗證,各國算力目前也還缺乏協調機制。

假設我是一位歐盟 AI 政策顧問,需評估「建新資料中心」vs.「整合現有公共算力」哪條路更快讓歐洲擁有主權 AI 模型。使用 EuroMesh 的可重現 Python 模型(附 52 個測試),先盤點現有算力:芬蘭的 LUMI、德國的 Jupiter 等 EuroHPC 旗艦超算,加上分佈在德、法、義、芬等國的 19 個 AI 工廠,合計數十 exaflop 算力。套入 DiLoCo 聯合訓練效率折扣後,模型計算出 2028 年可累積到訓練前沿模型所需門檻。對比新建方案:一座 1GW 資料中心從申請到接通電網,七個地區的中位等待時間是 7.6 年,即使今天立刻動工也要到 2033 年。整合現有分散算力比新建大廠提前五年,且不需等待電網擴容——這份報告給政策討論提供了量化依據,幫助決策者評估「先串聯現有資源」是否比「等待新基礎設施」更務實。

T3
手搖發電機驅動 AI 推理實作

CrankGPT 是一個創客(maker,喜歡自己動手做科技裝置的玩家)專案,用一臺 20 瓦特的手搖發電機為樹莓派(Raspberry Pi,一種體積小、價格平易的迷你電腦)供電,在上面跑本地端 AI 語言模型(就是類似 ChatGPT 但完全安裝在自己設備上、不需要連網路的 AI)。這個專案的核心想法是:不靠電網、不靠雲端伺服器,純粹靠人力搖動發電機,就能讓 AI 回答你的問題。團隊面臨的最大工程挑戰是電源穩定性——樹莓派平時耗電 1.5 安培,但 AI 在推理(就是實際運算、產出答案的那一刻)時需要更多電流,若電壓突然下降就會當機;為此他們設計了一塊自製電容板(一種能短暫儲電、緩衝電流的電路零件),提供約 20 秒的電力緩衝來撐過推理高峰。這個作品也是對 AI 能源消耗問題的幽默批評——現代大型 AI 系統訓練和運行要耗費驚人的電力,CrankGPT 把這個成本具體化:你想讓 AI 回答問題,就得自己搖。

假設你想做一個「完全離網」的 AI 問答裝置,不插電、不連網路。舊做法基本上行不通——在本地跑 AI 推理至少要有穩定電源,一般行動電源在 AI 高負載下撐不久。CrankGPT 的做法是:把一臺廉價 20 瓦特手搖發電機接上自製穩壓電容板,再連到樹莓派 5,樹莓派上跑一個輕量本地 AI 模型(類似 llama.cpp 這類能在低規格設備上運行的 AI 框架(程式工具包))。使用者轉動手柄發電,AI 就能在幾十秒內回答問題——已有人實際試用並成功得到回覆。對比需要接電的本地 AI 方案,CrankGPT 展示了「人力即算力」的可能性,特別適合緊急離網情境、教育展示,或單純想親身感受一次「為每個 AI 回答付出體力代價」的實驗。

T3
Iroh 1.0 P2P 網路庫正式發布

Iroh 是一個開源的點對點(P2P,就是讓兩臺設備直接互連、不需要中間伺服器轉發)網路連線庫,現在正式發布 1.0 穩定版。它最核心的設計是用「加密金鑰(就像每臺設備專屬的數位身分證)」取代傳統的 IP 位址(就是網路上設備的門牌號碼)來識別設備,因此即使設備換了網路、IP 改變,其他設備仍能找到它、保持連線不中斷。技術上支援 NAT 穿透(讓躲在家用路由器或公司防火牆後面的設備也能直接互連)、QUIC 多路徑傳輸(同時走多條網路路徑,一條斷了自動切換)。約 95% 的資料可在設備間直接傳輸,不必繞道雲端,降低延遲與費用。1.0 版代表協議格式已正式穩定,適合用在正式產品上,並提供 Python、Node.js、Kotlin、Swift 多種語言的 SDK。官方明確列舉的應用場景包含 AI 智能代理(AI agent)通訊、分散式 LLM(就是 ChatGPT 這類大型語言模型)訓練、安全聊天、即時同步與物聯網等。

假設我要打造一套多個 AI 代理(agent)協作的系統——例如一個代理負責搜尋資料、另一個負責整理摘要、第三個負責生成報告,三個代理跑在不同的機器上。傳統做法需要自己架設一臺中央伺服器來轉發訊息、申請固定 IP、設定防火牆規則,還要處理某臺機器斷線重連後 IP 改變的問題,光基礎設施就可能花掉一週以上。改用 Iroh,每個 agent 在啟動時持有一把固定的加密金鑰作為「地址」,不管部署到哪臺雲端機器或本地設備,其他 agent 只要持有這把金鑰就能直接建立加密 P2P 連線。開發者用幾行 Python 程式碼呼叫 Iroh SDK 即可完成連線建立,資料直接在 agent 之間傳輸,不需要過雲端中繼,延遲更低、成本更少,也沒有單點伺服器當機的風險。

T3
用 AI 打造 Homelab 服務管理平臺

一位開發者 Rsgm 分享他如何在自家的 Homelab(就是在家裡用閒置電腦或小型伺服器自己架設的私人服務環境)裡,把 AI 程式設計工具整合進日常維運流程,打造出一套半自動化的開發管理平臺。他選用的核心工具叫 OpenCode(一種 AI 編程環境,能讓 AI 幫你讀程式碼、提出修改、自動產生變更),並搭配 GitOps 自動部署機制(GitOps 就是把所有設定和程式碼都存進 Git 版本控制系統,有新版本 push 上去就自動部署,不需要人手動操作)。整個架構的設計重點是「人在迴路(human-in-the-loop)」——AI 只能開分支、送出 PR(Pull Request,就是「我改了這些東西,請你審查後決定要不要上線」的申請單),所有變更都必須經過人工確認才會真正部署。這樣一來,作者可以放心把管理幾十個 Docker 容器(Docker 容器,就是把一個應用程式和它需要的所有環境打包在一起、可以快速啟動停止的輕量化虛擬機)的繁瑣工作交給 AI,自己只需要審核結果,大幅降低維運負擔。

作者家裡跑著大約十幾個 Docker Compose 服務堆疊(像是自架的影音伺服器、Git 伺服器、智慧家電控制中心等),每個服務都會不定時釋出新版本。以前每次要更新容器,作者得自己去查每個服務的 Release Notes(版本說明文件),判斷有沒有破壞性變更(舊設定是否還相容),再手動改設定、重新部署、驗證服務正常——一次更新一輪可能要花好幾個小時。現在的流程是:作者告訴 AI「幫我把所有容器更新到最新版」,AI 自動讀取各服務的 Release Notes、識別破壞性改動並標記提醒、順便補上健康檢查設定(health check,讓系統能自動偵測服務是否掛掉),最後把所有改動存進一個新分支、開出一張 PR。作者拿起手機,瀏覽 PR 裡列出的變更摘要,確認沒問題就按「Merge(合併)」,GitOps 自動完成部署。原本要花數小時的工作,現在縮短到幾分鐘內完成。

T3
AI 驅動 Homelab GitOps 管理平臺

作者分享瞭如何在自家伺服器(Homelab,就是在家裡自建的個人伺服器環境,用來跑各種自架服務)上,建立一套由 AI 輔助的開發管理平臺。核心流程是:AI 工具 OpenCode(一套支援多家 AI 服務、可透過瀏覽器操作的程式撰寫介面)撰寫或修改設定→推送分支(Branch,程式碼的草稿副本)→由人工在 Forgejo(類似 GitHub 的自架 Git 平臺)審查 PR(Pull Request,程式碼審查請求)→GitOps 工具 Arcane 自動把通過審查的設定部署上線。為了安全,AI 運行在隔離的虛擬機器內,有網路存取但無法直連正式服務,且只能推送分支、無法直接修改主線,所有變動都需人工點頭才能生效。這套架構的成效是容器(Container,把應用程式打包成獨立運行單元的技術)更新從數小時縮短到幾分鐘,同時保有人工審查的安全防線。

假設你在家裡的 NAS 上跑了十幾個自架服務(Nginx、Nextcloud、Grafana 等),想把所有 Docker Compose 設定更新到最新版本。傳統做法:你要逐一查每個服務的最新版本號、手動修改設定檔、SSH 進伺服器重啟容器,光查資料加改設定可能就要兩三個小時。用這套平臺的做法:打開瀏覽器進入 OpenCode 網頁介面,輸入「幫我把所有容器更新到最新穩定版」,AI 自動查版本、修改 Docker Compose 檔、建立 PR。你在 Forgejo 上查看 AI 改了哪些版本號,確認沒問題就合併,Arcane 自動把新設定推到 TrueNAS 上的 VM 並重啟服務。全程在手機瀏覽器完成,不需開電腦、不需 SSH,幾分鐘搞定,而且萬一 AI 改錯,PR 審查這道關卡讓你有機會攔截。

T3
南韓人為何全球最愛用 AI

南韓是目前全球 AI 接受程度最高的國家之一。根據美國皮尤研究中心(一個專門做大規模民意調查的機構)的資料,美國有將近一半的人對 AI 感到擔憂,但南韓只有 16% 的人持同樣態度,大多數南韓人把 AI 當成每天必用的工具。在南韓,AI 已滲透日常生活各個角落:機場設有無人移民檢查站(機器自動掃描人臉與護照,不需真人審查)、街頭有輪式機器人穿梭送餐、地鐵站有互動式螢幕即時顯示班次,甚至還計劃推出可以多語言問答的「AI 公車站」。政府把 AI 視為拉動經濟成長的引擎,成立了「國家 AI 戰略總統委員會」,並提供補貼資金支持本地 AI 模型開發,目前南韓已是全球第三大 AI 模型開發國。當然,南韓人也有矛盾之處:64% 的人擔心 AI 造成失業與加劇不平等,現代汽車宣佈部署機器人時工會發動激烈抗議,但許多受訪員工坦言「AI 太有用了,不用就會落後」,最終只能邊怕邊繼續用。

南韓有 46% 的二十幾歲年輕人把 AI 聊天機器人(就是像 ChatGPT 這種輸入問題就能對話的 AI)用來「算命」——包括詢問工作運勢、感情建議,把原本需要親自找命理師的服務直接交給 AI 處理。以前要算命,至少要花時間預約、親跑一趟,還要當面說出私事;現在南韓年輕人直接打開 ChatGPT 輸入生辰資料就能即時得到解讀,省時又沒有心理負擔。這個例子清楚呈現南韓人對 AI 的高度信任與輕鬆接受態度,也說明 AI 在南韓已不只是工作工具,而是延伸進了文化與私人生活,與歐美普遍保持距離、反覆討論風險的氛圍形成鮮明對比。

T3
宇樹G1機器人登頂欽博拉索,挑戰珠峰

中國機器人公司宇樹科技(Unitree)的 G1 型雙足機器人(一種用雙腳行走、外形像人類的機器人,而非靠輪子或履帶移動),改裝後命名為「Pemba」,於 2026 年 6 月 5 日成功登頂厄瓜多爾的欽博拉索火山,海拔高達 6,200 公尺。這座山雖然不是海拔最高,但從地心算起卻是地表離地心最遠的點,比珠峰還遠。為了應對極端環境,工程師為機器人加裝了客製化散熱系統,並透過強化學習(一種讓 AI 像學走路的孩子一樣反覆嘗試、從失敗中自動改進的訓練方式)訓練機器人自主通過坡度小於 30 度的雪坡,陡峭路段由人員協助。整個計劃的終極目標是「三冠」:欽博拉索、夏威夷茂納凱亞、以及珠穆朗瑪峰,珠峰測試預計 2026 年 10 月啟動。

傳統山地監測依賴固定攝影機或人工巡邏,根本無法深入冰川裂縫或雪崩高危區。現在,改裝後的宇樹 G1 扮演「移動監測平臺」的角色:在 6,200 公尺的欽博拉索,機器人自主行走坡度 30 度以下的積雪路段,同時蒐集電池在極低溫(曾驗證至 -47.4°C)下的續航數據、關節受力情況及環境耐受性。未來若部署至珠峰,可執行垃圾清理、冰川監測、搜救輔助等任務,取代固定攝影機網路。相比舊做法(派人冒險或架設固定設備),機器人可重複部署、蒐集更密集的感測資料,且在危險地形中不涉及人命風險——這正是雙足設計的核心價值:地球約 97% 的地表,輪式或履帶機器人根本無法抵達。

T3
AudioX-Turbo 開源音頻生成大模型

AudioX-Turbo 是由 Noiz AI 聯合香港科技大學、清華大學共同開發的開源音頻生成 AI 模型。它採用一種叫「分佈匹配對抗蒸餾」的訓練技術,把擴散式模型(diffusion model,就是像 Stable Diffusion 那種「從雜訊一步步反推出內容」的 AI 生成方式)原本需要 50 到 200 個計算步驟,大幅壓縮到只需 4 步,計算量減少約 25 倍。在一張消費級顯卡 RTX 4090 上,生成 10 秒音頻只需 0.24 秒,幾乎達到即時生成的速度。模型規模為 27 億參數(parameters,就是模型內部可學習的數值數量,越多通常代表能力越強),支援文字、圖片、影片等多種形式的輸入,並且能按照時間戳、聲音類別、樂器種類、出現順序等細節精確控制生成結果。研究團隊已完整開放訓練程式碼、推論程式碼與模型權重。

假設我是一位影片製作者,要為一段 30 秒的城市街頭場景短片配上環境音效,需求是:0 秒出現車聲、8 秒加入人群說話聲、15 秒聽到鳥叫、22 秒逐漸安靜。傳統做法需要手動找音效素材、逐段剪接、費心調整各段銜接,往往要花半小時以上。使用 AudioX-Turbo,只需把影片上傳,再用文字寫出時間戳指令,例如「0s: car horn; 8s: crowd talking; 15s: bird chirping; 22s: silence」,模型就能在 0.24 秒內生成一段符合指定時間點與聲音順序的音效。相比舊版擴散式音頻模型動輒要等 5 到 10 秒以上,這種速度可以讓創作者即時聽到預覽結果、快速調整指令再重新生成,把反覆修改的迭代時間從「分鐘級」縮短到「秒級」。

T3
清華系具身機器人進駐車廠產線

光象科技是一家由清華大學直接持股的新創公司,成立僅一年多便拿下車廠訂單,將工業機器人 Phi-Bot X1 實際部署到汽車製造產線。「具身智能」(Embodied Intelligence,指讓機器人像人一樣感知環境、自主做決策、並動手完成任務的 AI 技術)是這家公司的核心方向。不同於業界主流的「視覺語言模型」方案(VLA,就是讓 AI 看圖、讀文字後直接下指令控制機械手臂),光象強調讓機器人真正「理解物理世界」——透過強化學習(讓機器人在模擬環境裡反覆試錯、自我進步)與世界模型(讓 AI 學會預測動作後果)來訓練動作。在 2026 年 ATC 展會的蔚來汽車焊接場景中,Phi-Bot X1 連續 3 天、累計 21.5 小時上下料作業,做到零失誤、零中斷,定位精度達 0.05 毫米。

蔚來汽車焊接產線上,過去需要工人頻繁在高溫焊接機臺旁搬運零件(「上下料」)——環境炎熱、動作極為重複,而且容錯率極低,一個放錯位置可能損壞零件或中斷整條產線。導入 Phi-Bot X1 後,機器人以 0.05mm 的末端重複定位精度(比人手穩定數十倍)完成抓取、搬運、精確放置的全流程,連續 3 天不停歇,累計 21.5 小時無任何失誤。相比採用非協同方案,整體效率提升 51%。舊做法需要工人三班輪值、易因疲勞產生誤差、難以長時間維持毫米級精度;新做法由機器人全自動執行,且透過「Phi-Space」系統(高保真虛擬場景建模工具)先在電腦裡大量模擬訓練,讓新產線的部署時間從「以週計」縮短到「以天計」,降低了客戶導入機器人的門檻。

T3
光象具身機器人進駐蔚來產線

光象科技(一家由清華大學直接持股、不到兩年的新創公司)推出了一款名為 Phi-Bot X1 的工業機器人,正式在蔚來汽車的真實生產線上執行任務。這款機器人搭載「具身智能」(讓機器人像人一樣透過眼睛感知環境、用手臂操作物件、在實際物理世界中學習做事,而不只是算數字或生成文字的那種 AI)技術,透過強化學習(一種讓 AI 反覆嘗試錯誤、自己摸索出最佳動作的訓練方式,類似小孩學走路的過程)訓練而成。機器人在蔚來焊接站連續作業 21.5 小時,完成焊件搬取、翻轉、精準對孔等任務,成功率 100%、零中斷,而且從場景導入到正式上線只花一週。公司的發展路線是「先攻工業產線、再進商業服務場所、最終走入家庭」,目標是讓 AI 機器人真正成為每天持續工作的生產力工具,而非展示用的噱頭。

想像你是蔚來汽車某焊接站的工程師,需要讓機器人執行「上下料」——也就是從傳送帶取件、翻轉方向、精確對準 0.05 毫米的孔位、再放到指定位置,整套動作每天重複數百次。傳統方案是客製化機械臂,需要工程師花數個月撰寫動作程式並反覆校準,一旦產品換型就得重來。導入 Phi-Bot X1 後,工程師只需一週時間完成場景模型設定,機器人便自主學會這套動作流程;之後連續 21.5 小時、零失誤完成任務,同時品質檢測覆蓋率達 100%、效率提升 51%。相比傳統動輒數月的機械臂導入,光象的目標是未來把每個新場景的部署時間縮短到「以天為單位」計算。

T3
OrcaRouter 多模型路由超越 Fable 5

OrcaRouter 是一個開源的 AI 閘道器工具(可以把它想成「AI 模型的智慧調度中心」),核心做法是讓多個不同廠牌的 AI 模型同時回答同一個問題,再透過「仲裁機制」(系統自動投票或評比,選出最佳答案)決定最終輸出。研究發現,把 Claude Opus 4.8 與 GPT-5.5 兩個模型搭配組隊,整體評測分數(約 67.5%)能夠超越當前評測排名極高的 Fable 5 頂級單一模型,等於是「一加一大於二」。更值得注意的是,就算只用 Gemini、Kimi、DeepSeek 這些定價相對便宜的模型組隊,分數仍能逼近 Fable 5 的水準(約 64.5%),但整體費用卻遠低於直接購買頂級單一模型。這個發現告訴開發者:不必再花大錢追求「一個最強模型」,靠聰明的搭配與路由策略同樣能達到頂尖效果,有時甚至更好。

假設你要開發一套企業客服 AI 系統,每天同時處理「你們幾點關門?」這種簡單問題,以及「我的訂單付款成功但沒收到確認信,到底是什麼狀況?」這類需要推理的複雜問題。舊做法是把所有問題都丟給最貴的 Fable 5 模型處理,費用高昂。改用 OrcaRouter 後,你可以用 YAML(一種設定語言)撰寫路由規則:簡單問題由 DeepSeek(便宜模型)直接回答;複雜問題才同時呼叫 Claude Opus 和 GPT-5.5 各自給出答案,再由系統自動選最好的那份。結果:整體回答品質(評測分數約 67.5%)超越了直接用單一 Fable 5 的成績(約 65%),而且因為「簡單題省錢、難題才雙管齊下」,整體 API 費用大幅降低。甚至只用 Gemini+Kimi+DeepSeek 廉價組合,也能拿到 64.5% 的成績,幾乎持平 Fable 5,費用卻只有一小部分。

T3
Matrix-Game 3.5 世界模型

昆侖萬維(中國 AI 公司,旗下擁有「天工 AI」品牌)在 2026 年 6 月智源大會(中國頂尖 AI 學術年會)上,發布了他們最新的互動式世界模型(World Model,就是一種能夠「模擬現實世界物理規律」的 AI 系統——你給它一張畫面和一個動作指令,它會預測並生成接下來會發生什麼,不需要真正執行動作或開啟遊戲引擎)Matrix-Game 3.5 的技術細節,並預計 2026 年 7 月正式發布。這次的核心創新在於重新定義「世界模型」的三層能力:理解當下狀態(不只是看畫面,還包含物體的物理屬性,例如硬度、重量)、預測下一個狀態、以及把預測結果渲染成畫面。技術上,他們讓「狀態生成」和「動作生成」同步訓練而非分開處理(聯合訓練(Joint Training),讓 AI 同時學「世界長什麼樣」和「要採取什麼動作」),並採用 PRoPE 機制(一種讓模型透過相機投影矩陣感知空間位置的技術,解決模型在虛擬空間中搞不清楚自己「在哪裡」的問題)與記憶架構升級(把歷史畫面切成空間小塊、按位置重組,解決 AI 記不住長時間場景的問題)。從版本演進來看,Matrix-Game 1.0 於 2025 年 3 月發布(首個可互動世界模型),到 3.0(2026 年 3 月,5B 參數、720P@40FPS(每秒 40 幀))。3.5 的最大跨越是從遊戲場景擴展至真實世界場景,並支援 NPC(Non-Player Character,遊戲中由 AI 控制的角色)互動。為此他們建構了三條自動化資料管線,累積超過 500 萬段高品質影片、1 萬小時有效訓練資料,涵蓋 1200 個以上遊戲場景。

假設你要讓 AI 自動玩《GTA V》(俠盜獵車手 5),傳統做法是用強化學習(Reinforcement Learning,讓 AI 在遊戲裡靠反覆試錯慢慢學),需要跑幾百萬次、耗時數週,而且訓練出來的 AI 只能用在這款遊戲,換一款遊戲就要重來。用 Matrix-Game 3.5 的做法:把當前遊戲畫面截圖丟給模型,給它一個指令(「往前走、避開障礙物」),模型不需要真的開遊戲引擎,直接「想像」出接下來的畫面,並同時輸出對應的操控動作(按哪個鍵、轉多少角度)。因為模型理解物理規律,它能預測「踩油門後車子在濕地上會側滑」這類細節。關鍵差異在於跨遊戲通用性——該模型已在《GTA V》、《荒野大鏢客 2》、《賽博朋克 2077》三款風格截然不同的遊戲上驗證,訓練一次即可適用多款遊戲,未來也計畫延伸至機器人(Robot)控制,讓機器人在真實環境中「先想像動作後果再執行」。

T3
Cartesia 發布語音新版;Kimi K2.7 可本地跑

這則消息涵蓋兩個同天發布、廣受開發者關注的 AI 工具更新。第一個是 Cartesia(一家專做語音 AI 的公司)同時推出了 Sonic-3.5 和 Ink-2——前者是文字轉語音(TTS,就是讓電腦把文字「讀出來」的技術),後者是語音轉文字(STT,就是讓電腦即時把人說的話「聽寫」下來)。Sonic-3.5 主打延遲不到 90 毫秒、支援 40 多種語言、可用 10 秒音頻複製任何人的聲音;Ink-2 則內建說話輪次偵測(Turn Detection,讓 AI 知道「這個人說完了、換我回應」),特別適合打造真人語感的對話機器人。第二個是知名 AI 量化工具 Unsloth,他們將月之暗面(Kimi 的開發商)的 Kimi K2.7 Code 模型以 GGUF 格式(一種大幅壓縮模型體積、讓普通電腦也能跑的封裝格式)釋出,讓開發者可以把這個參數量高達一兆(1T,比 GPT-4 估計的 1.8T 小但仍屬超大規模)的程式碼模型跑在自己的機器上,不必把程式碼傳到雲端 AI 服務。

假設你是一名後端工程師,手上有一批公司內部程式碼需要讓 AI 幫你審查和補充測試,但公司安全政策不允許把原始碼上傳到任何外部服務。以前你的選擇很少:要嘛自行搭建大型伺服器跑開源模型,要嘛忍痛使用能力受限的小型本地模型。現在透過 Unsloth 釋出的 GGUF 版本 Kimi K2.7 Code,你可以用 Llama.cpp(一款讓普通電腦跑大型 AI 模型的開源工具)直接在高階工作站或配備足夠 VRAM(顯示記憶體)的 GPU 上載入量化版模型,整個工作流程完全在本機運作。舊做法是要嘛只能用 7B~34B 等較小模型(能力有限),要嘛花費更多來自建私有 API 叢集;現在透過 Unsloth 的量化打包,千億級代碼模型的本地部署門檻大幅降低,這對需要保護機密程式碼的企業來說是很實際的進展。

T3
Hermes 代理新增非同步子代理與自動付款

Hermes 是由美國開源 AI 研究機構 NousResearch 所打造的 AI 語言模型(就像 ChatGPT 或 Claude 這類能對話的 AI,但完全開放原始碼、任何人都可以免費使用)。這次更新有兩個重要亮點:第一,NousResearch 與研究者 Teknium 宣佈 Hermes 支援「非同步子代理」(async subagents),意思是一個主要的 AI 代理人(agent,可以理解為「會自動執行任務的 AI 小幫手」)可以同時派出多個子代理人分頭工作,不必等某一個完成才能繼續其他任務,整體效率大幅提升。第二,Hermes 整合了 Stripe(一個廣泛使用的線上付款平臺,許多網路服務都用它來收費),讓 AI 代理人能真正代替使用者執行購買行動、開通 SaaS 軟體(Software as a Service,即按月訂閱的線上軟體服務,例如 Zoom、Slack、Notion)的訂閱,並設有安全限額以防止意外超支。這項更新標誌著 AI 代理人從「只能聊天給建議」正式跨入「能替人真正花錢辦事」的新階段,讓自動化更接近真實經濟活動。

假設你是一家小公司的老闆,想讓 AI 自動管理每月的 SaaS 訂閱費用。舊做法是請 AI 幫你列出哪些工具快到期、哪些沒人用,但實際的取消或續費動作還是要你自己登入各個平臺一一操作。現在使用 Hermes 新增的 Stripe 付款技能,你可以設定規則:「如果某個工具連續 30 天都沒人使用,自動取消訂閱;單月操作金額上限 5,000 元,每次取消前先傳訊息給我確認」。AI 代理人會自動追蹤各工具的使用狀況、找到符合條件的訂閱、向你發出確認請求,拿到你的批准後直接在 Stripe 平臺上執行退訂——全程不需要你一一登入各個網站,而且因為設了限額,也不會意外把公司整個月的費用都清空。相比以前需人工操作,這個流程可以在夜間自動完成,省時又省力。

T3
Meta Facebook 推出 AI 搜尋新模式

Meta(就是旗下擁有 Facebook、Instagram 的美國科技公司)在 Facebook 上推出一種叫「AI Mode」(AI 模式)的新搜尋功能。使用者可以用日常說話的方式提問,AI 會自動從 Facebook 上公開的貼文、社群(Groups,就是 Facebook 上各種興趣或地區的討論群組)和短影片(Reels)中蒐集資訊,整理後給出一個綜合答案,不再只是列出一堆連結讓你自己找。除了搜尋,Meta 同時推出了一系列 AI 輔助創作工具,包括自動幫你剪輯影片的蒙太奇功能、讓 AI 幫你在照片裡換衣服換髮型、在 Marketplace(Facebook 的二手買賣平臺)自動回覆買家訊息的 AI 助手,以及動畫化個人大頭貼等功能。不過,這種從大量公開貼文中整合資訊的做法,也存在過時或錯誤資訊混入答案的真實風險,使用時需留意。

假設你想找「臺北哪裡有好吃的素食拉麵」,以前在 Facebook 搜尋,出來的是一堆貼文列表,你得自己一篇一篇點開看。現在用 AI Mode,你直接打這句話,AI 會掃描 Facebook 上各個公開社群和美食分享貼文,整合大家的推薦後直接給你一個彙整答案,像是「根據多篇公開貼文,OO 素食拉麵和 XX 蔬食館最常被推薦」。相比舊的關鍵字搜尋,新方式更像在問一個「看過海量 Facebook 貼文的朋友」,省去自己逐一翻找的功夫;但缺點是若社群裡本來就流傳著錯誤資訊,AI 也可能把錯的整合進答案,使用者仍需自行判斷可信度。

T3
Meta Facebook 推出 AI Mode 搜尋

Meta(就是旗下擁有 Facebook、Instagram 的那家公司)宣佈在 Facebook 上推出全新的「AI Mode」(AI 搜尋模式),讓使用者可以用平常說話的方式直接提問,AI 會自動整合 Facebook 社團(Groups)和 Reels(短影音平臺)等地方的公開貼文內容來給出答案,不再只是列出一大串搜尋結果連結讓你自己找。這項功能跨越 Meta 旗下多個平臺的公開資訊,讓搜尋體驗更像是「問一個消息靈通的朋友」,而不是翻找一大堆連結。除了 AI 搜尋之外,Meta 同步推出了 AI 影片剪輯工具(讓一般用戶也能做出有轉場效果的影片蒙太奇)以及 AI 虛擬換裝功能(可以試穿喜愛球隊的球衣、虛擬更換髮型與服裝)。不過業界也注意到一個隱憂:因為 AI 整合的是一般用戶的公開發文,而非經過查核的專業資訊來源,過時或誤導性資訊被當成答案呈現的風險確實存在,這與 Google AI Mode(Google 的類似功能)面臨的問題如出一轍,使用者仍需自行判斷答案的可信度。

假設我想了解「臺北有哪些跑步社團最近在辦活動」,過去在 Facebook 搜尋,只會跳出一長串社團名稱和貼文連結,還得自己一個一個點進去慢慢翻。有了 AI Mode,我可以直接輸入「臺北跑步社團最近有活動嗎」,AI 會自動掃描多個相關社團的公開貼文,然後整理成一段摘要回答我——哪個社團、大概什麼時間、在哪裡集合。舊方法可能要花五分鐘翻找,新方法直接拿到整合好的答案;但缺點是 AI 有可能把幾個月前的舊活動貼文也一起納入,誤以為是最新消息,使用者拿到答案後仍需點進原貼文確認日期是否正確。

T3
Salesforce 收購 AI 客服平臺 Fin

Salesforce(一家提供企業軟體的美國大型科技公司,旗下工具被各種企業拿來管理客戶關係和業務流程)宣佈以 36 億美元收購 Fin——一個能自動接待客戶、處理常見問題的 AI 客服平臺。Fin 的前身是 2011 年成立的 Intercom(一家客服軟體老牌公司),近年轉型為 AI 主導的客服代理(就是一個能像真人客服一樣在聊天室、WhatsApp、電話等多個管道回覆問題的 AI 程式),並推出了自家新模型「Apex」。Salesforce 打算把 Fin 的技術和團隊整合進 Agentforce——自家的企業級 AI 代理平臺(讓企業自己設計、部署可以自動化工作流程的 AI 助手)——強化其在客服自動化方面的能力。交易預計 2027 年第四季完成,Fin 的 CEO Eoghan McCabe 收購後仍繼續主導產品,團隊架構不變。

假設一家網路零售商目前使用 Salesforce 的 Agentforce 管理訂單流程和客戶資料,但客服還是另外購買第三方工具、靠人工處理詢問。整合 Fin 之後,這家零售商可以直接在 Agentforce 裡啟用 Fin 的 AI 客服代理,讓 AI 同步在官網聊天視窗、WhatsApp、SMS 簡訊等管道自動回覆退換貨查詢、訂單狀態、常見問題,不需要另外串接別家客服系統。相比以前要額外購買、設定、維護獨立客服工具的做法,整合後只在同一套 Salesforce 平臺操作,節省系統整合的時間和費用。

T3
NewCore 替 AI Agent 建立企業身份管理

NewCore 是一家新創公司,專門幫企業管理「AI agent(可以自動執行任務的 AI 程式,例如自動寫程式、查資料、代為發送報告的機器人)」的帳號身份與存取權限。傳統的企業身份管理系統(就是管員工帳號、確認誰有權限開哪個資料夾的那套系統)是針對人類設計的,但現在企業裡的 AI agent 也需要存取公司系統和資料庫,卻沒有完善的方式管理它們「能做什麼、不能做什麼」。NewCore 把每個 AI agent 當成一個獨立的身份來管理,賦予它專屬的權限與生命週期控制,並採用「分割密鑰(把存取金鑰拆成多塊、必須湊齊才能生效)」的架構來防範單一漏洞被入侵的風險。公司此次宣佈完成 6,600 萬美元種子輪融資,由資安創投 Cyberstarts 領投,Index Ventures 與 Evolution Equity Partners 跟投,估值達 3 億美元。

假設一家金融公司導入 Claude Code(Anthropic 開發的 AI 程式設計助手)幫助自動審查程式碼。沒有 NewCore 的情況下,IT 部門通常會手動給 Claude Code 一組帳號密碼,讓它能存取程式碼倉庫——這組憑證難以追蹤,一旦出現資安疑慮也很難即時撤銷。有了 NewCore,這個 AI agent 就像新進員工一樣,在系統中擁有自己的「身份卡」:它只能存取被授權的程式碼倉庫、無法碰觸財務資料、任務結束或偵測到異常時可立即斷開存取,所有操作記錄都留在系統中供事後稽核。相比舊做法可能需要好幾天才能清除一個 AI 帳號的權限,新方式可以在幾秒內完成,且整個歷程都有日誌可查,大幅降低企業導入 AI agent 的資安風險。

T3
衛星首度自主 AI 偵測地表目標

YAM-9 是 Loft Orbital 公司(一家專門提供太空基礎設施服務的公司)發射的地球觀測衛星,搭載了 NVIDIA Jetson Orin AGX(一種高效能邊緣運算晶片,讓 AI 程式直接在衛星上運算、不需連回地面大型電腦)以及 Google DeepMind 的 Gemma 3(一種輕量化視覺語言模型,也就是能同時看懂圖片和文字指令的小型 AI)。2026 年 4 月,YAM-9 在太空中首次完全自主識別出地面目標,全程不需要任何地面人員下達指令或介入操作,是地球觀測史上的第一次。傳統地球觀測衛星必須把大量原始影像傳回地球,再由分析師花時間逐一處理;YAM-9 則能直接在軌道上進行初步篩選與分類,大幅減少需要傳輸的資料量、節省寶貴的衛星通訊頻寬。背後的軟體套件 NAVI-Orbital 由美國太空總署噴氣推進實驗室(NASA JPL)開發,專為運算資源有限的太空環境設計。

地面操作員用自然語言(就是平常人講的話,不需要寫任何程式碼)向 YAM-9 下達指令,例如「找出鐵路樞紐周邊的基礎設施」或「識別自然環境與人類開發區域的交界處」。衛星搭載的 Gemma 3 AI 收到指令後,直接分析機載攝影機拍到的地表影像,判斷哪些區域符合條件,只把有意義的結果傳回地面。相比之下,傳統衛星的做法是把成千上萬張原始照片全部傳下來,讓地面分析師一張一張翻看,不但耗時耗力,還大量佔用衛星通訊資源。這次突破代表未來計劃建立的 50 至 100 顆衛星星座(多顆衛星同時覆蓋地球),可以像「太空中的 AI 眼睛」一樣持續自動監測,實現即時全球環境或基礎設施偵測,大幅降低所需的人力介入。

T3
寶可夢GO玩家資料訓練AI轉軍事用途

這篇報導揭露了一條意外的科技路徑:全球數百萬名寶可夢GO(Pokémon Go,就是那個讓人在真實街道上抓虛擬寶可夢的手機遊戲)玩家,從2021年起透過遊戲內的自願掃描功能,對街道、建築物、公園等場景拍攝3D影像,累計產出了數十億筆視覺定位資料。開發商Niantic把這些資料用來訓練「空間AI」(Spatial AI,就是能看懂真實世界三維環境的人工智慧)模型。2025年12月,Niantic旗下的Niantic Spatial與美國國防科技承包商Vantor合作,將這套技術轉化成軍事用途:讓無人機在沒有GPS(全球定位系統,也就是手機地圖依賴的衛星訊號)的環境中,也能靠攝影機辨識周遭環境來導航定位。這套視覺定位系統定位精度約達1.5公尺,可讓導航誤差降低多達70%,Vantor也另外取得了美國陸軍一份最高2.17億美元的合約,用於軍事訓練模擬的3D地形資料。

想像一架軍事無人機執行任務,進入對方可以幹擾GPS訊號(也就是所謂的「GPS欺騙或幹擾」——讓衛星導航系統以為無人機在別的地方,或直接切斷訊號)的作戰區域。舊方法:無人機失去GPS後就會迷失方向,可能墜毀或任務失敗。新方法:Niantic與Vantor合作開發的系統讓無人機改用攝影機辨識地面建築、道路等地標,比對預先建好的3D視覺地圖,即時算出自己的位置——完全不需要衛星訊號,誤差縮小到1.5公尺內,比傳統GPS-free方案誤差降低70%。這套3D地圖的原始訓練素材,正是寶可夢GO玩家的掃描資料。玩家當初確實同意了Niantic的使用者條款,但絕大多數人掃描時,應該沒有預期自己的資料最終會輾轉用於軍事無人機導航。

T3
Z.ai 發布 GLM-5.2 旗艦模型

GLM-5.2 是中國 AI 公司 Z.ai(前身為智譜 AI)推出的最新旗艦語言模型(語言模型就是像 ChatGPT 這類、能讀懂並生成文字的 AI 系統)。這個模型主打三大特色:第一,強大的程式撰寫能力,針對開發者做了深度優化;第二,支援高達 100 萬 token 的上下文長度(token 是 AI 處理文字的基本單位,100 萬 token 大約等於 75 萬個英文字,或幾百頁的長篇文件,代表 AI 一次能「看」的東西非常多);第三,擅長需要長時間多步驟規劃的複雜任務(稱為 long-horizon tasks)。目前已對 GLM Coding Plan 訂閱用戶開放使用,API(讓其他程式呼叫 AI 的介面)和聊天機器人服務預計下週上線。最值得關注的是,Z.ai 宣佈將以 MIT 授權(一種非常寬鬆的開源條款,允許任何人免費使用、修改,甚至用於商業產品)釋出原始碼,讓開發者社群可以自由取用。

假設我是一位工程師,手上有一個累積多年的大型 Python 專案,共 50 個檔案、總計 8 萬行程式碼,想請 AI 幫忙全面檢查並建議如何重構(重構就是在不改變功能的前提下,整理和優化程式碼的結構)。用過去多數模型(上下文通常只有 3 萬到 13 萬 token),我必須把程式碼切成好幾塊分批丟給 AI,AI 看不到全貌,給出的建議往往片段且前後矛盾。換成 GLM-5.2 的 100 萬 token 上下文後,我可以把所有 50 個檔案一次全部貼進去,AI 能同時看到整個系統架構、模組之間的呼叫關係、重複的邏輯在哪裡,最終給出一份針對整體架構的完整重構計畫,而不是隻看局部的頭痛醫頭方案。對於想自架部署的團隊,MIT 開源授權還讓他們可以直接下載模型跑在自己的伺服器上,不必擔心資料外流或授權費用。

T3
Google Gemini 企業版推出技能市場

Google 正在為旗下的企業級 AI 服務 Gemini Enterprise(就是專為公司行號設計、能協助員工完成各種工作的 AI 平臺)開發一個名為「Skills Marketplace(技能市場)」的新功能。這個市場讓企業用戶可以從一系列預先建立好的「技能」(可以理解為 AI 的功能模組,每個技能讓 AI 能執行某一類特定任務)中直接選用,不需要從頭開發。平臺包含三個主要部分:Skills Management UI(技能管理介面,讓管理者集中控管哪些技能可被員工使用)、Skills Builder(技能建構工具,讓非工程師也能自行設計新技能)、以及 Marketplace 本身(技能的瀏覽與選購頁面)。目前功能仍處於早期測試階段,少數企業組織已可存取預覽版本,但尚無正式推出的時間表。

假設我在一家中型製造公司擔任營運主管,想為採購部門建立一個「每週自動彙整供應商報價並生成比較表」的報告工具。按過去的做法,我需要向 IT 部門提出需求,排進工程師的待辦清單,然後等待幾週甚至幾個月才能上線。有了 Gemini Business 的 Skills Marketplace,我可以直接在 Skills Builder 介面中用日常語言描述我要的功能(例如:「整合供應商郵件、提取報價數字、生成比較報表」),平臺協助我把這個流程包裝成一個可重複使用的「技能」,再透過 Skills Management UI 一鍵部署給整個採購團隊使用。整個過程不需要寫任何程式,也不需要佔用工程師資源,從構思到上線的時間可從幾個月大幅縮短至幾天。

T3
LLM 推論成本的紙巾試算法

本文教你用「紙巾數學」(napkin math,就是用粗略的估算方式在紙上快速算出答案)來計算 AI 服務每位使用者的推論成本。LLM(大型語言模型,也就是 ChatGPT 這類會對話的 AI)在背後需要大量 GPU(顯示卡,負責高速密集運算的硬體)才能運作,這些硬體成本最終會反映在每次對話的費用上。文章說明計算時需要四項關鍵資料:GPU 規格、上下文長度(每次對話 AI 能記住多少文字)、模型的參數量(可理解成 AI 的「腦容量」大小)以及產品特有的使用習慣。令人意外的是,模型底層架構的細節(例如用 Transformer 還是 Diffusion 等技術路線)對成本的影響其實不大。這套估算法能幫助 SaaS(雲端訂閱制軟體服務)開發者理解各種推論最佳化技術——如批次處理、量化壓縮——如何讓 AI 產品在商業上維持獲利空間。

假設你要推出一款 AI 寫作助理服務,定價每月 NT$600,想在租伺服器之前確認能否獲利。用這套紙巾算法:第一步查 GPU 規格——假設用 A100 顯卡,每秒可處理 312 兆次浮點運算;第二步估使用情境——用戶每次請 AI 生成一篇 600 字文章,大約需要 1,000 個 token(token 是 AI 處理語言的最小單位,中文約每 1 個字對應 1.5 個 token);第三步代入模型參數量——用 70 億參數的模型,套公式換算出每 1,000 個 token 消耗多少 GPU 算力、摺合幾分錢成本;第四步乘以用戶的月均使用次數,就能得出每人每月的推論總成本。若成本低於 NT$300,定價有利潤空間;若成本偏高,可引入 KV Cache(快取機制,讓 AI 不必每次重新計算重複出現的段落)等推論最佳化手段,有機會把成本砍半。這套方法讓你在花錢租機器之前,就能判斷商業模式是否站得住腳。

T3
多模型組合正超越頂尖 AI 系統

牛津大學 AI 研究員 Andrew Trask 在其部落格發表長文,主張「把多個中小型 AI 模型組合在一起用」(稱為「集成學習」,ensemble,就是讓好幾個 AI 一起回答同一個問題,再用多數決或加權投票選出最好的答案)的整體效果,已在速度、準確度和成本三方面都超過了當今最頂尖的「前沿大型模型」(frontier model,指 OpenAI、Anthropic 等公司所開發、訓練費用極高的旗艦 AI)。他的核心類比是:1960 年代大家以為電腦的未來是「一臺超級大主機供全公司共用」,但後來個人電腦加上網路徹底顛覆格局;如今大家以為 AI 的未來是「某家公司做出世界最強的單一模型」,但這個判斷很可能重蹈覆轍。文章引用了具體數據:AI 推論(inference,就是讓 AI 回答問題這個動作)的成本每年下降 10 到 900 倍,而路由平臺 OpenRouter 已展示多模型組合能以「一半的費用」達到甚至超越單一頂尖模型的準確度。「集成學習」本身其實是學術界幾十年前就確立的技術,甚至曾因太容易在機器學習競賽中奪冠而被主辦方明令禁止使用;現在隨著小型開源模型大量湧現,這個思路正在重新受到重視。

假設我要做一個「公司法律合約審查助理」。舊做法是直接呼叫一個頂尖旗艦模型(如 Fable 或 Claude Opus),每次分析一份合約花費大、延遲也高。按照文章描述的新方向,我可以改成分層路由架構:第一步,用一個輕量快速的「分類小模型」(成本約旗艦的 5%)判斷這份合約屬於「勞動合約、採購合約還是保密協議」;第二步,把問題丟給三個分別擅長不同合約類型的中型開源模型(例如 Mistral、Qwen、Llama 系列),每個成本約旗艦的 20–30%;第三步,對三個答案做加權投票,因為它們各自在不同地方犯錯,投票後可以互相抵消失誤。最終整體準確度高於任何單一模型,而總成本只有直接用旗艦模型的 40–50%。這就是 Trask 所說「分散式 AI 網路取代中央頂尖模型」在實際開發中的具體體現——不需要等最強的那個模型,靠組合就能更便宜地達到更好的效果。

T3
Google OKF 統一 AI 知識共享格式

Google Cloud 於 2026 年 6 月發布了「開放知識格式」(Open Knowledge Format,簡稱 OKF),這是一種讓組織能夠把內部知識整理成 AI 可以直接讀懂的統一標準格式。現代 AI 助理(像是能幫公司回答問題、查詢資料的 AI 自動化程式)往往需要大量背景資訊才能給出準確答案,但這些知識目前散落在公司的 Wiki 文件、資料庫說明、程式碼備註等各個角落,每次開發一個新的 AI 工具都要重新把這些資訊拼湊起來,非常耗時。OKF 的設計就像幫這些散落的知識制定了一個「共同語言」:採用最簡單的純文字格式(Markdown,也就是記事本就能打開的輕量文字文件)加上基本的標籤描述,讓不同系統、不同公司的 AI agent(AI 代理,意指能自動執行任務的 AI 程式)都能直接讀取和使用,完全不需要特定軟體或綁定任何廠商平臺。

假設你的公司有一個電商銷售資料庫,包含訂單表、客戶表等多份資料。過去你想讓 AI 助理回答「上週活躍用戶有哪些」這類問題時,AI 根本不知道資料庫的結構、欄位的意義、表與表之間怎麼連結,工程師必須每次手動向 AI 解釋,或把說明寫死在特定 AI 工具的設定裡。導入 OKF 後,工程師只需為每張資料表撰寫一份 Markdown 文字說明(例如 orders.md,裡面寫明「order_id 是訂單唯一編號,customer_id 會連結到客戶表的對應欄位」),統一存入 sales/tables/ 資料夾。往後任何 AI agent 都能讀取這個資料夾、理解資料結構,直接開始查詢和回答問題,不需要工程師再手動介紹。和舊做法相比:以前每新增一個 AI 工具就要重新解釋一遍整個資料架構;現在只要維護一份 OKF 文件,所有 AI 工具共用,大幅減少重複設定的人力成本。

T3
OpenAI 與 Anthropic 代理上下文策略

這篇文章比較了 OpenAI 和 Anthropic 在 AI 代理(agent,就是能自動執行任務的 AI 程式)中,如何應對「上下文視窗」(context window,即 AI 每次對話時能記住的資訊總量上限)這個技術瓶頸的兩種截然不同策略。OpenAI 採用「壓縮法」(compaction),當對話內容快超過記憶上限時,系統自動把前段內容壓縮、只保留最關鍵資訊,整個任務始終維持在同一條連貫的對話線裡,前後邏輯比較不容易斷裂。Anthropic 則走「多子代理分割路線」,把大任務切割分派給多個子代理(sub-agent,負責局部工作的小 AI),每個子代理在自己獨立的上下文視窗中完成子任務,做完後只把結果摘要回傳給主代理,不把過程細節一起帶回。這種方式的潛在缺點是:子代理之間可能重複做一樣的事、忘掉彼此已掌握的資訊,整體消耗的 token(AI 的計費單位,大致對應文字量)也更多。

假設你叫 AI 代理「幫我分析這份 100 頁的合約,找出所有潛在風險條款,整理成報告」。用 OpenAI 的壓縮法:AI 在一個連續對話裡讀完整份合約,當內容快超出上限時自動壓縮前段、保留已辨識的風險點,最後產出完整報告;過程中 AI 記得自己看到哪裡、發現了什麼,不容易漏掉前後呼應的條款。用 Anthropic 的多子代理法:主代理把合約切成 10 段,各派一個子代理分析,每個子代理只看自己那段——若第 3 頁的免責條款與第 87 頁的違約條款互相連動,兩個不同子代理各自分析時可能都沒意識到這個跨段關聯,各自回傳的摘要就會遺漏這個組合風險,主代理整合時也難以發現,因為細節早在子代理那層就被過濾掉了。

T3
Apple 暗藏 Siri 第三方 AI 擴充框架

Apple 在 iOS 27 Beta(就是最新 iPhone 作業系統的測試版本)裡,悄悄內建了一套讓第三方 AI 服務接入 Siri 的「擴充框架(Extensions,類似 App 可以插入系統功能的機制)」。這套框架已經開發完成,包含完整的設定介面與 App Store 專屬分區,但被 Apple 從後臺關閉、對一般使用者完全隱藏。根據報導,Apple 原本與多家主要 AI 業者洽談授權細節,準備開放各家 AI 廠商透過這套框架接入 Siri,但最終決定不在 WWDC 2026(Apple 每年舉辦的全球開發者大會)上公開宣佈這項功能,維持現狀先觀望。這意味著 Apple 比外界所知的更早、更積極地規劃把 Siri 變成「可替換 AI 引擎的平臺」。

假設你每天需要用 Siri 問各種問題——現在 Siri 頂多隻能轉交給 ChatGPT 回答,而且你沒得選擇要用哪家 AI。若 Apple 的這套隱藏框架正式上線,情況會完全不同:你可以在設定裡選擇「預設 AI 助理」——比如把法律問題指定給某家法律專業 AI、把健康問題交給醫療 AI、把程式問題交給 GitHub Copilot 之類的服務。每家 AI 業者只要取得 Apple 授權、在 App Store 上架對應擴充功能,就能在 Siri 界面裡服務你,使用者全程不用切換 App。和現在「Siri 只能轉丟 ChatGPT、沒有其他選項」相比,這套架構會讓 Siri 變成真正的 AI 入口平臺,而非綁定單一家廠商。

T3
Devin 以千萬美元保證工程產出

Devin 是由 Cognition AI 開發的 AI 軟體工程代理人(Agent,就是能自主完成多步驟任務、不需要人一直盯著下指令的 AI 程式),它可以獨立讀懂程式碼、找 Bug、撰寫新功能、甚至跑測試,相當於一個永不休息的初級工程師。現在 Cognition AI 做出一個罕見的商業承諾:每位企業客戶保證 Devin 創造的工程產出價值,一定超過客戶支付的費用,否則公司承擔損失,並且針對每位客戶設置高達 1000 萬美元(約新臺幣 3 億元)的保證上限。為了讓這個承諾有公信力,Cognition 不用自家數字說話,而是引入第三方獨立數據來驗證 Devin 的實際效益,避免「球員兼裁判」的疑慮。這種「結果導向、用真金白銀背書」的商業模式,是目前 AI 開發工具市場中非常罕見的做法,代表供應商願意把風險從客戶身上轉移到自己身上。

假設一家電商公司每月花 5 萬美元請 Devin 處理後臺系統維護——修 Bug、新增報表功能、優化資料庫查詢速度。按照 Devin 的保證,這 5 萬元所對應的工程產出價值(例如省下的工程師工時、加快的上線速度)必須可量化地超過 5 萬元,否則 Cognition 要補差額,上限 1000 萬美元。相比之下,傳統 AI 程式輔助工具如 GitHub Copilot(微軟旗下幫工程師自動補全程式碼的工具)或 Cursor 只是收月費、從不保證你有沒有「賺到」。Devin 的做法等於告訴客戶:「你只要付出成本,產出絕對回得來,不然算我輸。」對於猶豫 AI 工具值不值得投資的企業主管來說,這個保證大幅降低了「試錯成本」的顧慮。

T3
AgentPerf 首測 Blackwell 效能稱冠

AgentPerf 是 AI 評測機構 Artificial Analysis 推出的「業界第一個 AI 代理基礎設施基準測試」,專門衡量系統在執行 AI 代理(Agent,就是能自動拆解任務、連續執行多步驟工作的 AI 程式)工作負載時的實際效能。AI 代理和一般聊天 AI 根本不同——聊天 AI 每次只做一個回覆,但 Agent 可能要連續呼叫語言模型(LLM,大型語言模型,就是 ChatGPT 這類 AI 的核心引擎)數十甚至數百次,每次還帶著越來越大的上下文,並穿插各種工具操作。這種特性讓傳統效能測試完全不適用,需要全新的 Agent 專屬基準。在這項首測中,NVIDIA 最新的 Blackwell Ultra NVL72 伺服器平臺以 DeepSeek V4 Pro 模型測試,每瓦特電力能處理的 AI 代理並發任務數,比前一代 Hopper 平臺高出整整 20 倍,在各項服務品質目標下均拿下第一名。

假設一家電商企業要部署一套 AI 客服代理系統——這個系統不是單純聊天,而是「接收客訴 → 查訂單資料庫 → 判斷退換貨資格 → 擬定回覆 → 發送確認通知」的完整自動流程,每個步驟都要呼叫一次 AI 模型,一個案子可能觸發 10~30 次 AI 呼叫。若同時有 1000 組對話在進行,就等於每秒要處理上萬次 AI 請求。舊一代 Hopper 伺服器若需要 100 臺機器才能撐住這個流量,依據 AgentPerf 的測試數據推算,Blackwell 平臺理論上只需要約 5 臺就能達到相同的並發量,電費與機架空間也大幅壓縮。對正在規劃 AI 代理大規模上線的企業來說,這份數據直接決定硬體採購預算與每月電費成本的量級差異。

T3
Ramp 推出私有 SWE-Bench 評測基準

Ramp(一家美國金融科技公司,提供企業刷卡與財務管理服務)發布了一套以自家真實工程問題為基礎的私有版 AI 程式碼評測基準,命名為 Ramp SWE-Bench。所謂「SWE-Bench」(Software Engineering Benchmark,軟體工程評測標準),是目前 AI 業界最廣泛使用的 AI 寫程式能力測試——它把真實 GitHub 開源專案上的 Bug 修復問題拿來讓 AI 嘗試解決,藉此衡量 AI 的程式開發能力。然而公開版 SWE-Bench 有兩大限制:一是測試題目來自開源專案,和各公司私有的商業程式碼環境差距很大;二是越來越多 AI 模型在訓練資料裡可能已「看過」這些測試題,導致分數虛高失真(這種現象叫「資料汙染」)。Ramp 為了真正評估 AI 在自家金融軟體系統上的實際表現,便整理出一批來自自己程式庫的真實工程問題,建立一套外部不可見的私有評測基準,讓不同 AI 模型直接在生產環境的程式碼上接受測試。

假設 Ramp 的工程團隊想評估要採用哪款 AI 程式助手來加速開發:以前他們只能參考 Claude、GPT-4o、Gemini 等模型在公開 SWE-Bench 上的排行分數,但這些分數反映的是「解決陌生開源專案 Bug」的能力,和 Ramp 自家金融軟體(有特定資料庫結構、業務規則與安全規範)能否契合,完全是另一回事。現在有了 Ramp SWE-Bench,工程師可以讓各家 AI 模型直接面對 Ramp 自己曾遇到的真實 Bug 和需求變更,看看哪個模型真的能在自家程式碼環境裡正確修改程式,而不只是在公開排行榜上看起來很厲害。這讓模型選型決策從「看別人的成績單」變成「在自家場地考試」,大幅提升評測結果的實際參考價值。

T3
DeepSeek 開源背後的萬兆佈局

DeepSeek 是中國一家 AI 研究公司,近幾年持續將自家研發的大型語言模型(就是像 ChatGPT 這類能對話、寫程式、解題的 AI)免費開源,讓全球任何人都可以下載使用。一位科技分析師在社群媒體上發表長帖,提出一個引發熱議的理論:DeepSeek 不斷免費分享技術的背後,其實是一場瞄準數十年後、市場規模可能高達數十兆美元的超長線策略佈局。這個策略的核心思路是:與其像 OpenAI 或 Google 靠消費者訂閱收費,不如把自己定位成未來 AI 時代的「基礎建設」,讓全球開發者和企業都把 DeepSeek 的模型與技術架構當成底層地基,如同水電網路一樣讓人離不開。具體手段包含三個方向:持續免費發布開源模型(允許任何人自由使用和修改)、主動公開技術研究報告讓業界共享知識,以及以遠低於競爭對手的成本提供 AI 推理服務(讓 AI 實際運算回答問題的過程)。

以 DeepSeek-R1 這個推理模型(專門強化邏輯推導和數學解題能力的 AI)為例,說明這套策略如何在現實中運作。DeepSeek 不只把 R1 的模型權重(就是讓 AI 能運作的核心數值檔案)完整開源免費下載,還同步公開了詳細技術報告,說明訓練方法、資料配置和架構設計,全球開發者可以直接在此基礎上進行微調(fine-tuning,就是在現有 AI 模型上針對特定任務追加訓練)打造自己的產品。相較之下,如果要用 OpenAI 的 GPT-4o,開發者只能透過付費 API(應用程式介面,讓兩套軟體互相溝通的管道)呼叫,完全無法取得模型內部架構、更無法自行部署在自家伺服器。當全球愈來愈多的應用和服務都建立在 DeepSeek 的技術棧(整套工具鏈和系統架構)上,等於形成了難以打破的生態護城河:即使 DeepSeek 未來推出付費企業服務,既有生態也很難輕易切換到競爭對手。歷史上最接近的類比是 Linux 作業系統,當年免費開源,卻讓 Red Hat(紅帽公司)和 Amazon AWS 靠 Linux 生態系賺進了數百億美元。

T3
AI Agent 時代誰掌命脈

這篇分析文章由科技投資人 Jamin Ball 撰寫,核心論點是:過去 SaaS(就是訂閱制的雲端軟體,例如 Salesforce、Notion)時代,誰能成為「資料的唯一存放地」誰就有護城河;而在 AI Agent(就是能自主完成任務的 AI 程式,例如幫你自動訂機票、發郵件、整理報告)時代,競爭優勢將轉移到「清算所」角色。清算所這個概念來自金融業,例如信用卡結算中心坐在銀行與商家之間,驗證每筆交易、記錄誰授權了什麼。作者認為,未來最有競爭力的 AI 平臺,必須同時掌控四個核心要素:記憶(Agent 知道什麼)、上下文(Agent 能看到哪些資訊)、執行(Agent 被允許做哪些動作)、治理稽核(所有 Agent 行為都有完整記錄可追查)。文章也警告,這個賽局的決策窗口大約只剩 18 個月,先卡位者將建立難以撼動的生態壁壘。

假設一家臺灣中型企業想同時導入三個 AI Agent:一個負責發票對帳、一個負責客戶服務、一個負責人事排班。傳統 SaaS 時代,三個工具各自存資料、各管各的,整合靠人工。但進入 Agent 時代,真正的問題變成:「這三個 Agent 互相能看到哪些資料?客服 Agent 可以查財務資料嗎?如果某個 Agent 在深夜自動退款了一大筆,我能追查是哪個 Agent、在什麼時間、依據哪個指令做的嗎?」若企業沒有一個統一的「清算所」平臺來管理這四項要素,就像開放了三個自動駕駛員卻沒有塔臺管制。誰建好這個塔臺,誰就成為所有 Agent 的必經節點——就像當年 Salesforce 靠著成為客戶資料的唯一入口,讓企業再也離不開它。

T3
AI Agent 時代清算中心是護城河

這篇文章探討 AI(人工智慧)時代下,哪一類型的軟體公司才能建立最持久的競爭優勢。作者以「清算中心」(Clearinghouse,就像金融市場裡替買賣雙方擔保結算的機構)比喻未來 AI agent(自動執行任務的 AI 程式)時代的核心角色。在過去的 SaaS(軟體訂閱服務,如 Google Docs、Salesforce 這類雲端軟體)時代,掌握資料的「系統記錄者」最強大;而在 AI agent 時代,真正主導的是能控制四大面向的清算中心:記憶(agent 知道哪些資訊)、脈絡(agent 能看到什麼)、執行(agent 被允許做哪些動作),以及治理與稽核(誰有權限決定 agent 的行為、並留下完整操作紀錄)。目前 Microsoft、Salesforce、Snowflake、Databricks 等科技巨頭都在搶佔這個位置,能率先成為「跨廠商、跨資料來源的 agent 行為統一管控中樞」的公司,才是 AI 時代真正的贏家。

假設一家銀行同時引入了多個 AI agent:一個負責自動核貸、一個負責客戶服務、一個負責合規稽核,這些 agent 來自不同廠商,各自連接不同資料庫、各做各的。若沒有清算中心,銀行根本不知道這些 agent 今天做了哪些決策、動了哪些資料、有沒有違反法規。一旦有了清算中心,所有 agent 的動作都必須經過同一個「統一管控閘道」——送出一筆貸款核准之前,清算中心會確認:「這個 agent 有沒有權限做這件事?這個動作有沒有違反風控規則?」並把整個決策過程記錄下來備查。對比舊做法(每個廠商系統各自設權限、各自留日誌,分散又難以整合),清算中心把跨廠商的 agent 協作變得可治理、可追責,讓企業不再是「放出去的 AI 自己亂跑」。Databricks 目前是市場上最積極佈局這個角色的代表之一。

T3
AWS FinOps Agent 公開預覽

AWS(亞馬遜雲端服務,全球最大的雲端平臺之一)推出了一款名為 FinOps Agent 的 AI 代理(agent,就是能自動執行一系列任務的 AI 程式),專門幫助工程師管理雲端費用。這個工具能自動調查費用異常、用自然語言(就是直接用人話問問題,不需要寫程式指令)回答成本相關問題,讓工程師不再需要手動翻查複雜的帳單儀錶板。它支援自動排程報告(每日、每週或每月),並能與 Jira(公司常用的工作任務追蹤系統)和 Slack(公司通訊軟體)整合,偵測到費用異常時可自動發通知或建立任務單。目前此功能處於公開預覽(Public Preview,即開放所有人測試但尚未正式上線)階段,適合在 AWS 上運行系統的工程、財務及 FinOps(雲端財務管理,就是控制雲端帳單的工作)團隊使用。

假設你的公司本月 AWS 帳單突然暴增 30%,以往工程師需要登入 AWS 控制台,手動對比各服務的費用差異,再去翻 CloudTrail(AWS 的操作記錄系統,記錄誰在什麼時間做了什麼設定)查是哪個操作造成的,整個過程可能耗費數小時甚至好幾天。有了 AWS FinOps Agent,系統偵測到費用異常時會自動啟動調查,自動比對費用變化與 CloudTrail 操作記錄,找出「是因為 A 工程師在 5 月 10 日新增了一臺大型運算機器」這樣的根本原因,接著自動在 Jira 建立「費用超標調查」任務單,並把調查摘要推送到 Slack 通知相關人員。工程師打開報告就能直接知道問題出在哪、該怎麼處理,省去大量手動查帳的時間,讓費用管理從被動月底對帳轉為即時自動處理。

T3
AWS 推出 FinOps AI 雲端成本助理

AWS(亞馬遜的雲端服務平臺,就是讓企業把程式和資料存放在網路上的大型服務)推出了一款名為 FinOps Agent 的 AI 助理工具,目前進入公開預覽階段(就是讓大眾免費試用、收集回饋的測試期)。這個工具專門設計來幫助工程團隊管理雲端使用費用,解決「帳單突然暴增卻不知道原因」這個讓工程師頭痛的老問題。傳統上,工程師要花好幾個小時手動翻看帳單儀錶板(就是顯示費用明細的管理介面),比對各種操作紀錄,才能找出費用異常的原因。FinOps Agent 透過 AI(人工智慧)自動調查費用異常、以白話文回答成本問題、並定期產生報告,讓工程師不必再人工追蹤每一筆帳。目前在美國東部地區可用,預覽期間免費使用(有每月用量上限)。

假設你是公司的後端工程師,某天下午收到警報:AWS 月費這週突然暴增三萬元。以前你要做的是:登入 AWS 帳單頁面→手動篩選服務和時間範圍→比對 CloudTrail(AWS 的操作紀錄系統,記錄了誰在什麼時間對哪個服務做了什麼動作)→找出是哪個操作引發費用飆高→再寫報告給財務部門,整個過程可能要花一整天。用 FinOps Agent 的話,你只需要在工具裡輸入:「請調查這週成本異常的原因。」Agent 會自動關聯 CloudTrail 的操作紀錄,找出是哪個工程師在什麼時間點執行了哪個操作(例如:把某個服務從小型機器升級成大型機器),幾分鐘內產出一份根本原因分析報告。你還可以設定它每週自動寄一份 PDF 成本報告給管理層,完全不需人工整理。對比舊做法,省下的不只是時間,更讓工程師不必在「成本偵探」和「產品開發」之間兩頭燒。

T3
既有 API 無縫轉成 MCP Server

MCP(Model Context Protocol,一種讓 AI 助理能「呼叫外部工具」的標準規格,就像幫 AI 配了一套通用接頭,讓它能接上各種服務)近來越來越普及。但要讓既有的 API(應用程式介面,軟體之間互相溝通的橋樑)支援 MCP,傳統做法是另外寫一整套整合程式,頗費工夫。Infobip(一家通訊軟體公司)的技術團隊公開了一個更省事的方法:只要你的 API 已有 OpenAPI 規格文件(一種標準化地描述「這支 API 有哪些功能、怎麼呼叫」的格式),就能透過 OpenAPI MCP Spring Boot Starter(一個 Java 生態系的框架工具)自動把它轉換成 MCP Server(讓 AI 可以直接呼叫的服務節點),完全不需要從頭撰寫 MCP 整合程式碼。這套框架會自動讀取 OpenAPI 規格、把每個 API 操作對應成 AI 可識別的「工具」定義,並支援動態更新——規格一改,MCP 工具清單跟著更新。此外,它還能篩選哪些 API 功能要對外開放,並直接沿用原有的帳號驗證機制(API Key 或 OAuth),不必另外設計安全層。

假設我的公司有一套以 OpenAPI 文件描述的簡訊發送 REST API(透過網路呼叫、讓程式自動發簡訊的介面),我想讓 AI Agent(自主執行任務的 AI 程式)在工作流程中自動呼叫這支 API 來發送通知簡訊。舊做法是另外撰寫一個 MCP 整合層,把 API 功能「翻譯」成 AI 看得懂的工具格式,可能耗費數天開發時間。改用 OpenAPI MCP Spring Boot Starter 後,只需指向現有的 OpenAPI 規格文件啟動這個框架,它就自動產生對應的 MCP Server;AI Agent 可以直接呼叫「send_sms」這個工具,填入收件人和訊息內容,後端實際執行的仍是那支既有的 REST API,驗證邏輯也全部沿用,完全不需要重複處理安全設定。對比之下:舊做法要花幾天自己寫整合程式,新做法幾乎是「指一個檔案就完成」。

T3
Ponytail 讓 AI 寫程式更精簡高效

Ponytail 是一個開源工具,專門設計來引導 Claude Code、GitHub Copilot、Gemini CLI 等 AI 程式設計助理(就是幫你寫程式碼的 AI)寫出更精簡、更有效率的程式碼。它的核心哲學是「最好的程式碼是你根本不需要寫的程式碼」——像一個「懶惰但負責任的資深工程師」,遇到需求時先問「真的有必要嗎?」再用最簡單的方式解決。Ponytail 透過一套五層決策邏輯引導 AI,讓 AI 優先使用語言內建功能或現成套件,而非從頭自己造輪子,從而大幅減少不必要的程式碼量。根據實測 benchmark(基準測試,就是用固定題目跑出來的客觀成績),使用 Ponytail 之後 AI 產生的程式碼量減少了 80~94%、執行速度加快 3~6 倍、花費的 API 費用(依使用量計算的雲端服務費)也降低了 47~77%,測試涵蓋 Anthropic 的 Haiku、Sonnet、Opus 三種規格的模型,各跑十次取中位數。

假設我在開發一個 Web 應用,要請 Claude Code(一種可直接在終端機幫你寫程式的 AI 工具)幫我新增「把使用者上傳的日期字串轉成標準格式」的功能。沒有 Ponytail 的情況下,AI 可能自己動手寫一套日期解析邏輯,包含正規表示式、邊界判斷、例外處理,輕鬆超過 50 行程式碼。掛上 Ponytail 之後,AI 在動手前會先走決策樹:「有必要做嗎?→ 有。標準函式庫有提供嗎?→ JavaScript 內建 Date 物件就能搞定。」於是 AI 只寫一行 `new Date(inputStr).toISOString()`,直接用語言內建功能解決,省去大量冗餘程式碼。對於每天大量呼叫 AI 輔助開發的工程師來說,這不但讓程式碼更易維護,也能顯著降低每次請 AI 生成程式碼的費用(通常按輸出字數計費)。安裝後只需在對話中輸入 `/ponytail full` 指令即可啟用對應強度。

T3
Agent 的本質是事件日誌

這篇文章提出一個關於 AI agent(代理程式,就是能自動執行多步驟任務、使用各種工具的 AI 系統,像是幫你自動查資料、寫信、操作網頁)的核心架構觀點:agent 的本質不是它使用的語言模型(如 GPT 或 Claude,就是背後負責「思考」的 AI 大腦)、不是跑它的程式框架、也不是它執行任務的循環流程——而是它累積下來的「事件日誌」(event log,即所有操作、觀察與決策的完整歷史紀錄)。換句話說,若把一個 agent 的所有過去行動紀錄完整保存,就能在任何時候、任何地方「重建」這個 agent,讓它從上次停下的地方繼續執行,不需從頭重來。這個設計思路讓 agent 更容易被理解、除錯,也更容易整合進各種日常應用系統中。對開發者而言,這代表可以用更清晰、可預測的方式設計複雜的自動化流程。

假設我在用一個 AI agent 自動整理幾百封客戶信件——agent 已讀了前 200 封、分好類別、產出摘要,這時系統突然崩潰。傳統設計下,agent 所有進度歸零,只能整批重跑,既浪費時間也浪費費用。但若採用「log 即 agent」設計,每一步動作(讀第 1 封→分類為『退貨』,讀第 2 封→分類為『詢價』……)都以結構化事件即時記錄下來。系統重啟後,新的 agent 實例讀取這份日誌,自動知道自己已完成前 200 封,直接從第 201 封繼續——不需重跑、不需另外寫「儲存進度」的程式碼。對比舊做法:開發者以前要自己設計斷點儲存機制,容易出錯也難維護;「log 即 agent」讓斷點續跑成為架構的天然特性,進階場景(如把 agent 移到另一臺機器、或同時啟動多個 agent 分工)也因此變得容易實現。

T3
Apple 新版 Siri 追平 AI 水準

Apple(蘋果公司)對旗下語音助理 Siri(就是 iPhone 內建的那個「Hi Siri」語音助手)進行了一次重大更新,讓它終於能夠達到現代 AI 助理應有的基本水準。這次更新並沒有帶來革命性的突破或創新功能,但代表 Apple 正式追上了現代 AI 市場的腳步。目前新版 Siri 的能力大約等同於六個月前市面上主流 AI 聊天機器人(就是像 ChatGPT、Gemini 這類能對話、能回答問題的 AI 服務)的水準。由於 Siri 已預先安裝在所有 iPhone 和 iPad 上,許多用戶不再需要額外下載其他 AI 應用程式,就能滿足日常基本的 AI 使用需求。

假設我想請助理幫我查詢「明天台北的天氣,並建議要不要帶傘」。舊版 Siri 往往只能查天氣數字、無法整合成一句建議,稍微複雜一點的問題就直接跳去開 Safari 搜尋,沒有實際幫到忙。如果用 ChatGPT 或 Claude,雖然回答品質好,卻需要另外打開 App、手動輸入或切換介面。新版 Siri 現在可以直接在 iPhone 上理解語境、給出有意義的整合回應(例如:「明天下午有陣雨,建議帶傘,早上出門不用」)——雖然回答品質仍比最新版的 ChatGPT 或 Claude(Anthropic 推出的 AI 助理)略遜一籌,但對大多數日常任務(查行程、基本問答、簡短建議)來說已夠用,不必再切換到其他應用程式。

T3
AI 正在消滅工具書市場

知名作家提姆·費里斯(Tim Ferriss,《一週工作 4 小時》作者)根據自己的實際書籍銷售數據,分析了 AI 聊天機器人(就是像 ChatGPT 這種你輸入問題、它立刻生成答案的對話 AI)對「如何做某件事」類型工具書市場的衝擊。他的數據顯示,自 2022 年底 ChatGPT 上線後,他的書籍年銷售量從 2023 年小跌 5%,到 2024 年跌 13%、2025 年暴跌 46%,2026 年預估再跌 57%。整個出版業也印證了這個趨勢:2026 年第一季,自助類書籍(教人如何達成某件事的書)全行業銷量年減 26%。費里斯認為,過去人們買書是為了「查資訊、找答案」,而現在 AI 讓這件事變得免費又即時,且能依個人情況客製化,根本不需要再花錢買書翻閱。

過去有人想學「如何高效管理時間」,可能花幾百元買一本時間管理書,花數週翻閱並挑選適合自己的方法。現在他打開 ChatGPT 輸入:「我是全職上班族、有兩個小孩、每天只有 20 分鐘自由時間,請給我具體可執行的時間管理步驟」,AI 當下就根據他的個人條件給出量身訂做的方案——免費、即時、不用翻書找章節。費里斯的銷售曲線顯示,這個行為轉移已真實發生:他的書在 ChatGPT 普及後銷量腰斬,而整個市場自助類書籍的衰退也與 AI 崛起時間點高度吻合。他的結論是:「資訊型書籍」的市場已經塌陷進聊天機器人裡,未來能存活的書,是那些靠說故事、帶來情感轉變、無法被 AI 一問一答取代的作品。

T3
AI 讓知識型書籍銷量暴跌一半

知名美國創業家兼播客主持人 Tim Ferriss(《一週工作 4 小時》作者)公開了一組令人震驚的數據:他旗下五本書的年度銷量,在 2025 年相較 2022 年基準年暴跌了 46%,2026 年更預估下滑 57%。他認為主要原因是 ChatGPT 這類大型語言模型(LLM,就是能即時對話、回答各種問題的 AI)正在取代傳統「教你怎麼做」類型的實用書籍。整個出版業也反映出同樣趨勢:自助類書籍(self-help,就是教你理財、時間管理、溝通技巧等主題的書)的銷售單位年度下滑高達 26.3%,且幾乎所有子類別都在萎縮。Ferriss 的核心論點是:當 AI 能在幾秒內提供個人化的解答,花時間讀完一整本書再提取少量可用資訊的需求正在消失,「把知識打包成書」這門生意正被瓦解。

假設你想學「如何和主管談判加薪」。過去的做法是花幾百元買一本談判類書籍,花數天讀完幾百頁,再從中找到幾個可用的話術。現在,你可以直接問 ChatGPT:「我在科技業工作五年、月薪 6 萬,即將換工作,有什麼具體的薪資談判話術和策略?」幾秒內就得到針對你個人情況量身打造的建議,速度更快、更便宜、也更直接。Ferriss 的銷售數據顯示,大批讀者正是做了這個選擇——他的書少賣了快一半,因為書裡的「方法論」現在直接問 AI 就能拿到。他的結論是:未來能存活的書,必須提供「無法被 AI 複製的東西」,例如真實的人生故事、情感深度與轉化體驗,而不只是可被搜尋、可被總結的資訊。

T3
LinkedIn MUSE 語意搜尋系統揭秘

LinkedIn(一個以職場人脈為主的社群網路平臺)為旗下「Hiring Assistant」(AI 招聘助理)開發了一套名為 MUSE 的大規模語意搜尋系統。MUSE 的全名是 Member Understanding Semantic Embeddings(成員理解語意嵌入),核心概念是把招募職缺的要求和求職者的履歷,都轉換成一串數字(稱為「向量」或「嵌入」,讓電腦能用數學計算兩者之間的相似程度),而不是隻靠關鍵字比對。系統採用「雙塔模型」架構(兩個互相搭配的 AI 模型,一個處理職缺、一個處理履歷),並使用 Matryoshka 嵌入(一種可縮放精度的向量格式,類似俄羅斯套娃——大向量包含小向量的資訊,可視需求裁切使用),來兼顧搜尋速度與匹配精準度。訓練這套模型的「老師」是另一個 LLM(大型語言模型,就是 ChatGPT 這類會對話的 AI),稱為 LLM Teacher,它根據公司產品政策模擬人類招募專家的判斷,為數百萬筆職缺—履歷配對打標籤,讓 MUSE 學會真正理解「職位要求」與「人才資質」之間的匹配關係。上線後的 A/B 測試(對比實驗)顯示,每個職位寄出的 InMail(LinkedIn 站內訊息)增加 4.1%,評估通過率提升 3.8%,同時每個職位所需瀏覽的候選人數量下降約 4%,代表品質更好、不需要看那麼多人。

假設我是一位招募人員,要幫一家臺北新創公司找「有 Rust 程式語言開發經驗、熟悉分散式系統(指多臺伺服器協同工作的技術架構)、最好有金融科技背景」的後端工程師。舊系統靠關鍵字比對——如果求職者履歷沒有完整寫出「Rust」或「distributed systems」這些字,就可能被略過;LinkedIn 舊版語意搜尋查詢覆蓋率只有 50%,語意搜尋候選人只佔所有候選人的 18%。換上 MUSE 之後,整個流程分兩階段:第一階段(L1 檢索)把職缺條件轉成 2048 維向量,從十億份預先算好的求職者履歷向量中,用 ANN(Approximate Nearest Neighbor,近似最近鄰搜尋——一種毫秒內找出最相似向量的演算法)快速篩出初步候選人;第二階段(L2 排名)再用更精細的 4096 維向量搭配 DCNv2 排名模型(一種能捕捉複雜特徵交叉關係的深度學習排序模型),把真正最合適的人排到最前面。結果:查詢覆蓋率從 50% 跳升至 76%,語意搜尋候選人佔比從 18% 增至 31%,招募人員用更少的訊息就能找到品質更高的人選。

T3
LinkedIn AI 招聘語義搜尋架構拆解

LinkedIn(全球最大職業社群平臺)的工程師公開了他們如何為旗下 AI 招聘助手(一款幫助企業 HR 自動找合適求職者的工具)建立語義搜尋系統的完整技術細節。他們的核心技術叫做 MUSE(Member Understanding Semantic Embeddings,成員語義理解嵌入),讓 AI 能理解職缺需求與求職者履歷之間的「實際匹配程度」,而不只是靠關鍵字比對。這個系統採用「雙塔架構」(Dual-Tower,就是兩個並列的 AI 模型,一個讀取職缺條件、另一個讀取求職者資料,再把雙方轉換成數字向量,看向量有多「接近」來判斷是否匹配),並且使用「Matryoshka 嵌入」(靈感來自俄羅斯套娃,同一個向量可截短來加速搜尋、或用完整長度來提高精準度)。訓練資料方面,LinkedIn 用一個強大的 AI(稱為 LLM Teacher,相當於「AI 老師」)替數百萬筆職缺與履歷配對打分數,再用這些標籤訓練 MUSE,讓模型學會分辨「真正合適」和「表面合適」的差異。

假設我是一位企業 HR,要在 LinkedIn 超過十億份的求職者履歷裡找「有 Kubernetes(一種管理伺服器的開源工具)經驗、五年以上工作資歷、位於臺北」的工程師。舊做法靠關鍵字比對,找到的人履歷裡雖然有「Kubernetes」,但可能只是短暫接觸、並非真正有深度經驗,HR 還是得花大量時間人工篩選。LinkedIn 新的 MUSE 系統改用語義搜尋:搜尋時先用 2048 維向量(維度越高代表描述越細緻,但速度越慢)從十億筆資料快速撈出初步候選人,再用完整的 4096 維向量加上一個排名模型(DCNv2 Ranker)重新排序,最後只推薦真正符合需求的人選。根據 LinkedIn 公開的 A/B 測試結果,這套新系統讓每個 HR 帳號的 InMail(LinkedIn 站內招募訊息)發送量提高 +4.1%、候選人評估通過率提升 +3.8%、「明顯不符合的錯誤推薦」減少 -5%,雖然推薦的候選人總數少了約 4%,但整體品質顯著提升。

T3
Spotify 用 AI 打造企業資料查詢助理

Spotify 開發了一個名為 Vedder 的 AI 資料助理,讓公司內部超過 2,100 位員工可以用自然語言直接查詢龐大的資料庫,不需要手動撰寫 SQL(就是查詢資料庫時使用的程式語法)。這個系統橫跨超過 70,000 個資料集(各種不同類型的資料集合,例如用戶播放記錄、廣告數據等),並分成 177 個「群組」,由各領域的業務專家負責維護與把關。Vedder 的特別之處在於,它不只是讓 AI 自己去讀資料表的欄位名稱(傳統做法稱為 schema-only RAG,RAG 是「讓 AI 回答前先去查相關資料、避免憑空捏造」的技術),而是讓真正熟悉業務的人「教」AI 哪類問題該怎麼查、套用什麼邏輯,讓 AI 的回答更準確、更貼近真實需求。為了確保這些「教材」的品質,Spotify 設計了嚴格的篩選機制:系統從歷史查詢中自動挖掘問題與 SQL 的配對,但最終只有 12.5% 通過審核;此外還有「健康評分」機制持續追蹤這些配對是否仍然有效、是否跟最新資料一致,防止過時資訊誤導 AI。

假設 Spotify 的行銷分析師想問:「上週在臺灣成為新用戶的人,最常聽哪種類型的音樂?」以往他需要先找資料工程師說明需求、等對方理解後撰寫 SQL 語法、再等系統跑完查詢,整個流程可能要花一到兩天。有了 Vedder,他只要直接輸入這個自然語言問題,AI 就會參考「臺灣市場」群組裡由當地數據專家預先審核過的問題-SQL 配對,找到相似的查詢邏輯,自動組出正確的 SQL 並回傳結果,整個流程可能幾分鐘內完成。傳統 RAG 做法的痛點在於:資料表的欄位名稱往往是縮寫或工程代碼(例如 usr_acq_dt_wk 而非「用戶加入日期週次」),AI 看不懂就容易產生錯誤查詢;Vedder 讓業務專家事先標記「這類問題要查哪張表、用什麼邏輯」,等於把人腦裡的業務知識編碼進系統,讓 AI 的查詢成功率大幅提升,從「猜字面意思」變成「照專家教的方法查」。

T3
企業 AI 不能只靠最強模型

這篇文章探討 AI 時代企業面臨的一個關鍵策略選擇。「前沿模型」(frontier model,指 GPT-4、Claude 這類目前市場上功能最強大的 AI)不斷升級,但作者認為光靠使用它們,並不能讓企業長期保持競爭優勢。他提出企業需要同步累積兩種資本:「人力資本」(員工的判斷力與專業知識)和「代幣資本」(驅動 AI 運算所需的資源),讓兩者相互增強,形成「複利」效應。重點在於:隨著 AI 越來越強,人的領域知識不會變得多餘,反而因為能更精準地引導和評估 AI 而更有價值。文章建議每家公司建立自己的「學習循環」——每次使用 AI 的過程都應該在內部留下紀錄、轉化成制度知識,而不是把所有決策外包給通用 AI 模型,讓價值全流入少數幾家 AI 公司手中。要實現這點,作者具體建議企業建立:可持續改善的自有 AI 代理系統(agent,就是能自動執行多步驟任務的 AI 助理)、私有的評估機制(evals,用來衡量 AI 輸出結果對自家業務是否真的有用)、私有的強化學習環境(讓 AI 從自家業務的成敗中不斷學習),以及可查詢的知識庫。

假設你經營一間法律事務所,現在的做法是讓律師直接問 ChatGPT 起草合約或分析法律風險。這樣做確實省時,但每次問答結束後,你的事務所什麼都沒留下——過去案件的經驗、客戶偏好、地區法規的細微差異全都消失在雲端。按文章的建議,你應該這樣做:把歷年案件的成敗結果和客戶回饋整理進內部知識庫;定義一套「評估標準」,明確說明什麼樣的合約起草品質才符合你的客戶需求;再讓 AI 在每次服務後把這些反饋納入學習。五年後,這個系統對你的業務瞭解程度會遠遠超過通用的 ChatGPT,形成競爭對手難以複製的「機構知識」(institutional knowledge,就是組織內部長期積累、外人無法快速學到的專業智慧)。反之,完全依賴 ChatGPT 的事務所,五年後和今天並沒有什麼差別,競爭優勢反而都讓 OpenAI 賺走了。

T3
AI 程式助理的真實侷限

這篇文章的標題致敬了軟體工程經典著作《人月神話》(The Mythical Man-Month,1975 年出版的重要書籍,核心論點是「加人不能線性加速軟體開發」),現在作者換成「代理人月」,意指 AI coding agent(就是像 GitHub Copilot、Cursor 這類能幫你自動寫程式碼的 AI 工具)身上同樣存在一種神話幻想——以為用了 AI,軟體開發就會又快又好。作者指出,AI 程式助理確實能減少「打字的工作」,降低「偶然複雜性」(accidental complexity,就是那些跟問題本身無關、但技術上不得不面對的繁瑣細節);然而軟體開發中最難的部分——設計判斷(決定怎麼設計系統架構)、範圍控制(知道什麼功能根本不該做)、測試、可維護性(讓程式碼未來容易修改)——AI 依然無法取代。更危險的是,AI 可以用機器速度製造問題:技術債務(就是為了趕快而埋下的壞習慣,日後要花更多時間修)、架構漂移(整體系統結構慢慢偏離原始設計)、臃腫的程式庫。在 AI 時代,真正有競爭力的開發者反而是那些能「指揮 AI」、知道「什麼時候對 AI 說不」、並讓系統保持生產品質的人,而不是隻會讓 AI 幫忙打程式碼的人。

假設你是一位後端開發者,要建一個電商訂單管理系統。你用 AI coding agent(例如 Cursor)開始工作,AI 幫你快速生成資料庫查詢程式碼、API 端點、甚至測試框架,三天內就有一個「看起來能跑」的系統。問題出在這裡:你後來要求 AI「加一個功能,同時支援多幣別」,AI 為了快速完成,把幣別換算邏輯直接寫死在系統裡每一個有金額的地方——這就是技術債務與架構漂移。三個月後你要新增第三種幣別,發現要改的地方有 47 處,改壞一個就連帶影響其他。如果你一開始就對 AI 說「不要這樣做,匯率邏輯要集中在一個地方管理」,AI 能快速依此執行;但「提出這個設計要求」本身,還是需要人類的判斷力。這就是文章核心:AI agent 加快了你「打出程式碼」的速度,但你的設計判斷才是決定系統好壞的真正關鍵,而這一點目前 AI 還做不到。

T3
AI 寫程式的真實極限

這篇文章標題「神話般的 Agent 工時」呼應軟體工程經典名著《人月神話》(The Mythical Man-Month,1975 年出版,揭示「多加人手並不能等比例縮短開發時間」的書),把同樣的邏輯套到 AI coding agents(就是 GitHub Copilot、Cursor 這類能自動寫程式的 AI 工具)上。作者 Wes McKinney(pandas 這個 Python 資料分析套件的創始人)指出,AI coding agents 確實能減少機械性的程式撰寫勞動,但軟體開發最難的部分——設計判斷(這個功能要不要做?架構怎麼設計?)、範圍控制(什麼時候該說不?)、測試設計、以及長期維護性——這些 AI 都搞不定。更危險的是,AI 能以機器速度製造技術債(就是「現在跑得動但以後問題一堆」的臨時程式)、架構漂移(系統設計慢慢被 AI 帶著走偏)、和過度膨脹的程式碼庫。真正的競爭優勢因此落在能正確引導 AI、在必要時踩煞車、並讓整個系統保持生產品質的資深工程師身上。

我要開發一個使用者登入系統,對 AI coding agent 說「幫我實作登入功能」。AI 能在幾分鐘內生成幾百行程式碼,完成表單介面、後端驗證邏輯、資料庫存取——這是它做得好的部分。但問題來了:要不要支援 Google 第三方登入?密碼加密要用哪種安全規格?登入失敗幾次才鎖定帳號?這些「設計判斷」AI 會自己猜,猜出一個「看起來能動」的版本,但可能選了過時的加密方式、沒考慮公司安全規範,或者跟其他模組的架構完全不一致。舊做法(人工寫程式):速度慢,但工程師邊寫邊思考取捨、做出有意識的決定。AI 做法(沒人把關):速度快十倍,但上線後才發現底層架構有問題,整個打掉重練反而浪費更多時間。文章的核心警示是:AI coding agent 不是「用了就快」,而是「用得好才快,用錯了更慢」。

T3
AI Agent 規模化成本管控

Uber(全球知名叫車平臺)在公司內部大規模導入 Claude Code(一種能幫工程師寫程式的 AI 助理工具),結果在四月中旬就把全年 AI 預算燒光了——5,000 名工程師中有高達 84% 在使用。這篇文章指出,AI Agent(能自主執行多步驟任務的 AI,例如自動撰寫程式、測試、部署)的真正成本,不只是「每次問 AI 花多少錢(token 費用,指 AI 讀寫的文字量計費)」,而是藏在背後的架構成本:包括重複傳送的上下文(context,即每次都要把任務背景重新告訴 AI)、資料查詢費用、任務排程協調、合規審查,以及失敗後的重試費用。文章建議企業改變衡量思維,從「每個 token 多少錢」轉為「完成一個任務值多少錢」,並透過控制 AI 的記憶與上下文,以及建立有狀態(stateful,指 AI 能記住前一步驟的結果,不必每次重頭傳遞所有背景)的 Agent 基礎架構,讓費用透明且可控。

假設你是 Uber 的工程主管,公司剛全力推廣 Claude Code 讓工程師用 AI 寫程式。採用率衝到 84%,看起來極為成功,但到了四月中旬卻發現全年 AI 預算快燒完了。查帳後才知道問題所在:每次 AI 幫工程師修改程式碼,背後都偷偷發生了一連串費用——把整個專案背景重新傳給 AI、向資料庫查詢相關資料、協調多個 AI 步驟依序執行、進行合規審查、失敗了再自動重試——這些加起來才是真正的燒錢元兇。舊做法只看 token 帳單,根本看不見這些費用。改善方向有三:一、改用「每完成一個任務總花費多少」取代「token 用量」作為主要指標;二、讓 AI 記住前一步的結果(有狀態架構),不必每次重頭傳送大量上下文;三、只在真正必要時才觸發資料查詢或合規審查,避免重複浪費。

T3
MotherDuck 推出 AI 代理原生資料管道

MotherDuck(一個基於 DuckDB 的雲端資料庫服務,DuckDB 是一種輕量、超快速的分析型資料庫)推出了新功能 Flights,讓 AI 代理程式(就是能自主執行任務、不需要人類逐步下指令的 AI 程式)可以直接建立、執行和排程資料的收集與整理工作流程。Flights 在底層使用一個安全的 Python 執行環境,支援 dlt(一種 Python 資料載入框架,讓開發者能快速把各種來源的資料統一格式並載入資料庫)管道,也可以直接執行 DuckDB 指令。此外,它內建日誌記錄、自動排程和版本控制,開發者可以透過 MCP 伺服器(Model Context Protocol,一種讓 AI 模型連接外部工具的標準協定)、SQL 表格函數或網頁介面來建立和管理這些工作流程。簡單來說,Flights 讓 AI agent 能扮演資料工程師的角色,自己搭建並維護資料管道,不再需要人類每次手動操作。

假設你是一家電商公司的資料分析師,需要每天從 Shopify 和 Google Analytics 各自抓取銷售與流量數據,清洗後合併存入分析資料庫。過去這要工程師寫好幾個 Python 腳本、設定 cron 排程(定時自動執行任務的機制)、還要手動管理各版本的腳本變動。現在你只需要告訴 AI agent:「幫我建一個每天早上 7 點從 Shopify API 拉昨日訂單、同時從 Google Analytics 拉流量,整合後存入 MotherDuck 的資料管道」,agent 透過 MCP 伺服器呼叫 Flights,自動生成並部署一個完整的 dlt 管道,附帶日誌(方便除錯時追查問題)、版本控制(出問題可回滾到前一版)和自動排程,整個過程不用工程師寫任何腳本或設定檔,管道建好就自動跑起來。相比舊做法,節省了數小時的手動設定時間,出錯時也有完整日誌可查。

T3
Linux 基金會標準化 AI 資產交換

Linux 基金會(一個專門推廣開放原始碼軟體的非營利組織,旗下維護 Linux 作業系統等眾多重要專案)宣佈推出 OpenSharing 計畫,要為企業界建立一套統一的 AI 資產共享標準。起源是 Databricks(一間專注大數據與 AI 分析的知名科技公司)將自家的 Delta Sharing 協議(一種讓不同公司、不同系統之間可以安全共享資料的技術規格)捐給 Linux 基金會,並升級擴展為更廣泛的開放標準。OpenSharing 將原本只支援結構化資料(像試算表那樣整齊的資料)的 Delta Sharing,延伸到 AI 模型(就是 ChatGPT、Claude 這類 AI 背後的核心程式)、代理技能(Agent Skills,讓 AI 自動執行特定任務的功能模組),以及非結構化資料(如文件、圖片、音訊等沒有固定格式的資料)。新標準加入統一的 API(應用程式介面,讓不同軟體系統互相溝通的規格),涵蓋資產探索、授權管理與資料存取,目標是取代各大雲端平臺各自為政的封閉式市集,讓企業在 AWS、Azure、Google Cloud 等不同雲端環境之間,用同一套規格自由分發與取用 AI 資產。

假設一家製藥公司在 AWS 上訓練了一個分析藥物副作用的 AI 模型,想把這個模型共享給合作的醫院,而那家醫院使用的是 Azure 雲端環境。過去這種跨雲共享很麻煩:要不透過各雲端平臺的專屬市集(各有一套格式和認證流程),要不就自己架伺服器硬搬資料。有了 OpenSharing,製藥公司只需在自家的 OpenSharing 伺服器上登記這個 AI 模型,醫院的系統就能透過同一套標準 API 找到它、完成授權驗證、直接下載使用——如同 HTTP 讓所有網站都能互通一樣,不同雲端平臺的 AI 資產也有了共同語言。相較於以前要替每個平臺各自處理格式與認證,這套方式大幅降低跨組織、跨雲共享 AI 成果的摩擦與成本。

T3
Databricks AI 文件解析成本陷阱

Databricks(一個廣泛用於企業資料處理的雲端平臺)提供了 ai_parse_document 與 ai_query 兩個功能,讓工程師只要寫幾行 SQL(就是查詢資料庫用的語言)就能把格式雜亂的 PDF 文件轉換成整齊的 JSON(一種電腦容易讀取的結構化資料格式)。這聽起來很方便,但在正式上線的生產環境中卻藏著幾個代價高昂的問題:每次重新執行流程,都會重新呼叫 LLM(大型語言模型,就是 ChatGPT 這類會對話的 AI),每次都要付費;若有文件被修正後重跑,可能產生重複資料;即使把 AI 的「溫度」參數(控制輸出隨機程度的旋鈕)設為 0,理論上讓輸出更穩定,實際上仍會產生不一致的結果,導致稽核困難。文章建議採用加入「檢查點」(把中間結果先存起來,避免重跑)、「版本化 prompt」(固定每次給 AI 的指令版本)以及去重複機制的 pipeline(資料處理流程)設計,來降低成本、提升可重現性。若文件格式固定,也可改用 OpenDataLoader PDF 這類不依賴 AI 的傳統解析器,更穩定也更省錢。

假設你是一家保險公司的資料工程師,每天要把幾千份客戶填寫的 PDF 理賠申請書自動轉成資料庫裡的結構化欄位(姓名、金額、事故日期等)。使用 Databricks 的 ai_parse_document,幾行 SQL 就能讓 AI 自動把 PDF 裡的資訊抽出來存成 JSON。但某天你發現一批文件解析出錯,需要重跑整批——結果又付了一大筆 AI API 費用(因為沒有檢查點,全部重送給 AI),而且已修正過的文件又產生了重複記錄。更糟的是,同一份 PDF 今天跑出「申請金額:$5,000」,明天再跑卻變成「$5000」,格式微妙不一致,稽核人員無從核對。改用文章建議的設計:每份文件解析後先存一筆「已完成」紀錄,重跑時直接跳過這些文件;固定 prompt 版本,確保相同文件每次用相同指令解析;加去重機制,防止同一份文件被匯入兩次。如此一來,重跑成本從全量縮減為零,資料品質也大幅提升。

T3
OpenSharing 標準化 AI 資產跨平臺交換

Linux 基金會(一個負責維護許多重要開源軟體的非營利組織)宣佈了一個新的開放標準計畫,叫做 OpenSharing。這個計畫的起點是 Databricks(一家大數據公司)將原本自用的 Delta Sharing(資料共享協議,原本只用來在不同雲端服務之間共享表格型資料)捐出並交由社群維護。OpenSharing 把這個協議大幅升級,讓它不只能共享一般資料,還能共享 AI 模型(就是讓 AI 能思考和回答問題的核心程式)、agent 技能(agent 是指能自主執行任務的 AI 程式,技能就是它能做的一項特定功能)、以及非結構化資料(像文件、圖片這類沒有固定格式的資料)。它提供統一的 API(就是讓不同程式之間溝通的標準介面),負責 AI 資產的查找、授權和存取;目標是取代各大廠商各自建立的封閉市場,用一個統一標準讓企業可以跨雲端、跨平臺自由分享和取用 AI 資產。

假設一家公司在 AWS(亞馬遜雲端)上訓練了一個客服 AI 模型,另一家合作夥伴的系統跑在 Azure(微軟雲端)上。過去這兩家公司要共享模型,必須各自購買對方平臺的工具,或是手動匯出模型、轉換格式再重新上傳,費時費力。有了 OpenSharing 之後,第一家公司把模型「發布」到 OpenSharing 的統一目錄,設定好哪些人有權存取;第二家公司的 Azure 系統直接透過標準 API 查到這個模型並自動下載使用,不需人工搬運,也不必被鎖在單一廠商的市場裡。差異在於:以前各家廠商平臺互不相容,企業不得不重複購買授權或手動搬移資料;OpenSharing 讓整個流程自動化且廠商中立,降低企業在多雲環境部署 AI 的門檻。

T3
Google 發表機器遺忘審計新框架

Google Research 發表了一套新工具,用來稽核 AI 模型的「機器遺忘」(Machine Unlearning,就是讓 AI 主動忘掉某些訓練資料的技術)是否真正有效。機器遺忘在歐盟 GDPR 等隱私法規下愈來愈重要——當用戶要求刪除個人資料時,企業必須讓 AI 真的「遺忘」那筆資料,而非只是從資料庫移除。但過去驗證「遺忘有沒有成功」的方法(兩樣本統計檢定)有三大缺陷:難以偵測細微的資料殘留、參數調整繁瑣、還容易誤報「遺忘失敗」。Google 提出的新框架名為「正則化 f-散度核函數檢定」(Regularized f-Divergence Kernel Tests,一種用數學距離衡量兩個機率分佈差異的統計方法),能自動選擇最佳檢測方式,只需幾千筆樣本就能完成驗證,比舊方法所需的百萬筆樣本大幅減少。

假設你是一家醫療 AI 公司,訓練模型時包含了某位患者的病歷資料,後來該患者行使「被遺忘權」要求刪除。你執行機器遺忘技術,把那份資料從模型裡抹除,接著要向監管機構證明「遺忘確實成功了」。用舊方法,你需要蒐集超過百萬筆測試樣本才能通過稽核,而且系統還可能誤判「遺忘失敗」,迫使你重頭訓練整個模型(成本極高)。改用 Google 這套新框架,只需幾千筆樣本就能測出遺忘是否徹底,框架也能準確區分「真正遺忘成功」與「模型仍有殘留記憶」的情況,讓合規驗證更快速、更可靠。

T3
自建 ML 特徵倉儲,避免訓練預測落差

這篇文章示範如何用 DuckDB(一個可直接讀取 Parquet 資料檔的輕量級本地資料庫)和 Redis(一種存在記憶體裡、查詢速度極快的資料庫)從零打造一套「特徵倉儲(Feature Store,即 AI 模型訓練和上線推論時共用的特徵資料管理系統)」。AI 模型在訓練時需要大量「特徵(feature,也就是送進模型的數字化資料欄位,例如用戶年齡、過去消費金額等)」,而同一批特徵在上線後服務時也要再算一遍——若兩次的計算方式稍有不同,模型預測就會跑偏,這個問題叫做「訓練-服務落差(training-serving skew)」。特徵倉儲的核心理念是「定義一次、兩地存放、保持同步」:離線用 DuckDB 算好存成檔案供訓練用,上線用 Redis 預存供即時推論用,兩者來自同一份定義,消除落差風險。文章把整套系統拆成五個組件逐一實作:特徵定義登錄表、離線儲存(Parquet 檔 + DuckDB)、線上儲存(Redis)、搬移管道(把離線數據定期推送至線上),以及一個 FastAPI(用 Python 快速搭建 API 服務的框架)查詢介面,全套皆可在自己電腦上跑,不依賴付費雲端服務。

假設你在訓練一個電商推薦模型,需要「用戶過去 7 天平均購買金額」這個特徵。傳統做法是:訓練時寫一段 SQL 計算這個數字,上線服務時再另外寫一段 Python 邏輯算同樣的值。結果因為兩段程式碼有細微差異(例如時區處理不同、空值補法不同),訓練時看到的數字和上線後算出的數字對不上,模型預測準確率在生產環境莫名下滑,排查起來極為麻煩。改用這套 DuckDB + Redis 特徵倉儲後:你在「特徵登錄表」裡一次定義好計算邏輯,搬移管道定期把 DuckDB 算好的結果推送進 Redis;訓練時從 DuckDB 撈歷史數值,上線推論時從 Redis 以毫秒級速度取同一份數值——兩邊保證完全一致,落差問題從根源消除。文章還特別說明用「AsOf Join(時間點連結,取查詢時間點之前最近一筆資料,避免用到未來資料造成數據洩漏)」來正確處理歷史回填,整套實作程式碼皆可直接複製使用。

T3
AI 時代大企業的人才資本困局

Turing Post 本週主文深度解析微軟執行長 Satya Nadella 提出的兩個概念——「token capital(代幣資本)」與「human capital(人力資本)」。所謂 token capital,指的是企業自行建置的 AI(人工智慧)能力,包括自家模型、自動化流程、工作記憶等;human capital 則是員工的判斷力、品味、脈絡理解與模式辨識能力。Nadella 主張兩者應相互強化、讓人才隨 AI 越來越值錢。但作者卻指出一個更深層的矛盾:大企業最擅長培養、留住的那種人才——懂政治、擅長在委員會間折衝、說話永遠正確的資深老鳥——偏偏就是最會把 AI 資源用在錯地方的人。反觀 DeepMind 的 Demis Hassabis(遊戲設計師出身)、DeepSeek 的梁文鋒(對沖基金出身),這些真正推動 AI 前沿的人,幾乎都是從側門走進來、在傳統企業爬升階梯上反而會被淘汰的那種人。作者最後留下一個問題:大企業能否在不「馴化」這群特立獨行者的前提下,給他們企業規模的算力、資料與資源?

WorkBench Revisited(針對 AI 代理人(agent,即能自主執行多步驟任務的 AI 程式)在辦公室場景的評測研究)最新數據顯示:2024 年 GPT-4 的任務完成率只有 43%,且有 26% 的機率執行「原本不該做的有害動作」;到 2026 年 6 月,Claude Opus 4.8 的任務完成率已躍升至 89%,有害動作率僅剩 2.5%。這代表 AI 代理人的能力已大幅提升,能接手的工作越來越多。然而本文的核心論點在於:光有強大的 AI 工具還不夠——企業組織如果仍由「爬階梯的人」主導決策,只會讓這些 AI 工具在繁文縟節中空轉,反而不如一個十人小隊、對準單一問題、背後有充足算力的新創組織來得有效。換言之,「誰在使用 AI」與「組織結構允不允許快速試錯」,比「用哪個 AI 模型」更決定勝負。

T4
T4
美聯邦資料中心法規恐失效

美國一項名為《聯邦資料中心強化法案》(FDCEA,就是規定聯邦政府機構要如何建設和管理電腦機房的法律)預計在 2026 年 9 月底到期,而川普政府目前沒有打算更新或延續這項規定。這項法案原本要求聯邦政府的資料中心(就是存放大量資料並進行運算的大型機房,AI 訓練和服務都要靠它)必須達到一定的網路安全標準,也要評估能源效率與用水量等環保指標。法規失效後,聯邦機構在資料中心建設上少了這些約束,反映出川普政府傾向讓 AI 產業自由發展、減少政府管制的政策路線。與此同時,美國民間對 AI 資料中心的抵制聲浪卻持續升高——根據民調,約七成美國人反對在自家附近興建 AI 資料中心,主因是擔心耗電、耗水,以及影響社區環境。

2026 年第一季,美國各地已有 75 個資料中心建設計畫因居民抗議或地方政府阻撓而受阻。以典型情境為例:某科技公司計畫在一個用電和用水資源本來就偏緊的地區興建 AI 訓練用資料中心(這種機房需要大量電力讓 GPU 晶片持續運算,也需要大量水來冷卻設備),當地居民擔心這會讓旱季用水更緊張、電費上漲,因此組成聯盟反對。若 FDCEA 繼續有效,至少聯邦機構自身的資料中心建設需符合用水與能源評估標準,有示範帶動作用;現在法規一旦失效,這道約束就消失了,AI 基礎設施擴張與社區利益之間的衝突可能更難靠政策層面調解。

T4
範式 vGPU 平臺獲 Tier 1,GPU 利用率升三倍

全球知名市場研究機構弗若斯特沙利文(Frost & Sullivan,替各產業做評比排名的國際諮詢公司)於 2026 年 6 月 15 日發布《2026 年人工智能基礎設施管理平臺白皮書》,將中國 AI 公司「範式智能」的 Rise vGPU 評定為最高等級「Tier 1 領先平臺」。vGPU(虛擬 GPU,就是把一塊實體顯示卡虛擬切割成多份,讓多個程式同時共用、避免資源閒置)是 AI 模型訓練與推論的關鍵底層技術。目前中國 AI 企業普遍面臨「多芯片共存」困境:公司同時擁有英偉達(NVIDIA)、華為昇騰、寒武紀等多種不同廠牌的 GPU 和 NPU(神經網路處理器,專為 AI 計算設計的晶片),卻缺乏統一管理工具,導致平均 GPU 利用率不足 30%——即七成算力長期空轉浪費。Rise vGPU 可統一管理 10 多家廠商的異構晶片,透過智慧排程把 GPU 利用率從 30% 大幅提升至 70%~90%;同場評比中,範式另一產品 ModelHub(企業級 AI 模型管理平臺,幫公司統一管理、部署、升版各種 AI 模型)在同類產品中排名第一。

假設一家製造業的 AI 工程部門採購了英偉達 H100 卡 8 張、華為昇騰 910B 卡 8 張、AMD Instinct 卡 4 張,共 20 張 GPU。原有做法是每個工程師「佔用整張卡」跑實驗,閒置時整張卡空轉,整體利用率只有 25%,每次 AI 訓練實驗搶不到卡的工程師只能排隊等待。導入 Rise vGPU 後,平臺把每張卡切分成最小粒度(H100 切成最多 8 個虛擬卡、昇騰卡切 4 個),再根據各任務的優先級和即時負載自動分配算力,三種品牌的管理界面也統一在同一套系統。結果:同樣 20 張卡,可同時服務約 120 個工作負載(原本只能服務 20 個),GPU 平均利用率升至 85%,不必再買新卡就等效多出約三倍可用算力,大幅壓低每次 AI 訓練的單位運算成本,工程師排隊等卡的問題也隨之消失。

T4
宇樹G1機器人登頂6200米火山

宇樹(Unitree,中國知名機器人公司)旗下的 G1 型雙足機器人(就是像人一樣用兩條腿走路的機器人)被改裝成「Pemba」,於 2026 年 6 月 5 日成功登上厄瓜多爾欽博拉索火山頂(海拔 6,200 公尺)。這臺機器人使用了強化學習(Reinforcement Learning,一種讓 AI 透過不斷嘗試錯誤來學習如何行動的技術),訓練出能在崎嶇、有坡度地形上自主行走的策略,並持續擴展可自主通過的坡度範圍。為了應對高海拔的極寒環境與電子元件散熱問題,工程師在機器人外殼內塞入了定製的通風散熱系統,並對機身進行了結構加固。整個計劃的最終目標是讓機器人能進入地球上約 97% 輪式或履帶式機器人根本無法到達的地形,做為「會走路的攝影機」,代替人類執行野外環境監測工作。

假設你是野生動物保育研究員,需要在高海拔山區(坡度 20 至 30 度、氣溫零下 20 度)部署感測器或拍攝野生動物。以往只能靠人力徒步背負沉重設備,或動用費用高昂且受天氣限制的直升機。現在若改用像 Pemba 這類經過強化學習訓練的雙足機器人,它能在坡度小於 30 度的路段自主行走,帶著攝影機和感測器穿越複雜地形,持續回傳即時影像與環境數據。對比舊做法:傳統輪式機器人一碰到亂石堆積的山坡就寸步難行;Pemba 透過強化學習學會了在坡地保持平衡,不需鋪設道路,也不需人員冒險進入危險地帶。目前它仍有限制(超過 30 度的陡坡需由探險隊員抬運),但團隊計劃在 2026 至 2027 年挑戰珠穆朗瑪峰,並持續以強化學習訓練擴大可自主通過的地形範圍。

T4
Nadella 警告 AI 價值遭少數系統壟斷

Microsoft 執行長 Satya Nadella 公開警告,如果各企業不積極建立屬於自己的 AI(人工智慧,就是像 ChatGPT 這樣能對話、判斷、輔助決策的電腦技術)能力,整個產業的經濟價值最終恐將被少數幾個大型 AI 系統獨吞。他提出「token 資本」(token capital)這個新概念——就像公司重視人才培育(人力資本)一樣,也應該利用自家的內部資料與專屬學習流程,打造出只屬於自己的 AI 能力,而非一味仰賴外部的通用 AI 平臺。Nadella 的論點是:若企業只是採購別人的 AI 服務卻不自行積累能力,最終只是替大平臺創造價值、自己卻什麼都沒留下。值得留意的是,這番話本身也完美符合微軟旗下 Azure 雲端服務(一個讓企業租用伺服器和 AI 工具的平臺)的商業利益,畢竟 Azure 正是企業建立自有 AI 系統的主要選項之一。

假設你經營一家傳統零售公司,目前直接購買 ChatGPT 的 API(應用程式介面,就是讓自家系統連線使用別人 AI 的橋梁)來自動處理客服問題。依照 Nadella 的邏輯,問題在於:你所有的客服對話紀錄、顧客偏好、商品知識都餵給了 OpenAI 的模型,自己公司卻沒有沉澱出任何專屬能力。更好的做法是:把這些累積多年的對話歷史拿來做 fine-tune(微調,就是用自家資料讓 AI 更懂你的業務和語境,而不是用通用知識回答),或建立 RAG 系統(讓 AI 回答前先查詢自家商品資料庫,避免憑空捏造或給出不符公司政策的答案)。這樣做的差異在於:同一個問題「這件外套有沒有加大尺碼?」,套用通用 AI 只能說「不確定,請查官網」,而有自家資料庫支撐的 AI 能直接回答「有,XL 目前庫存 12 件,預計下週補貨」。這種差距就是 Nadella 所說的「token 資本」——積累在企業內部、競爭者難以複製的 AI 優勢。

T4
AI 代理身份安全管理新思維

隨著 AI 代理(就是能自動執行任務的 AI 程式,像是自動回信、自動下訂單)開始進入企業內部工作流程,這些 AI 代理也需要有自己的「身份」——也就是帳號、密碼、存取系統的權限,就像一位新員工入職後會被配發工作帳號一樣。然而,企業現有的 ISPM(身份安全姿態管理,就是一套確保「對的人才能存取對的資料」的安全機制)是針對人類員工設計的,並不適合管理這些 AI 代理的身份與權限,形成了安全漏洞。一篇分析文章提出「Agentic ISPM」(AI 代理版身份安全管理)的新框架,核心概念是讓安全系統從「只負責找問題、開工單給人處理」進化為「找到問題後自動提出修復方案、必要時送人審核、執行後留下可稽核記錄」的閉環流程。這個想法主要針對企業資安長(CISO),提供在大規模導入 AI 代理時如何避免引入新安全漏洞的思考架構。

假設某公司導入一個 AI 代理來自動處理客服工單,這個 AI 代理被設定可以讀取整個客戶資料庫。傳統 ISPM 系統可能會「警告說此 AI 代理的存取範圍過大」,然後開一張工單等 IT 人員幾天後手動處理,期間漏洞持續存在。改用 Agentic ISPM 框架後,系統偵測到問題,會自動提案「縮小此 AI 代理的存取範圍為僅限本季客戶資料」,根據企業設定的規則決定是否需要主管點頭確認,確認後立刻自動執行並存下完整操作記錄——整個流程從「發現問題」到「完成修復」可能只需要幾分鐘,而非過去的幾天,大幅縮短了安全漏洞暴露的時間窗口。

T5
T5
AI 診斷草坪健康問題

一位獸醫師創業,將看診邏輯(找根本原因、而非只治症狀)套用到草坪照護上,開發出一款叫做 GrassDX 的 AI(人工智慧)草坪診斷工具。使用者只要拍下草坪照片、輸入美國郵遞區號,系統就會在 15 秒內提供針對該地區氣候與土壤條件的專屬診斷報告,以及可立即執行的改善步驟。這個工具完全免費,背後的獲利模式是商品聯盟行銷(推薦使用者購買 Amazon 等平臺產品時抽成),以及按郵遞區號出售「有明確需求的潛在客戶名單」給當地草坪維護公司。在此之前,屋主碰到草坪問題往往只能上 Google 搜尋,卻得到一堆沒有考慮當地條件的通用建議,或是花大錢請草坪公司卻不見改善。

假設我家草坪出現一塊塊黃褐色乾枯斑,不確定是病菌感染、乾旱缺水,還是蟲害。以前的做法是 Google「lawn brown patches」,結果跳出幾十篇英文文章,每篇建議都不一樣,也沒有考慮到我住在高溫多濕的德州。現在我只需要用手機拍幾張草坪照片,上傳到 GrassDX,輸入我的郵遞區號,15 秒後系統就給出診斷:「你的問題是夏季高溫導致的褐斑病(Brown Patch Fungus),在德州 7 月常見,建議減少澆水頻率、施用 X 類殺菌劑,並避免在傍晚澆水」。整個流程跳過了看幾十篇文章和猜測的步驟,直接給出有地區針對性的行動方案。

T5
獸醫跨界打造 AI 草坪診斷工具

GrassDX 是一款由獸醫出身的創業者 Andrew 所打造的 AI(人工智慧,就是能像人一樣判讀照片、理解問題並給出建議的電腦系統)草坪診斷工具。使用者只需上傳自家草坪的照片,並輸入美國郵遞區號,系統就會在約 15 秒內根據所在地區的氣候與環境特性,給出針對性的草坪問題診斷與改善步驟。這個工具的靈感來自創辦人自身的草坪護理挫敗經驗:花了大量金錢請人整理草坪卻毫無改善,上網查詢只得到泛用答案,完全不考慮地區差異,甚至曾因不知道補播草種前必須先鋪土,白費了一番工夫。工具目前完全免費使用,平臺透過亞馬遜等聯盟行銷連結(即使用者若點連結購買產品,平臺可獲得分潤)以及向草坪業者販售特定郵遞區號的獨家潛在客戶名單來維持營運。

假設你住在美國德州達拉斯,家裡草坪出現大片黃化、枯萎現象。以前你可能會上網搜尋「草坪變黃怎麼辦」,卻只找到適合全美各地的通用建議,完全不考慮德州高溫乾旱或當地土壤特性,只能盲目嘗試或花錢請業者上門。現在使用 GrassDX,拍下幾張草坪照片上傳,輸入郵遞區號,15 秒後就得到像是「根據達拉斯地區夏季高溫缺水環境,你的草坪疑似因缺水壓力造成焦枯,建議清晨深度灌溉並減少修剪頻率」這類有地區針對性的具體建議,省去自行摸索或支付業者診斷費的時間與金錢成本。