快手(就是中國版 TikTok 的開發商)推出並開源了 Keye-VL-2.0-30B-A3B,這是一個擁有 300 億參數的多模態大語言模型(能同時理解文字、圖片和影片的 AI)。這次最大的技術亮點是把 DSA 稀疏注意力(一種讓 AI 在處理超長內容時,自動跳過不重要部分、大幅節省計算資源的方法)首次引入多模態場景,讓模型處理長達數小時的影片時,計算成本直接降低 50%,而且不會隨影片加長急劇膨脹。除了影片理解,模型還內建 Agent 框架(讓 AI 能自動規劃步驟、呼叫外部工具來完成任務的機制),在程式碼生成和軟體工程任務上也拿出強力成績。這個模型已完全開源到 HuggingFace 和 GitHub,支援 256K 超長上下文(等於能一口氣讀進約 20 萬字的資料),任何開發者都可以免費取用。
假設你有一部 2 小時的會議錄影,想找出「哪幾分鐘在討論預算」並剪成一段片段。舊做法是請人工逐一翻看,或用傳統逐幀分析工具,不僅費時,一般工具也不支援超過十幾分鐘的影片。用 Keye-VL-2.0 則可以把整部 2 小時影片丟進去,下一句指令「找出討論預算的時間段」,模型透過 DSA 稀疏注意力快速略過無關畫面,精確定位到時間戳,吐出像 `45:12 ~ 47:38` 這樣的具體結果。在業界長影片基準測試(ActivityNet-TimeLens)上,Keye-VL-2.0 的得分(58.5)超越 Google 旗下的 Gemini-2.5-Pro(58.1)及 Gemini Flash,而且這是一個完全開源、30B 參數的模型,研究者和開發者可以直接下載、自行部署或微調。
這篇文章匯整了 AI 研究領域近期三項重要進展。首先是「能力隱藏」現象:有數學家實測 Claude Mythos(Anthropic 的頂尖 AI 模型)成功解決了 Erdős 問題 #90(這是數學界幾十年沒解決的懸案),而且 AI 找到的證明方式比過去 OpenAI 的解法更簡潔乾淨。研究者指出,這說明現有 AI 模型擁有大量「潛在但未展現的能力」——用普通的聊天介面只能問出冰山一角,但透過精心設計的自動化流程(harness,就像給 AI 加上一套工作架構,讓它能反覆思考、自我驗證),就能讓 AI 解出以前做不到的難題。其次是一篇新論文《語言模型需要睡眠》:AI 在執行需要大量步驟的長期任務時,需要不斷「記住」前面做過的事,但這些記憶(KV cache,即 AI 的短期暫存空間)越來越大,會拖慢速度甚至撐爆。論文提出仿照人類睡眠的「鞏固機制」——趁 AI 閒置時把短期記憶壓縮寫入永久參數,清空暫存空間,讓下次運作時仍保持快速。最後是 QUEST,一批新發布的開源「深度研究代理」(能自主上網查資料、核實引用來源、產出長篇報告的 AI 程式),參數規模從 20 億到 350 億都有,適合各種算力環境使用。
假設你是科學研究員,需要讓 AI 代理持續追蹤某領域的論文、每天自動更新文獻綜述。舊做法是每次啟動新對話都要重新貼上所有背景資料,因為 AI「重啟」後什麼都忘了,且對話一長就開始遺漏前面的資訊。用《語言模型需要睡眠》論文的機制,AI 會在每個任務批次結束後「睡眠鞏固」——把「昨天已查過的 50 篇論文的重點」壓縮存入模型內部,清掉暫存空間;第二天繼續工作時記憶仍在,速度也不受龐大暫存拖累。搭配 QUEST 開源研究代理,AI 可以自動上網搜尋新論文、查核引用的真實性、輸出帶有確切文獻連結的報告——整個流程跨越數百個步驟,卻不再因「記憶空間滿了」而中斷或遺忘。與過去相比,研究員每週能省去大量手動整理的時間,得到的報告也附有可驗證的原始來源,而不只是 AI 信心滿滿地瞎猜。
這週 AI 圈有幾件值得注意的事同時發生。首先,MiniMax(中國 AI 公司)宣布要開源他們的新模型 M3,採用了新的「稀疏注意力」設計——簡單說就是讓 AI 在讀超長文件時,不必每個字都細看,只選最重要的部分快速處理,大幅省去計算力。在一次處理 100 萬個字元(大約兩三本厚書的篇幅)的場景下,前置讀取速度比上一代 M2 快 9.7 倍、輸出速度快 15.6 倍,這個差距在業界算非常顯著。其次,微軟推出了圖像生成模型 MAI-Image-2.5,在全球圖像生成排行榜「Image Arena」(由用戶投票選出最好的生圖結果)直接殺入第三名,打破了 OpenAI 和 Google 長期佔據前排的格局,得分 1,254 分。另外,PrismML 開源了 Bonsai Image 4B,這是一個只有 40 億個參數(參數可以理解為 AI 的「記憶量」,越多通常越強但也越耗資源)的視覺模型,連 1-bit 超輕量版也有,整個模型只需約 3GB 空間,可以直接在筆電甚至手機上跑,不需要連到雲端。最後,Google 的 Gemini 3.5 Flash 實測輸出速度達每秒約 280 個 token(可以理解成每秒約 280 個字),在需要 AI 自主執行多步驟任務(例如:幫你一步步查資料、整理報表、寫信)的情境表現也有明顯提升,但代價是費用比上一代 Gemini 3 Flash 貴了約 5 倍。
假設你要讓 AI 一口氣讀完一份 500 頁的法律合約,然後回答「第 10 章違約條款中,哪些情況需要賠償金額超過合約總額的 20%?」這種複雜問題。舊模型碰到這麼長的文件時,光是「把全文塞進記憶」這個動作(技術上叫 prefilling)就要花十幾秒甚至更久,讓人等得焦躁。MiniMax M3 的新設計讓這個步驟快了 9.7 倍——原本要等 20 秒的事,現在大約 2 秒就能開始回答。對每天需要用 AI 審閱大量合約、法規、研究報告的企業來說,這種速度差距直接決定一天能處理多少件,商業意義很明確。而如果你只是想在自己電腦上玩圖像辨識或生成,Bonsai Image 4B 的出現意味著不需要高端顯示卡、不需要付雲端費用,下載 3GB 就能跑,適合開發者在本地測試或個人使用。
Robinhood(美國知名股票交易 App,類似台灣的永豐或富果)宣布讓 AI agent(AI 自動執行任務的軟體程式,你給它目標,它自己想辦法完成,中途不需要人一直盯著)能夠代替使用者進行股票買賣。使用者可以建立一個「專屬 AI 交易帳戶」,預先放入一筆資金,AI agent 就在那筆錢的範圍內自行判斷進出場。背後採用的是 MCP(Model Context Protocol,一種讓 AI 程式連上外部服務的標準介面,類似 USB 插頭的規格統一,讓 AI 不用每次都重新學怎麼接各種資料來源),讓 agent 能讀取投資組合、分析風險集中度,再執行交易。部分金額較大或風險較高的交易仍需使用者手動批准,Robinhood 也設有詐騙偵測團隊專門審查可疑交易。目前功能在測試階段,只支援股票,未來計畫擴展到期權、加密貨幣和期貨。
我想嘗試「每當科技股整體下跌超過 3%,就自動分批買入我的自選清單」這個策略,但我沒辦法整天盯著盤。用 Robinhood 的 AI agent 功能,我先開一個獨立交易帳戶、存入 5 萬元,告訴 agent 這個觸發條件和清單,agent 會透過 MCP 介面即時監控市場、判斷是否達標,達標就自動下單。整個過程我主帳戶的錢完全不會被動到(因為 agent 只能用那個獨立帳戶的 5 萬元),如果 agent 的某筆大單看起來異常,系統會攔下來等我確認。對比過去,我只能靠「設定停損單」或「手動下單」兩種方式,agent 讓策略執行可以更靈活、更接近人工判斷。
MAI-Image-2.5 是微軟(Microsoft)最新推出的「文字生成圖片」AI 模型——也就是你輸入一段文字描述,AI 自動畫出一張圖的那種工具。它在 Arena(一個讓大量真實用戶投票、公平比較各家 AI 圖像生成模型好壞的公開排行榜,類似消費者評比)上拿下第三名,是 AI 圖像生成領域的重大突破。相比上一代 MAI-Image-2,新版在三個方向明顯進步:「視覺推理」(AI 能理解圖中各物件的空間關係,例如前景背景、遮擋關係)、「場景結構」(整體構圖更合理、畫面元素排列更自然)、以及「商業插圖製作」能力。最值得一提的是它的「文字渲染」能力——當你要求 AI 在圖片中加入特定文字(例如廣告標語、招牌),新版能更清晰、正確地呈現,而這向來是其他圖像 AI 的痛點。
假設我是設計師,要製作一張台灣手搖飲品牌的廣告圖,需求是:珍珠奶茶的特寫,背景是夜市霓虹招牌,招牌上要寫「明日美好」四個字。用舊版圖像 AI(如早期 Midjourney 或 DALL-E 3)時,招牌上的文字往往扭曲、缺筆甚至變成亂碼,需要反覆嘗試或後製修圖才能過關。用 MAI-Image-2.5 改進後的文字渲染能力,相同的提示詞下,招牌文字出現機率更高、字形更完整可辨;同時場景中的光影質感和霓虹燈背景構圖也更協調,大幅減少重試次數,讓設計師能更快完成初稿。
Anthropic(就是開發 Claude 的公司,是 OpenAI 的主要競爭者)最新公開了一篇工程部落格,揭露他們如何在不同的 Claude 產品中控制 AI 可能造成的危害。AI agent(就是能自己上網搜尋、執行程式碼、讀寫檔案的自動化 AI 助手)越來越普遍,但如果 AI 被攻擊者操控、或者 AI 自己出了差錯,可能導致重要資料外洩或系統被破壞。Anthropic 採用「三層防護」策略:首先在執行環境層做沙箱隔離(就是讓 AI 在一個封閉的容器裡運行,就算出事也出不來),其次在模型行為層面設限,第三則是過濾外部輸入的惡意指令。他們特別強調:環境隔離比調整 AI 的行為模式更可靠,因為 AI 的行為難以預測,但容器的邊界是工程可保證的。這篇文章還罕見地公開了幾個曾發生的真實安全事故及修復過程,是目前 AI agent 安全領域最完整的第一手工程案例之一。
以 Claude Code(一個能幫你寫程式的 AI,可以直接讀寫你電腦上的檔案和執行命令)為例:早期設計讓用戶自己審批 AI 的每個操作——讀檔免審,寫檔、執行命令需要按確認。結果 Anthropic 統計到 93% 的操作用戶都直接按「同意」,反而形成「確認疲勞」(用戶煩了就一路確認,失去防護意義)。他們的解法不是繼續靠用戶審批,而是加了作業系統層的沙箱:macOS 用系統的 Seatbelt 機制、Linux 用 bubblewrap 工具,讓 AI 即使想執行危險操作也被作業系統本身擋住,不需要靠用戶每次按確認。結果:需要跳出確認提示的操作減少了 84%,用戶體驗更順暢,安全性反而更高——這正是「先把牆蓋好,再談 AI 聽不聽話」這個設計原則的體現。
Anthropic(就是做 Claude AI 的公司)最新研發的模型 Claude Mythos,成功解開了一道自 1946 年就懸而未解的數學難題——「Erdős 單位距離猜想」(一個關於幾何點陣排列的組合數學(把點放在平面上,研究它們之間距離規律的數學分支)問題)。更早之前,OpenAI 的 AI 模型已先行解決了同一問題,被數學界視為 AI 驅動數學研究的重大里程碑。Mythos 的解法被 Anthropic 工程師形容為「簡潔、漂亮的證明」,雖然數學家評估 Mythos 的方案稍遜於 OpenAI 的解法,但 Mythos 後來也被報導成功找出了 OpenAI 的解法。值得注意的是,Mythos 所用的方法是讓多個獨立的 AI 實例(可以想像成多個 AI「工作站」同時各自思考問題),分頭探索不同解題路徑、最終彙整成果——這套分散式(把任務拆分給多個獨立單元同時進行)的解題框架,讓 AI 能頻繁找到與 OpenAI 模型不同的解法路徑。研究者認為,這波進展顯示 AI 在數學發現方面還有相當大的「待爆潛力(目前已有實力但尚未全面釋放的能力)」。
假設你是一位數學系學生,要挑戰某道已知「應該可解但還沒人解出來」的幾何猜想。傳統做法:你翻閱幾十年的論文、自己推導幾個月,最終可能還是卡關。現在,用 Claude Mythos 的做法:系統自動開啟多個獨立的 AI 工作站,每個工作站都接到同一道題目,各自獨立發展不同的解題思路。其中一個工作站發現了一條「簡潔路徑」(就是這次的「cute, simple proof」);另一個最終甚至推導出和 OpenAI 相同的解法。人類研究員只需在最後審核 AI 匯整的解題方案即可——原本需要數十年的懸案,AI 可能在短時間內給出多條可行解法。
Harvey 是一家專門幫律師事務所開發 AI 工具的公司,他們設計了一套「法律 Agent 基準測試」(Legal Agent Benchmark,就是一套測量 AI 在真實法律任務上能力的考試題組)。這次測試採用最嚴格的「全通過」標準(all-pass),意思是 AI 必須在每一項評分標準上都完整達標才算合格,只要有一項沒過就算失敗——比一般只看平均分的測試嚴格許多。測試結果:表現最好的是 Anthropic 的 Claude Opus 4.7(就是目前 Anthropic 最頂級的 AI 模型),合格率也只有 7.1%;其次是 Claude Sonnet 4.6(5.4%)、Claude Opus 4.6(4.2%)、OpenAI 的 GPT-5.5(2.1%)、Google 的 Gemini 3.5 Flash(0.8%)。這組數字清楚說明,目前最先進的 AI 在「能完整處理真實法律工作」這件事上,遠遠沒有達到可以取代律師的程度。
假設你把以下任務交給 AI:「審查這份合約,找出每一條對我方不利的條款,列出條文號碼並給出具體修改建議」。依照 Harvey 這套嚴格標準,AI 必須做到「每一項要求都完整完成、不漏判、不誤判、不給含糊建議」才算過關。結果是,即便是目前最強的 Claude Opus 4.7,在類似的完整法律任務下,大約 100 份合約裡只有 7 份能全部標準都通過。對比之下,舊做法是讓資淺律師花幾小時逐條審閱——AI 雖然速度快,但在這套最嚴格的「每一項都要對」標準下,準確率和完整性仍遠低於有經驗的人類律師。對開發法律 AI 工具的團隊來說,這份測試劃出了一條清楚的進步目標線。
傳統網路時代,企業靠「流量」——也就是有多少人點進你的 App 或網站——建立競爭護城河。但螞蟻集團 CEO 韓歆毅在近期論壇提出一個新觀點:中國有 14 億人,未來 AI Agent(自主代理人,就是能自己規劃、呼叫工具、自動執行任務的 AI 程式)可能會有 1400 億個,數量是人口的 100 倍。這意味著商業競爭的核心正在根本性轉移——未來決定勝負的不再是「有多少人打開你的 App」,而是「有多少 AI 代理人願意呼叫你的服務」。配合這個趨勢,Google 已推出 A2A 協議(智能體對智能體,讓不同廠商的 AI 程式互相溝通的標準規範),OpenAI 和 Stripe 也推出 ACP(讓 AI 代理人自動完成購物等商業交易的協議),整個 AI 生態正快速往「Agent 互連互呼叫」方向建構基礎設施。
假設你想安排一趟出差,傳統做法是:自己上旅遊網站搜尋機票、再上另一個平台訂飯店、再找接送交通,每個步驟都要你手動點選、比價、填表。Agent 時代的做法是:你只跟 AI 助理說「下週三飛上海出差,幫我安排機票、飯店、接送,預算 8000 元」,AI 代理人會自動呼叫多個服務的 API(就是讓程式之間互相溝通的標準介面),自動比價、確認、付款,全程你不需要打開任何網站。這對企業意味著:你的訂房平台不再需要花大錢在搜尋引擎買廣告讓「人」搜尋到你,而是要讓你的服務符合 A2A、ACP 這類協議標準,確保 AI 代理人在規劃任務時能「發現你、信任你、呼叫你」——誰的服務被更多 Agent 選用,誰才有未來的競爭優勢,與傳統靠廣告搶流量的邏輯完全翻轉。
VGGT-Edit 是由北京大學、香港中文大學、上海 AI Lab 及台灣大學聯合提出的「原生 3D 場景編輯」AI 框架。3D 場景(就是遊戲、AR 擴增實境、機器人模擬所使用的立體空間模型)的編輯,過去的做法是先把 3D 轉回 2D 影像再處理,費工之餘還容易出現「在某個角度刪掉的物件,換個拍攝角度又冒出來」的穿幫問題,也就是多視角不一致。VGGT-Edit 改為直接在 3D 空間裡操作,透過「殘差場預測」機制(意思是:AI 只學習「改了哪裡」的局部差異,而非重算整個場景,讓改動更精確省力),搭配深度融合的文字指令理解,讓模型能讀懂「把桌上的杯子移到窗邊」這樣的描述,就能精準、一致地完成修改。實測單次編輯僅需約 5 秒,比舊方法最高快 120 倍,首次讓 3D 編輯接近即時互動水準。
想像一位工程師正在設計工廠機器人的模擬環境——3D 場景裡有輸送帶、機械手臂和零件箱。他想測試「把最右邊的零件箱移到輸送帶末端」的新配置,用舊方法 AI 要把整個場景先退化成多張 2D 圖,逐一修改再重組 3D,動輒等幾分鐘,不同視角還可能留有殘影。改用 VGGT-Edit,他輸入文字指令「把最右邊的零件箱移到輸送帶末端」,系統直接在 3D 空間計算出零件箱消失與重現的局部殘差,5 秒內從所有角度都得到正確且一致的新場景,可立刻繼續測試下一個配置——完全不需要等待重建流程。
DeepSeek(一家開發了多個頂尖對話 AI 的中國公司)的研究員陳德里,開發了一套叫做 DeliAutoResearch 的自動化研究工具。這套工具能讓 AI Agent(就是能自主執行一連串任務的 AI 程式,類似給 AI 一個目標、它自己規劃步驟去完成)全程幫忙撰寫學術論文,包括蒐集文獻、整理架構、撰寫內容、設計圖表。陳德里用這套工具產出了一篇46頁的學術論文,包含103篇已驗證的參考文獻、7個圖表、4個表格,AI 大約完成了99%的工作。最關鍵的是:整份論文陳德里本人實際動腦的時間加起來不到2小時,而以往做同等規模的研究,通常至少要花一個月。
陳德里想寫一篇整理「AI 自主研究代理人的自主程度分類(L1到L5分級)」的學術綜述。以往要完成這樣一篇46頁論文,研究者需要幾週時間翻找論文、整理筆記、起草大綱、反覆修改——至少一個月工時。現在他啟動 DeliAutoResearch,設定好研究主題後,系統自動執行:AI 查找並驗證文獻、起草各章節、呼叫 GPT-Image2(一個能根據文字描述自動畫圖的 AI)生成圖表、反覆修改直到第6版定稿。整個流程總共調用了約108輪 AI 對話、消耗64.8萬個 token(token 是 AI 處理文字的最小單位,大約每750個英文字算1000個 token)、自動生成了2234行 LaTeX 代碼(學術論文常用的排版格式)。整個過程歷時6天,但陳德里只需在少數關鍵節點介入,實際動腦不到2小時——等於把一個月的研究工作壓縮到幾乎全自動。
這則新聞整理了近期 AI 開發工具和基礎設施的多項重要更新。最值得注意的是 vLLM(一個廣泛用於部署 AI 語言模型的開源推論引擎,就是讓 AI 模型跑得快、同時接受大量使用者請求的底層軟體)合併了一個用 Rust 語言(以高速和安全性著稱的系統程式語言)寫的新前端模組,在相同硬體上將處理能力從每秒約 162 個請求暴增至 837 個請求,提升了約 5 倍。W&B(Weights & Biases,讓開發者記錄、追蹤 AI 訓練過程的知名工具)推出了 MCP 伺服器(MCP 是一種讓 AI 助理可以直接呼叫外部工具的標準協定),讓 coding agent(會自動幫你寫程式的 AI)能直接查看過去的訓練實驗紀錄,不需人工手動翻報表。Unsloth(可以在自己電腦上跑開源 AI 模型的本地工具)新增支援 GPT、Claude 等商業雲端 API,讓使用者在同一個介面裡就能同時使用本地模型和雲端 AI。OpenRouter(一個可以統一呼叫各種 AI 模型 API 的中介服務)宣布完成 1.13 億美元融資,且六個月內每週處理量從 5 兆 token(token 是 AI 處理文字的最小計量單位,大約一個英文單字是 1~2 個 token)成長至 25 兆,反映 AI 應用部署需求快速爆發。
假設你是公司工程師,負責架設讓幾千名員工同時使用的內部 AI 問答系統。過去用 vLLM 舊版 Python 前端,可能需要 5 台 GPU 伺服器才能應付流量高峰。換成新的 Rust 前端後,同樣流量理論上只要 1 台伺服器就能撐住,直接省下大量雲端租賃費用。如果你同時有在做 fine-tuning(用自己公司的資料微調 AI 模型),W&B 的新 MCP 伺服器讓你的 AI coding agent 可以直接存取歷次訓練紀錄,你只需問 AI:「上次訓練哪裡出問題、要怎麼調參數?」AI 就能自己查報表、給出建議,不再需要工程師手動比對好幾份實驗結果。
vLLM(一套讓工程師在自己伺服器上架設 AI 對話 API 的熱門開源工具,許多公司用它來自建類似 ChatGPT 的服務)最近把它的 HTTP 前端層從 Python 換成了 Rust。HTTP 前端就是「負責接收外部請求、排隊、再轉給 AI 模型處理」的那層程式;過去用 Python 寫,當同時湧入大量請求時,Python 本身執行速度的限制會成為瓶頸。Rust 是一種執行速度接近 C 語言、同時兼顧記憶體安全的程式語言,非常適合處理高流量 API。這次改寫讓 vLLM 在高吞吐量場景(同時服務大量使用者)下,API 伺服器的 CPU 消耗大幅降低,可以用同樣的硬體處理更多請求。
假設你是公司工程師,用 vLLM 自架了一套內部 AI 問答 API,平時有 100 個同事同時在使用。舊版 Python 前端在高流量時,CPU 會先被 Python 的 overhead 吃掉一大塊——導致 GPU(真正跑 AI 運算的晶片)明明還有閒置容量,整體每秒能處理的請求數(QPS)卻上不去。換成 Rust 前端後,API 接收與排隊那層的 CPU 使用率顯著下降,同樣的伺服器硬體可以服務更多同時使用者,不必加機器也能撐住更高的流量峰值。
ElevenLabs(一家專做 AI 語音和音樂生成的公司)在 2026 年 5 月推出第二代音樂生成模型 Music v2。這個 AI 最大的特點是「中途換曲風」——同一首歌可以從歌劇風突然切到重金屬、再切回來,聽起來不突兀。更實用的是分段編輯功能:你可以只選歌曲某一段(例如副歌),用文字描述重新生成那段,其他部分完全不動——就像 Photoshop 可以只修圖片某個區域、其餘保持原樣一樣。ElevenLabs 還特別強調,這個模型的訓練資料全部擁有版權授權、商業使用合法,迴避了 Suno、Udio 等競爭對手因未授權訓練資料而遭唱片公司提告的法律風險。
假設我要替一支廣告製作背景音樂:開頭需要輕柔古典鋼琴、中段突然轉為電子舞曲(EDM,一種讓人想跳舞的電子音樂風格)帶出高潮感、結尾再回到溫柔原聲木吉他。以前的 AI 音樂工具只能整首歌維持同一曲風,要切換就得重新生成整首,或手動在剪輯軟體裡拼接三段音檔再細調過渡點。用 Music v2,我可以先生成開頭的古典段,再框選中段用文字提示「改成 EDM、節奏加快、加入電子合成器」重新產生那段,結尾再另外生成木吉他版——三段各自微調、分別生成,最後拼在一起,風格轉換自然流暢,省去大量後期剪輯工夫。
YouTube(全球最大影片平台,就是大家每天看影片、聽音樂的那個網站)從 2026 年 5 月起推出新機制:自動偵測並標記那些使用大量「AI 生成逼真畫面」的影片,不再單純依賴創作者自行申報。所謂 AI 生成逼真畫面,是指用電腦自動產生、看起來像真人或真實場景的影像。以前,AI 標籤只出現在展開說明欄後才看得到;現在,標籤會直接顯示在影片播放器正下方,或疊加在 YouTube Shorts(短影片,類似台灣的抖音)畫面上,讓觀眾一眼就能識別。另外,用 YouTube 自家 AI 工具(Veo、Dream Screen)製作的影片,標籤是永久貼上、創作者無法移除的。值得注意的是,這個標籤不會影響影片的推薦排名或廣告收益。
假設你是一位 YouTube 創作者,用 AI 工具做了一段看起來像真實新聞播報的影片——AI 合成的主播臉孔、配上像真人說話的聲音——但你沒在說明欄勾選「此影片含 AI 生成內容」。在舊規則下,觀眾不點開說明欄根本不會知道這是 AI 做的。在新規則下,YouTube 系統自動偵測到大量逼真 AI 畫面,直接在播放器下方顯示 AI 標籤,觀眾不需要任何動作就能看到。相反地,如果你做的是明顯幻想風格的動畫(例如龍跟機器人打架),就不需要標籤,因為觀眾一眼就知道不是真實畫面。這個改變對現有影片的廣告收益和推薦完全沒有負面影響,只是多一個透明度標示。
中國警方正在把數百萬支舊型監控鏡頭升級為 AI 智慧相機。海康威視(Hikvision)和華為等製造商現在出貨的相機內建了電腦視覺(讓機器「看懂」畫面、識別人物和行為的 AI 技術)和語言模型(就像 ChatGPT 一樣可以用文字對話的 AI)。這些相機能自動偵測人群聚集、可疑行為或未授權進入等情況,完全不需要人工查看錄像。警察只需打一段文字查詢,系統就能在海量影像中自動找出符合描述的畫面。人權觀察(Human Rights Watch)警告,這種做法創造了史無前例的大規模行為監控能力,遠超以往任何國家的監控規模。
舊系統下,如果警察要追查某天下午在廣場出現的可疑人物,需要派人坐在螢幕前一段一段快轉查看錄像,費時費力,搜查範圍也有限。換成新的 AI 系統後,警察直接輸入文字查詢,例如「昨天下午三點,主廣場附近徘徊超過 10 分鐘的男性」,AI 自動掃描所有聯網相機的畫面,幾分鐘內回傳符合條件的影像片段和地點軌跡。系統甚至會主動標記「群眾異常聚集」或「某人反覆出現在同一敏感地點」等情況,無需任何人主動觀看——從人工盯螢幕,變成 AI 主動推警報。
NVIDIA(英偉達,全球最大 GPU 晶片公司)在最新的 CUDA 13.3(CUDA 是讓 AI 程式能跑在 GPU 上的核心開發工具包)中整合了 CompileIQ 這個新功能。CompileIQ 使用「演化式演算法(一種模仿生物進化、讓程式自動反覆試錯並改良的 AI 技術)」來自動調整 GPU 編譯器(負責把 AI 程式碼翻譯成 GPU 能直接執行的機器指令的工具)的各種參數設定。有別於傳統「套用固定規則」的編譯方式,CompileIQ 會針對每個特定的運算任務找出量身訂製的最佳化設定,讓 AI 推論(讓訓練好的 AI 模型回答問題、產生內容的過程)和訓練(從大量資料教 AI 學習的過程)在已高度優化的基礎上還能再多擠出最多 15% 的效能。此外,開發者可以自訂優化目標,例如同時考量執行速度、耗電量和編譯時間之間的取捨,非常適合像大型語言模型(就是 ChatGPT 這類會對話的 AI)推論這類高要求的應用場景。
假設你是一家公司的 AI 工程師,正在用 NVIDIA GPU 伺服器跑大型語言模型的推論服務,每天有數百萬筆用戶請求要處理。你已經做過標準優化,但伺服器電費和硬體成本還是很高。啟用 CompileIQ 後,你設定優化目標為「在不增加功耗前提下最大化每秒可處理的請求數量」,CompileIQ 會自動對你的模型跑多輪實驗,找到在你這張特定 GPU 型號上最適合這個模型的編譯器設定組合。實際結果:相同硬體、相同耗電量下,每秒可多處理最多 15% 的請求,等於伺服器成本降低約 13%——而你完全不需要手動研究複雜的編譯器旗標或自己寫調校腳本,CompileIQ 自動完成所有實驗。
DeepSWE 是一套全新的評測基準(就是用來客觀打分、比較各種 AI 寫程式能力的標準考題庫),專門設計來測試 AI 能不能處理又長又複雜的真實軟體工程任務。現有的評測工具(例如 SWE-Bench Pro)有一個大問題:各家 AI 的得分都擠在一起,難以分出真正的高下。DeepSWE 針對這個問題做了四大改進:題目全部來自 AI 沒有「偷看過」的程式庫(避免 AI 是靠背答案得高分)、任務難度貼近真實工作場景(不是特別簡化過的考試題)、橫跨 5 種程式語言共 91 個不同開源專案、並且採用更可靠的自動驗證機制來確認 AI 是否真的解對了。這讓研究者和開發者能更清楚分辨哪個 AI 程式助理真的比較厲害。
假設你是一家公司,手上有兩個 AI 程式助理(例如 GitHub Copilot 新版和競品),想決定要導入哪一個給工程師使用。用 SWE-Bench Pro 測,兩個模型得分可能都落在 45%–50%,根本看不出差異。改用 DeepSWE 測,因為題目跨越 91 個真實大型開源程式庫、難度反映實際工作複雜度,結果可能一個拿到 52%、另一個只有 38%,差距一目瞭然,決策就有依據。更重要的是,DeepSWE 的題目保證 AI 訓練時沒看過,所以高分代表 AI 真的懂得如何推理和解決新問題,而不是從記憶裡把答案背出來。
這是一個 GitHub 上公開的研究資源整理庫,專門蒐集「原生多模態 AI 模型」(Native Multimodal Model,簡稱 NMM)相關的學術論文、開源模型與技術報告。「多模態」的意思是:AI 能同時處理文字、圖片、聲音、影片等不同型態的資訊,而不只是單純的文字問答。傳統做法是各自訓練文字 AI、圖片 AI,再用一個薄薄的「轉接層」拼起來(就像把不同工廠出來的零件硬組裝),稱為「模組化多模態」;而「原生多模態」是從訓練一開始,就把所有感官型態都融合在同一個深層架構(Transformer,就是 ChatGPT 這類 AI 的核心運算引擎)裡面,讓 AI 對不同資訊的理解從根基就連成一體,而非各自為政再拼接。這個資源庫還附有配套路線圖論文,把收錄內容分三大類:只輸出文字的(M2T)、能生成影像或影片的(M2G)、以及真正的多模態輸入輸出(M2M),涵蓋 Chameleon、Emu3、HunyuanVideo、MiniCPM-o 等知名模型論文,方便研究者依需求一站查找。
假設我要做一個「會議助理 AI」,它要同時聽現場說話聲音、看投影片畫面,最後輸出完整的會議摘要。用傳統模組化做法:先跑一個語音辨識模型(例如 Whisper)把聲音轉成文字,再跑一個視覺模型(例如 CLIP)分析投影片內容,最後把兩份輸出文字丟給 GPT 整合。三個模型串聯,中途每次「格式轉換」都會損失資訊,AI 也完全感知不到「講者說到『這個數字』的同一瞬間,投影片畫面剛好顯示 42%」這種聲畫同步的意涵。如果改用原生多模態模型(如 Emu3),聲音和畫面一起進入同一個 Transformer 做深層運算,模型從訓練時就學到「聲音訊號與對應畫面同時出現代表什麼」,不需中途翻譯成文字再拼,理解更完整、語境更準確。這個 GitHub 資源庫整理了數十篇走這條路線的論文,研究者可直接依分類篩選最新進展,省去在 arXiv 和各大 GitHub 分頭搜尋的工夫。
SpaceX 在其 S-1 文件(就是公司準備上市前、向投資人公開的財務說明書)裡同時講了兩個 AI 算力故事。「算力」就是拿來跑 AI 程式的電腦運算能力,現在愈來愈值錢。第一個故事是地面線:SpaceX 正在花數十億美元蓋資料中心,目前已揭露的客戶是 Anthropic(就是開發 Claude 這款 AI 助理的公司),合約金額高達每月 12.5 億美元,合約到 2029 年 5 月,這條線已有實際收入。第二個故事是太空線:SpaceX 宣稱 AI 推論(讓 AI 模型實際「思考」並輸出答案的運算過程)的未來屬於軌道衛星,而他們已是唯一解決「把通訊衛星升級為 AI 算力衛星」技術挑戰的公司。兩條路線並行,彼此不互相否定。
假設我想在沒有地面網路的偏遠地區(例如深海船上或高山研究站)即時跑一個大型 AI 模型,今天的做法是不行的——需要連回地面資料中心,延遲高、成本貴、訊號不穩。若 SpaceX 衛星算力計畫成真,Starlink 衛星本身就能在軌道上跑 AI 推論,船上設備只需傳送問題、接收答案,不用繞回地球的資料中心。相比之下,AWS 和 Google Cloud 目前沒有衛星算力計畫。地面那條線(Anthropic 合約)則說明另一件事:AI 公司為了算力,每個月願意付出約台幣 400 億的金額,規模已大到讓火箭公司變身算力供應商。
Anthropic 計劃在 Claude 裡推出一個叫「AI Fluency Scorecard(AI 流暢度評分卡)」的功能,讓使用者可以了解自己跟 AI 互動的技能高低。系統會分析你在 Claude 上的對話紀錄,從三大能力方向(委派任務、描述需求、辨別品質)評估你在 11 個具體行為上的表現,然後給一個像「7.5/11」這樣的分數,並告訴你哪裡可以進步。這是全球主要 AI 實驗室中,少數嘗試評分「人類這一端」對話能力的產品功能,而不只是評估 AI 本身的回答品質。目前確切推出時間和適用哪些方案(免費還是付費)尚未公佈,功能將整合在 Claude 應用設定頁面中。
假設你是個每天用 Claude 處理工作文件的上班族。以前你每次請 Claude 幫你寫報告,結果常常跟想的不一樣,你也不確定是 Claude 不夠好,還是自己問法有問題。有了 AI Fluency Scorecard,你點開 Claude 設定頁面、要求生成評分卡,系統掃描過去對話後發現:你很少在提問時說「目標受眾是誰」或「我想要什麼格式」,這兩項指標拿了低分。Claude 就建議你下次開頭先說「這份報告是給非技術背景的主管看的,用條列式輸出,大約 300 字」。改了之後拿到的結果馬上對味多了。跟以前靠自己摸索相比,這功能相當於幫你做了一次「提問習慣健康檢查」。
Felix Rieseberg 是開發 Claude Cowork(Anthropic 推出的 AI 協作工具,類似把 ChatGPT 這類 AI 整合進日常工作環境)的首席工程師,他最近公開分享了自己平時怎麼用 AI 處理生活與工作的雜事。他的核心心法是:每次發現自己在做枯燥重複的事,就停下來問 AI 能不能幫忙,然後再往上想一層——讓 AI 自己判斷該怎麼做,而不只是照指令機械執行。他把幾十年的購物收據電郵餵給 Claude(Anthropic 出品的 AI 助理),讓它自動解析、建立個人家具庫存清單,再從清單生成可互動的 3D 家居平面規劃器。他還串接 Spotify、Gmail、行事曆,讓 AI 全天自動更新個人儀表板,完全不用手動整理。他認為用 AI 最大的障礙不是技術問題,而是心理上從沒想到 AI 能幫忙解決這些日常小麻煩。
假設你想整理家裡的家具擺設,想做一個 3D 平面規劃圖。舊做法是手動量每件家具的尺寸,再用 SketchUp 這類設計軟體一件一件拉圖,費時費力。Felix 的做法是:先讓 Claude 掃描他歷年購買家具的收據電郵,自動解析每件家具的型號與尺寸,存成一份「個人家具資料庫」;再把這份資料交給 Claude,生成一個可以即時拖拉調整的互動式 3D 平面規劃器。原本要花好幾小時手動整理的資料,AI 幾分鐘搞定,最終產出的是可以實際操作的工具,而不只是靜態示意圖。對比舊做法的差距:舊做法要先知道有哪些家具、手動查尺寸,AI 版本從電郵自動挖資料,跳過了最耗時的資料收集步驟。
Google 推出了一個叫做「Google Agent Executor」的開放原始碼執行環境,專門設計讓企業能在正式生產環境中穩定、大規模地運行 AI 代理(Agent,就是能自動執行多步驟任務的 AI 程式,例如自動查資料、發郵件、操作系統)。這個工具解決的核心問題是:AI 代理在執行長時間任務時,途中一旦斷線或出錯,過去很難從斷點繼續,通常只能整個重跑。Google Agent Executor 提供「耐久性、可恢復執行」功能,讓任務中斷後可以從上次停下的地方繼續,不會白費已完成的工作。除此之外,它還包含安全沙箱(讓 AI 代理在獨立安全空間執行,不會誤動其他系統)、分散式工作階段一致性(多個代理並行工作時保持資料同步)、斷線自動重連,以及「軌跡分叉」(Trajectory Branching)功能,讓你可以在同一任務上測試不同的執行路徑,找出最佳方案後再正式上線。
假設一家電商公司要用 AI 代理自動處理客戶退款申請——代理需要依序查訂單系統、驗退款資格、發通知信、更新財務記錄,整個流程可能耗時幾分鐘。用舊方法,若第三步「發通知信」時網路瞬間斷線,整個任務就失敗了,必須從頭重跑,有時還可能因為重複執行而造成資料錯誤(例如重複退款)。改用 Google Agent Executor 後,任務斷線會自動從「發通知信」那步恢復,不需重來;安全沙箱確保代理就算出現異常也不會誤刪財務紀錄;軌跡分叉還能讓開發者事先測試「先查訂單再驗資格」vs「先驗資格再查訂單」哪個路徑更快更穩,測完再決定正式上線哪條路徑——比起過去只能憑感覺或直接在正式環境試錯,風險大幅降低。
Anthropic(就是開發 Claude 這個 AI 的公司)宣布為 Claude 新增 28 項整合,涵蓋資安、法規遵循(確保公司有按規定行事的機制)、身分驗證、DLP(Data Loss Prevention,防止機密資料外洩的工具)、SIEM(Security Information and Event Management,集中收集和分析所有資安警報的平台)以及 AI 治理(管控 AI 在公司內部使用方式的制度)等各類企業平台。這讓大型企業的資安團隊能直接透過他們原本就在用的監控工具,追蹤和管理員工使用 Claude 的狀況,不需要再開一個全新的後台。這個動作代表 AI 助理正在從「個人生產力工具」演變成「跟 Office 365 一樣受企業 IT 部門統一管理的正式軟體」。對企業來說,這意味著可以把 Claude 的使用直接納入現有的資安政策與稽核流程,讓法遵和資安部門都能交代。
假設我是一家上市公司的 IT 主管,公司員工開始大量用 Claude 處理內部文件。在沒有這些整合之前,我的資安儀表板(那個統一顯示所有系統警報的大螢幕)完全看不到 Claude 的使用紀錄——我不知道有沒有人把機密文件貼進去問 AI,事後也無法稽核。現在有了這 28 項整合,公司原本用的 SIEM 工具(例如 Splunk 或 Microsoft Sentinel)可以直接收到 Claude 的活動日誌:誰在什麼時間問了什麼、有沒有觸發 DLP 規則(例如有人把信用卡號碼貼給 Claude 就會被攔截並留下記錄)。這樣我就能把 Claude 的管控和其他企業軟體放在同一套流程裡,符合法遵要求,稽核師也滿意。
Salesforce(一家大型企業軟體公司)發表了一篇工程文章,分享他們如何設計「企業 AI 代理(Agent,就是能自動執行任務、在多個系統間穿梭的 AI)」的統一管理平台。傳統上,每個 AI 代理都要自己管理身份驗證、資料存取權限和 API 呼叫規則,既麻煩又容易有安全漏洞。Salesforce 的做法是把這些管控全部集中到一個平台層,讓所有 AI 代理共用同一套規則,不再各自為政。這套架構解決三大問題:一是「身份傳播」——當 AI 代理在多個系統間跳躍時,確認每個請求是誰授權的;二是「資料存取管控」——無論 AI 代理怎麼問、透過什麼路徑,都只能存取它被允許看的資料;三是「API 與 AI 模型治理」——統一管理所有外部呼叫並留下完整稽核紀錄。
假設一家公司部署了三個 AI 代理:客服代理、銷售分析代理、財務報告代理。舊架構下,每個代理要分別設定「能看哪些資料、能呼叫哪些 API」,員工離職或權限變動時要逐一修改,容易遺漏。用 Salesforce 這套平台層方法,三個代理的身份驗證與存取規則全在平台集中設定:財務代理只能讀財務 DB,客服代理只能看 CRM 客戶資料。當請求進來時,平台自動驗證「這個代理是誰授權的、背後員工有沒有權限」,全程記錄。稽核時直接查平台日誌,不用翻每個代理的程式碼。相比舊做法(分散設定、容易遺漏),這套方式讓企業能在 AI 代理快速增加的情況下,仍維持一致的安全管控。
Google 在 2026 年 I/O 大會上分享了 Chrome 瀏覽器內建 AI(直接整合在瀏覽器裡、不需要連外部伺服器的 AI 功能)的實際應用案例。這項功能的特點是低成本、執行速度快,而且可以完全離線使用(不需要網路就能運作),因此能有效保護使用者的隱私(所有運算都在自己的電腦上完成,資料不會送到雲端)。目前已有多個知名企業採用:Drupal(一款廣泛使用的網站管理系統)透過摘要 API(Summarizer API,自動幫文章產生重點摘要的功能)為 SEO(搜尋引擎最佳化,讓網頁在 Google 上排名更高的技術)標籤自動生成建議;Yahoo! Japan 則利用提示 API(Prompt API,讓開發者直接向 AI 下指令的功能)來自動審核社群留言是否違規;旅遊平台 Trip.com 也用 AI 摘要幫助使用者理解複雜的機票選項。這些案例說明,Chrome 內建 AI 正從實驗性功能演變為可實際部署的生產工具。
假設我在一家新聞媒體工作,網站用 Drupal 管理文章,編輯每天要手動為每篇文章寫 SEO 標籤(就是關鍵字描述,讓 Google 搜尋能找到文章)。舊做法:編輯需花 5-10 分鐘閱讀全文、想出適合的關鍵字,再填入 CKEditor(文章編輯工具)的 SEO 欄位,或者呼叫付費的外部 AI API(如 OpenAI),每次查詢都要花錢。新做法:Drupal 整合 Chrome 的 Summarizer API(摘要 API)後,編輯只要點一下按鈕,AI 就直接在瀏覽器裡分析文章、自動建議 SEO 標籤,編輯確認後一鍵套用。具體差異:舊做法每篇 5-10 分鐘、需付 API 費用、文章內容還會送到外部伺服器;新做法幾秒完成、零費用、所有資料都留在使用者自己的電腦上,更便宜也更安全。
Stack Overflow 是全球最大的工程師問答社群,過去十幾年來程式設計師有問題都會去那邊找答案或發問。但自從 ChatGPT(就是那種你用對話就能問程式問題的 AI)在 2022 年底爆紅後,Stack Overflow 論壇的問題數量急速下滑——2024 年 1 月每月只剩約 6,866 則問題,跌回 2008 年剛創站的水準,廣告收入也跟著崩。然而,公司非但沒有倒閉,年收入反而翻倍到 1.15 億美元、虧損從 8,400 萬縮到 2,200 萬美元。關鍵轉折是:他們學 Reddit 的做法,把自己累積十幾年、人工審核過的數百萬則程式問答,授權賣給 AI 開發商當訓練資料(就是讓 AI 公司用這些真人對話來教 AI 怎麼回答技術問題)。另外也推出 Stack Internal 企業產品,讓 25,000 家公司內部用 AI 搜尋自己的知識庫。
假設你是一家公司的 IT 主管,公司內部累積了大量技術文件和解決過的問題紀錄。以前工程師要找「三年前同事解過的 nginx 設定 bug」,只能靠全文搜尋或問人。現在透過 Stack Overflow 的 Stack Internal 產品,工程師問「我的 nginx 反向代理為什麼會 502」,AI 會直接在公司內部文件庫中找到最相關的歷史紀錄,給出有根據的回答,而不是像一般 AI 憑空捏造。對比舊做法:搜尋引擎只能配對關鍵字,AI 能理解問題語意、跨文件整合答案——這就是 Stack Overflow 把「可信任的人工審核資料」轉化為企業 AI 產品的具體價值。
AI SDR(SDR 是「業務開發代表」,就是負責主動聯絡潛在客戶、篩選是否值得跟進的業務角色;AI SDR 就是用 AI 自動執行這些工作的系統)目前市場上大多數產品都走錯了方向。這些工具通常只是把傳統的冷信件(Cold Email,就是沒有事前聯繫就寄出的業務開發信)變得更自動化、更大量,但根本沒有解決背後的核心問題。正確的 AI SDR 需要是一個端到端的完整系統——從找到潛在客戶、驗證是否符合目標客群、持續跟進對話,一路到確認是否值得轉交業務——而不只是一個「比人工更快發信」的工具。Krazimo 這家公司提出的解法是把 AI SDR 設計成一個有完整情境理解、能存取內部資料與工具、並且持續監控效能的連接式系統,目標是減少反應延遲和隨時間產生的效能衰退。
假設我是一家 B2B(企業對企業)軟體公司的業務主管,想用 AI SDR 自動開發新客戶。傳統方法是批量生成個人化開發信然後大量發出去——看起來有效率,但 AI 根本不知道這個潛在客戶是否真的符合我們的目標客群(例如公司規模、行業別、有沒有痛點)。結果大量回覆湧進來,還是得人工一封一封篩選誰值得跟進,省下的時間非常有限。正確的端到端 AI SDR 設計會讓 AI 在發信前先查詢 CRM(客戶關係管理系統,就是記錄所有客戶資料的資料庫)確認潛在客戶資料、發信後自動追蹤回覆並判斷對方是否符合資格,再決定是否安排後續會議——整個流程人工只需要在最後「要不要談」這步介入,大幅減少中間的人工篩選負擔。
工程師 Maxim Khailo 在這篇部落格文章提出一個值得深思的論點:整個 AI 產業正把資源大量投入優化「開放迴路學習」(open-loop learning,指 AI 模型訓練完就凍結、不再自動更新,就像一本印好的書,學完就不再改變),這個趨勢卻讓另一種更像人類大腦的「閉合迴路學習」(closed-loop learning,AI 邊使用邊學習、邊犯錯邊修正,就像人每天從生活經驗中累積)越來越難被研究。文章從硬體說起:從 CPU 到 GPU,到現在大量生產的 ASIC 推論晶片(專門跑固定 AI 模型、不能重新設計的客製晶片),每一代硬體都預設「模型參數是不會變的」,並針對這個假設做極致優化。這樣做對現有靜態模型效率很高,但也從硬體層面把動態自我更新的可能性堵死了。作者呼籲:應先打造像 FPGA(一種可彈性重新設計電路的晶片)這樣的靈活基板,讓研究者實驗閉合迴路 AI;但產業正忙著優化現有系統,這扇實驗之窗正在悄悄關閉。
假設你要開發一個客服 AI,希望它能從每次對話結果(顧客滿意與否)中自動學習改善。用現在的主流 LLM(就是 ChatGPT 這類大型語言模型)方案,模型是凍結的——你必須定期收集對話資料、人工標注好壞答案、重新送去訓練(可能要跑好幾天、耗費大量算力費用),才能讓模型「學到」這次的教訓,而且每次更新都是一次大工程。如果有閉合迴路學習,AI 可以邊服務邊即時更新自己,就像新員工每天從錯誤中快速修正。問題在於:現在的 ASIC 推論晶片是專門為「讀取固定參數、做矩陣乘法」優化的,硬體設計上根本不支援參數被即時修改;作者的論點是,產業繼續沿這條路走,短期效率雖高,但長期可能讓 AI 發展越走越窄,錯過更接近人腦學習方式的可能性。