AI 每日彙整

ToolCUA 讓 Agent 學會選工具

What is this

CUA（Computer Use Agent，就是讓 AI 代理在電腦桌面上自己操作視窗、點選按鈕、完成複雜任務的技術）是近年 AI 領域的熱門方向。過去研究者發現一個奇怪現象：給 AI 配備越多工具，它的表現反而越差——因為 AI 搞不清楚什麼時候該直接操作畫面、什麼時候該呼叫外部工具，結果要嘛「工具不夠用」要嘛「工具亂用」。復旦大學與通義實驗室聯合提出「ToolCUA」這套全新訓練範式，用兩步驟解決問題：第一步讓 AI 看大量「同時包含畫面操作和工具呼叫」的混合示範資料（涵蓋 4000 多種工具）；第二步用強化學習（讓 AI 從做對做錯中學習）加入「路徑效率獎勵」，訓練它選出最短最有效的完成路線。結果令人驚豔：僅 80 億參數的 ToolCUA-8B，在業界標準測試 OSWorld-MCP 上以 46.85% 準確率超越 Claude-4-Sonnet（43.54%），完成任務的平均步數也從 19 步大幅降至 14 步。

Use case

假設要完成「找出桌面 Excel 裡銷售額最高的三筆，然後發郵件給主管」這個任務。用舊方法訓練的 CUA，AI 常常分不清楚——該直接在螢幕上點選 Excel 畫面（GUI 操作），還是呼叫「讀取試算表」的 API 工具？結果可能全靠畫面點按、步驟繁瑣，或反過來亂用工具、中途搞砸。換成 ToolCUA 訓練的模型：它先判斷「讀表格用工具比較快」→ 呼叫試算表讀取工具取回數值 → 自動排序取出三筆 → 再判斷「發郵件切換 GUI 最直接」→ 打開郵件視窗完成發送。整個流程自動切換、不重複繞路，比舊方法少走 4～5 個步驟，而且用的模型參數量只有 Claude-4-Sonnet 的一小部分。

英偉達推首款 AI 原生筆電 N1X

What is this

英偉達（NVIDIA，就是那家做遊戲顯卡和 AI 晶片的美國大公司）即將在台北電腦展（Computex）上發布一款搭載自研 N1X 晶片的筆記型電腦，這是英偉達第一次進軍個人電腦市場——過去英偉達只賣晶片，現在要賣整台電腦了。N1X 晶片結合了 20 核心的 ARM CPU（處理器，電腦的大腦）和 Blackwell GPU（繪圖晶片，也是跑 AI 運算的核心），加上 128GB 統一記憶體（CPU 和 GPU 共用同一塊記憶體，不需要在兩者之間搬資料，速度更快）。這台機器被定位為「AI 原生裝置」，目標是讓 AI 開發者可以在本機直接跑大型 AI 模型（LLM，就是 ChatGPT 這類會對話的 AI），不需要連網、不需要付雲端費用。文章把這個趨勢比喻為「印刷術革命」，認為它能民主化（讓更多普通人也能用上）AI 開發環境。

Use case

我是一個 AI 開發者，想在本地測試一個參數量 700 億的大型語言模型，過去要麼租雲端 GPU 伺服器（每小時幾十美元），要麼買配備多張高階顯卡的工作站（十幾萬台幣且體積巨大）。有了 N1X 筆電，128GB 統一記憶體能直接塞下這個模型，Blackwell GPU 算力相當於桌機版 RTX 5070，可以在本機直接讓模型回答問題——費用只有電費，資料不會上傳雲端，隨時隨地帶著走。差異在於：以前「跑一次模型 = 花一次錢」，現在「開電腦就能跑」，把 AI 開發從雲端付費訂閱模式，變回像使用本機軟體一樣零邊際成本。

τ0-WM 全球最大開源具身世界模型

What is this

τ0-WM（讀作「tau zero world model」）是由上海創智學院研究團隊開發的一款開源 AI 模型，專門讓機器人在動手之前先在腦中「想象」、再做決策，比起過去直接反應的機器人 AI，能做更精準的動作。這裡的「具身世界模型」（就是讓 AI 能模擬物理世界、理解空間與動作的模型，使機器人真正「理解」自己在做什麼，而非只是照著指令動）是機器人 AI 的核心技術挑戰。τ0-WM 採用三階段決策流程：先提出多個候選動作方案，再用內建模擬器預測每個方案的未來場景，最後透過評分機制選出最佳方案執行，就像人類「三思而後行」一樣。這個模型用了約 3 萬小時的真實機器人操作數據訓練（含 17,800 小時的真機遙操作數據），參數量達 50 億（5B），是目前全球規模最大的開源具身世界模型，在多項長程精細操作任務上超越了業界對標的 π0.5 和 Fast-WAM。

Use case

假設一台服務機器人要完成「把工具按順序收進工具箱」的任務。過去的機器人 AI 直接從固定策略出發，成功率大約 43%。用了 τ0-WM 的三階段機制後，機器人先「想象」抓夾子的 5 種不同方式，接著用內建的場景模擬器預測每種方式的結果（會不會碰倒別的工具？夾得穩嗎？），最後選出得分最高的方案執行。加入這套「想象 + 模擬 + 修正」流程後，成功率從 43% 提升到 60%；而其他同類方法（CFG、ACG）只達到 20%–38%。此外，τ0-WM 改變了業界對數據的用法：以前機器人真實操作的數據只用來「微調」已有模型，τ0-WM 首次把它當成「預訓練」的主要燃料——代表機器人在現實世界的每一個動作，都能成為讓 AI 從頭變聰明的訓練材料，打通了「部署 → 採集數據 → 模型更強」的完整閉環。

Gemini Embedding 2 多模態向量模型

What is this

Gemini Embedding 2 是 Google DeepMind 發表的新一代「多模態嵌入模型」（embedding model，一種能把資訊轉成電腦可以比較和搜尋的數字格式的 AI 技術）。過去的嵌入模型大多只能處理單一類型的資料（例如純文字），或者需要先把圖片、聲音「翻譯成文字」才能進行處理。Gemini Embedding 2 打破了這個限制——它可以直接「理解」文字、圖片、聲音和影片，並把這四種完全不同類型的資料統一放入同一個比較空間，讓跨類型的搜尋成為可能。這個模型採用大規模「對比學習」（contrastive learning，一種讓 AI 學會「哪些東西相似、哪些不同」的訓練方式）訓練，在單一類型、跨類型以及混合類型的資料搜尋基準測試中，都達到了目前最佳的成績，並且在從未見過的新領域中也有很強的零樣本泛化表現。

Use case

假設我是一間保險公司，客服中心每天接到各種形式的客戶問題：有人傳文字訊息問「我的理賠申請到哪一步了？」、有人傳來一張車損照片、有人留了語音說「保單明年會漲多少？」、有人錄了一段影片描述事故經過。舊做法需要分別建立四套 AI 系統，或者先把所有資料轉錄成文字（費時又可能出錯）再統一處理。用 Gemini Embedding 2 之後，可以把這些不同格式的內容全部「編碼」進同一個空間，直接和知識庫做跨格式比對——那張車損照片，可以直接對應到文字版的「車損理賠流程 FAQ」；客戶的語音，可以直接比對到相關的條款文字說明。整個搜尋流程從多套系統整合為一套，省去中間的格式轉換步驟，搜尋準確率也更高。

OpenAI Rosalind 生物防衛

What is this

OpenAI 在 2026 年 5 月 29 日推出「Rosalind Biodefense（生物防衛）」計畫，核心是一個叫做 GPT-Rosalind 的 AI 模型，專門針對生命科學領域設計，能理解並分析分子、蛋白質、基因和疾病相關的生物學資料，就像一個只懂生物醫學的超強助手。計畫分兩條路：第一條開放學術、非營利、政府相關機構全球申請贊助，讓他們能用這個 AI 開發生物防衛應用；第二條直接讓美國政府及盟國合作夥伴取得存取權，用於抗疫準備及高風險生物威脅分析，並附有嚴格的安全管控。GPT-Rosalind 最初在 2026 年 4 月推出，主要用於藥物研發和基因組（就是讀取並分析生物完整遺傳資訊）分析，現在進一步延伸到流行病早期預警、疫情應變規劃、診斷工具開發和疫苗研究等更廣泛的公共衛生任務。對台灣和全球公衛機構而言，這代表可以透過申請計畫，免費取得 OpenAI 最先進的生物醫學 AI 能力。

Use case

假設美國政府的公共衛生部門想在病毒爆發初期快速評估其傳播風險並鎖定疫苗研發方向：過去，研究人員需要人工查閱大量論文、整理病毒基因序列資料、再手動比對可能有效的抗體或藥物——整個過程可能要花數週。有了 Rosalind Biodefense，政府機構的分析師可以直接用自然語言詢問 GPT-Rosalind：「根據這段新病毒基因序列，現有哪些疫苗平台最可能快速適用？」模型會自動綜合醫學文獻、分析蛋白質結構相似性，輸出一份附有科學依據的建議清單——把原本幾週的前期研究壓縮到幾小時，讓決策者更快進入實驗驗證階段，而非被資料整理工作拖累。

AI 搜尋代理其實靠背答案

What is this

AI 搜尋代理（就是像 ChatGPT 搜尋模式這種、可以自動上網查資料並整合回答的 AI 助手）其實沒有我們想像中那麼會「真正搜尋」。哈爾濱工業大學的研究人員設計了一個叫做 LiveBrowseComp 的新評測標準（benchmark，就是衡量 AI 能力的考試），這個考試只問「最近 90 天內」發生的事情——確保 AI 沒辦法靠它學習時背下來的知識作答。結果市面上領先的搜尋代理，包括 GPT-5.4 和 Kimi K2.6，在這種情況下表現大幅下滑，原本的排名也完全洗牌了。這說明這些 AI 在一般評測中表現好，很大程度上是因為考試問的問題大多在它們記憶範圍內，而不是真的具備強大的「即時查資料」能力。換句話說，它們更像是在「確認自己已知的事」，而不是「真正地上網研究」。

Use case

假設你請 AI 搜尋代理幫你查「上個月剛公布的某個政策細節」或「最近幾週某個新模型的評測數據」。按照這份研究，AI 可能不會真的去掃最新的政府公告或技術報告，而是根據訓練資料中類似內容，半拼湊地生出一個「看起來像答案」的回應，然後找幾個搜尋結果來佐證自己已有的猜測。你以為它查了，其實它更多是在確認它的記憶。對比之下，如果你問一年前的事（例如「2024 年某重大技術突破的過程」），AI 直接從訓練記憶回答——這種情況搜尋反而只是裝飾。LiveBrowseComp 的價值就是把這個差異完全暴露出來：只問「它不可能記得的近事」，頂尖模型的實際搜尋能力才顯出原形。

「請用AI」反諷文引爆HN倫理辯論

What is this

一篇反諷標題為「請用 AI」的文章，實際上卻在批評現代社會「把一切都最佳化」的心態，最近在科技社群討論網站 Hacker News（簡稱 HN，一個全球頂尖工程師、創業者聚集討論科技新聞的論壇）引發大規模論戰，獲得 713 分與 371 則留言。文章作者 Shawn Smucker 的核心論點是：AI 的最大危險，正是它的效率——因為「效率」讓我們略過了那些看似多餘、實則充滿意義的人際接觸。舉例來說，打電話給懂食譜的朋友問配方，你可能意外得知對方的父親正在與癌症搏鬥；這種「意外的生命連結」是搜尋引擎和 AI 永遠無法複製的。社群討論分裂成兩派：一派認為「使用工具的方式」本身會影響思考方式與職業認同，另一派則認為 AI 只是中性工具，創意與架構決策仍屬人類。最終大家收斂到一個務實框架：「情境決定倫理」——某件事的過程本身有沒有意義，才是要不要用 AI 的判斷依據。

Use case

有個馬拉松跑步小組以前每次集體腦力激盪、大家一起討論設計當次活動的口號，過程很熱鬧、很有團隊感。後來有人建議改用 ChatGPT（一種生成式 AI 對話工具）直接產生口號，效率確實提高了，但集體創作帶來的歸屬感就此消失——口號還是口號，但那個「我們一起想出來的感覺」沒了。反觀工程師使用 GitHub Copilot（一種 AI 自動寫程式碼的工具）的情境：若工程師自己負責架構設計，只讓 AI 處理重複性的實作細節，許多人認為這是合理分工，反而讓他們有更多心力做核心決策。兩者的差別在於：前者的「過程」本身就是產品（歸屬感），後者的過程只是手段（達成架構目標）。這也是這場辯論最實用的結論：問自己「這件事的過程有沒有意義」，答案就是要不要用 AI 的準則。

LeCun 世界模型研究標準平台登場

What is this

Stable WorldModel（簡稱 SWM）是由 Meta AI 研究員 Yann LeCun 等人共同打造的開源研究平台，專門服務「世界模型（World Model）」這個 AI 領域——世界模型就是讓 AI 學習理解並預測環境，例如機器人在移動前先在腦子裡模擬「踩這一步會有什麼結果」。目前世界模型研究最大的痛點是「每篇論文各做各的」：程式碼無法重用、評估標準不統一，不同論文的數字根本無法公平比較。SWM 把資料處理、模型訓練、標準化測試全部統一起來，讓研究者不必從頭撰寫重複的基礎工程，能專心在真正有創意的演算法突破上。平台採 MIT 授權完全免費，pip install stable-worldmodel 一行指令即可安裝，已獲 GitHub 1,300+ 顆星的社群關注。

Use case

假設我是一位研究者，剛設計了一個新的世界模型演算法（讓 AI 預測機器手臂抓取物品時的物理過程）。過去的做法：要自己寫資料讀取程式、自己選定測試場景，再跟別的論文做比較——但別人用的測試場景可能不同，資料讀取速度也各異，最後比出來的數字可能只是「誰的環境設定更好」而非「誰的演算法更強」。用 SWM 的做法：直接 pip install stable-worldmodel，接入 30 多個標準化測試環境（包含 DeepMind 的機器控制基準），資料讀取切換至 LanceDB 格式（一種針對向量和表格資料優化的高速資料庫格式）後，速度從每秒 1,416 筆躍升至 4,814 筆（快 3.4 倍），存放空間從 43GB 縮到 496MB（省了 87 倍）。最後提交論文時，審查者可以直接和其他使用 SWM 的論文做公平比較，而不是在「誰的測試條件更有利」上爭論。

Ava 2.0 全自主 AI 銷售代理降價

What is this

Ava 2.0 是一個可以完全自動化「業務開發代表」工作的 AI 系統，由新創公司 Artisan AI 發布。所謂「業務開發代表」（BDR，Business Development Representative）就是專門打電話、寫信聯繫潛在客戶、安排業務會議的業務職位。舊版 Ava 1.0 每個步驟還需要人工審核確認，但 Ava 2.0 從頭到尾完全自動化：AI 自己找到潛在客戶、透過 Email、LinkedIn 或電話主動聯繫、回覆對方的疑慮、自動幫忙排好後續會議，整個流程完全不需要人介入。技術上採用「目標驅動架構」（Mission-Driven，也就是讓你告訴它「我要開發哪類客戶」，它自己想出方法去執行），後端連接超過 3.5 億筆商業聯絡人資料，並監測公司獲得新融資、換了高層等「時機點」，一偵測到就自動發送客製化訊息。最關鍵的是定價從每月 2,500 美元大幅降到 250 美元（降了整整 10 倍），開始鎖定中小企業市場，且新用戶可免費試用。

Use case

假設我是一間賣企業軟體的小公司業務主管，以前開發新客戶需要請業務人員每天在 LinkedIn 找人、寫個人化信件、打電話追蹤、應對對方說「我沒時間」的異議——光人力成本每月就好幾萬台幣。換用 Ava 2.0，我只要設定「目標是 50 到 500 人規模科技公司的 IT 主管」，它就自動從資料庫撈出符合條件的聯絡人，偵測到某家公司剛完成新一輪融資（代表有預算），立刻自動發一封以那家公司近況為主題的個人化 Email；對方若回「現在不需要」，AI 自動換個切入點再跟進；最終直接在你的行事曆排好業務展示的時間——你完全不用介入。實際數據顯示，使用後冷外展的行政作業量下降了 50% 到 70%，回覆率約在 1% 至 4% 之間。相比傳統聘請一名 BDR 員工月薪動輒 6 萬台幣起跳，Ava 2.0 月費約台幣 8,000 元（$250 美金），且 24 小時不間斷。

斷網也能跑的本地 AI 伺服器

What is this

Project NOMAD（全名 Node for Offline Media, Archives, and Data）是一套開源的「離線 AI 知識伺服器」，用 Docker（一種讓軟體打包好、一鍵安裝執行的技術）把多個功能模組封裝在一起，裝好後完全不需要連網就能持續運作。它整合了本地 AI 對話（類似 ChatGPT，但全部跑在自己電腦上、不送任何資料到雲端）、離線版維基百科（最高 99.6 GB 的完整資料庫）、Khan Academy 線上課程（可離線瀏覽並追蹤學習進度）以及區域地圖，讓使用者在完全沒有網路的環境下，仍能查資料、問 AI、看地圖。它還內建了 Qdrant（一種向量資料庫，把文字轉成數學向量、讓 AI 能「理解」語意而非只做關鍵字搜尋），讓本地 AI 能搭配離線文件做 RAG（讓 AI 回答前先查自己的資料庫、避免憑空捏造）。這個專案在 GitHub（全球最大的開源程式碼平台）一度登上熱門第一名，目前累積約 27,000 顆星，授權完全免費商業使用。

Use case

假設你是一個在偏遠山區工作的野外搜救志工，颱風過後通訊基地台全斷，你手邊有一台筆電但完全沒網路。你需要查一個傷患的藥物資訊、確認當地地形、還想問 AI「野外扭傷的初步急救步驟」。裝了 NOMAD 的情況下：你打開瀏覽器就能查本地維基百科的醫療條目，開地圖查離線區域地形，同時對本地 AI 問急救步驟——AI 的回答完全不經過任何網路，全部在你的筆電裡完成運算。舊做法：你只能靠隨身紙本手冊，或什麼都查不到。NOMAD 把「一台筆電 + 無網路」的環境，變成一個具備 AI 問答、百科全書和地圖的完整知識站。

Firecrawl monitor 讓 AI 感知網頁變動

What is this

Firecrawl 是一個幫助 AI 程式抓取網頁資料的工具平台，它在 2026 年 5 月推出了新功能「/monitor 端點」（端點就是一個讓程式傳送請求、呼叫服務的網址入口）。這個功能讓 AI Agent（AI 自動執行任務的程式）可以「盯著」某個網頁，只在網頁內容真正發生變動時才收到通知，而不是每隔幾分鐘把整個頁面重新抓下來比對。傳統做法叫「輪詢」（polling，就是不管有沒有更新，定時去抓一次），每次都要把整頁內容傳給 AI 判讀，非常浪費。/monitor 只傳送「diff（差異）」——也就是「哪裡變了」這段文字，可以讓 AI 的 Token 消耗（AI 每次讀文字的計費單位）最多減少 90%。開發者可以用自然語言告訴它要監控什麼，例如「當競品更新定價頁時通知我」，系統自動配置排程，並過濾掉廣告輪換、版面微調等不重要的變動。

Use case

假設你在做一個自動監控競品定價的 AI 工作流——你想在對方改變官網訂閱費用時，立刻觸發你的系統重新評估自家定價策略。舊做法：每 15 分鐘寫一支程式去抓對方整頁 HTML，傳給 AI 分析，每次都花一大堆 Token，但其實 99% 的時候根本沒變。用 /monitor：你發一個 POST 請求建立監控任務，goal 欄位填「當定價頁面有價格數字改變時通知我」，系統自動排程，有變動才發 Webhook 通知你，回傳內容是結構化的「哪個區塊從 $29 變成 $39」這種精確 diff，你的 AI 程式直接讀這段 diff 就夠了，不用再重新抓整頁。整個監控成本從每天幾百次全頁抓取，降為只在真正有變動時才計費。

LLM 臭味 AI 反模式大整理

What is this

開發者 Shubhanshu Srivastava 整理了一份「LLM 臭味」清單——這個詞借用了軟體工程的「程式碼臭味（Code Smell，指不一定是錯誤、但暗示品質問題的可辨識模式）」概念，用來描述 AI（人工智慧）生成的文字和程式碼中反覆出現的特徵。在寫作上，AI 有幾個標誌性習慣：段落結尾愛加詩意金句（如「對稱本身成為了陷阱」）、用連續短句製造戲劇感、大量套用「X 就是 Y 的 Z」這種公式化類比，還有異常頻繁使用破折號。這些模式不是隨機的，而是 AI 學了太多類似文章後形成的「慣性」——說白了就是訓練資料決定的。在視覺設計上，AI 生成的網站也有共同基因：JetBrains Mono 字型（一種常見的等寬字型）、制式卡片元件、閃爍點狀徽章，快成為「AI 生成 SaaS（就是那種月費制線上工具）網站」的固定標配。在寫程式上，最危險的反模式是「跨功能脈絡缺失」：在 AI 輔助開發中每個功能都在孤立的對話裡被建造，AI 不知道其他功能的存在，最後同一個功能可能被重複建造兩次，讓程式碼庫無謂膨脹——有人親眼讓 Claude Opus 4.7 把同一個功能建了兩遍，因為它沒意識到第一次的工單還沒關。

Use case

假設你是新創公司的設計師，公司用 AI 工具生成了整個產品落地頁。幾個月後你發現競爭對手的網站和你的驚人相似——同樣的字型、同樣的卡片排版、同樣的閃爍徽章。這不是抄襲，而是兩家公司都讓 AI 決定了設計，AI 給的是它訓練資料裡最「安全」的選擇。對比舊做法：設計師會根據品牌個性選字型和排版，產出差異化的視覺識別；現在用 AI 生成，每個人拿到的都是同一套「AI 預設美學」，結果所有 SaaS 產品長得愈來愈像，品牌差異化空間被壓縮。能主動識別並跳脫這些 AI 預設選擇的設計師和開發者，在市場上反而成了稀缺資產。

自架 AI 工作區 Odysseus 開源

What is this

Odysseus 是一個可以自己架在家裡電腦或伺服器上的 AI 工作區，功能類似 ChatGPT 或 Claude 的網頁介面，但所有資料都留在你自己的機器上，不會上傳到任何雲端公司。它是開源免費的（程式碼公開在 GitHub），你可以用它串接本地 AI 模型（例如透過 Ollama 在自己電腦跑的模型）或外部 API（如 OpenAI、OpenRouter），選擇完全離線或混合使用。除了聊天，它還整合了電子郵件收發（含 AI 自動分類）、筆記、待辦清單、日曆同步、多標籤文件編輯、網頁深度研究等功能，幾乎是一個把 AI 嵌進去的個人辦公室。對特別在意隱私、不想讓對話被 OpenAI 或 Anthropic 收集的人，這是一個自主掌控資料的選擇。

Use case

假設你是個自由接案者，平常要處理客戶信件、寫報告、查資料，但不想把工作內容傳到 ChatGPT 的雲端伺服器。用 Odysseus 的情境是：在自己的 NAS 或舊筆電上跑 Docker，一行指令啟動後開瀏覽器進 localhost:7000，就有一個長得像 ChatGPT 的介面——可以聊天問問題（模型跑在自己機器的 Ollama）、直接在裡面看 Gmail 信件並讓 AI 幫你摘要、開一個文件編輯器貼上客戶需求請 AI 改寫提案。跟直接用 ChatGPT 的差異：對話記錄、信件內容、上傳的文件都只在你自己硬碟裡，沒有任何一筆資料出去給第三方，而且斷網也能繼續用（本地模型）。缺點是自己要負責安裝維護，初次設定需要一點技術基礎（會用 Docker 即可）。

£200 舊伺服器 GPU 跑本地 LLM

What is this

一位開發者花約新台幣 8,000 元（英鎊 200 元），在二手市場買了一張過時的企業伺服器級 GPU（繪圖處理器，就是讓電腦跑 AI 計算的專用晶片），裝進自己的遊戲電腦，成功在家本地端執行大型語言模型（LLM，也就是 ChatGPT 這類能對話的 AI），完全不需要付費給雲端 API 服務。他購入的是 NVIDIA Tesla V100，這款晶片原本是 Google、Amazon 等大公司資料中心（超大型機房）的高階設備，因為已被更新款取代，二手價格大幅崩跌。把 V100 搭配原本已有的遊戲顯卡（RTX 4080），兩張加總達到 32GB 的 VRAM（AI 模型執行時需要占用的特殊記憶體），足以跑起目前許多高品質 AI 語言模型。他最終用這套組合跑起了 Qwen 3 270 億參數版本（「參數」可理解為 AI 模型的複雜度規模，數字越大通常能力越強），對話速度約每秒 32 個字元，體驗流暢，而且完全在自己家裡、不需要連外網、資料不會傳到任何外部伺服器。

Use case

假設你每天用 AI 協助撰寫報告、翻譯文件、或輔助寫程式，目前常見作法是付費呼叫 ChatGPT API（程式呼叫 AI 服務的介面），費用依使用量計費，長期下來每月可能數百到數千台幣，且輸入的資料會傳到 OpenAI 的美國伺服器。用這套「二手 V100 方案」：一次性花 £200（約 8,000 台幣）購入二手 Tesla V100 GPU 加轉接卡，插進家中已有 RTX 4080 的電腦，安裝 Ollama（一款免費的本地 AI 模型執行工具）並下載 Qwen 3 27B 量化版模型（共約 19GB），即可完全離線在本機對話。實測結果：每秒輸出約 32 個 token（大約等於 32 個英文字元，或 10 至 15 個中文字），問一個中等長度問題、等待完整回覆約 10 秒，體驗接近商業 API。硬體成本對比：若改買一張同樣 32GB VRAM 的全新 RTX 5090，售價超過 £2,000（約 82,000 台幣），貴了 10 倍。主要缺點是 V100 已停止最新驅動支援、需手動降級安裝，風扇原廠噪音極大須自行改接線控制，較適合有一點動手能力的技術用戶。

複旦系推出時空一體機器人大腦

What is this

眸深智能（上海一家機器人 AI 新創公司，由復旦大學相關團隊創辦）推出了一個名叫 STI-WM 的新型機器人 AI 模型。STI-WM 全名「時空一體世界動作模型」（Spatiotemporally Integrated World Model），是專門為機器人打造的「通用大腦」。傳統機器人 AI 通常是把「看懂環境」和「決定怎麼動」兩個模組拼接在一起，容易在兩個模組之間出現訊號斷裂、動作不協調的問題。STI-WM 採用全新的「時空一體化」架構，讓機器人在同一個模型裡同時理解空間（周圍環境長什麼樣）和時間（接下來會發生什麼），並內建物理規則約束（例如碰撞偵測、力學限制），讓機器人不只能執行短暫的單一動作，還能規劃長達百秒的複雜任務序列，遇到突發狀況也能即時重新規劃路線。

Use case

想像一個倉庫分揀機器人要把一批零件從 A 區搬到 B 區，途中可能遇到其他機器人、地上有障礙物、或搬到一半指令改了。傳統 VLA（視覺語言動作，就是讓機器人「看畫面、聽指令、做動作」的舊架構）只能應對短期任務，遇到障礙要停下來重新計算，效率低且容易失敗。用 STI-WM 的話，機器人一開始就在腦中「模擬未來」，推演出一條完整路徑；中途碰到障礙，模型實時更新環境感知、自動重規劃，不需要停頓或外部介入。由於模型可以壓縮到百億參數以下跑在邊緣晶片（就是機器人本體的小型計算單元，不需連到雲端），整個決策過程也不依賴網路，延遲更低。

企業 AI Agent 落地五層架構解析

What is this

這篇文章整理了亞馬遜技術專家王晓野在 AIGC 2026 大會的演講，探討為什麼企業導入 AI 的成效普遍這麼差，以及 Token（AI 處理文字時的計費單位，可以理解為「AI 讀每個字都要收費」）成本居高不下的根本原因。統計數字驚人：87% 的企業聲稱已大規模部署 AI，但真正從中獲得商業價值的只有 10%。演講者指出，個人在筆電上跑一個 AI 助手很容易，但要在企業複雜系統裡同時穩定運行數千個 AI Agent（就是自動化執行任務的 AI 程式），難度完全不同——記憶管理、權限控管、安全隔離全都是企業才會碰到的難題。Token 貴的主因之一，其實不是 AI 服務商收費太高，而是企業把大量沒用的資訊塞進給 AI 看的提示詞（Prompt，就是「給 AI 的任務說明書」）裡，AI 讀了一堆廢料、卻只用到其中一小部分，成本自然暴增。演講提出「五層架構」：算力層（針對推理場景優化）、模型層（多模型並用）、資料層（整理成「AI 能直接用的格式」）、平台層（生產環境管控，如 Amazon Bedrock AgentCore）、應用層，每層都需要針對企業場景客製，而非照搬個人開發環境。

Use case

假設一家公司要用 AI Agent 自動處理員工請假申請，傳統做法是把公司所有人事規定、相關法規、過去三年申請記錄全部塞進 Prompt 給 AI 看，結果 AI 每次處理一筆申請，就要「讀」一份 5 萬字的文件，Token 消耗極大、費用爆炸。按照演講建議的方法，正確做法是：先把資料整理成「AI-ready」格式，讓 AI 只在需要時查詢相關段落（例如只抓出「請假天數上限」和「特殊情況條款」這兩段），不再整份文件塞進去；同時在「記憶層」設定哪些資訊要長期記住、哪些只需當次使用，避免把過期歷史重複喂給 AI。這樣同樣的任務 Token 消耗可大幅降低，而且每個員工的申請只能調用自己有權限的資料，不會因 Agent 越權存取到他人資料造成安全問題——這正是個人環境和企業生產環境之間最關鍵的差距。

讓世界適應Agent的設計哲學

What is this

這是香港大學教授黃超在 AIGC2026 大會上的演講重點整理，他提出一個顛覆直覺的觀點：與其花力氣「教 AI 學會用人類工具」（例如讓 AI 模擬滑鼠點擊、操作視窗介面），不如直接重新設計數位系統的溝通方式，讓工具主動配合 AI 的習慣。他的核心主張是：「命令列介面（CLI，就是那種黑底白字的文字輸入模式，工程師常用的那種）比圖形視窗介面（GUI，就是一般人看到的按鈕、選單介面）更適合 AI 操作，因為文字指令比視覺點擊更直接、更精確」。他的團隊開發了一個叫 nanobot 的輕量 AI 代理（Agent，就是能自主執行多步驟任務的 AI）工具，下載量已超過 20 萬次，曾登上全球通用 Agent 排行榜第四名。研究也發現，多個 AI 代理協作時，3 到 5 個是最理想的規模，超過這個數字邊際效益就會明顯遞減。

Use case

假設我要讓 AI 幫忙做 3D 建模（設計立體物件）。傳統做法是讓 AI「看著螢幕」模擬人類滑鼠點擊——先點這個選單、再拉那個滑桿，這種方式容易卡頓、失誤。黃超團隊的做法是：把 3D 建模軟體的 CLI 整合進他們的「CLI Hub」（目前已收錄 80 個軟體），讓 AI 直接用文字指令驅動軟體，就像工程師在終端機輸入命令那樣，不必費力「模擬點按鈕」。除此之外，他們也展示了 8 個 AI 代理協同控制 8 張 H100（頂級 AI 運算專用晶片）跑分散式訓練，在 23 小時內讓模型性能提升 6%——而且 AI 代理在過程中還學會了「技能沉澱」，下次遇到類似任務就能直接套用，不用每次重新摸索，token（AI 計算資源）消耗也因此明顯降低。

Meta 發布手機端高效 MoE 語言模型

What is this

Meta AI 發布了一系列名為 MobileMoE 的新型語言模型（就是像 ChatGPT 這種能理解和生成文字的 AI 程式），這些模型的特別之處在於它們是專門為了在手機等邊緣裝置（edge device，指手機、平板等本地設備，相對於雲端伺服器）上直接運行而設計的。傳統上，強力的 AI 模型需要連上網路、透過雲端伺服器才能使用，但 MobileMoE 讓手機本身就能跑 AI，不需要網路連線。這些模型採用了 MoE（Mixture of Experts，混合專家）架構——你可以把它想像成一群專家分工合作，每次只叫其中幾位出來工作，而不是讓所有人同時忙，這樣消耗的記憶體和運算資源就少很多。Meta 還研發了一套專為手機優化的「融合 MoE 運算核心」（負責加速計算的底層程式模組），以及一條「裝置端縮放定律」（告訴工程師怎麼預估模型在手機上能跑多快），讓這些模型在與同等記憶體大小的傳統密集模型（dense model，每次推理都動用全部參數的舊式做法）相比，能同時達到更快的回應速度與更低的資源消耗。

Use case

假設我要在 Android 手機上做一個離線語音助理，讓使用者在沒有網路時也能問 AI 問題並得到即時回答。過去的做法是：要嘛用小但效果差的密集模型（如 TinyLLaMA），要嘛讓使用者等很久才有回應。用 MobileMoE 的話，我可以部署一個「活躍參數少於十億的 MoE 模型」（參數是 AI 儲存知識的單位，少於十億才跑得進手機），它在測試中「prefill（讀入問題的速度）」和「decode（產出回答的速度）」都比同樣記憶體佔用的傳統密集模型更快，手機助理的反應時間因此縮短，使用起來更流暢——而且不需要多花記憶體或儲存空間。

Mistral 攻入航空汽車工業 AI

What is this

Mistral AI 是一家法國的 AI 公司，主要開發語言模型（就是像 ChatGPT 那樣能理解和生成文字的 AI 系統）。這次他們宣布與空中巴士（Airbus，全球最大的飛機製造商之一）和 BMW（德國豪華汽車品牌）簽署合作協議，要把自家的 AI 模型應用到實體製造業，他們稱之為「physical AI」（物理 AI，意指 AI 不只是處理文字或圖片，而是直接介入現實世界的製造與工程流程）。在 Airbus 這邊，合作範圍涵蓋飛機設計、飛行安全評估，以及國防與太空領域的 AI 應用。在 BMW 這邊，則是協助他們開發「大型工業模型」（Large Industry Model，一種專為工業用途設計的 AI），用來模擬汽車碰撞測試，補充甚至取代部分昂貴的實體撞車實驗。此外，Mistral 也同步宣布在法國新建資料中心，代表他們正在加速歐洲本土的 AI 基礎建設布局，減少對美國雲端的依賴。

Use case

BMW 設計一款新車型時，照舊做法需要造出真實的測試車、讓車撞牆、用感測器記錄變形數據，每次測試花費可達數百萬歐元，而且每個情境只能跑一次。有了 Mistral 協助的大型工業模型，工程師可以在電腦裡輸入車體材料、結構設計、碰撞速度等參數，讓 AI 模擬出碰撞後的物理反應——車體如何變形、乘員受到多大衝擊力、安全氣囊何時觸發——得到接近真實碰撞的分析結果，費用和時間都大幅壓縮。與以前工程模擬軟體的差異在於：舊方法需要工程師手動建立物理方程式，AI 模型則從海量的歷史碰撞數據中學到更複雜的非線性規律，能應對更多邊緣情境，精度和涵蓋範圍都更廣。

AI 工具反讓注意力崩潰

What is this

一位獨立開發者在大量使用 AI 寫程式工具（就是像 Cursor、GitHub Copilot 這類幫你自動生成程式碼的軟體）將近一年後，回頭盤點自己用 AI 做出的 50 多個專案，發現除了一個 SaaS（軟體即服務，就是那種月費訂閱制的網路服務）以外，其他幾乎全是廢棄、無法維護的垃圾。他把 AI 工具形容為「超強 ADHD 放大器」（ADHD 就是注意力不足過動症），因為 AI 大幅降低了「開始一個新專案」的門檻，讓人同時開十幾個坑卻都沒做完。這呼應了知識工作研究者 Cal Newport 的觀察：數位工具雖然讓單個任務變快，卻讓知識工作者整體上更忙亂、更分心。作者最終的結論是：能管理這個問題的唯一辦法，可能就是取消 AI 訂閱，讓「做事有摩擦感」這件事回來保護自己的專注力。

Use case

作者從一個「幫自己寫個小腳本整理筆記」的簡單想法出發，結果在 AI 的輔助下幾乎不費力地擴張成一個新聞聚合網站（還衍生法律責任風險）。舊做法：沒有 AI，光是把架構想清楚、把程式碼一行行打出來，就要花數天，自然會在過程中三思「這值得做嗎？」。新做法：有了 AI，半小時就能生一個可運作的原型，門檻幾乎消失，於是開了又開、半途而廢也不心疼。累積下來反而浪費大量時間和精力在維護一堆沒有實際用途的專案，整體產出品質遠低於以前。

BirdNET + Gemini 鳥音辨識視覺化

What is this

這是一位開發者在陽台裝了一支 USB 麥克風，透過開源工具和 AI 自動辨識飛過的鳥種，並把每種鳥的插圖以日本江戶時代花鳥繪風格即時呈現在螢幕上的個人專案。鳥音辨識的核心是 BirdNET（由康乃爾大學實驗室開發的免費開源聲學 AI 模型，功能是「聽聲音、說出這是哪種鳥」），搭配在樹莓派（Raspberry Pi，一種信用卡大小的低成本迷你電腦）上運行的 BirdNET-Pi 框架。插圖則用 Google 的 Gemini 2.5 Flash 圖像生成模型（能依照文字描述產生圖片的 AI）預先批量生成 450 種北美鳥類的版畫風格圖。前端再以螺旋擴展排列演算法，把「出現越頻繁的鳥格子越大」的邏輯做成動態拼貼，讓賞鳥記錄變成一幅會隨時間變化的藝術牆。

Use case

假設你想知道「今天有哪些鳥飛過我家、最多的是哪種？」，過去你得花時間在窗外守、或請鳥類專家鑑定才辦得到。這個專案的做法是：麥克風持續收音 → BirdNET 每幾秒分析一次聲音並輸出「這是紅雀，信心度 92%」→ 系統查出對應的江戶風版畫插圖（由 Gemini 2.5 Flash 事先生成）→ 把插圖貼到螢幕拼貼牆、出現越頻繁格子越大。結果是：早上起床看一眼螢幕，最常來的鳥種插圖最突出，其他較少見的鳥小小地散在四周——不需要出門、不需要任何鳥類知識，純靠 AI 辨音加 AI 生圖自動完成，比傳統手動記錄省去所有人工盯梢的工夫。

MiniMax 全員 AI Agent 實踐

What is this

MiniMax（中國一家自研 AI 大型語言模型的新創公司）從 2024 年 9 月起，讓公司全員免費無限使用 Cursor（一種 AI 寫程式工具，讓 AI 幫你自動生成程式碼、補完邏輯）。2025 年 8 月再推「Agent 實習生計畫」，把 AI Agent（可以自動執行一連串任務的 AI 程式，不需要人一步一步下指令）導入招聘、開發、運維、行銷等各部門的日常工作流程。實際效果包括：開發人員有 30–50% 的程式碼直接由 AI 自動生成，整體開發效率約提升 30%；組織結構也跟著扁平化，產品人員可以自己用 AI 直接做出可演示的 Demo，不用每次都找工程師，前後端工程師之間的工作界線也變得模糊。MiniMax 推行時的策略是從員工「最不想做、但有實際價值的重複性工作」切入，阻力最小，員工接受度也最高。

Use case

招聘流程是最直接的例子。以往 HR 要手動一份一份看履歷、逐一寄初聯信、整理每一場面試的評估報告，工作量大且繁瑣。MiniMax 在這整個流程引入 AI Agent：Agent 自動完成履歷初篩、發送候選人初聯訊息、匯整面試官的評估紀錄，HR 只需在最後做錄取判斷。對比舊做法，HR 的時間從「處理行政瑣事」轉移到「真正需要人類判斷的決策」，大量重複性事務工作幾乎全由 Agent 自動搞定。

AI 形式化規格自動生成仍高度脆弱

What is this

CMU 與 Amazon 的研究者建立了兩個新工具，用來測試「AI 能不能把模糊的程式設計意圖，正確翻譯成嚴格的形式化規格」。所謂「形式化規格」（formal specification，就是用數學語言精確描述一段程式碼應該做什麼、不應該做什麼），有了它，電腦就能自動驗證程式是否真的正確，而不是靠人眼審查。這兩個工具分別叫 VERUS-SPECBENCH（基準測試集，相當於考卷）和 VERUS-SPECGYM（互動練習環境，讓 AI 代理人（agent，就是能自主執行多步驟任務的 AI 程式）反覆嘗試生成規格並接受測試）。研究除了用官方測資，還設計了專門刁難 AI 的「對抗性攻擊」（adversarial hacks），目的是找出那些表面上通過、但其實有漏洞的錯誤規格。結果顯示：即使是目前能寫出正確程式碼的 AI 模型，在自動生成形式化規格這件事上依然非常脆弱——AI 能「寫出」程式，但還不太懂「精確描述自己寫了什麼」。

Use case

假設我寫了一個函式，功能是「把一組數字從小到大排列」，現在想讓 AI 自動幫我生成這個函式的形式化規格（也就是：輸出必須是排序過的、元素數量不能改變、最小值一定排第一等嚴格描述）。舊做法是工程師手動撰寫這些規格，費時費力。VERUS-SPECGYM 讓 AI 代理人嘗試自動生成這些規格，然後用對抗性測試去「刁難」它——例如設計一個假排序函式（輸出故意多插一個數字），看 AI 生成的規格能不能偵測到這個違規。根據這篇研究，目前主流 AI 模型生成的規格往往過於寬鬆，根本抓不到這種刻意設計的漏洞，代表 AI 離「能可靠自動驗證程式正確性」還有相當大的距離。

科技CEO的AI幻覺症候群

What is this

「AI 精神病」（AI psychosis，意思就是對 AI 的判斷力嚴重失準）是 Box（一家提供企業雲端檔案儲存的公司）創辦人 Aaron Levie 提出的概念，用來形容科技公司高層主管對 AI 工具的認知嚴重脫離現實的現象。Levie 認為，執行長（CEO，公司最高負責人）因為距離第一線工作太遠、沒有親自動手用 AI，所以只能透過下屬報告和漂亮的投影片了解 AI，容易對 AI 過度樂觀。這個概念在 TechCrunch（科技媒體）的播客節目 Equity 中引發辯論，話題是：高層對 AI 的過度熱情，和真實用戶遭遇的 AI 出錯體驗，之間的落差到底有多大？Levie 的建議是：要想避免這種「幻覺」，執行長必須親自使用 AI 工具，而不是聽人說。

Use case

Google 的 AI 搜尋功能（就是在搜尋結果最上方自動跳出 AI 生成答案的功能）曾發生連「Google」這個字本身都拼錯的低級錯誤，而 Google 高層仍持續對外宣稱「AI 搜尋非常強大」。結果，大量用戶轉而安裝 DuckDuckGo（一個主打不追蹤用戶、且不強推 AI 搜尋的搜尋引擎），DuckDuckGo 安裝量因此暴增 30%。這個案例完整說明了「AI 精神病」的症狀：CEO 看到的是精心設計的 demo（示範影片）和亮眼數字，而真實用戶遇到的是答案出錯、甚至公司名稱都拼錯的 AI——高層不親自用，就永遠不會知道差距有多大。

AI 程式助手男女用率差兩倍

What is this

Anthropic（就是開發 Claude AI 的公司）發表了一份研究，調查學術界的社會科學研究者在使用「AI 程式助手」（coding agent，就是能幫你自動寫分析程式、處理資料的 AI 工具，例如讓 AI 幫你跑統計、爬整理資料）這件事上是否有性別差異。結果發現，姓名通常屬於男性的研究者，使用這類 AI 工具的頻率是女性的兩倍以上。更值得注意的是，這個差距不能用「男女做的研究不同」或「資歷深淺不同」來解釋——即使在同一個學科、同樣的職涯階段，差距依然存在。以研究領域分，經濟學家使用率最高（39%），教育學研究者最低（只有 4%）。相比之下，一般 AI 工具（如 ChatGPT 問答）的男女使用率差距沒這麼大，顯示「幫人寫程式的 AI」這個特定類型更集中在男性族群。

Use case

假設你是一所大學的院長或行政主管，正在評估「要不要為全體研究者安排 AI 工具培訓」。過去你可能假設：工具放在那裡、有需要的人自然會去用，差異只是個人偏好。但這份研究告訴你：如果把 AI 工具全留給自學，男性研究者的使用率預期會是女性的兩倍以上，意味著 AI 帶來的生產力紅利（更快寫完分析程式、更快出研究結果）會不成比例地流向男性研究者，讓原本就存在的不平等被 AI 放大。有了這個數字，你可以設計「主動推廣式培訓」——特別為女性研究者和教育學系辦工作坊、提供一對一示範，而不是等人自己報名。這樣才能讓 AI 生產力紅利公平分配，而非只強化已在用工具的那群人。

📰 每日 AI 彙整