AI Daily Digest

📰 每日 AI 彙整

2026-05-18  ·  共 15 則報導
T1 爆炸重要T2 值得關注T3 一般資訊T4 參考用T5 可略過
T2
T2
Orchard AI Agent 開源訓練框架

Orchard 是由微軟研究院(Microsoft Research)、哥倫比亞大學和伊利諾大學(UIUC)聯合開發的開源框架(就是可以免費下載使用的程式工具),專門用來訓練能自主執行任務的 AI 代理人(Agent,就是可以像人一樣自己做決策、一步步完成複雜任務的 AI)。這個框架最大的特色是採用 Kubernetes(一種讓大量程式在雲端同時安全運行的管理系統)原生架構,把「沙盒管理」(sandbox management,就是讓 AI 在隔離的虛擬環境裡練習、不怕搞壞真實系統的技術)和「Agent 執行框架」分開設計,讓訓練過程更省錢、也更容易擴大規模同時跑更多 AI。Orchard 內建多種訓練食譜(recipe,就是預先設計好的訓練流程範本),涵蓋軟體工程、網頁操作、個人助理等三大任務領域。實測結果在多項 Agent 評測基準上達到目前業界最高水準,而且訓練出來的 AI 能跨不同任務類型保持優秀表現,不會只在特定場景才管用。

假設你想訓練一個能幫你自動操作瀏覽器的 AI(比如讓它自動填寫表單、搜尋資料、點選按鈕完成訂單流程)。過去你需要自己從零搭建訓練環境,寫大量程式碼來管理「讓 AI 練習用的虛擬瀏覽器環境」,還要處理環境啟動與關閉、多個 AI 同時訓練時的資源分配,整個工程量龐大且成本高昂。用 Orchard 的話,只需要選「網頁操作」訓練食譜,框架會自動透過 Kubernetes 管理好所有練習環境的生命週期——要開幾個環境、怎麼分配給不同 AI 同時跑、練完怎麼釋放資源——整套流程全部自動化。你的 AI 就能在大量模擬網頁操作場景中快速學習,訓練完的模型還能直接遷移到「軟體工程」任務(比如幫你查程式錯誤、寫程式碼),不需要從頭重新訓練,節省大量時間與運算資源。

T2
AutoScientist 自動調優超越人類研究員

Adaption Labs(由知名 AI 研究員 Sara Hooker 創辦的實驗室)推出了一款叫做 AutoScientist 的自動化系統,專門負責做 fine-tuning(就是把現有的大型 AI 模型用少量專屬資料進行「微調」,讓它更適合特定任務,而不需要從頭重新訓練整個模型,可省下大量時間與計算資源)。AutoScientist 特別的地方在於,它能同時自動最佳化兩件事:一是「資料配方」(決定要用哪些訓練資料、比例怎麼搭配),二是「模型配方」(決定各種訓練超參數的設定)。依照 Adaption Labs 的內部測試,AutoScientist 的調優結果比公司內部的人類研究員高出 35%——勝率從 48% 提升到了 64%。目前這套系統免費試用 30 天。

假設我是一家醫療新創公司,想把一個通用的開放原始碼大型語言模型(例如 Meta 的 Llama,就是一種不需付費、可自行部署的對話式 AI)調整成專門回答醫療客服問題的版本。以前的做法是:聘請 AI 工程師手動挑選訓練資料(哪些問答對話品質夠好、哪些要排除)、調整訓練參數、等待結果、再修再測,這個反覆試誤的流程可能要耗費數週甚至數個月,而且效果高度依賴工程師個人經驗。換成 AutoScientist 的話,系統會自動探索大量資料與訓練設定的組合,找出最有效的配方,並且 Adaption Labs 宣稱這套自動化配方比人類研究員手工調出來的結果還要好 35%——等於省下了人力試誤成本,同時還拿到更好的成效。

T3
T3
MIT 以圖生成可編輯 CAD 模型

GenCAD 是麻省理工學院研究團隊開發的 AI 模型,能夠看著一張 3D 物件的渲染圖片,自動生成對應的「參數化 CAD 模型」(就是工程師用 SolidWorks、Fusion 360 等軟體畫的那種可以任意修改尺寸、形狀的設計檔案)。傳統做法是工程師盯著圖片手動一步一步在 CAD 軟體裡重繪,既費時又依賴個人技巧。GenCAD 把這個過程自動化了——AI 看圖後輸出一整段「CAD 操作命令序列」(像是「先畫一個圓柱、再挖一個洞、然後加一個凸緣」這樣的步驟清單),可以直接在 CAD 軟體裡執行,得到完整的可編輯零件。技術上,它結合了自迴歸 Transformer(就是 GPT 類語言模型的架構,但用來學 CAD 指令的規律)、對比學習(讓 AI 同時理解「圖片」和「CAD 指令」這兩種語言)、以及擴散模型(就是 Stable Diffusion 那類圖像生成技術,但這裡用來生成 CAD 指令的潛在特徵)三種技術,各司其職再組合成一條流水線。

假設我是一名機械工程師,拿到一張競品零件的照片,需要逆向工程做出類似設計。舊做法:我要盯著照片在 CAD 軟體裡憑感覺一個特徵一個特徵地建模,可能要花半天到一天。用 GenCAD:把那張照片丟進模型,幾秒內它就輸出一段參數化 CAD 命令序列。我把這段序列匯入 SolidWorks,就得到一個可以點選每個特徵、修改任意尺寸的完整零件模型。此外 GenCAD 還支援「多樣性採樣」——同一張圖可以生成好幾種不同的 CAD 實現方式,工程師可以挑最符合製造需求的那個。和純輸出 3D 網格(Mesh)或點雲(Point Cloud)的 AI 工具相比,GenCAD 的輸出是真正的工程檔案,保留了可修改性,後續改尺寸、送工廠製造都沒問題。

T3
Semble:AI 代理程式碼搜尋工具

Semble 是一個專門為 AI 代理(就是像 Claude Code、Cursor 這類能自動幫你寫程式的 AI 助理)設計的開源程式碼搜尋工具,由 MinishLab 釋出。過去 AI 代理在大型程式庫找不到東西時,常得靠 grep(一種逐行掃文字的傳統搜尋指令,就像在整本書裡翻找某個詞)或乾脆把整個檔案讀進來,這樣會消耗大量 token(token 是 AI 計費與處理的基本單位,用越多就越貴、越慢)。Semble 把語意向量搜尋(把程式碼轉成數學座標,能找到「意思相近」而非只是「字面相同」的程式碼)加上 BM25(傳統關鍵字排名演算法)兩種技術結合,再透過 RRF(多個搜尋結果的融合排序機制)與程式碼感知重排序來提升準確度,全程跑在普通 CPU 上,不需要 GPU、不需要 API 金鑰、不需要連外部服務。根據橫跨 63 個程式庫、19 種程式語言的約 1,250 組測試,它比傳統 grep+讀檔方式省了 98% 的 token,速度快約 200 倍(一般程式庫約 250 毫秒完成索引建立、每次查詢約 1.5 毫秒),召回品質仍達到 1.37 億參數大型程式碼搜尋模型的 99%,可直接以 MCP 伺服器(一種讓外部工具接入 AI 助理的標準介面)形式接入 Claude Code、Cursor、Codex、OpenCode 等工具。

假設我在一個有十幾萬行程式碼的大型後端專案裡,請 Claude Code 幫我找出「所有處理用戶付款失敗時的錯誤回報邏輯」。沒有 Semble 的情況下,Claude Code 會先用 grep 搜尋關鍵字,然後把十幾個可能相關的檔案全讀進來,光這一步就可能消耗數千個 token,費用飆升而且回應變慢。安裝 Semble(只需一行指令:`claude mcp add semble -s user -- uvx --from "semble[mcp]" semble`)後,Semble 第一次會在 250 毫秒內為整個專案建好索引,之後每次 Claude Code 需要搜尋程式碼,1.5 毫秒內就能直接回傳最相關的程式碼段落,不需要逐一讀取整個檔案。原本要消耗 1,000 個 token 的搜尋過程,現在只需大約 20 個 token,Claude Code 可以把省下來的配額用在真正的分析與修改上,整體回應更快、費用更低,而且搜尋不會遺漏語意上相關但字面不同的程式碼(例如:搜尋「付款失敗」也能找到只寫了 payment_error 而非直接含「失敗」的程式碼)。

T3
AI 加速流程的常見迷思

許多公司引進 AI 工具(就是像 ChatGPT、GitHub Copilot 這類能自動生成文字或程式碼的人工智慧)後,期望整體工作流程會大幅加速。但工程師 Frederick Vanbrabant 在這篇文章中指出,這個期望往往落空——原因不是 AI 不夠強,而是組織裡真正的「卡關點」根本不在執行端。舉例來說,一個軟體開發流程從需求討論到上線要 70 天,其中開發本身可能只花 20 天,其餘 50 天是在等決策、等需求文件寫清楚、等各部門確認。AI 把開發壓到 3 天,省下的 17 天在 70 天的流程裡只是九牛一毛。作者引用管理學經典《目標》(The Goal)的核心概念:真正的瓶頸需要接收「預測性高、品質好的輸入」,加速一個非瓶頸的環節,整體反而不會更快,只會讓上游的混亂更快浮現。

假設一家電商公司想用 AI 程式碼助手(類似 Cursor 或 GitHub Copilot,能自動幫工程師寫程式)來加快新功能開發。以往工程師寫完一個功能要兩週,現在 AI 輔助下兩天就能出初版。但馬上暴露出新問題:產品經理給的需求只有三行,欠缺細節,工程師要開好幾輪會議確認,反而比以前花更多時間在「等確認」。舊做法:開發慢,需求模糊的代價被「反正要等很久」稀釋掉了。新做法:AI 讓開發快了,但需求文件的混亂立刻成為全流程最大障礙。真正的解法不是換更強的 AI,而是先把需求撰寫流程標準化——確保工程師開始動工之前,手上就有完整的規格說明。這才是讓整體交付提速的關鍵。

T3
AI 從問答走向即時協作與自我改進

這週 AI 圈有幾件事串起來看,都在說同一件事:AI 正在從「被動回答問題的工具」變成「主動參與、甚至嘗試改進自己的夥伴」。首先是 Thinking Machines 這家公司發表了「互動模型」(interaction model,就是能在對話過程中即時聆聽、觀察、插話的 AI),和我們習慣的 ChatGPT 一問一答模式不同——它不需要你說完才回應,而是持續在旁邊看著、聽著,隨時給出反應,更像一個真實在場的工作夥伴。其次是「AI 科學家」的概念開始成為真實產品:Recursive 和 Adaption 的 AutoScientist 都在嘗試讓 AI 自動提出假設、跑實驗、評估結果、再優化自身——也就是讓 AI 幫忙改進 AI(這在技術上叫「遞迴自我改進」,以前被認為是科幻,現在已有人真的在做)。此外,做過 Alibaba(阿里巴巴)旗下 Qwen 系列模型(中國最知名的開源 AI 模型之一)的核心研究員楊俊林,據報傳出將籌集數億美元資金創立新的 AI 實驗室,估值可能達約 20 億美元,顯示全球 AI 競賽背後仍有大量資本和算力(就是訓練 AI 所需的電腦運算資源)在角力。

我是一名產品設計師,每次和客戶開視訊會議討論設計稿時,如果想問 AI 的意見,以往要暫停對話、截圖、貼到 ChatGPT,等它回答再切回來,整個流程又卡又斷節奏。用 Thinking Machines 這類互動模型,AI 可以全程「看著」我的螢幕和聽著會議內容,當我展示設計稿時,它不需要我問,就能主動說「這個顏色組合和你們品牌調性有點衝突」,或在我猶豫時先補一句「你剛才客戶說的是要強調信任感,這個字體偏活潑,可能不搭」。舊做法是「我去問 AI」,新做法是「AI 陪我一起在現場」——差別就是從一個查詢工具變成一個有來有往的協作者。

T3
MemEye 評估多模態 AI 記憶力

MemEye 是由美國多所頂尖大學(羅格斯大學、聖母大學、普林斯頓大學等)共同開發的一套評測工具,專門用來衡量多模態 AI 代理(agent,就是能自動執行任務的 AI 系統,可同時處理文字和圖片)在長時間運作時,能不能記住並靈活運用圖像裡的細節。現有的 AI 代理通常有「記憶模組」來保存對話歷史與操作紀錄,但這套記憶到底有多可靠、特別是視覺細節保留得好不好,過去缺乏統一的測量標準。MemEye 填補了這個空缺,讓研究者可以系統性地比較 13 種不同記憶方式的優缺點。研究結果揭露了一個關鍵取捨:用文字記錄視覺資訊雖然查找方便,卻容易遺失圖像細節;直接儲存原始圖片雖然保留了細節,卻難以追蹤畫面隨時間的動態變化。

假設有一個 AI 代理負責監控一台工廠機器的即時影像,每隔幾分鐘截一張圖並記錄下來。如果採用「文字記憶」,AI 會把每張圖描述成文字(例如:「閥門開度 30%,指示燈為綠色」),日後查詢速度快,但顏色細微變化、局部磨損紋路這類視覺細節就永遠消失了。如果採用「圖片記憶」,直接存原圖,細節完整保留,但要問「這台機器過去三天的狀態是否在緩慢惡化?」就很難回答——因為 AI 沒有把一張張圖片之間的變化串成一條時間軸。MemEye 提供了量化指標,讓研究者能確切測量這兩種做法各輸在哪裡,幫助開發者選出最合適的記憶方案,或設計能同時解決兩種缺點的新架構。

T3
EVOLVEMEM 自我進化代理記憶架構

EVOLVEMEM 是一個為 AI 代理(就是能自主執行多步驟任務的 AI 程式,例如能自動幫你查資料、寫報告的 AI 助手)設計的記憶管理系統,特別之處在於它能「自我進化」——根據自己過去犯的錯誤,自動調整和改善搜尋記憶的方式,完全不需要工程師手動重新設定。傳統的 AI 代理在使用長期記憶時,通常用固定方法去搜尋儲存的資訊,這些方法是工程師事先設定好的,不會改變,當任務變複雜或記憶庫增大時就容易找不到正確答案。EVOLVEMEM 加入了一個「診斷模組」——這個模組本身也是一個 AI,專門分析過去搜尋失敗的紀錄,找出哪些策略行不通,然後自動調整系統的搜尋設定,形成一個「閉環自我改進」的機制(就像學生做錯題後自己分析原因並改進讀書方法)。這項研究由 UNC-Chapel Hill、UC Berkeley、UCSC 三所大學聯合發表,在長期記憶的標準評分測試中,EVOLVEMEM 明顯超越使用固定搜尋策略的傳統模型。

假設你有一個 AI 助理代理負責管理幾百封客戶對話紀錄,並在回答新問題時查找相關的過去對話。當客戶問「我上次提到哪幾個產品問題?」,傳統固定搜尋策略的系統可能因為措辭不同而找不到正確對話,直接給出錯誤回應。使用 EVOLVEMEM 的系統則會這樣運作:每次搜尋失敗時,診斷模組(一個 AI)會記錄這次失敗,例如「語意相似度搜尋在這類問題上失準」。累積幾次類似失敗後,診斷模組分析這批失敗紀錄,判斷「應改用關鍵字搜尋加上時間排序」,並自動更新系統的搜尋設定。下次遇到相同類型問題時,系統就能用更合適的方式找到正確答案,不需要工程師手動調整。與傳統系統的差別在於:傳統系統的搜尋策略一次設定後永遠不變,而 EVOLVEMEM 會根據實際表現持續自動進化,越用越準。

T3
NEXUS 多 Agent 時序預測框架

NEXUS 是 Google 與賓州州立大學聯合開發的多智能體(multi-agent,就是讓好幾個 AI 分工合作)預測框架,專門用來提升時間序列(time series,就是按時間順序排列的數據,例如每日銷售量、氣溫、股價)的預測準確度。它的核心創新是把預測任務明確拆成三個階段:第一個 AI 專看整體大方向趨勢(例如整體是上漲還是下跌);第二個 AI 負責分析細粒度的短期波動(例如特定日期的異常跳動);第三個 AI 則把數字資料和文字說明(例如新聞事件、市場評論)整合在一起做最終判斷。框架還加入了一個校準循環(calibration loop,讓 AI 在輸出前自我反覆驗證),避免單次推論出錯就直接影響結果。相比傳統只餵數字給單一大型預測模型的做法,NEXUS 準確率可以媲美甚至超越頂尖的專用數值預測模型,而且每次預測都能附上「為什麼這樣預測」的文字解釋,讓使用者更容易判斷和信任結果。

假設我要預測一家連鎖超市未來 30 天各門市的日銷售量。舊做法是把過去幾年的銷售數字丟進一個大型數字預測模型,模型輸出預測值,但完全不解釋理由。換用 NEXUS:第一個 AI 分析大趨勢(例如每年同期銷售平均成長 5%);第二個 AI 抓細節波動(例如上週某店因鄰近新競爭對手開幕,銷售掉了 15%);第三個 AI 把這些加上外部文字資訊(例如氣象新聞報導颱風來臨、民眾可能提前囤貨)一起整合,再透過校準機制交叉確認。最終差異在於:舊模型只告訴你「預測賣 1200 箱」,NEXUS 輸出「預測賣 1300 箱,大趨勢貢獻上漲 5%、颱風囤貨效應再加 8%」,讓店長可以自行判斷這個假設是否成立,而不是盲目接受黑箱數字。

T3
GLiGuard 高效 LLM 安全篩選模型

GLiGuard 是 Fastino Labs 開發的一套輕量 AI 安全審查工具,專門用來即時監控 AI 聊天系統(如 ChatGPT 這類對話式人工智慧)的輸入和輸出是否含有有害或違規的內容。它的核心是一個只有約 3 億個參數的小型模型——參數可以想像成模型的「知識格子」,數量越多通常越聰明但也越耗電耗錢——卻能達到跟比它大 90 倍的模型相近的準確率,大幅降低部署成本。GLiGuard 採用「雙向編碼器」架構(一種可以同時讀取前後文的設計,不像一般 AI 需要一字一字往後生成),推論速度極快,適合需要即時反應的場合。在一次掃描中,它就能同時判斷提問是否有害、AI 回應是否合適、違規屬於哪個類別、以及是否有人正嘗試「越獄攻擊」(用特殊技巧讓 AI 說出被禁止的話)。

假設你在為一家企業開發 AI 客服機器人,需要確保用戶不會問出要求提供違法資訊的問題,同時 AI 的回答也不能出現歧視或有害語言。以往你必須串接一個大型語言模型(如 GPT-4 規模的模型)來做二次審查,每條訊息都要多等幾百毫秒,流量大時 API 費用也很可觀。換用 GLiGuard 後,每條對話在毫秒內完成四項同步審查(提問安全性、回答安全性、違規類型、越獄偵測),不需要另外呼叫外部大模型——舊做法是「問完再去另外找人審」,GLiGuard 則是「同一個步驟裡順便審完」,延遲降低、成本降低,特別適合需要處理大量即時對話的應用場景。

T3
AI 即時互動模型研究預覽

Thinking Machines Lab(一個 AI 研究實驗室)發布了「互動模型」(Interaction Models)的研究預覽,這是一種全新設計的 AI,目標是讓人類和 AI 能夠真正像面對面交談一樣即時互動。傳統的 AI 語音助理(像 Siri 或 ChatGPT 語音版)都採用「輪流制」——必須等你說完話,AI 才開始處理、再回應,就像用對講機通話一樣,一方說完才能換另一方說。這款新模型打破了這個限制,每 200 毫秒(約五分之一秒)就持續接收你的聲音、畫面和文字輸入並即時思考,讓 AI 可以在你說話時同時給出反應,就像真人對話一樣自然。此外,這個系統採用雙層架構:前端的「互動模型」負責即時反應,後端另有一個「背景模型」處理需要深度思考的複雜問題,分工合作讓速度與深度兼顧。在新設計的評估基準測試 FD-bench 中,此模型拿下 77.8 分,回應延遲最低僅 0.4 秒,優於現有所有即時 AI 模型。

以前用 AI 語音助理輔助線上教學,老師問「這張圖片裡有什麼錯誤?」,AI 需要等老師說完,再花幾秒分析,才能回答,整個過程斷點明顯,師生只能停下等待。使用 Interaction Models 的話,老師拿著平板對著題目圖片說話,AI 同時持續看著畫面;當老師說到一半「這個地方……」,AI 已經看到圖片上的數學錯誤並準備回應,等老師說完「這個地方有什麼問題?」,AI 幾乎立刻給出答案——因為它不需要等你說完才開始「看」圖,而是與你同步思考。舊做法延遲數秒,新做法壓縮到不到 0.5 秒,且 AI 能主動對畫面變化作出反應,而不是被動等待指令。

T3
前 Salesforce 科學家創 AI 自進化公司

Recursive Superintelligence(遞歸超級智能)是一家剛從秘密研發狀態公開亮相的 AI(人工智慧)新創公司,由前 Salesforce(美國大型企業軟體公司)首席科學家 Richard Socher 創立。這家公司的核心目標是打造「能夠自我改進的 AI 系統」——不靠人類工程師手動調整,而是讓 AI 透過開放式演算法(一種不設定固定終點、讓系統自行探索最佳解的程式邏輯)不斷研究、修改、優化自己,形成一個螺旋向上的自我提升迴圈。公開亮相同時宣布完成 6 億 5 千萬美元的募資,整體估值高達 46.5 億美元,由 GV(Google 母公司 Alphabet 的創投部門)與 Greycroft 共同領投,Nvidia(繪圖卡與 AI 晶片大廠)和 AMD(另一家晶片製造商)的創投部門也參與。公司計畫的第一步,是讓 AI 先學會自動化「AI 研究本身」——也就是讓機器代替人類研究員去設計實驗、分析結果、提出下一代改進方向。

目前開發一個新版 AI 模型,需要人類研究員花費幾週到幾個月時間:先假設某種網路架構(讓電腦學習用的數學結構)可能更好、跑大量實驗、等待結果、解讀數據、再設計下一輪測試。Recursive Superintelligence 的構想是讓這整個流程交給 AI 自己來跑——AI 先觀察現有模型的弱點,自動提出一批「如果把架構改成 X 會不會更好」的假說,自動執行實驗並分析哪些假說得到驗證,再把驗證通過的改法套進下一代模型,循環不斷。對比現有做法(OpenAI、Anthropic 等公司仍高度依賴人類研究員設計每一個實驗),這條路若走通,理論上能讓 AI 進步速度脫離「人類腦力」的上限——但目前這家公司才剛出棚,是否能實現仍是未知數。

T3
xAI 推出程式助手 Grok Build

xAI(就是馬斯克創辦的人工智慧公司,旗下有 Grok 這套 AI)推出了一款叫做 Grok Build 的新工具,讓 AI 直接在電腦的「命令列介面」(就是那個全是文字、沒有圖形按鈕的黑色視窗,工程師日常必用)裡幫你寫程式、修 bug、執行開發任務。這種工具業界稱為「程式碼代理人」(coding agent,意思是一個能自己規劃步驟、主動操作你電腦上程式碼的 AI),跟只會聊天的 AI 不同,它能真正動手改檔案、執行指令、驗證結果。目前 Grok Build 是早期測試版,只開放給 SuperGrok Heavy 方案訂閱者使用,月費約 300 美元(換算台幣約一萬元)。xAI 推出這款工具,明確目標是縮短與 Anthropic 公司(推出 Claude AI 的公司)在程式輔助領域的差距——Anthropic 的 Claude Code 是目前開發者社群評價最高的同類工具之一。

假設你是一個寫 Python 的開發者,手上有一份爬蟲程式一直報錯,但你不知道哪裡出了問題。舊方法:把錯誤訊息貼給 AI 聊天介面,手動複製它給的修改建議,再貼回去你的編輯器存檔、重跑程式,反覆幾輪才解決。用 Grok Build 的方式:你在終端機輸一個指令,AI 會自己讀取你的程式碼、定位問題所在、直接修改檔案、執行程式驗證是否修好——全流程 AI 一氣呵成,你不需要一步步複製貼上。這和 Anthropic 的 Claude Code(讓 Claude 在終端機裡直接操作程式碼的工具)做法相同,差別在於現在 xAI 的 Grok 也提供類似能力,開發者多了一個選項,但目前入門門檻仍偏高(需月付萬元台幣訂閱)。

T3
NanoClaw:讓部長也能組的開源 AI 代理

NanoClaw 是一個開源的 AI 代理框架(就是可以幫你把 ChatGPT 這類 AI 接進各種工具、讓它有記憶、能排程、能自動執行任務的基礎軟體),整個程式碼只有約 500 行,建立在 Anthropic 的 Claude Agent SDK(Anthropic 公司提供給開發者呼叫 AI 能力的程式工具包)之上。它最大的特點是「可以讀懂」——程式碼少到一個沒有深厚技術背景的人也能大概看懂發生了什麼事。新加坡現任外交部長 Vivian Balakrishnan(前眼科外科醫師,現任政府高官)花了三個月,把 NanoClaw 和多個開源工具拼在一起,在一台只有 8GB 記憶體的 Raspberry Pi(一種幾百元台幣就能買到的迷你電腦)上跑起了自己的個人 AI 助理。他在 2026 年 5 月的 AI Engineer Singapore 大會上公開分享這套系統,以及他用後的心得:「已經不敢把它關掉了。」

假設你是一個每個月要造訪 12 個國家、見上百個人的外交官。每到一個地方,你都要快速掌握當地的政治、經濟、歷史和當前局勢,還要記得上次和這個人談過什麼、說過什麼立場。以前的作法是靠幕僚整理簡報,或是自己苦命翻筆記,常常找不到、記不住。Balakrishnan 的解法是:把自己歷年演講稿、國會答詢逐字稿全部餵進 Mnemon(一個以圖譜結構存關係的記憶系統,可以記錄「A 和 B 的關係是什麼、什麼時候發生的」這類連結),再用 Ollama(在自己電腦上本地跑的 AI 嵌入模型)做語意搜尋(不只靠關鍵字,而是理解詞意再找相近內容),讓他問「我對這個議題的歷史立場是什麼」時,系統能真的找到相關內容。語音靠 Whisper(OpenAI 開源的語音辨識工具,能把說的話轉成文字)處理,讓他用講的就能操作;介面用 WhatsApp 搭 Baileys(模擬 WhatsApp 在電腦上連線的軟體);最終整理出來的 wiki 存進 Obsidian,透過 iCloud 到哪都帶得走。三個月後,連這場演講的投影片本身都是由 Claude 生成的。對比以前靠人工整理常常找不到或過時的資料,現在 AI 能隨時抽出需要的事實,並沿著記憶圖繼續追問下去。

T4
T4
CUDA 程式設計書單精選

CUDA 是 NVIDIA 開發的 GPU(圖形處理器,就是顯示卡內負責大量平行運算的晶片)平行運算框架,是訓練 AI 模型不可或缺的底層技術——ChatGPT、Stable Diffusion 等 AI 系統背後的大量數學計算,都是透過 CUDA 在 GPU 上執行的。這份 GitHub 上的開源書單整理了從入門到進階的 CUDA 書籍,涵蓋 C++ 與 Python 語言版本,以及深度學習(就是訓練 AI 模型的技術)應用、GPU 架構效能最佳化等主題。書目橫跨 2010 年的經典入門書到 2025 年最新著作,其中《CUDA for Deep Learning》直接針對 AI 訓練場景撰寫。這份書單對想深入理解 AI 如何在硬體層面運作、或打算自己撰寫高效能 GPU 程式的工程師來說,是一份有系統的學習路線圖。

假設你是一位 Python 工程師,想自己撰寫 GPU 加速的矩陣運算程式碼,而不完全依賴 PyTorch(一種廣泛用於 AI 開發的現成框架)等工具。過去你可能要自己在網路上搜尋散落各處的教學、不知道先讀什麼、後讀什麼。現在透過這份書單,你可以按順序學習:先從《CUDA by Example》掌握基礎概念,接著讀《Hands-On GPU Programming with Python and CUDA》學 Python 版實作,最後用 2025 年新書《CUDA for Deep Learning》了解如何把這些技術應用到 AI 模型訓練。舊做法是自己拼湊資料、走了很多彎路;這份有層次的書單讓你清楚知道「該按什麼順序學」,不會一開始就被太艱深的參考書嚇跑。