AI Daily Digest

📰 每日 AI 彙整

2026-05-29  ·  共 76 則報導
T1 爆炸重要T2 值得關注T3 一般資訊T4 參考用T5 可略過
T2
T2
首款 1-bit 擴散模型,瀏覽器免裝生圖

PrismML 發布了一個叫做 Bonsai Image 4B 的 AI 文生圖模型(就是你輸入一段文字描述,AI 就幫你畫出一張圖的工具),這是全球第一款把模型「1-bit 量化」做到如此極致的文生圖模型。所謂「1-bit 量化」(就是把 AI 模型裡每一個參數壓縮到只用最小單位的資料儲存,概念類似把每種顏色只留黑與白兩個選擇),讓整個模型從原本需要近 8 GB 的空間,縮小到只剩 0.93 GB,壓縮了超過 8 倍。最特別的地方是:這個模型可以直接在你的網頁瀏覽器裡執行,完全不需要安裝任何軟體或下載任何東西,用 iPhone 17 Pro Max 大約 9.4 秒就能生成一張 512×512 的圖片,Mac M4 Pro 則約 6 秒。模型採 Apache 2.0 完全開源授權(意思是可以免費使用、可以修改、可以商用),特別適合需要在本機生圖、不希望圖片被上傳到雲端的隱私敏感場景。不過社群實際測試後,普遍認為目前的圖片品質仍與主流工具有明顯差距,官方宣稱的「保留 95% 品質」也尚未有獨立機構驗證。

假設你是一個小型自媒體創作者,想要在出差途中用手機幫文章配圖,但平常用的 AI 生圖工具(如 Midjourney、Adobe Firefly)都需要把你的提示詞和圖片傳到雲端伺服器,讓你擔心創作內容外洩。現在你可以直接打開手機上的 Chrome 瀏覽器,進入 Hugging Face 上的 Bonsai Image WebGPU 示範頁面,輸入「a peaceful Japanese garden at sunset」,等約 10 秒鐘,一張 512×512 的圖片就在你的手機上本地生成完成,全程沒有任何資料離開你的裝置。相比之下,以前如果你想在本機跑 Flux(目前同級別最好的開源文生圖模型),你需要一台有 16 GB 以上顯示記憶體的電腦,根本不可能在手機或一般筆電上執行。缺點是目前圖片解析度最高只有 512×512(大約是社群媒體頭像的大小),且畫面細節在與 Flux 全精度版本比較時仍有明顯落差,適合輕度創意探索用途,不適合正式商業設計。

T2
Karpathy 加入 Anthropic 主導預訓練研究

Andrej Karpathy(安德烈・卡帕西)是 AI 界最具份量的研究者之一——他是 OpenAI(就是做出 ChatGPT 的那家公司)的聯合創始人,也曾擔任 Tesla 自動駕駛 AI 部門的高級總監,還以製作深受全球開發者喜愛的免費 AI 教學影片而聞名。2026 年 5 月 19 日,他宣布正式加入 Anthropic(也就是開發 Claude 這款 AI 助手的公司),職稱是技術員工,加入負責讓 Claude「從頭學會理解世界」的預訓練團隊(預訓練就是把海量文字資料灌給 AI,讓它從零建立語言理解能力的過程)。他的核心任務是在團隊內組建全新子團隊,專門研究「用 Claude 本身來加速 Claude 的學習研究」,也就是讓 AI 幫 AI 做科學實驗、分析結果,形成一個遞迴自我改進的循環。更值得注意的是,他放棄了自己創辦 Eureka Labs 的創辦人頭銜,選擇回歸純研究崗位——業界分析人士認為,一位有豐富高管經驗的頂尖研究者主動選擇「埋頭做研究」,本身就是對 Anthropic 技術方向最強烈的認可信號。

過去 AI 公司進行預訓練研究,工程師需要手動設計實驗假設、撰寫訓練程式碼、等待數天甚至數週的運算結果,再人工分析後才能設計下一輪實驗——每個完整循環耗時漫長。Karpathy 的新子團隊想嘗試的是:讓 Claude 自動提出實驗假設、生成實驗程式碼、分析結果並回饋到下一輪訓練,整個流程由 AI 主導而非人工逐步推進。舉個具體比喻:原本一位研究員一週可能只能完成 5 輪「提假設→跑實驗→看結果→修正」的循環,若 Claude 能自動化其中大部分步驟,同樣時間可能完成 50 輪。長期效果是 Anthropic 的模型能力進步速度加快,對普通用戶而言,就是未來版本的 Claude 會更快變聰明、回答更準確,而且每次大升級之間的等待時間縮短。

T2
AI 幻覺引用滲入醫學論文

AI 幻覺(就是 AI 系統憑空捏造出看似真實、但根本不存在的資訊)正在悄悄污染正規的醫學學術論文。哥倫比亞大學 2026 年 5 月在《柳葉刀》(全球最權威的醫學期刊之一)發表了一項大規模調查,掃描了 247 萬篇生物醫學論文,在 2,810 篇同儕審查(就是有其他專家幫忙把關審核)論文中,發現了 4,046 條根本不存在的假引用——這些文獻看起來格式正常,但追溯不到真實的科學來源。更嚇人的是增長速度:2023 年每 2,828 篇才出現 1 篇有假引用,到 2026 年初已惡化到每 277 篇就有 1 篇,三年暴增超過 12 倍。最危險的地方在於「評論文章」(就是匯整大量研究、得出綜合結論的文章),它們的假引用率比其他類型高出 57%,偏偏這類文章正是醫院和衛生機構制定治療指引的主要依據。目前 98.4% 的問題論文至今沒被出版商更正或撤稿,等於這些假資訊還繼續流通在學術圈裡。

想像一位護理研究人員正在協助撰寫「老年患者使用某種止痛藥的安全指引」。他找到一篇評論文章,裡面引用了十幾篇臨床試驗,引用格式完全正常——作者、期刊名、年份、頁碼都齊。但其中幾篇,其實是撰文作者用 AI 輔助寫作時,AI 憑空捏造出的「幻覺文獻」。那位研究人員沒有一一到資料庫查驗,就把這些引用當作真實依據,最終擬出的指引有一部分根本沒有真實研究撐腰,但看起來「有引用、有來源」,整個委員會和審查者都沒察覺。現在有了哥倫比亞大學開源的 CiteAudit 工具(可以自動交叉比對 PubMed、Crossref、Google Scholar 等四個學術資料庫,區分真假引用),未來在投稿前或制定指引前,可以先跑這個工具掃一遍,把假引用揪出來,讓治療決策建立在真實的科學證據上。

T2
頂尖 AI 查核事實分歧高達 67%

一項新研究讓五個目前最強大的 AI 對話模型(GPT-5.4、Claude Opus 4.7、Gemini 3 Pro 等)各自查核同一批真實事件的對錯,結果發現,在 1,000 筆查核題目裡,高達 67% 的案例至少有一個模型給出和多數模型不同的答案。更驚人的是,有 21% 的題目出現「極端分歧」——某個模型說這件事是真的,另一個模型卻說是假的,完全相反。研究用的是真實使用者在 2026 年二月到五月之間提交的聲稱,涵蓋金融、健康、政治、科學等領域,沒有固定「正確答案」作為對照,純粹看各模型是否互相同意。統計上,五個模型完全一致的比例只有 33%,也就是說,三分之二的現實問題,頂尖 AI 之間是有分歧的。

假設我要用 AI 自動核對一篇新聞稿裡「某藥物已通過美國 FDA 三期臨床」這句話是否屬實。如果只問一個模型,結果可能是:Claude 說「真的」、Gemini 說「誤導性陳述」、GPT-5.4 說「大多為真」——三個不同答案。根據這份研究,這樣的分歧有 67% 的機率發生在任意一筆真實聲稱上。舊做法是靠人工查核或只問單一 AI 輔助確認,但現在的建議是:若要部署 AI 做事實查核,至少要同時問多個模型,若答案分歧就標記為「需人工審查」,而不是直接相信某一個模型的結論——因為不管選哪個「最強」的 AI,都有可能和另一個頂尖模型給出截然相反的答案。

T2
AI 生成數學論文首次通過同行評審

美國初創公司 Axiom Math 開發了一套名為 AxiomProver 的 AI 系統,能在約24小時內自動生成並嚴格驗證數學論文的完整證明過程。從2026年2月到5月,他們提交了8篇由 AI 輔助完成的數學論文,其中已有5篇通過同行評審(就是由多位領域專家仔細審核、確認論證正確後才刊登的學術把關流程)並被正式期刊接收。AxiomProver 的運作方式分成三步:首先,研究者用自然語言描述想解決的數學問題,系統自動將其轉換成 Lean 形式語言(一種讓電腦可以逐步核對每個推理步驟邏輯正確性的數學書寫格式)所寫的形式化證明;接著,內建的獨立檢測器逐行驗證每個推理步驟,確保沒有邏輯漏洞;最後,人類數學家再為這份機器輸出補充人類可讀的學術詮釋和背景說明。公司創辦人洪樂潼生於2001年,在 MIT 只花3年就完成數學與物理雙學位並發表了9篇論文,後從史丹佛博士班退學創業;公司在2026年3月完成2億美元(約新台幣65億元)的融資,估值達16億美元。

我是一位數學系研究生,想研究「數論」(專門研究整數、質數等最基本數字性質的數學領域)中,關於「分拆多項式的倒數」的性質——也就是「把一個數拆成幾個正整數相加有多少種方法」這個計數公式,求其倒數後會呈現什麼規律。傳統做法是:我花好幾週手寫推理、反覆修改、請指導教授和同僚交叉確認,仍可能有某個步驟邏輯有漏洞但沒被人發現,後來才被其他學者挑戰。改用 AxiomProver 後,我把問題用白話描述給系統,系統在24小時內自動生成一份用 Lean 語言寫成的完整證明,電腦逐一核查每個推理步驟,確保沒有任何邏輯缺口。這份論文(《Reciprocals of Partition Polynomials》)後來送審通過同行評審,刊載於 Annals of the Academy of Romanian Scientists。差異在於:以前我擔心論文裡藏有沒人發現的錯誤;現在電腦驗證過的每個步驟都有機器背書,大幅降低人為疏漏。

T2
7B醫學AI智能體打敗o3和GPT-5

來自浙江大學、上海交通大學、復旦大學等多所頂尖大學的研究團隊,開發出兩套醫學 AI 系統——「Ophiuchus」(主攻醫學圖像診斷)和「MedScope」(主攻臨床長影片分析)。這兩套系統的核心創新在於:AI 在思考問題時,會「主動決定要看哪裡、要怎麼看」,而不是只是被動接收一張圖或一段影片後直接回答。傳統的多模態 AI(就是能同時處理圖片和文字的 AI)只能被動接受輸入的圖像,但這兩個新系統在推理過程中,可以像人類醫生一樣主動放大某個病灶區域、截取影片的關鍵幀,根據「重新觀察」到的視覺證據修正自己的判斷。其中,只有 70 億參數的 Ophiuchus-7B(參數量是衡量模型大小的指標,數字越大通常代表模型越強)以 68.0 的平均分,超越了 OpenAI o3(62.2)、Gemini 2.5 Pro(61.8)和 GPT-5(59.9)這些體量遠大於自己的頂尖模型,研究成果已在 ICML 2026(國際頂級 AI 學術研討會)發表兩篇論文。

假設需要用 AI 協助診斷一份胸腔 X 光影像,判斷是否有早期肺結節。傳統的 AI 診斷助手只會把整張圖餵給模型,讓它一次性給出結論;如果結節很小、藏在影像角落,容易被忽略。換成 Ophiuchus,AI 在思考過程中會先看整張圖,發現「右下肺有個可疑暗影」後,主動呼叫 Zoom-in 工具放大那個區域,再呼叫 BiomedParse(一個醫學分割工具,能把病灶邊界自動勾勒出來)精確標記輪廓,根據這些新的細節重新評估「這是結節還是血管」,最後給出更有依據的診斷。舊做法只看一次就給答案,而 Ophiuchus 能反覆觀察、調整焦點,工具呼叫的準確率高達 97.9%,最終診斷準確度也全面超越 GPT-5 等大型模型。

T2
遞迴可能是 AI 下一條擴規律

過去十年,AI 進步有一個萬用配方:把模型做大、給更多訓練資料、花更多算力。這套「擴規律(Scaling Law,就是「模型愈大、效果愈好」的規律)」讓 AI 發展有如工業生產線——只要預算夠,就能做出更強的模型。但最近出現一個耐人尋味的訊號:光靠「做更大」已經開始撞牆,真正重要的轉變是讓 AI「反覆思考」。The Sequence 評論指出,AI 的計算單位正在從「一次推算(forward pass,就是 AI 讀完你的問題、一口氣生成答案那個動作)」,轉移到「迴圈(loop,AI 不斷重新審視、修改、批評自己的答案)」。這個方向有一個更直白的說法:遞迴(recursion,讓 AI 一直重複執行同一套動作、每次都以上一輪結果為基礎再改進)可能就是下一條 AI 擴規律。換句話說,未來最強的 AI 不是靠「比誰的模型大」,而是靠「誰能讓模型更有效率地自我反覆改進」。

以 OpenAI 的 o3 模型為例(o3 是 OpenAI 在 2025 年發布的推理模型)。你問它一道複雜的數學應用題,它不會像傳統 GPT-4 那樣「一次生成」答案。o3 在回答前會先在內部跑好幾輪「思維鏈(Chain of Thought,把解題步驟一步步列出來)」——第一輪試算、第二輪發現哪裡算錯了、第三輪換方法重算,最後才輸出答案。這就是「遞迴思考」的實例。對比傳統做法:GPT-3 時代的模型拿到同一題,一次 forward pass 就輸出結果,算錯了也不知道。o3 靠的不是比 GPT-3 大幾百倍,而是靠「反覆修正自己」。未來的 AI 評比,可能不再問「這個模型有幾千億參數(就是 AI 的記憶單元數量)」,而是問「它能在一個問題上迴圈幾次、每次修正多少」——這正是本文作者所說的「遞迴擴規律」。

T2
LangChain 代理框架重大升級

LangChain(一個廣泛使用的 AI 代理開發框架,幫工程師把多個 AI 工具串在一起、自動完成複雜任務)發布了 Deep Agents v0.6 重大更新。最亮眼的改進是「Delta Channels」技術:讓一個 200 輪對話的程式寫作任務,儲存中間狀態所需的空間從 5.3 GB 驟降至 129 MB,節省約 96%。同時推出 Fleet 電腦操作功能(讓 AI 代理直接控制電腦畫面完成操作)與 Context Hub(版本化管理代理的技能和記憶),以及 LangSmith Engine(自動化「發現錯誤→診斷原因→生成修復方案」整個循環)。業界也逐漸認識到,光有強大的 AI 模型還不夠,把模型包裝起來使用的那套「框架與記憶架構」也必須跟任務緊密配合,客製化垂直系統遠比通用框架表現更好。此外,新創公司 Trajectory 以 1500 萬美元融資正式推出「持續學習」平台,讓 AI 代理能根據實際使用行為不斷自我優化,合作夥伴包括 Clay、Harvey、Decagon 等知名 AI 公司,代表「部署後學習」正從研究概念演變為可落地的基礎設施。

假設你在公司部署了一個 AI 代理,讓它每天幫工程師寫程式碼,每次工作時它都需要記住每一步的中間結果(稱為「checkpoint」,就像遊戲中途存檔),方便出錯時從上次存檔點繼續。用舊版 LangChain,一個 200 輪對話任務就要佔掉 5.3 GB 的磁碟空間,如果同時跑 10 個這樣的任務,儲存成本極高、伺服器硬碟很快告急。升級至 Deep Agents v0.6 後,同樣任務只需 129 MB,空間縮小逾 40 倍,企業可以用同樣的伺服器資源同時跑大量代理任務。進一步,若這個代理某次回答得很糟,過去工程師要人工翻閱系統運行紀錄(log)找原因,現在 LangSmith Engine 會自動分析錯誤、提出修改建議,大幅降低維護成本。

T2
AI 評測與訓練效率研究

這篇報導整理了最近 AI 領域幾個重要的「評測基準」(就是給 AI 出考題、量化它到底有多厲害的標準化測試)和「訓練效率」研究成果。在評測方面,DeepSWE 是一套針對 AI 寫程式能力設計的新考題集,包含 113 道跨 5 種程式語言、91 個真實程式庫的任務,比舊版測試難得多——平均需要改動 7 個檔案;ITBench-AA 是 IBM 和 Artificial Analysis 合作推出、專門測試 AI 能不能處理企業 IT 故障的基準,情境是 Kubernetes(一套管理大量伺服器的工具)上發生事故時 AI 能否自動解決,結果所有頂尖模型得分都在 50% 以下,Claude Opus 4.7 以 47% 暫居第一、GPT-5.5 以 46% 緊隨其後;AgingBench 則量測 AI agent(能自動執行任務的 AI 程式)長時間使用後性能衰退的問題,指出壓縮、干擾與記憶體更新是主因。在訓練技術方面,Sakana AI 的 DiffusionBlocks 提出讓神經網路(就是 AI 的大腦架構)「一層一層獨立訓練」的新方法,大幅降低訓練所需記憶體,同時維持與整體訓練相當的效果;Snowflake 的 ZoRRo 則讓強化學習(RL,一種讓 AI 透過試錯來改進的訓練方式)訓練速度快 3.5 倍、支援 3.2 倍更長的上下文,兩者都代表「用更少資源訓出更好 AI」方向的重要進展。

假設你是一家公司的 IT 工程師,半夜 Kubernetes 叢集(管理公司幾百台虛擬機器的平台)突然掛掉,你想讓 AI 自動診斷並修復。ITBench-AA 就是模擬這種情境的考試——它出的題目是真實的 Kubernetes 故障案例,問 AI「現在系統報這個錯,你要怎麼排查和修?」結果:連目前最強的 Claude Opus 4.7 只答對 47%,GPT-5.5 答對 46%,意思是這些 AI 每兩道題就有超過一道答錯或答不完整。對比舊的 AI 測試多半是選擇題或簡單問答,這類「真實世界的複雜故障修復」讓頂尖 AI 都吃癟,代表現階段 AI 自動維運(AIOps)仍遠不能完全取代人工。對想部署 AI 運維助手的企業來說,這個分數是很重要的現實校準:不要期望 AI 獨力扛起故障處理,但作為人工的輔助工具、縮短排查時間,仍有實際價值。

T2
多模態 AI 模型密集上線

今天有一批各領域 AI 模型同步發布,涵蓋生物科學、視覺辨識、文件處理與裝置端 AI。最受矚目的是 ESMFold2,這是一個開放原始碼的蛋白質結構預測 AI——蛋白質(就是構成人體細胞和酵素的分子)的立體形狀決定了它的功能,過去科學家得花幾個月用昂貴儀器才能弄清楚,ESMFold2 用 AI 幾分鐘就能預測,還附帶一個收錄了 68 億種蛋白質、11 億個預測結構的資料庫,規模超過 Google DeepMind 的 AlphaFold DB。同日,Google DeepMind 發布了 Gemini Embedding 2(一個能同時「看懂」文字、圖片、音訊、影片並把它們變成可以比較的數字向量的 AI 工具),NVIDIA 的 LocateAnything 能以傳統方法十倍速找出圖片中的指定物件,Surya OCR 2 可以從各種語言(支援 91 種)的文件圖片中辨識並擷取文字,而 LiteParse v2 則用 Rust 語言重寫了 PDF 解析引擎,速度提升最多百倍,還能直接在瀏覽器執行。

假設製藥公司正在研發某癌症療法的抗體藥物,研究員需要設計一個能精準結合癌細胞表面特定蛋白質的「miniprotein binder(迷你蛋白質結合物)」。舊做法:用 X 光晶體學或冷凍電鏡測量蛋白質形狀,實驗費時數週到數月、成本高昂,每設計一個候選分子就得重複一遍。ESMFold2 的做法:輸入蛋白質的氨基酸序列(就是一串字母代碼)→ AI 幾分鐘內預測出蛋白質的三維結構 → 研究員在電腦上測試數千種 binder 設計 → 從 ESMFold2 的 68 億蛋白質資料庫找結構相似的參考物 → 挑出最有希望的少數幾個才送去真正的實驗室驗證。結果:把「需要實驗室驗證的候選數」從幾百個縮到個位數,省下大量時間與資源。相比之下,沒有 ESMFold2 前,篩選這個步驟本身就要耗掉幾個月。

T2
AI 程式代理全面企業化競爭

AI 程式代理(就是能自動幫你寫程式、除錯、修改程式碼的 AI,像 OpenAI 的 Codex 或 Anthropic 的 Claude Code 這類工具)正在從「開發者玩具」升級成「企業級產品」。OpenAI 把旗下的 Codex 收攏到最新的 GPT-5.5 模型,同時新增了企業才需要的安全控管功能:AI 只能走公司設定的加密管道對外連線、可以限制 AI 能存取哪些程式碼倉庫、設定費用上限與資料保留天數。Claude Code 也同步更新了穩定性與除錯流程。最引人注目的商業數字來自 Cognition(旗下有 AI 工程師 Devin):他們剛完成超過 10 億美元募資、估值高達 260 億美元,今年以來企業客戶使用量成長超過 10 倍,年化收入接近 5 億美元,顯示 AI 程式代理已有真實的商業需求。整體趨勢是:這個市場的競爭重心正在從「誰的 AI 比較聰明」轉移到「誰的平台對企業 IT 更友善、更可控」。

假設你是一家有兩百名工程師的公司 IT 主管,想導入 AI 程式代理加速開發。舊做法是讓工程師各自用個人帳號試用 GitHub Copilot 或 ChatGPT,IT 根本看不到 AI 存取了哪些程式碼、每個月花了多少、萬一程式碼洩漏也無從追查。現在 OpenAI Codex 的新企業控管功能讓你可以集中設定:AI 只能透過公司核准的加密管道對外連線(不走公開網路)、每個部門月預算是多少、哪些高敏感倉庫完全禁止 AI 讀取。工程師照常用 AI 寫程式,IT 主管透過 Admin API 看到全公司的使用報告,費用透明、風險可控。這和以前「讓工程師各自為政亂用 AI」的差距,就是能不能真的規模化部署的關鍵。

T2
ESMFold2 大規模蛋白質結構預測

ESMFold2 是 AI 研究員 Alex Rives 發布的第二代蛋白質折疊預測模型(蛋白質折疊,指預測蛋白質這種生命分子在立體空間中的精確形狀——形狀決定了它在身體裡能幹什麼、或成為哪種疾病的藥物靶點)。相較前一代 ESMFold,這次達到「圖集規模」(atlas scale)的開放式建模,意思是能同時對數千萬乃至億級別的蛋白質結構進行預測與比對,覆蓋已知蛋白質宇宙的絕大多數。開發團隊特別強調其對「治療設計」(therapeutic design)的意涵,也就是可直接用於新藥候選分子的早期篩選。最重要的是,這個模型以開放方式釋出,研究人員和藥廠無需自建即可使用。

假設我是一位生技公司的研究員,想針對某種遺傳性罕見病設計新藥。這個病由一個「異常活躍的壞蛋白質」引起,但我手上只有它的氨基酸序列(組成蛋白質的字母串,可從基因資料庫直接下載)。用 ESMFold2,我輸入序列後幾分鐘內就能得到這個蛋白質的三維預測結構;接著利用「圖集規模」的比對能力,在全庫掃描結構相似的已知蛋白質,找出有哪些現有藥物曾靶向它——這些現有藥物就成了我設計新藥的起點,大幅縮短早期發現階段。舊做法要靠 X 光晶體學或冷凍電鏡花幾個月甚至幾年才能確定蛋白質形狀;現在 AI 幾分鐘給出預測,整個早期篩選週期從年縮短到週。

T2
AI 程式 Agent 致勝靠架構非模型

過去大家拼命比誰的 AI 模型「腦袋更好用」,但最近業界多份分析同步指出:真正決定 AI 程式助手好不好用的,已經不是模型本身,而是「harness(框架,指包在模型外面的那套基礎設施)」有沒有做好。這個框架包含三件事:讓 AI 知道自己現在在做什麼的「上下文管理」、記住歷史操作的「可靠記憶」、以及根據任務動態調用不同工具的「技能路由」。DeepSeek 據報已在內部組建專門的 harness 團隊;Google 的 Gemini Managed Agents 把整套框架包成一個 API 呼叫;LangChain(一個廣受開發者使用的 AI 應用開發工具庫)也更新了官方文件,明確列出這三層結構。同時,一個叫 DeepSWE 的新評測基準被多位實務開發者稱為「第一個真正反映用模型寫程式體感的測試」,填補了以往評測和實際開發體驗脫節的問題。

假設你要用 AI 自動修一個 GitHub issue:舊做法是直接問模型「幫我修這個 bug」,模型憑著上下文猜,猜錯了你就要重來,沒有驗證環節。用 harness 架構的新做法是:AI 先讀 issue 和相關程式碼(上下文管理),嘗試修改後自動跑測試(eval loop,就是自動評估是否修好),如果測試掛掉,框架會把錯誤回饋給 AI、讓它再試,直到測試通過才停下(validation + correction 循環)。整個過程你不用一直盯著,成功率比「單次問模型」高得多。這正是 DeepSWE 評測設計要量的場景,Qwen3.7 Max(阿里巴巴推出的模型)在這個評測上排名第四,和目前被認為最強之一的 Claude Opus 4.6 幾乎不相上下。Anthropic 同時也為 Claude Code(AI 程式碼編輯工具)加了安全導引外掛,內部測試顯示 PR(程式碼審查請求)裡跟安全相關的問題評論減少了 30~40%。

T2
AI 解數論難題與睡眠式記憶壓縮

本週 AI 研究界有三個值得注意的進展。第一,Anthropic 的新模型 Claude Mythos 成功解開了「Erdős 問題 #90」——這是匈牙利數學家 Erdős 提出的一系列著名未解難題之一,過去幾十年無人能完整解決。更有趣的是,Mythos 找到的證明路徑與 OpenAI 先前得出的解法不同,而且更簡潔。這個結果說明現有 AI 模型其實有大量「潛藏能力」(capability overhang,意思是模型在普通對話介面下沒辦法發揮的真實水準),只要搭配對的「任務架構」(harness,就是幫 AI 設計好工作流程、讓它一步一步推理的配套設定),能力就會浮現出來。第二,一篇名為《語言模型需要睡眠》(Language Models Need Sleep)的論文獲得廣泛關注,提出讓 AI 像人類睡覺一樣做「記憶鞏固」的新機制:在清除工作記憶前先把重要資訊寫入模型的核心參數,讓長時間運行的 AI agent(自動化 AI 助手)不再因記憶滿載而遺忘前期資訊。第三,QUEST 系列開源研究 agent 模型(規模從 20 億到 350 億參數不等)正式發布,專門用於長時間深度資料查詢、文獻引用核實與報告生成,是目前開放權重的深度研究 AI 中規模最完整的一批。

假設你要用 AI agent 幫你查閱一份跨越數百頁的技術文件,整個工作可能要跑好幾個小時。傳統 AI 有一個「工作記憶區」(KV cache,就像電腦的 RAM),容量有限,跑到後段時前面的上下文就會被擠掉,agent 等於「忘記」了它早期看到的資料,導致前後矛盾或漏掉關鍵線索。套用「睡眠式記憶壓縮」機制後,agent 在每一段記憶滿之前會先暫停,跑一個離線的「整合步驟」,把重點資訊寫進模型的深層權重(就像人睡覺時把白天的記憶固化成長期記憶),然後才清空工作記憶繼續往下讀。這樣 agent 整個查閱過程不會因記憶限制而斷線,最終交出的報告也能前後貫通。對比現況:沒有這個機制的 agent 跑長任務經常出現「前面說過的事後面又問一遍」或直接忽略早期資料的問題;有了這個機制就能實際執行數小時的連續研究任務。

T2
Qwen 3.7 媲美 Claude 旗艦

Qwen(音「崑」,阿里巴巴旗下通義千問團隊開發的 AI 模型系列)剛發布了 3.7 Max 版本,並公開一張基準測試比較圖,顯示這個新模型在多項評測中達到或超越 Claude Opus 4.6 Max(Anthropic 公司的頂尖 AI 模型)。評測涵蓋 AI 自動寫程式碼、軟體工程、工具使用(讓 AI 呼叫外部功能完成任務)、邏輯推理等能力,Qwen 3.7 Max 在多個項目上擠進或領先。不過社群有個重要爭議:Qwen 歷史上從未公開「Max 系列」的開放權重版本(可自己下載到本機執行的模型),所以等「開放版 Qwen 3.7」的人恐怕要失望;即使未來有開放版,規模也不會是 Max,效能自然不能直接對比。同系列的 Qwen 3.6 35B(一個可在本地硬體上跑的中型開源模型)也同樣引發熱烈討論,有人用它搭建全自動個人 AI 工作流程,另有人在僅 12GB 顯示卡(VRAM)上跑出每秒超過 110 個詞元(token,AI 生成文字的速度單位)的成績。

有位開發者用 Qwen 3.6 35B 在自己電腦上建了一套全自動化的開發流程:把 WhatsApp 語音訊息丟進本地 AI 轉成文字稿(content.md),讓 AI 根據內容自動生成網頁 HTML,同時把後續要做的工作拆成任務清單(plan.md)。接著他啟動一個「管理 AI 進程」,讓它不斷從任務清單抓出下一個「狀態 = 未完成」的工作,開一個全新的子 AI 去執行(例如:跑 Playwright 自動測試、呼叫 VPS 部署腳本),完成後標記 DONE、自動 git commit,最終部署上線——從說出想法到功能上線,幾乎不需要手動介入。相比舊做法工程師要一步步手動操作,這套流程的差異是:整個「需求描述→開發→測試→部署」的循環可以全自動跑完,且全程跑在本地消費級顯卡,不依賴雲端 API。

T2
Robinhood 讓 AI 幫你自動買賣股票

美國知名免費投資平台 Robinhood 推出新功能,讓用戶把 AI 助理(像 Claude、Cursor 這類 AI 對話工具)直接接上自己的投資帳戶,AI 可以在無人監督的情況下自主買賣股票。這項功能是透過 MCP(模型情境協議,一種讓 AI 連接各種外部服務的標準介面,把 AI 變成可以操控真實工具的「手」)實現的。AI 可以讀取帳戶資料、監控投資組合風險、在股價下跌時自動補倉,每次交易都會發推播通知給用戶,也可以隨時切斷連線。此外,AI 還可連結一張虛擬信用卡幫你訂機票或預訂餐廳,但 AI 拿不到真正的卡號。目前限電腦版使用,股票以外的功能(期權、加密貨幣)尚在規劃中,且 Robinhood 明確警告所有交易責任仍由用戶自行承擔——即使那筆交易是 AI 未經你明確批准就下的。美國金融監管機構 FINRA(負責管理券商合規的政府機關)已將 AI agent 列為新風險領域,警告這類 AI 可能在未獲授權的情況下行動、做出難以追蹤的決策,或超出用戶原意。

假設我想讓 AI 幫我「每次大盤跌超過 3%,就把我帳戶裡現金的 20% 買進 S&P 500 ETF」——以前我要自己設限價單,但限價單只認固定價格,沒辦法根據「現金比例」或「大盤跌幅」這種動態條件靈活出手。現在透過 Robinhood + Claude,我可以用自然語言告訴 AI 這個策略,AI 會持續監控帳戶和市場,條件成立時自動下單,手機上隨即收到通知。我不需要自己盯盤,AI 會根據多個條件同時判斷後才出手。對比舊做法:傳統的自動交易需要自己寫程式或用專業量化平台,現在用一般 AI 對話就能設定——但代價是:如果 AI 判斷錯誤,所有虧損都算你的。

T2
Biohub 發表蛋白質 AI 世界模型

Biohub(由 Chan Zuckerberg Initiative 資助的非營利生物醫學研究所)發表了一套免費開放給全球科學家的 AI 工具組,專門用來研究蛋白質(生命體內負責執行各種功能的分子機器)。這套工具包含三個部分:ESMC(一種蛋白質語言模型——就像 ChatGPT 學的是人類文字,這個模型學習的是「蛋白質序列語言」,能理解蛋白質的基本物理化學特性);ESMFold2(根據蛋白質的胺基酸序列預測它在三維空間的立體結構,就像從樂高積木說明書直接還原出立體實物);以及 ESM Atlas(一個可搜索的超大資料庫,收錄了 68 億條蛋白質序列和 11 億個預測結構)。整套工具完全免費對全球研究人員開放,目標是大幅加速藥物研發與基礎生物學研究。

假設我是一位製藥公司的研究員,想設計一種能精準鎖定癌細胞表面蛋白的新型抗體藥物。傳統做法需要在實驗室花數個月時間合成、測試上百個蛋白質變體,費用高昂且耗時——光靠 X 光晶體學確定一個蛋白質的 3D 結構就要花 6~18 個月。用 ESMFold2,我只需輸入蛋白質的胺基酸序列,系統幾秒內就能預測該蛋白的立體結構;再透過 ESM Atlas,在 68 億個已知蛋白質序列中搜索結構相似的參考案例,快速篩選數百個設計候選。具體差異:舊做法是先合成再測結構,一次幾個月;新做法是先用 AI 大量篩選,只把最有希望的幾個候選送進實驗室,時間和成本都大幅壓縮。

T2
Hassabis AGI 三到四年後到來

Google DeepMind(谷歌旗下最頂尖的 AI 研究機構)的執行長 Demis Hassabis 最近更新了他對 AGI(通用人工智慧,就是「什麼任務都能自己想辦法解決的 AI」,不像現在的 AI 只擅長特定事情)到來時間的預測,從原本的 2030-2035 年大幅提前到了 2029-2030 年,也就是三到四年後。Hassabis 本人是 2024 年諾貝爾化學獎得主,也是全球最具影響力的 AI 研究者之一,他的看法在業界頗受重視。他說改變預測的主要原因,是 AI Agent(代理人,指能自己規劃步驟、主動完成複雜任務的 AI 程式,和一般 AI 只回答問題不同,Agent 會自己去「做事」)最近進展速度遠超預期——他在 Google I/O 大會說「我們現在已經可以看到 Agent 真的辦到事情,而且想像一年後它能做到什麼」。業界對 AGI 時程看法差異很大:前 OpenAI 首席科學家 Ilya Sutskever 估計 2030-2045 年,NVIDIA 執行長黃仁勳則認為某種程度上 AGI 現在已經到了。

假設你現在每天要用 AI 幫你處理工作,你每次都要清楚說明「先查哪些資料、再整理成什麼格式、遇到什麼問題要怎麼做」,因為現在的 AI 在你不指揮的情況下很容易卡住或走偏。Hassabis 說推動他改變預測的正是 AI Agent(代理 AI)的快速進步——以 Google 最近展示的 Project Mariner 為例,它能自主在瀏覽器上操作多個分頁、填表、查詢並整合資料,完成以前需要人來回操作才能完成的複合型任務。簡單說,現在你用 AI 是「你指揮、AI 執行一步」;Hassabis 認為三到四年後的 AI 將是「你說目標、AI 自己全包從頭到尾」。如果這個進展速度持續,我們很多現在還需要人「監督 AI」的工作,可能在 2029 年左右就會開始被全自動化。

T3
T3
Qwen3.5 35B 無審查量化完整保留 MTP 加速

Qwen3.5 35B A3B 是阿里巴巴在 2026 年初發布的大型語言模型(就是像 ChatGPT 那樣會對話、寫程式的 AI),採用「混合專家架構」(MoE,模型裡有 256 個「專家子網路」,每次回答問題只啟動其中 8 個,計算量大幅降低——雖然模型有 350 億個參數,實際運算量卻只相當於 30 億參數的小模型)。社群成員這次發布了它的「無審查版量化」:「量化」是把原本幾十 GB 的模型壓縮到可在消費級顯卡(如 RTX 3090)上跑的大小;「無審查」是移除了阿里巴巴設計的安全過濾,讓模型對敏感問題的拒絕率從接近 100% 降至約 5%,適合本地私人研究用途。最核心的技術亮點是「完整保留 785 個 MTP 張量」——MTP(Multi-Token Prediction,多標記預測)是讓 AI 一次預測多個字詞來加速生成的機制,多數社群量化版本都直接刪掉這些張量以節省空間,但這個版本全部保留,可獲得 15–25% 的速度提升。此外,模型支援多種格式,從消費級 RTX 3090 到 Blackwell 高階 GPU(如 RTX 5090)都有對應量化版本可選。

假設我是一位程式開發者,想在家裡的 RTX 3090(24GB 顯卡)上本地跑 AI 助手分析長篇程式碼,同時不想把程式碼上傳雲端。一般社群量化版本會刪掉 MTP 張量,生成速度約 55 tok/s,無法使用投機解碼加速。換成這個完整保留 785 個 MTP 張量的版本,同樣的 RTX 3090 可達到約 72 tok/s(社群用戶實測),速度提升約 30%。更重要的是,模型原生支援 262,144 個 Token 的超長上下文(256K,大約可一次讀入 20 萬字的長文),可以把整個大型程式庫一次餵進去,讓 AI 分析跨多個檔案的 bug,不需要手動切段。比起用雲端 API(如 GPT-4o 每天分析 10 萬 Token 程式碼要花幾十美元),自己跑這個本地模型的電費可能只需要幾元台幣。

T3
claude-mem AI 跨平台持久記憶工具

我們用 AI 工具寫程式時,每次開啟新對話,AI 就像剛醒來一樣什麼都不記得——不知道你這週的開發進度、不知道上次做了哪些設計決定,每次都要重新交代一遍。claude-mem 是一個開源工具(免費、可自己安裝的程式),專門解決這個「AI 失憶」問題,讓 AI 助理能在不同對話之間保留重要資訊。它支援目前最主流的 8 個 AI 開發工具平台,包括 Claude Code、Gemini CLI(Google 的 AI 命令列工具)、Cursor、Windsurf 等,就算你換了平台,之前累積的記憶也不會消失。技術上,它用 SQLite(一種輕量的本地資料庫)把重要資訊存在你自己的電腦上,完全免費且資料不會傳到外部,公司在資料隱私上的顧慮相對少。目前在 GitHub(程式碼分享平台)已累積超過 78,700 顆星,代表有大量開發者認可它的實用價值。

我要開發一個電商網站的後台系統,上週跟 Claude Code 討論後決定用 PostgreSQL(一種資料庫)儲存訂單資料,也決定了 API(程式介面)的基本結構,還修了三個登入驗證的 bug。今天開新 session 繼續工作時,如果沒有 claude-mem,AI 完全不記得這些——我得重新貼一大段「目前的狀況是……」才能讓它幫忙。安裝 claude-mem(只需執行一行指令 npx claude-mem install)後,工具會自動在每次對話結束時,把重要的設計決策和觀察壓縮後存起來。下次打開新 session,AI 自動讀取記憶,直接知道「我們用 PostgreSQL、API 結構如此、登入模組已修好三個 bug」,不需要重複交代。社群實測數據顯示,這樣的工作模式讓測試生成時間縮短 33%、送到 QA(品質確認)的關鍵錯誤數量也明顯下降。

T3
Powabase AI 原生後端一站式平台

Powabase 是一個專門為 AI 應用設計的後端雲端服務平台,業界術語叫 BaaS(Backend as a Service,也就是把資料庫、身份驗證、檔案儲存等後端功能打包成現成服務,開發者直接呼叫 API,不需要自己架伺服器)。它把三件事整合在同一個平台裡:Postgres 資料庫(一種廣泛使用的開源資料庫)、RAG(Retrieval-Augmented Generation,讓 AI 回答問題前先查自己的資料庫、避免憑空捏造答案的技術)、以及 Agent(能自動規劃並一步步執行複雜任務的 AI)。開發者不再需要把這幾個系統分別找不同服務商再自己串接,Powabase 全包在一起。平台在 Product Hunt(一個科技新產品每日發表社群)上線首日拿到第 2 名(301 票),吸引了 MIT 等機構客戶。目前雲端版可立即試用,開源版預計 2026 年 6~7 月釋出。

假設我要幫公司打造一個「問 AI 查公司內部文件」的系統,讓員工問「去年 Q3 的退款政策是什麼?」,AI 要自動從公司的 PDF 合約、Word 文件、網頁裡找到相關段落再回答。用傳統方式,我需要自己部署 Postgres 資料庫、安裝 pgvector 向量擴充(讓資料庫能做語意搜尋的外掛)、接文件解析工具(處理 PDF、圖片、Office 格式)、建搜尋流程、再串 OpenAI 或 Anthropic 的 API——光是讓這些系統互通就可能要 1~2 週工時。用 Powabase,建好專案後直接把 PDF 和 Word 檔丟進去,平台自動解析並用混合搜尋(關鍵字搜 BM25 + 語意向量搜尋 pgvector,兩種方式並用再篩一次,讓結果更準)建好索引,搭配 ReAct 架構的 Agent(一種讓 AI「想一步、查一步、再想下一步」的推理框架)回答問題。官方在金融問答測試集 FinanceBench 的準確率達 98.7%,官方宣稱工程成本比自組方案低 2~4 倍。此外,它原生支援 MCP 協議(一種讓 AI 工具與外部系統溝通的標準介面),可直接和 Claude Code、Cursor 等 AI 輔助開發工具整合,不需要額外寫串接程式碼。

T3
仿腦晶片攻克AI解不了的難題

印度科學院(IISc)聯合多所大學,開發出一款「神經形態 Ising 機器(Neuromorphic Ising Machine)」——可以把它想像成一台「模仿大腦運作方式的特殊晶片」。這台機器並不像現在的 ChatGPT 這類 AI(就是大語言模型,會對話、生成文字的那種)那樣做預測或回答問題,而是用一種叫「福勒-諾德海姆退火(Fowler-Nordheim annealing)」的量子物理原理,在天文數字般多的可能解答裡自動搜索最佳路徑——就像水往低處流,讓電路自然演化到能量最低(也就是成本最小)的狀態。研究者指出,現有 AI 可以寫小說、幫衛星導航,但一碰到「組合最佳化問題(Combinatorial Optimization)」——也就是在幾乎無窮多的組合中找出最好的那一個——就會卡死或只能給出將就的近似解。這類問題包含蛋白質摺疊、晶片線路規劃、物流配送路線、密碼學難題,是許多科學與工業的核心瓶頸。這款仿腦晶片的設計目標,就是專門填補這個 AI 的死角。

假設我是一家物流公司,要替 500 個配送點規劃最省油的路線。傳統 AI(包括現在的大語言模型)面對這個問題時,因為可能的路線組合數量超過宇宙中的原子數,根本算不完,只能給出「差不多對」的解,而且耗時極長。用這台神經形態 Ising 機器,晶片內的電路會模仿大腦神經元「競爭-協作」的方式,讓整個系統自動朝能量最低的方向演化,最終浮現出一條接近最佳的路線。研究團隊表示,這種方法能做到「漸進收斂到最佳解(asymptotic convergence to the optimal solution)」——意思是越算越貼近真正的最好答案,而不是傳統 AI 猜出一個「夠好」就停下來。對比之下,同樣的物流問題,傳統 AI 可能給出多耗 15% 油的次佳路線,而這台晶片能持續優化直到更接近理論最優。

T3
國產 AI 算力生態飛輪加速

這篇文章描述中國自主 AI 算力生態的一個重要里程碑。「芯模協同」指的是 AI 晶片(硬體)與 AI 模型(軟體)不再各自獨立開發,而是一起設計、互相優化——就像為一雙腳量身訂做跑鞋,而不是買現成的。華為昇騰旗下的 CANN(讓 AI 模型跑在國產晶片上的中介軟體,相當於硬體與軟體之間的「翻譯層」)已完成 65 個核心模組的開源,支援超過 70 款主流大模型「發布即適配」,意思是新模型一出就能直接在國產晶片上跑,不用等數個月的移植工作。DeepSeek V4(量子位 AI 的最新大型語言模型)的大規模訓練驗證了這套生態的可靠性:算力利用率(MFU,代表晶片實際有多少算力被有效用到)達到 65%,是業界平均水準的兩倍。整體而言,中國國產 AI 算力生態從「能用但麻煩」,已演進到「易用且穩定」的成熟階段,昇騰與鄲鵬開發者社群分別突破 410 萬人規模。

某股份制銀行把 AI 風控模型整合進核心業務流程。用戶申請信用卡或貸款時,AI 在 500 毫秒(半秒)內完成風險評估,每天處理 260 億個 Token(可以理解成每天讀了幾百億字的申請資料與交易記錄),系統可用性達到 99.999%(換算下來一年只能停機約 5 分鐘)。整套系統全跑在國產昇騰晶片上。過去要把同一套 AI 模型移植到國產晶片,需要 3-4 個月的適配工程;現在由於 CANN 生態覆蓋率達到 80-90%,開箱即用,銀行技術團隊省下大量時間,還有餘力向開源社群回貢超過 100 個功能改進。

T3
極佳視界拾光S1家庭機器人發表

中國新創公司極佳視界發表了旗下第一款家庭機器人「拾光S1」,採用輪式底盤搭配人形雙臂的設計,目標是讓機器人真正走進普通家庭。他們提出了業界首創的「雙金字塔」訓練體系:一個金字塔管理訓練資料(從網路影片到真實操作,五個層次逐步提升精準度),另一個管理學習算法(讓機器人透過模擬、對齊、強化三階段自我進化)。背後核心是「世界模型」(World Model,讓 AI 先在電腦裡模擬理解物理世界的運作規律,再轉移到真實機器人上執行),這被視為繼語言模型(就是 ChatGPT 這類會對話的 AI)之後,機器人 AI 的下一個關鍵突破口。拾光S1 已在武漢光谷的真實住宅社區完成 100 台量產部署,並在 WorldArena、RoboChallenge、RoboCasa365 三項國際機器人評測中奪冠。

假設你要讓機器人在家幫你「飯後收拾桌子」。傳統做法(硬編碼或普通機械臂)只能重複固定動作,一旦碗盤位置稍微移動或出現沒見過的物品就會卡住。拾光S1 的世界模型做法是:先讓 AI 在模擬器裡看過幾萬種廚房場景,學會「這形狀的東西該放哪裡、那個是杯子要小心別打翻」;再透過雙金字塔體系,把一段真人示範動作自動擴增成 25 倍的訓練資料;真機執行時能辨識不同擺放位置的碗盤、規劃拿取順序,完成「端水→收碗→整理餐具」等多步驟連續任務。差異在於:傳統機器人遇到位置稍移的杯子就停住了,拾光S1 能自適應當下場景繼續完成。

T3
AI 讓不懂程式的人做出真實軟體

以往要做一個電腦程式或手機 App,必須學習程式語言(就是電腦看得懂的指令語法,例如 Python、Java),一般人完全不懂怎麼下手。現在有一種叫做「Vibe Coding」(直覺編程,用普通中文或英文描述你想要什麼,AI 自動幫你把程式碼寫出來)的技術,正在讓這件事變成任何人都能做的事。根據中國 AI 開發平台「秒哒」的統計,它的用戶中有 87% 完全不懂程式碼,卻成功做出了真正可以給真實用戶使用的應用程式;另一個全球平台 Lovable,其 AI 生成的應用已佔全球新增應用數量的 10%。這個趨勢正在改寫軟體行業的生態:過去需要整個工程師團隊花好幾年才能完成的開發工作,現在被壓縮到少數人甚至一個人在幾週到幾個月內就能搞定——上海某企業原本有 12 人的研發部門,導入 AI 開發後縮減為 4 位專案經理就能交付項目,交付週期從以年計算縮短到以月計算,並因此拿到千萬級別的訂單。

一名石油工程師需要一套油井設計平台來做工程計算,採購市面上現有的商業軟體報價高達 140 萬人民幣。他改用 Vibe Coding 平台(也就是用自然語言告訴 AI「我需要一個能輸入油井參數、計算設計方案的工具」),讓 AI 自動生成整套程式,自己把平台做出來。結果:他省下了 140 萬的採購費,而且這套自製工具通過了正式驗收,目前已在多個油田實際投入生產使用。舊做法是花大錢採購商業軟體或委外開發,動輒百萬起跳且週期漫長;新做法是領域專家直接用 AI 工具把需求變成可運行的系統,費用和時間都大幅壓縮。

T3
AI 推理技術革新,API 降價有底氣

近期多項 AI「推理(inference,讓 AI 模型實際執行、回答問題的過程)」技術同步突破,整體趨勢是讓相同硬體能服務更多請求、回應更快。這批改進涵蓋多個層次:EAGLE 3.1 改善了「推測解碼(speculative decoding,讓 AI 提前猜測下一步輸出、藉此加速回應)」的穩定性,特別是在長對話情境下;Perplexity 開源了新版 Tokenizer(把文字切成 AI 可讀片段的前處理工具),CPU 耗用降低 5–6 倍;Qwen3.5 在 TokenSpeed 基準測試中達到每秒 580 個 token 的生成速度。最值得關注的結論是:多家中國 AI 公司的 API 降價,背後有真實架構原因支撐——DeepSeek V4-Pro 透過壓縮式注意力機制,把百萬 token 長對話所需的「KV 快取(AI 在處理長對話時必須暫存的中間記憶體資料)」縮減至舊版的 10%,單次請求計算量也只剩 27%;Xiaomi 的 MiMo 則透過 5 倍快取容量設計,讓快取存取成本降低約 80%。這意味著降價不是靠補貼撐著,而是算力本身真的變便宜了。

假設你是一個新創工程師,每月公司在 AI API 上花費數百美元,正在評估要不要從 OpenAI 換到更便宜的中國 AI 服務(例如 DeepSeek API)。你的顧慮是:這個低價是不是在虧本搶市場、哪天會突然漲回來?這篇分析給了一個具體的參考答案:DeepSeek V4-Pro 把長對話暫存空間從舊版的 100% 壓縮到只剩 10%,代表同一台伺服器現在能同時跑 10 倍的長對話請求,不需要多買硬體。相較之下,若一家公司只是降價卻沒有做架構改進,代價要自己吸收、長期難以為繼;但若架構本身讓成本降低,這個低價就有持續的工程基礎。對你的實際採購決策而言,這次降價的可信度比「搶市場補貼」高了很多。

T3
AI 影像模型多項重要更新

這週 AI 領域有幾件值得同時關注的事。首先,微軟推出了 MAI-Image-2.5 圖片生成模型,在 Image Arena(一個讓全球使用者投票選哪張 AI 圖更好看的排行榜)直接衝上第三名,擠進了原本由 OpenAI 和 Google 把持的前五名俱樂部,Elo 評分達到 1,254 分。其次,PrismML 發布了 Bonsai Image 4B,這個模型只需要約 3GB 空間,可以直接在筆電甚至手機的瀏覽器上執行,不需要連到遠端伺服器或擁有昂貴顯卡。另外,MiniMax 預告其 M3 模型即將開源,技術討論顯示在處理 100 萬 token(token 就是 AI 讀文字的計量單位,100 萬大約等於一本厚書)的長文本時,速度比前一代 M2 快了 9.7 到 15.6 倍。在訓練優化方面,新的 AMUSE 方法結合了 Muon 優化器(讓 AI 學習更有效率的演算法)與不需要調整學習速率的穩定訓練技術,在 1 億到 10 億參數規模的模型上都顯示出效益。

假設我想在自己的電腦上產生一張圖片,過去的選擇只有兩條路:付月費給 Midjourney 或 DALL·E 這類雲端服務,或者自己有一張至少 8GB 視訊記憶體的高階顯卡才能跑本地圖像模型。現在有了 Bonsai Image 4B,只需要 3GB 空間,可以直接在瀏覽器裡執行——我打開瀏覽器輸入「一隻在咖啡館看書的橘貓」,幾秒鐘就能本地產圖,資料完全不離開自己的電腦,也不需要月費或高規格硬體。和過去本機模型相比,Bonsai 的尺寸夠小(4B 代表 40 億個參數,算是輕量級),且有 1-bit 和 ternary(三值)壓縮版本,讓手機也能跑。

T3
AI 推論算力將供不應求

Epoch AI(專門追蹤 AI 算力趨勢的研究機構)最新分析指出,AI 推論需求(就是大家使用 ChatGPT、Claude 這類 AI 對話服務時所消耗的計算資源)正以比硬體供應更快的速度成長。特別是「長上下文」工作負載——也就是讓 AI 一次處理很長的文件、超長對話歷史或整個程式碼庫——對算力的消耗遠超一般短請求,而且輸入越長、系統吞吐量(每秒能處理的請求數)下降越劇烈。分析顯示,即使全球 Blackwell GPU(NVIDIA 最新一代 AI 推論晶片)在最理想情況下剛好夠用,一旦長上下文需求持續攀升,缺口可能很快就會出現。此外,資料中心正轉向 800V 高壓直流電(借鑒電動車電力電子技術的新供電方案)來應付 AI 運算的龐大用電需求;而華為也發布了「τ(tau)縮放理論」白皮書,主張在不升級晶片製程的前提下,透過封裝與架構優化大幅提升密度與效率——但目前這些宣稱數字仍缺乏第三方驗證。

假設你是一位工程師,每天都在呼叫 Claude API 分析 10 萬字的合約文件(這就是典型的長上下文任務)。現在請求幾乎即時回應,但若推論算力真的供不應求,你可能開始碰到:回應時間從幾秒拉長到幾十秒、API 返回 429 錯誤(系統超載,需排隊重試)、甚至服務商被迫對每個使用者限速。舊做法是把長文件切成小段分批送(讓每次請求都很短),但現在大家習慣了一次丟整份文件,這讓算力需求更集中。Epoch AI 的預測提醒 AI 服務規劃者:若不提前擴充基礎設施,長文件 AI 任務可能很快就遭遇供應瓶頸,影響服務品質與可用性。

T3
AI 推理與開發者基礎設施更新

這是一批 AI 開發者工具的更新匯整。最值得注意的是 vLLM(一套讓 AI 模型能快速回應大量請求的推理框架,就像 AI 的高速公路)把核心伺服器從 Python 換成 Rust 語言重寫,在高負載情境下吞吐量從每秒 162 次請求躍升至 837 次,提升約 5 倍。機器學習實驗平台 W&B(Weights & Biases,就是追蹤 AI 訓練過程的記錄本)推出 MCP 伺服器——MCP(一種讓 AI 助理能存取外部工具的標準介面),讓編程 AI 能直接讀取訓練記錄,且刻意設計成不會撐爆 AI 的記憶體限制(context window,也就是 AI 一次能處理的資訊上限)。本機微調工具 Unsloth 也在自家界面加入呼叫 GPT、Claude 等主流 AI API 的功能,附帶 prompt caching(快取提示詞,讓重複查詢更便宜)和程式碼執行能力。AI 模型路由平台 OpenRouter 宣布完成 1.13 億美元 B 輪融資,並公布六個月內每週 token 用量從 5 兆增長至 25 兆,反映出 AI 生產環境部署的快速擴張。

假設你負責部署公司的 AI 客服機器人,用戶量大的時候回覆速度明顯變慢。原本用 Python 版 vLLM 伺服器,高峰時每秒只能處理約 162 個請求,用戶常需要等待。升級到新的 Rust 版前端後,相同硬體每秒可處理約 837 個請求,服務能力提升五倍——等同於原本要加四台機器才能達到的效果,現在只需升級程式版本就搞定,省下大量伺服器成本。另一場景:你的 AI 助理(agent)要幫你監控多輪訓練實驗,比較不同參數下的模型效果。過去 agent 讀取 W&B 實驗記錄時,常因資料量太大導致 AI 記憶體爆掉、回覆不完整。W&B 新的 MCP 伺服器採用 schema-first 設計,讓 agent 只取當下需要的欄位,不會一次倒進全部資料,解決了長期困擾開發者的 context 溢出問題。

T3
Codex 代理破解 MP3 播放器韌體

Codex 是 OpenAI 推出的 AI 程式助手(就像 ChatGPT,但專門用來寫程式、分析程式碼、自主執行工程任務)。一位開發者示範,光靠 Codex 就完成了一連串複雜的硬體工程工作:先辨識廉價 MP3 播放器的晶片型號與架構,再提取其韌體(就是燒在硬體裡的底層控制程式,類似電腦的 BIOS),接著對二進位檔案(電腦直接讀取的 0 與 1 格式,人類通常看不懂)進行逆向分析,最後修改功能並重新燒錄回裝置。這類「韌體逆向工程」過去需要多年嵌入式系統經驗才能完成,現在 AI agent(能自主串接多個步驟完成複雜任務的 AI)讓一般開發者也能嘗試。

假設你買了一台廉價 MP3 播放器,想解除廠商鎖死的播放格式限制。過去你需要:自行查晶片規格表、用硬體燒錄器提取韌體、閱讀機器碼、手動定位要修改的函數、改完再燒回去——整個流程可能需要數週,而且一不小心就會磚掉裝置。開發者 @bunkaich 的示範是:把工作交給 Codex,讓它依序自主執行「晶片辨識 → 作業系統提取 → 執行檔分析 → 目標函數定位 → 修改並產出可燒錄映像檔」的完整流程,使用者不需要對每個環節都熟悉,最終也實際拿到一個可刷入裝置的修改版韌體。這展示了 AI coding agent 在傳統「只能靠人類專家手動做」的底層工程任務上的實際能力。

T3
vLLM 改用 Rust 前端加速推理

vLLM 是目前最廣泛使用的開源 LLM 推理伺服器(LLM 就是 ChatGPT 這類會對話的大型語言模型;推理伺服器就是把模型部署起來讓很多人同時使用的那層程式),被許多公司用來架設自己的 AI 服務。這次 vLLM 專案合併了一個用 Rust 重寫的全新 API 前端——這裡「前端」不是網頁,而是負責接收外部請求、解析格式、分派工作的那一層程式。原本 vLLM 的 API 伺服器前端用 Python 撰寫,而 Python 因為 GIL(一種導致同時只能執行一段程式碼的機制)的限制,在高流量下光是「接請求、分工作」本身就會吃掉大量 CPU 運算資源,讓 GPU 空轉等待,成為真正的瓶頸。Rust 是以極高效能著稱的程式語言,幾乎沒有這類開銷,換成 Rust 前端後,同樣的硬體可以撐住更多並發請求,延遲也更低。

假設你是一間公司的工程師,你們自架了 vLLM 伺服器讓 500 位員工同時使用內部 AI 問答工具。你觀察到 GPU(顯示卡,也是跑 AI 模型的核心硬體)使用率只有 60%,但 API 回應延遲卻已經明顯拉高——這正是 Python 前端 CPU 成為瓶頸的典型症狀。升級到 Rust 前端後,同樣的機器、同樣的 GPU,API 伺服器處理請求的 CPU 開銷大幅下降,GPU 可以持續滿載工作;原本每秒只能處理 200 個請求、平均延遲 800ms,換成 Rust 前端後可能提升到 350 個請求、延遲降至 450ms。舊做法:只能橫向擴機器加 CPU;新做法:升級 vLLM 版本即可。

T3
Sesame 對話 AI 上架 iOS

Sesame 是一家由 Oculus(就是 Meta 旗下 VR 頭盔品牌的前身,後來被 Meta 收購)創辦人所成立的 AI 新創公司,在 2026 年 5 月正式推出 iOS 應用程式,免費開放全球 39 個國家下載。這個 App 提供四個各有獨立個性的 AI 助理(Agent,就是一種可以自主對話、記住你的 AI 程式):Maya、Miles、Simone 和 Charlie,每個都有自己不同的聲音、說話風格和對話記憶。Sesame 的核心技術主打解決傳統聊天機器人(chatbot)讓人覺得「卡卡的、像在問答機」的問題,能在說話的同時平行搜尋多個資料來源,把結果即時編入回應,讓對話流暢得更像真人,甚至能在說到一半時自然轉向加入新找到的資訊。這家公司在 2025 年 10 月就已獲得頂級創投紅杉資本(Sequoia Capital,一家在矽谷投了 Apple、Google 的著名基金)領投的 2.5 億美元 B 輪融資,研究預覽階段已有超過百萬用戶試用。

假設你用語音問 AI:「今天台北適合出門跑步嗎?如果可以,我晚上六點去哪裡比較好?」傳統語音聊天機器人通常要先搜尋天氣、等結果回來,說話才能繼續——這段停頓會讓你感覺在等機器處理,而非真正在對話。Sesame 的設計是:AI 開口說「讓我幫你查一下……」的同時,背景已經在平行搜尋台北今晚天氣和附近跑道,說到一半時把搜尋結果自然接進去,一口氣給你「今晚 6 點台北氣溫 26 度、無雨,大安森林公園的跑道不錯」這樣完整又流暢的回答。整個過程沒有明顯停頓感,比你平常用 ChatGPT 語音(ChatGPT 是 OpenAI 推出的知名 AI 對話工具)時等它查完才講話的體驗流暢許多。此外 App 內還有隱私模式(對話不被儲存)和文字模式(不方便說話時可打字),未來還計畫加入「幫你實際完成任務」的主動代理功能。

T3
蘋果重建 Siri 搶攻 AI 聊天市場

蘋果正在為 iOS 27 大幅翻新 Siri,要把它從「只會設鬧鐘、查天氣」的語音助理,升級成能和 ChatGPT(一種透過對話回答各種問題的 AI 聊天機器人)正面競爭的 AI 工具。根據洩露的設計圖,新版 Siri 將從 iPhone 頂端的「動態島」(Dynamic Island,就是那個會顯示播放中音樂或計時器的橢圓形區域)浮現,回應改為卡片式文字呈現。技術上,蘋果在後台採用 Google 的 Gemini AI(Google 自家的大型語言模型(就是 ChatGPT 這種會對話的 AI))來提升 Siri 的智慧程度,同時也在開發能直接在手機上執行、不需上傳雲端的本地 AI 模型,以符合蘋果一貫強調的隱私保護路線。除此之外,蘋果還計劃推出獨立的 Siri App,功能包含保留對話紀錄、上傳文件和照片、以及純文字互動,目標是直接和 ChatGPT、Claude、Gemini 這些 AI 聊天機器人搶用戶。

假設你收到一份 PDF 會議記錄,想請 AI 幫你整理重點並寫成一封給主管的 email。現在的 Siri 頂多能幫你打開 Mail App,「讀取文件→摘要→產生 email」這種多步驟流程它完全做不到,你還是得另外開 ChatGPT 或 Claude,再手動切換視窗複製貼上。換成新版獨立 Siri App,你可以直接把 PDF 上傳進去,用對話方式說「把這份文件的重點整理成三條,然後幫我寫一封給主管的 email」,Siri 就能在同一個 App 內完成,對話紀錄也會保留,下次補充說明也不用重頭說起。最關鍵的是:蘋果有 25 億台設備,對比 ChatGPT 的 9 億每週活躍用戶,光靠預裝就能讓原本不會特別下載 AI App 的普通用戶直接接觸到這類功能,這才是蘋果最大的競爭武器。

T3
遞迴自我改進成 AI 圈新熱詞

RSI(Recursive Self-Improvement,遞迴自我改進,意思是 AI 能夠持續自動升級自己)正在取代 AGI(Artificial General Intelligence,人工通用智慧,就是「能做任何人類工作的 AI」)成為 AI 業界最新的流行目標詞。RSI 追求的終極狀態是:一旦 AI 能比人類更有效率地管理自己的訓練與升級流程,這個循環就可以自行運轉、只受計算資源限制地不斷加速進步。目前多家新創和研究人員已投入這個方向——Richard Socher 創辦了 Recursive Superintelligence 公司、Alex Karpathy 開發了讓 AI 群體互相訓練彼此的 Auto-Research 專案,Sara Hooker 的 Adaption 公司也推出了 AutoScientist 工具。然而就像 AGI 一樣,RSI 至今仍難以精確定義,Google 執行長 Sundar Pichai 也坦言「我們還沒到那個階段」,Anthropic 內部調查則顯示 Claude Code 約達到替代 L4 級程式工程師(資深工程師)的邊緣水準。

Doris Xin 創辦的 Disarray 公司打造了一套會自我訓練的 ML 代理(就是能自己學習、持續調整參數的 AI 程式),讓這套系統自動參加 Kaggle 機器學習競賽(一個讓全球資料科學家互相比拼 AI 模型準確率的國際平台)。目前這套 RSI 系統已累積拿下 28 面獎牌。對比傳統做法,同樣的競賽通常需要資深資料科學家花好幾週手動調整模型架構、設計特徵、反覆實驗;而這套系統可以不間斷地自動迭代,等於把原本要整個人類團隊才能完成的事交給 AI 自己跑。不過研究者也指出目前關鍵缺口:系統在「自主管理長達一週的模糊任務、理解組織優先順序、判斷品質好壞、自我驗證結果」等方面仍然力不從心——而這些恰恰是真正 RSI 不可或缺的能力。

T3
企業 AI 不怕技術差怕落地難

Databricks(一家幫大型企業管理資料與 AI 系統的科技公司)的共同創辦人 Arsalan Tavakoli-Shiraji,在 TechCrunch Disrupt 2026 大會上點出了一個讓很多 AI 新創公司不舒服的真相:企業客戶已經不再被「AI 有多厲害」打動,他們現在在意的是「導入後會不會出亂子」。他觀察到一個反覆出現的模式——試點(也就是小規模測試)做得很漂亮,但要全面鋪開時就卡住了,原因不是技術不夠強,而是企業內部根本消化不了隨之而來的麻煩:系統整合複雜、法規合規(就是符合金融、醫療、隱私等行業法律規定的要求)壓力、員工使用阻力、萬一出錯誰負責的問題都沒解決。Tavakoli-Shiraji 說,許多 AI 供應商長期以來優化的方向是「讓人眼前一亮的第一印象」,而不是「讓大公司能穩定長期使用」,這才是交易最終告吹的根本原因。他指出,最後能在企業拿下合約的 AI 產品,共同特徵是:系統整合乾淨、日常工作流程摩擦小、治理(就是管理 AI 使用的一套規則與審查程序)容易、以及能讓組織逐步建立信任——這些比跑分漂亮更重要。

假設一家大型保險公司想在客服中心導入 AI 自動回覆。供應商 A 的 Demo(產品展示)準確率高達 95%,令人印象深刻。但當 IT 部門評估全面部署時,發現要連接五個老舊的客戶資料庫(整合工程量龐大)、法務部門擔心 AI 回覆內容可能違反金管規定(合規風險)、第一線客服人員不信任 AI 的判斷(使用阻力)、出錯了責任歸屬也不清楚——這個 Demo 很精彩的專案就這樣被擱置。供應商 B 的準確率只有 91%,但提供清晰的人工審核介面、內建合規檢查機制、完整的錯誤回報與覆核流程,讓各部門都知道自己要做什麼。最終 B 拿下了合約。差別不在技術強弱,在於哪個方案讓公司「敢真的用」。

T3
Visa 讓 AI 代理人自主付款

Visa(就是那個在實體信用卡上印了大 V 標誌的國際支付公司)宣布投資 Replit(一個讓開發者在瀏覽器裡直接寫程式的雲端開發平台),目的是讓「AI 代理人」(就是能自動幫你完成任務的 AI 程式,不需人類每步驟點按)也能在線上刷卡付錢。Visa 為此開發了一套叫「Trusted Agent Protocol(可信代理人協定)」的技術,讓 AI 代理人在付款前能向 Visa 系統安全地「自我介紹」——說明自己是誰、在代替哪個客戶、要做什麼交易,Visa 驗過沒問題才放行付款。整合後,在 Replit 平台上開發的 AI 代理人可以直接幫使用者完成付款,不需要使用者自己去輸入信用卡號。目前 Visa 內部已有超過 1,000 名員工用 Replit 做開發工作,是這套整合的早期測試族群。

假設你用 Replit 開發了一個「旅遊規劃 AI 代理人」,它能幫用戶查機票、飯店、租車選項。舊做法下,代理人查好選項後,還得跳回前端讓使用者自己手動輸入信用卡結帳——AI 不能直接動用你的付款資訊。有了 Visa 的 Trusted Agent Protocol,你的 AI 代理人就能在 Visa 系統裡登記自己的「授權代理身份」,當它要替使用者訂票時,向 Visa 出示「我是 X 使用者授權的代理人、要付 Y 元給 Z 航空」,Visa 確認合法後直接完成付款。使用者不需跳到結帳頁面手動輸入卡號。差異就是:原本 AI 只能「建議你去買」,現在 AI 可以「幫你直接買好」。

T3
SambaNova 晶片推理速度大幅超越 GPU

General Compute 是一家剛成立的 AI 推理雲端服務公司,他們不用 GPU(就是一般 AI 訓練和執行常用的圖形處理器),改用 SambaNova 的 SN50 晶片來跑 AI 模型。SN50 每秒能產生 600 到 700 個 token(token 就是 AI 回應時輸出的「字詞單位」,可以粗略理解為每秒能說出幾個字),而 GPU 大約只有 250 個,速度相差超過兩倍。SN50 另一個優勢是用空氣冷卻而非水冷,耗電更低、更容易裝進傳統機房,不需要特殊的散熱基礎建設。General Compute 已訂購三億美元的 SN50 晶片,透過租借資料中心和加密礦場的空間部署硬體,提供企業客戶更快、更省電的 AI 推理服務。

假設你的公司正在用 coding agent(就是讓 AI 自動幫你寫程式、修 bug 的工具)來提升開發效率。用傳統 GPU 伺服器跑,一個稍複雜的任務可能需要好幾個小時才能完成,因為 GPU 每秒只能輸出約 250 個 token,整體速度有限。如果改用 General Compute 的 SambaNova SN50 服務,同樣的任務可能只需 5 到 10 分鐘——因為晶片的每秒輸出量是 GPU 的兩倍以上。客服語音 AI 的差異更明顯:即時對話需要 AI 幾乎瞬間給出回應,速度慢一點用戶就能感覺到卡頓;SN50 的高吞吐量讓這類即時語音服務在成本上更可行,不再需要大量 GPU 才能維持流暢體驗。

T3
AI 搜尋時代 SEO 全面洗牌

Google 在年度開發者大會 Google I/O 上正式宣布,AI 生成的答案(就是你問 Google 問題時,它不給你一堆網站連結、而是直接用自己的話回答你)已經成為搜尋結果的主角。這代表過去十幾年來許多企業花大錢做的「SEO」(搜尋引擎優化,也就是讓自己的網站排在 Google 搜尋第一頁)策略,在新時代可能幾乎完全失效。最大的問題是:當 AI 幫使用者回答問題時,品牌完全無法知道 AI 是怎麼介紹自己的,也沒有任何工具監控或修正這件事。而且不只 Google 有這問題,ChatGPT、Perplexity 等 AI 聊天工具同樣吸走了大量搜尋流量,只針對 Google 優化的老策略現在只能覆蓋市場的一部分。

假設你經營一家線上旅遊服務公司,過去的 SEO 策略是讓「便宜機票訂購」這個關鍵字搜尋時,你的網站出現在 Google 第一頁。但現在用戶直接問 Google「幫我找下週去東京的便宜機票」,Google 的 AI 直接用一段話回答並推薦選項——你的網站可能完全不出現,或是 AI 提到了你卻用了你完全不知道、也無法修改的描述。更麻煩的是,這批 AI 引導來的流量轉換率(導來的訪客真的購買的比例)比傳統 Google 搜尋高了約 400%,意思是你如果抓不住這批用戶,損失比以前更重。新時代的因應方向是把品牌曝光從「搶 Google 關鍵字排名」轉為「讓各種 AI 助手都能正確認識並推薦自己」,但目前業界還沒有成熟的做法。

T3
Google Cloud AI 自動補安全漏洞

Google Cloud 發布了一個叫「AI Threat Defense(AI 威脅防禦)」的平台,能自動找出、評估並修補企業雲端系統裡的安全漏洞。以前發現安全漏洞後,工程師要手動去修程式碼,這個過程可能要花幾天甚至幾週;但現在駭客利用 AI 攻擊的速度已經快到「幾小時內就能利用漏洞發動攻擊」,讓人工修補根本來不及。這個平台把 Google 的 Gemini AI(就是 Google 旗下的大型語言模型,類似 ChatGPT 的 AI 助理)、Wiz(Google 花了 320 億美元收購的雲端安全掃描工具)、DeepMind 開發的 Codemender AI agent(一種能自己寫程式碼的 AI 程式)、以及 Mandiant(資安事件分析公司)全部整合在一起。重點是:它不只是給你一張「警告清單」,而是直接幫你生出修好的程式碼,並自動跑測試驗證沒問題,再交給工程師部署。

假設你的公司把一個內部 API(應用程式介面,就是讓不同軟體互相溝通的橋梁)不小心暴露在網路上,而且金鑰(類似密碼的存取憑證)沒有妥善保護。傳統做法是:資安工具發現後,發一封警告信給工程師,工程師排進待辦清單,可能一週後才排到時間去修,這段時間系統持續暴露在風險中。用 AI Threat Defense,Wiz 先掃描雲端環境,發現暴露的 API 和洩漏的金鑰;接著 AI agent 模擬「駭客如果真的來攻擊,能做到什麼」;然後 Gemini 和多個 AI 模型同時掃描這段程式碼找出漏洞成因;最後 Codemender 直接改寫有問題的程式碼、自動生成測試案例確認修補正確,把「可以部署的修好版本」交給工程師。整個流程從幾週壓縮到幾分鐘。

T3
Google 推出執行 Gemma 3 的迷你板

Google 在 2026 年 I/O 大會上推出「Coral Board」,一塊手掌大的迷你電腦板,能直接在裝置上跑 AI,完全不需要連到雲端伺服器。這塊板子搭載 Google 自家研發的 Coral NPU(就是一種專門加速 AI 運算的小晶片,基於 RISC-V 開放架構),可以執行 Gemma 3 270M——Google 的開源輕量語言模型(270M 代表 2.7 億個參數,是同系列最小但能實際使用的版本)。硬體規格精簡:2GB RAM、1 TOPS(每秒可做 1 兆次 AI 運算),目標是嵌入耳機、AR 眼鏡、智慧手錶等超小型裝置。Google 表示這塊板子也試著解決目前各家 AI 加速晶片規格分散、互不相容的問題,讓邊緣 AI(就是「在裝置本地跑 AI,不靠雲端」的技術方向)更容易落地。

假設你在開發一款 AR 智慧眼鏡,要讓眼鏡即時把對方說的英文翻譯成中文字幕顯示在鏡片上。以前的做法:聲音→上傳雲端→AI 翻譯→結果傳回裝置,整個流程需要網路,延遲常有 0.5 秒以上,沒網路就完全失效。現在把 Coral Board 裝進眼鏡裡,搭配 Gemma 3 直接在板子上跑推理,語音辨識和翻譯全部本機完成,延遲大幅降低、離線也能用。Google 在 I/O 現場就示範了這個即時翻譯功能,另外還有語音控制硬體裝置、以及用 YOLOv8 模型(一種即時物件偵測 AI)追蹤水母動作並即時轉換成音樂的生成式表演——這些 demo 的程式碼全部開源放在 GitHub。預計今年夏天出貨,價格尚未公布。

T3
Mistral 改名 Vibe 主打職場 AI 代理

Mistral AI(一家法國 AI 公司,以開源語言模型著稱)把旗下的 AI 聊天機器人「Le Chat」改名為「Vibe」,同時把三個功能整合進同一個品牌:一般對話、程式碼生成代理(可以幫你寫程式的 AI)和全新的「Work Mode(工作模式)」。Work Mode 的核心是「直接接管你的工作工具」——它能連接 Google Workspace(就是 Gmail、Google 文件那套)、Outlook(微軟電子郵件)、Slack(公司內部通訊平台)或 GitHub(工程師放程式碼的地方),然後自動幫你處理電子郵件草稿、報告撰寫,甚至技術性的程式碼合併請求(Pull Request,工程師互相審核程式碼的流程),整個過程不需要你逐步操作、手動貼內容。這樣的設計意味著 Vibe 不再只是「可以問問題的 AI 聊天室」,而是嘗試成為可以真正幫你「做事」的數位工作助理。Mistral 此舉是為了在職場 AI 代理市場與 OpenAI(Operator 功能)、Google 和 Anthropic 等大廠正面競爭。

假設你是一位行銷經理,每天早上花 30 分鐘整理合作廠商郵件、寫週報草稿、更新 Google 文件。使用 Vibe 的 Work Mode 後,授權它連結你的 Gmail 和 Google Docs,然後下一句指令:「幫我整理本週廠商來信重點,把週報草稿寫進 Google 文件資料夾」。Vibe 會自動讀取郵件、判斷重要訊息、生成草稿,不需你手動一封封讀再複製貼上。這與舊版 Le Chat(只能對話問答)的根本差異是:過去你必須自己把郵件內容貼給 AI 問,現在它可以直接「進入」你的工作工具裡主動完成任務。

T3
Meta One AI 訂閱定價出爐

Meta(就是 Facebook、Instagram、WhatsApp 的母公司)正式宣布推出付費訂閱服務,分兩條線:一是針對 Instagram、Facebook、WhatsApp 的進階方案(月費 $2.99~$3.99 美元),提供客製化圖示、限時動態統計等功能;二是名為「Meta One」的 AI(人工智慧)付費方案,月費從 $7.99 到 $49.99 美元不等,依功能強度分為個人、進階、創作者、企業四個層級。Meta One 的概念和 ChatGPT Plus(OpenAI 的付費版)類似——付費可以用到更強大的 AI 計算資源、更長的推理能力,以及 AI 圖片和影片生成功能。Meta 過去幾年在 AI 基礎設施上砸下大量資金,這次是首次正式向一般使用者收費,試圖在廣告收入之外建立另一條財源。

假設你是一個 Instagram 創作者,每週需要設計貼文封面、寫行銷文案。以前你要另外訂閱 Canva 或 Adobe Firefly 來生圖、再手動複製貼到 Instagram,流程跨三個 app。現在若訂閱 Meta One Premium(每月約 $19.99 美元),你可以直接在 Instagram 裡輸入「幫我生一張夕陽海灘風格的封面圖」,AI 立刻生成並讓你選用;也可以讓 AI「延長推理」幫你想出五個貼文主題,全程不用離開 app。差異是:舊做法要切換工具、手動搬檔;新做法在同一個介面完成,省去切換成本。目前服務先在新加坡、瓜地馬拉、玻利維亞測試,尚未全球上線。

T3
Amazon 推出 AI 動畫製作平台 Project Nara

Amazon(美國電商巨頭,同時也有自家影音串流服務 Prime Video)和旗下 AWS(雲端服務平台)正式推出內部 AI 影片製作平台「Project Nara」,並配套推出「GenAI Creators' Fund(生成式 AI 創作者基金)」,讓電影創作者可以申請資金並直接使用這套 AI 工具來製作內容。目前已有三部 AI 動畫影集通過審核、正在製作中,創作團隊只用了五週就完成了試播集(Pilot,就是正式開拍前先做一集示範片)。Amazon 宣稱這是業界「唯一從頭到尾全部 AI 貫串的內容生態系統」,意思是從構思、角色生成到後製,全部可用 AI 工具完成,不需要傳統大型製作團隊。這標誌著主流串流平台開始實驗用 AI 大幅壓縮動畫製作成本和時間,影視業進入 AI 輔助量產的新階段。

一個動畫製作小團隊想為 Prime Video 製作一部試播集,傳統做法需要半年以上、大量動畫師和後製人員、數百萬美元預算。加入 GenAI Creators' Fund 計畫後,他們進入 Project Nara 平台,用 AI 工具生成角色造型、場景背景、動作序列,並搭配 AI 配音和音效處理,最終在五週內就完成了一集。Amazon 已採用其中三部動畫、即將在 Prime Video 播出。對比舊做法,五週 vs 半年、小團隊 vs 大製作公司,這套平台讓個人創作者或小工作室也能競爭上大型串流平台的播出機會。

T3
ElevenLabs Music v2 跨曲風生成升級

ElevenLabs 是一家以 AI 語音技術聞名的公司,他們現在推出了第二代 AI 音樂生成模型 Music v2。這個工具讓你用文字描述就能讓 AI 自動創作音樂,完全不需要任何樂器演奏技巧或音樂背景。Music v2 最特別的地方是可以在同一首歌裡無縫切換截然不同的曲風——例如從古典歌劇瞬間轉入重金屬搖滾、再接上快速饒舌,聽起來卻仍像一首連貫完整的作品。新版還加入「局部重新生成」功能(inpainting,類似圖片編輯裡的局部修改),讓你只重做某一段、完全不動其他部分,省去從頭再來的麻煩。音質升級到 44.1 kHz(即 CD 等級),每次最多可生成五分鐘音樂,支援多國語言演唱;訓練資料全部來自授權音樂,Starter+ 以上方案生成的音樂可直接用於商業用途。

假設你是一名 YouTube 影片創作者,要做一支「從平靜到激烈再到輕鬆」的剪輯影片,需要風格截然不同的背景音樂。過去你得去音樂授權平台一首一首找、付授權費,三段音樂拼在一起往往不協調。用 ElevenLabs Music v2,你可以直接輸入提示「開頭古典弦樂,中段切換成重金屬吉他,最後用輕鬆嘻哈節拍收尾,整體要連貫」,模型就生成一首五分鐘內、可商用的完整音樂。若覺得中段不夠猛,只要用 inpainting 圈出那段重新生成,其他部分完全不動。舊做法:找三首授權曲 + 手動後製剪接,可能花半天;新做法:幾次文字提示 + 局部微調,可能十分鐘內搞定;API 費率為每分鐘 $0.15 美元。

T3
Microsoft 圖像 AI 追平 Google

Microsoft 推出了新一代圖像生成模型 MAI-Image-2.5(就是輸入一段文字描述、AI 自動畫出圖片的技術)。在 Arena 排行榜(一個讓大量真實使用者投票、選出哪個 AI 生成的圖比較好看的評測平台)上,這個新模型排名第三,和 Google 同類型的 Nano Banana 2 打成平手,但仍落後 OpenAI 的 Image-2。與上一代相比,MAI-Image-2.5 最明顯的進步在「在圖片裡畫出清楚的文字」(傳統 AI 畫文字常常歪掉或拼錯字)、插圖風格、以及商業視覺設計這三塊,同時在光線方向、景深、空間立體感的一致性也都做得更好。目前可在 Arena 平台試用,未來兩週內將陸續上線 MAI Playground 和 Foundry(微軟的 AI 開發平台),主打商業攝影和品牌設計的應用場景。

假設你是需要製作產品廣告圖的設計師,以前得拍產品、請人後製、再手動加上品牌文字,現在可以直接輸入「白色運動鞋放在木質地板上,斜光從左上照,右下角有『Just Move』字樣,極簡風格」,MAI-Image-2.5 就會生成一張帶有清晰文字和準確光影的廣告圖。和舊版 MAI-Image-2 相比,新版生出來的文字不再歪斜模糊、光影方向也不會忽左忽右;對比傳統 AI 圖像工具常常把字母拼錯或文字糊掉的問題,新版可直接用的機率大幅提升。這種「一句話生成可直接交稿的品牌圖」,可讓小型電商或設計師省下請攝影師和後製師的費用。

T3
Codex 建構自我改進稅務代理

OpenAI 的 Codex(一種能幫你自動生成程式碼的 AI 工具,也是 GitHub Copilot 背後的技術)被用來在財稅公司 Thrive Holdings 打造了一種「會自我改進的 AI 代理人」——代理人(Agent)就是可以自主執行任務、遇到問題自己想辦法的 AI 系統,不需要人逐步下指令。傳統痛點是:AI 在測試環境跑得好,真實上線後卻常出現意外錯誤,工程師要花好幾週手動找問題、修程式、重新測試,這個回饋週期非常緩慢又耗人力。新做法是讓 AI 代理人在真實使用過程中自動監控自己的輸出品質,一旦發現失敗案例,就呼叫 Codex 生成修復程式碼,並自動回測確認,不需工程師每次手動介入。最終成果是一個能處理越來越複雜報稅情境的 AI,而且這個能力是在真實服務客戶的過程中自然累積起來的。

假設你是 Thrive Holdings 的工程師,你部署了一個 AI 來幫客戶準備年度稅務申報文件。剛上線時,AI 對簡單的薪資所得申報表現良好;但當客戶有多家公司股份、海外所得、不動產出租收入時,AI 開始給出錯誤計算。傳統流程:客服回報錯誤 → 工程師調查 → 找 bug → 修程式 → 重新測試 → 重新部署,每輪要 2~4 週。加入自我改進機制後,AI 在實際執行時會記錄哪些申報情境失敗了,把這些失敗案例交給 Codex,Codex 生成新的處理邏輯並自動回測,確認通過後自動更新代理行為。結果是:代理處理複雜案件的能力隨使用量增加而成長,工程師不需全程盯著,人工介入從每兩週一次變成例外處理。

T3
Coding Agent 帶動 AI 業界首度獲利

Anthropic 和 OpenAI 在 2026 年初確認,透過「AI 編程助手」(也就是幫工程師寫程式、自動除錯的 AI 工具,像 Claude Code 或 OpenAI Codex)找到了真正能大規模賺錢的市場需求。根據科技分析師 Simon Willison 的觀察,這兩家公司的企業客戶已從每月固定訂閱費(每人約 10 到 20 美元)改成按 API 用量計費(就是「用多少付多少」),每位使用者每月花費高達 200 美元以上,收益差距接近十倍。Anthropic 傳出 2026 年第二季(4 到 6 月)營收達 109 億美元(約新台幣 3,600 億),比前一年同期的 40 億美元大幅翻倍;SpaceX 更簽下每月 12.5 億美元的雲端 AI 服務合約。這波商業爆發的轉折點在 2025 年 11 月,當時 GPT-5.1 與 Claude Opus 4.5 開始能真正「自主執行任務」——也就是 Agent 能力(AI 不只是回答問題,而是自動完成一連串操作),讓 AI 工具從「偶爾有用」升級為工程師每天離不開的工作夥伴。

假設你是一間擁有 5,000 名工程師的大公司技術主管,想用 AI 提升開發效率。舊做法是每人每月花 10–20 美元買 ChatGPT Plus 或 GitHub Copilot 個人訂閱,工程師手動一題一題問 AI,效益難以量化,很多人付了費卻不常用。新做法是透過 API(讓公司系統直接自動呼叫 AI,不需人工輸入)部署 AI 編程助手,讓 AI 全天候自動審查工程師提交的程式碼、自動產生測試、自動偵測潛在漏洞。結果是每位工程師每月 API 帳單超過 200 美元——但換來的是原本需要好幾天人工審查才能完成的工作量。Uber 傳出把一整年的 AI 預算在數個月內就用完,原因不是超支失控,而是 AI 使用量因產能提升而不斷攀升。這和過去個人訂閱的小額費用完全是不同量級的商業模式,也讓 Anthropic 年化收入在一年內從 40 億美元衝破 100 億美元大關。

T3
OpenAI 私有 MCP 安全隧道發布

OpenAI 推出「安全 MCP 隧道」(Secure MCP Tunnel),讓企業可以把公司內部的 MCP 伺服器(MCP,就是一種讓 AI 工具彼此溝通、讓 ChatGPT 等 AI 能呼叫外部工具的通訊協定)連接到 OpenAI 的產品,而不需要把這些伺服器對外公開在網路上。具體做法是透過一個「隧道客戶端程式」(tunnel-client),由公司內網主動對外建立一條 HTTPS 加密連線,讓 OpenAI 的服務能透過這條通道安全存取企業內部資料,而不是把伺服器連接埠直接暴露給外界。對於有資安要求的大企業來說,這解決了一個長期痛點:以往要讓 AI 工具存取公司內部資料,往往需要在防火牆上開洞或把資料搬到外部雲端;現在伺服器可以完全待在防火牆內,只由內部程式主動建立安全隧道,IT 和資安部門都可以接受。這個功能設計上容易整合進現有企業網路架構,整條資料流動全程走加密通道。

假設一家公司的訂單資料庫和內部 wiki 都在公司自己的伺服器上,從不對外公開。他們想讓員工能用 ChatGPT 直接問「本季銷售額是多少」,AI 直接查訂單庫回答。舊做法要麼把資料複製到 OpenAI 雲端(資安風險),要麼在防火牆上開入站連線讓 OpenAI 進來查(IT 拒絕)。使用 Secure MCP Tunnel 後,公司只需在內部伺服器跑一個 tunnel-client 程式,由它主動連出去建立 HTTPS 隧道;OpenAI 的查詢請求透過這條隧道進來,資料不用搬到外部,防火牆也不用開放入站——比舊做法省去資料搬遷風險,也繞過 IT 政策卡關。

T3
Apex:React Native 專屬 AI 程式模型

Apex 是由 Callstack 公司打造、專門針對 React Native(一種讓你用同一份程式碼同時做出 iPhone 和 Android App 的開發工具)所訓練的 AI 程式設計模型。和 GPT-4、Claude 這類「什麼都做」的通用大型 AI 不同,Apex 只專精一件事:幫 React Native 開發者寫程式、分析架構設計、修框架特有的 bug。在通用程式能力排行榜上,Apex 的分數不如頂尖模型,但在 React Native 這個特定領域,它能以更低成本達到更好的效果——也就是「同樣的錢,買到更適合這個場景的 AI」。目前 Apex 仍在開發中,正對少數合作團隊進行私測,尚未公開上線。

假設你是一個用 React Native 開發 App 的工程師,遇到 iOS 和 Android 手勢行為不一致的 bug,把問題描述給 Apex,它因為只吃過 React Native 的訓練資料,能直接定位到框架的正確元件層給建議,不會像通用模型那樣誤導你用瀏覽器的 Web 寫法,也不需要你反覆解釋「我用的是 React Native 不是 React Web」。呼叫成本比 GPT-4 這類前沿模型更低,適合 CI 流程中頻繁呼叫的場景。差異就是:通用大模型給的答案常常要再過濾、再確認,Apex 在框架內的建議更直接可用。

T3
NVIDIA 視覺定位新框架速度提升十倍

NVIDIA 推出 LocateAnything,一個讓 AI 能在圖片中精確找到並框出特定物體位置的新框架。傳統的視覺語言模型(就是能同時看圖、讀文字的 AI)在標記物體位置時,需要一個座標一個座標地依序輸出(先輸出左上角 x、再 y、再右下角⋯),這個逐一輸出的方式既慢又容易破壞幾何一致性。LocateAnything 的核心創新叫做「平行邊界框解碼」(PBD,Parallel Bounding Box Decoding)——讓 AI 一次同時預測物體的完整位置框,而非依序輸出每個座標。實測速度比同類競品(如阿里的 Qwen3-VL 視覺模型)快超過十倍,而且在主流物體偵測評測集上準確率也同步提升。這個框架用超過 1.38 億筆語言查詢、7.85 億個物體位置標記訓練,適用於文件分析、機器人操作、螢幕介面導航等多種場景。

假設我要開發一個「自動分析桌面截圖、找出所有按鈕與欄位位置」的工具,讓 AI 一鍵知道每個 UI 元件在哪裡(用方框圈出)。舊方法用 Qwen3-VL 等主流模型,每秒大約只能處理不到 1.3 個物體框,截圖裡若有 50 個 UI 元素就要等 40 秒以上。改用 LocateAnything,同樣 50 個元素只需約 4 秒(每秒 12.7 個框,快了 10 倍以上),且在 LVIS 測試集(測試 AI 能否找到各種稀奇物體)F1 分數提高 3.8%、在 COCO 測試集(通用物體偵測基準)提高 1.8%——既快又準。對需要即時框出大量物體的 AI 應用(如自動化 UI 測試、視覺機器人、文件排版辨識流水線)來說,這個速度差異直接決定產品能否達到即時回應的門檻。

T3
Trajectory 讓 AI 真正看懂實體世界

Trajectory 是 2026 年剛成立的 AI 新創公司,由前 Google DeepMind 研究員(曾主導 Gemini(Google 的旗艦 AI 模型)的資料與預訓練工作)、前 Apple 首席研究科學家和哈佛 AI 研究員共同創立,核心目標是讓 AI 真正能「看懂」實體世界的空間與物理狀態。現有的大型語言模型(LLM,就是 ChatGPT、Gemini 這類會對話的 AI)在處理文字很厲害,但遇到視覺空間判斷就力不從心——例如「這個架子快倒了嗎?」或「這個零件有沒有凹陷瑕疵?」,往往答不準。Trajectory 的技術方向是把軟體開發界流行的快速迭代觀念引入 AI 訓練:不等大規模訓練跑完,而是讓模型持續從視覺資料快速學習、邊看邊更新。公司目前正籌募約 5000 萬美元種子輪,主攻倉儲機器人、自動駕駛、製造業瑕疵檢測等需要「AI 理解實體場景」的應用。

以製造業瑕疵檢測為例:傳統做法是人工肉眼或規則程式掃描生產線零件,費時且漏報率高。現有視覺 AI(如 GPT-4V(GPT-4 帶視覺能力的版本,能看圖回答問題))也常因缺乏三維空間感而誤判——「這個凹痕是否超標」要看角度與深度才能決定,單靠語意理解很難做到。Trajectory 的目標是:AI 即時看著生產線影像,幾毫秒內判斷「零件表面凹陷位置 X 超過允許深度,標記瑕疵」,而且不需要事先手動標記幾萬張訓練圖片——模型邊看邊快速學習新類型瑕疵。舊方法從收集標記資料到部署專用模型往往需要數個月;Trajectory 宣稱要把這個週期壓縮到「快速上線、快速迭代」的節奏,讓品管 AI 跟軟體更新一樣靈活。

T3
Gemini 商用版開放協作工作區

Google 把 Gemini(Google 自家的 AI 助理,功能類似 ChatGPT,但深度整合在 Google 工作環境裡)的商業訂閱版(Business)新增了一個叫做「Projects(專案)」的功能。這個功能以前只有更貴的企業版(Enterprise)才有,現在商業版用戶也能用。Projects 讓整個團隊可以建立「共享工作空間」——把相關的 AI 對話、上傳的文件都整理在同一個資料夾裡,多位同事可以同時進去查看、延伸追問、共同協作,不再是每個人各自跟 AI 單獨聊天、彼此的資料互不相通。除此之外,Google 也把「agents(AI 自動化代理,意思是能幫你自動執行重複任務的 AI 功能)」帶進商業版,讓 AI 可以自動跑 Gmail 收信、Google Drive 存檔、Google Calendar 排程等流程,不需要每次都靠人手動操作。

假設我是行銷團隊的 PM,正在推進「Q3 年中活動」。以前,我用 Gemini 查資料、起草文案,全都是我一個人的對話視窗;設計師同事也各自在她自己的視窗跟 AI 交流,兩人的歷史紀錄、上傳的檔案完全分開,她不知道我跟 AI 講了什麼背景,每次都要重新解釋。現在用 Projects 功能,我建立一個「Q3 年中活動」的 Project,把活動簡報和目標受眾資料上傳進去,並設定系統指令(例如「所有回覆請符合品牌語調:活潑但專業」),再把設計師、文案同事加為協作者。設計師打開這個 Project,就能直接看到我的對話紀錄和已設好的背景資料,繼續在同一空間追問 AI,不必從頭把背景說一遍。再加上 agent 功能,我可以設定「每週五自動把 Gmail 裡的客服回饋整理成摘要信寄給全組」,完全不用人工操作——舊做法是每週五有人要手動整理複製貼上,現在直接省掉。

T3
Claude 語音模式將支援 18 種新語言

Anthropic(開發 Claude AI 的公司)計畫將 Claude 的語音模式擴展到 18 種新語言,包括中文、日語、德語、葡萄牙語、俄語、烏克蘭語等。語音模式就是讓你不用打字、直接開口說話跟 AI 對話的功能,目前只支援英語,等新語言上線後,中文使用者也可以直接用普通話跟 Claude 說話。這次更新還帶來幾個新功能:「一鍵說話」(press-to-talk,按住按鈕說話再放開,避免 AI 把背景噪音誤解成你的指令)、以及可以在對話中途隨時說「換成英文」就能切換語言的動態切換功能。目前這些功能標記為測試版(beta,即尚未正式完成的試用版本),官方尚未公布正式上線日期,語言清單也可能調整;另需說明的是,Claude 語音採用的仍是「文字轉語音」技術(AI 先生成文字回答,再轉換成聲音),架構上與 OpenAI 的端對端語音 AI 不同。

假設你在台灣工作,每天需要查詢技術資料,但手邊不方便打字,或是想一邊通勤一邊用語音問問題。中文語音模式上線後,你可以直接對著手機說「幫我解釋 Docker 跟虛擬機器有什麼不同」,Claude 會用中文聲音回答你,完全不用打字。如果對話中途遇到一份英文說明文件需要查詢,還可以直接說「現在切換成英文」,Claude 立刻用英語繼續回答,不需要退出重開新對話。和舊做法(打字問問題、看文字回答、再複製到另一個朗讀 App 念出來)相比,整個查詢流程省掉了中間好幾道手動步驟。

T3
六成 AI 廠商未揭露資料流向

一份新報告指出,市面上許多打著「有 AI 功能」旗號的軟體廠商,實際上會把客戶資料偷偷送給多個 AI 模型(就是類似 ChatGPT 這種會對話的人工智慧)處理,但根本沒有在合約或法律文件裡說清楚。資安公司 DataGrail 分析了 2,400 家軟體廠商,發現有 63.6%——超過六成——在法律文件裡沒有完整揭露他們用了哪些「AI 次處理商」(也就是幫他們實際跑 AI 的第三方服務商,例如 OpenAI 或 Anthropic)。這對企業的 IT 和資安部門是個大問題,因為資料可能在你完全不知情的情況下,已經進了你從未審查過的 AI 系統。對很多公司來說,根本無從確認自己的客戶資料被哪些 AI 模型看過、暫存,甚至用來訓練。

假設你的公司買了一套「AI 客服軟體」,合約只說它會用某家廠商的 AI 幫你回覆客戶問題。但實際上,這套軟體背後可能串接了三到四家不同的 AI 服務,你的客戶資料(包含姓名、訂單記錄、甚至聯絡方式)可能已經傳給這幾家公司處理。按照現行法規(如歐盟 GDPR),廠商本應在合約附件裡列出所有「次處理商」名單讓你審核,但這份報告發現超過六成廠商根本沒做到這件事。等你的資安或法務部門想稽核資料流向時,會發現根本查不到資料去了哪裡——等於整個資安管控都出現漏洞,卻渾然不知。

T3
Salesforce 推 Data 360 MCP 伺服器

Salesforce(全球最大的企業客戶管理軟體公司)發布了「Data 360 MCP 伺服器」的開發者預覽版。MCP(Model Context Protocol,一種讓 AI 代理程式統一連接外部資料來源的標準介面協定,可以想成是「AI 工具插電的插座規格」)讓各種 AI agent(會自動執行任務的 AI 程式)可以直接接上 Salesforce 的資料平台,不需要各自寫專屬的連接程式。這個伺服器讓企業的 AI 代理有一個統一入口,可存取 Data 360 裡的受信任資料,包含身份解析(把同一位客戶在不同系統的資料自動合併對應)、客戶分群邏輯、資料轉換規則,以及預先計算好的分析結果。目前處於開發者預覽階段,今年將正式上線。

假設一家公司在 Salesforce 裡有數十萬筆客戶資料,行銷部門想讓公司的 AI 助理自動回答「這個客群的平均購買頻率是多少?」。過去,工程師必須替每一個 AI 工具分別寫程式碼連接 Salesforce API,維護多份連接邏輯,光維護就耗費大量人力。現在有了 Data 360 MCP 伺服器,只要 AI 工具支援 MCP 協定(Claude、Cursor 等主流工具都已支援),就能直接插進來,自動存取分群邏輯和計算好的客戶分析——工程師不需要替每個 AI 工具額外寫連接程式,節省大量重複工作。

T3
AI Agent 企業資料查詢四層架構

這篇技術文章在解決一個很實際的問題:當企業想讓 AI 代理(AI agent,就是能自主執行任務的 AI 程式,類似自動化助理)去查詢公司內部的大量資料時,這些系統很容易出錯或當機。文章提出了一個叫做「agentic lakehouse(AI 代理資料湖)」的架構設計——你可以把資料湖(data lakehouse)想成一個超大型的公司資料倉庫,整合了各種格式和來源的資料。為了讓 AI 代理能可靠地查詢這些資料,文章主張要把基礎設施分成四層來設計,每一層各司其職。這四層分別是:底層儲存(存資料用的)、Iceberg 表格式(Apache Iceberg,一種專為大規模資料設計的資料表格式,讓資料可以版本控制、支援時間回溯查詢)、Polaris 目錄與身份驗證(幫 AI 代理找到正確的資料表,並確認它有權存取)、以及最上層的語意優化層(把 AI 代理的查詢意圖轉成精確的資料庫查詢指令)。任何一層設計不良,問題都會向上傳播,影響整體的可靠性、安全性和效能。

假設一家電商公司想讓 AI 代理自動回答業務問題,例如「過去三年,台灣北中南各區的平均客單價趨勢是什麼?」這個問題需要跨多個資料表(訂單表、地區表、時間表)做多步驟計算。在沒有良好架構的情況下,AI 代理可能遇到:找不到正確的資料表在哪裡(缺 Polaris 目錄層)、查到舊版本的資料導致答案偏差(缺 Iceberg 版本控管)、或是查詢語句效率太差、幾秒就逾時(缺語意優化層)。套用四層架構後:底層儲存確保資料有條理地存放;Iceberg 格式保證每次查詢到的是一致且正確版本的資料;Polaris 目錄讓 AI 代理秒速定位到正確的三張資料表,並自動驗證存取權限;語意優化層把「北中南各區客單價」這個模糊意圖翻譯成精確的 SQL 查詢。最終結果:AI 代理在幾秒內給出準確的分區趨勢分析,而不是查詢失敗或返回過期錯誤資料。

T3
AI 提示詞洩露企業資料及防範

這篇文章整理了 12 種員工在使用 AI 工具(如 ChatGPT 這類會對話的生成式 AI)時,不經意洩露公司機密資料的常見操作模式。包括把公司合約貼進公開的 AI 聊天介面、把原始碼(程式的源頭文字)丟給 AI 請它 debug(找錯誤)、把客戶個資貼進去詢問,或把內部會議記錄讓 AI 整理摘要——這些看似無害的動作,其實都在把敏感資料送到外部伺服器。文章不主張直接禁用 AI,而是建議企業從「提示詞(使用者輸入給 AI 的指令)層面的管控」、「AI 使用治理機制」、「只開放使用已審核過的工具」,以及「追蹤員工實際的 AI 使用狀況」四個方向著手解決。這對任何有員工在工作上使用 AI 的公司都是當下需要面對的實際問題。

假設公司法務同仁要草擬一份保密協議,她把整份合約草稿貼進 ChatGPT 請它「把法律語言改得更口語一點」。合約裡包含合作對象名稱、財務條款、以及尚未公開的產品資訊——這些資料就這樣進了外部 AI 服務的伺服器,預設情況下甚至可能被用來訓練模型。舊做法是員工自己改,雖然安全,但慢且容易出錯。本文建議的做法是:公司採購有企業資料隱私協議的 AI 工具(如 Microsoft Copilot 企業版,或 Claude for Work),在工具層面設定「不允許貼入含特定關鍵字的文字」,搭配員工訓練說明哪類資料絕對不能送出去。這樣既維持效率,也讓機密不外流——差異在於:普通公開 AI 服務完全不知道你貼進去的東西會去哪,企業級工具有合約保證資料不被存取或用於訓練。

T3
Claude Code 自主代理設定指南

Claude Code(Anthropic 推出的 AI 編程助手,可直接幫你寫程式碼、跑指令、管理檔案)最常被人用錯的方式,是把它當「聊天機器人」——問一句答一句,完事就好。這篇指南指出,正確姿勢是把它視為「自主代理人(autonomous agent,就是在你授權的範圍內能自己決策、連續執行多步驟任務的 AI)」來設定與操作。核心做法是設計 Claude Code 的「工作環境」:透過 CLAUDE.md 檔定義規則(每次啟動都自動讀入)、建立 skills(可重複呼叫的指令包,類似隨身工具腰帶)、設置 subagent(在獨立的上下文視窗執行、只持有受限工具的分身助理)、連接 MCP 伺服器(讓 AI 能直接操作 GitHub、資料庫、設計稿等外部系統)。研究者 Boris Cherny 指出,讓 AI 有辦法自我驗證成果,可帶來 2–3 倍的品質提升。

假設你是開發者,每天 PR(程式碼提交審查)都要重新跟 Claude Code 解釋審查標準、確認結果有沒有跑偏,這套動作每天重複多次既耗時又容易漏。傳統「聊天機器人」用法:每次手動貼上程式碼、說明規範,Claude 回覆後你再一一比對,主任務視窗塞滿審查雜訊。改用本文的 subagent 方式:一次性建立 `/pr-review` 指令,設定它只能使用唯讀工具(防止審查中不小心改到程式碼)、指定用 Opus 最強模型、規定「有問題才列、沒問題不說廢話」。之後每次要審查 PR,直接輸入 `/pr-review`,它在獨立視窗完成整套流程,只把乾淨的摘要回傳給你,完全不干擾當前工作 session。對比舊做法:省掉了「每次重新說明規則」與「主視窗被審查雜訊淹沒」兩個痛點,品質因指定更強模型也更穩定。

T3
蘋果 Google 用 AI 重寫你的推播通知

蘋果和 Google 這兩大手機平台,最近幾年悄悄在手機裡加入了 AI(人工智慧)功能,專門用來處理你收到的推播通知(就是手機上方冒出來的那些小訊息泡泡)。這些 AI 程式跑在手機本地端(不需上傳到雲端伺服器,完全在你口袋裡的手機上運算),會幫你自動摘要、重新排序、甚至改寫通知文字,再顯示給你看——也就是說,App 開發者寫的原版文字,你不一定看得到。更重要的是,通知已經不只是「給人看的訊息」,而開始演化成觸發 AI 助理(agent,就是能自動替你完成任務的 AI 程式)自動幫你做事的指令。這對開發 App 的工程師影響很大,必須重新思考通知的格式和寫法,才能確保關鍵資訊不被 AI 摘要掉,同時讓通知也能讓未來的 AI 助理正確理解並執行。

假設你開發了一個電商 App,促銷活動時發送這樣的通知:「限時特賣!Sony 耳機 79 折,今晚 12 點截止!手慢無!」。舊做法下這段文字會原封不動出現在使用者手機頂端。但現在 Apple「通知摘要」功能可能把它改寫成「耳機特賣,截止今晚」——折扣數字和急迫感全部被削掉了。更進一步的是,如果未來 AI 助理把這則通知當成可執行的動作指令,它可能直接替使用者進行加入購物車或結帳,而不是只顯示訊息讓人自己決定。對比舊做法:以前只要把文案寫得吸睛就好;現在開發者需要在通知的 metadata(附帶結構化資訊)裡明確標出哪些欄位是關鍵、哪些是可省略的,讓 AI 摘要時保留重點,同時讓 agent 能正確自動化後續動作。

T3
AI 垂直化才是真護城河

一篇 AI 產業觀察指出,雖然大型 AI 實驗室(像 OpenAI、Anthropic 這些公司)開發的通用模型越來越強大,但這類「水平工具」(就是什麼都能做一點、但不夠深入某個特定產業的通用 AI)並不能解決現實世界裡那些複雜的垂直問題。所謂「垂直問題」,就是醫療、法律、金融、工廠製造等各行各業各自特有的流程規範與合規要求,這些是一個通用 AI 光靠預設功能搞不定的。真正的商業價值,將來自於圍繞這些 AI 模型打造的「scaffolding(支撐架構,就是在模型外面加一層讓它在特定產業能安全可靠運作的系統)」——讓 AI 的輸出變得可信、合規、能實際嵌入行業流程。這篇文章要傳遞的訊息是:核心研究以外有大量機會,創業者和開發者不必只搶著做基礎模型,垂直落地才是主戰場。

假設一家法律事務所想用 AI 幫忙起草合約。光是把 ChatGPT 這類通用 AI 丟進去,它能寫文字沒錯,但它不知道:這份合約適用哪個司法管轄區的法律、某一條款在當地法院是否具可執行性、格式是否符合特定法院的要求、還有哪些條款會和客戶現有合約發生衝突。「scaffolding」就是在模型外面加一套系統:自動從事務所的判例資料庫撈出相關法條、執行合規自動查核、依司法管轄區套用正確格式、把有風險的條款標記出來送律師複審。這整個包裝讓同一個 AI 模型的輸出從「能看但不能直接用」變成「律師能放心送客戶的文件」。沒有這層 scaffolding,通用 AI 在法律場景根本不能商業落地;有了它,同一個模型就能賣給上千家律師事務所。

T3
AI 時代最需要的是判斷力

AI 工具(就是像 ChatGPT、Claude 這類會生成文字的程式)大幅降低了「產出內容」的成本,但卻沒有降低「說錯話」的代價。軟體工程師兼作家 Jim Grey 認為,在 AI 時代,最關鍵的能力不是「怎麼下指令給 AI(提示工程,就是用什麼問法讓 AI 給出更好的回答)」,而是「看到 AI 的輸出時,能不能辨別哪裡有問題」。這種判斷力,是透過長期「批判性地審視有問題的文字」所磨練出來的,不管那些文字是人寫的還是 AI 生成的。AI 的速度讓人傾向快速接受輸出往下走,但這樣反而讓人失去鍛鍊判斷力的機會——好消息是,只要在使用 AI 時刻意懷疑、檢查、修改輸出,這個技能是可以主動培養的。

作者用 Claude(Anthropic 公司開發的 AI 助理)寫了一篇關於印第安納州 Carmel 小鎮的個人散文。AI 生成的草稿通順、有條理,但作者讀完後做了兩件事:把他覺得沒根據的敘述刪掉,再把 AI 不可能知道的個人細節補進去,例如「那塊地上曾有被推土機推倒的舊建築地基」、「院子裡養過的羅威那犬」。最終這篇文章比 AI 原始輸出好很多——不是因為 AI 不好,而是因為作者有能力辨別「哪裡需要補強」。對比:如果直接複製 AI 輸出送出去,讀者得到的是一篇通順但空洞的文章;經過判斷力篩選後,讀者得到的是有真實細節與個人觀點的文章,品質差異顯著。

T3
CockroachDB 向量索引 C-SPANN

CockroachDB(一種分散式資料庫,設計給需要高可用性、資料分散在多台伺服器的大型應用)自行開發了一套叫做 C-SPANN 的向量索引系統(向量索引就是讓資料庫能快速找到「語意相似」的資料,是 AI 搜尋的核心技術,也是 RAG 的基礎)。過去常見的兩種向量索引方法——HNSW(用圖形結構快速搜尋的演算法)和 IVF(把資料分群後分區搜尋的方法)——都是為單台伺服器設計的,套到 CockroachDB 這種多機器分散式架構上就會出問題。C-SPANN 的設計核心是「階層式 K-means 樹」(把資料一層一層分群,形成樹狀結構),索引資料直接存成 CockroachDB 原生的表格格式,不需要另外架「索引伺服器」。這樣天生支援即時新增和刪除資料(不需離線重建整個索引),也能無縫配合 CockroachDB 原有的資料分片(把資料平均分散到不同節點)和自動重新平衡功能。

假設你在用 CockroachDB 建一個 RAG(讓 AI 回答問題前先去資料庫查相關文件,避免 AI 憑空亂猜)系統,資料庫裡存了 10 億筆文字向量(每段文字的語意轉換成的數值),分散在幾十台伺服器上。舊做法是另外架一套獨立的向量資料庫(例如 Pinecone 或 pgvector),和你的關聯式資料分開管理;若想用 HNSW 自建,查詢時它不知道資料落在哪台機器,得去所有節點廣播一遍,速度很慢。換成 C-SPANN:查「最相似的 5 筆文件」時,系統先查 K-means 樹定位到可能的資料分片,再只向那幾個節點取資料,大幅減少跨節點通訊;當你批次插入 100 萬筆新向量時,C-SPANN 能即時更新索引,不需要停機重建。整個向量搜尋就在現有的 CockroachDB 表格裡完成,省去維護一套獨立向量資料庫的成本。

T3
五款 AI 分析 Agent 誰最強

有人實際測試了五款開源的「分析 AI Agent」(就是讓 AI 幫你查詢資料庫、回答數據問題的工具),發現這五款其實解決的是完全不同的問題,不能混為一談。測試者用同一個問題(查詢用戶流失率)分別對 LangChain、Wren AI 和 nao 這三款真正適合資料分析的工具出題,結果 Wren AI 和 nao 三題全對,而 LangChain 只答對了三分之一。這篇測試最關鍵的發現是:AI 回答準不準,關鍵不在 Agent 介面本身,而在「業務語義」(就是告訴 AI 你的資料欄位代表什麼意思)放在哪裡、怎麼維護。LibreChat 和 Vercel 範本則根本不是分析工具,前者是通用聊天介面,後者是檔案搜尋 Agent,被放進同一類只是因為它們都套了 LLM(大型語言模型,就是 ChatGPT 這類 AI 的技術核心)。

假設我要問 AI「上個月的用戶流失率是多少」——這看起來簡單,但 AI 需要知道你資料庫裡哪個欄位叫「流失」、計算方式是什麼。LangChain 沒有業務語義層,AI 每次查詢都要自己猜資料表結構,結果三題只答對一題。Wren AI 讓你預先用 MDL(一種描述資料意義的設定檔)告訴 AI 每個欄位代表什麼,三題全對,但要寫設定檔需要一定技術能力,前置花了 20 分鐘。nao 更簡單,你只要在資料夾裡放幾個 Markdown 文字檔(就是一般的記事文件)描述業務邏輯,AI 自動讀取,三分鐘就設好、三題也全對。差異就是:LangChain 讓 AI 自己摸索數據的意義(容易答錯),Wren AI 和 nao 則讓你先把業務定義寫清楚給 AI 讀(準確率高)。

T3
AI 系統風險源自架構設計

這篇文章主張,評估 AI 風險時不應只看 AI 模型本身(例如模型會不會說謊、會不會出錯),而應從整個系統架構(就是 AI 被部署進去的那套程式環境與流程設計)來判斷。文章把 AI 風險拆成三種機制性問題:資料外洩(AI 看到了它不該看的敏感資料)、輸出錯誤(AI 給出不正確或有害的回答)、以及不預期的行動(AI 自動執行了某個動作,卻沒有任何人確認)。這三種問題進一步會帶來五種商業傷害:品牌聲譽損傷、法規合規違反、法律責任、營運中斷、以及商業損失。文章的核心結論是:最關鍵的防控手段是「架構設計」——也就是在建置 AI 系統時,明確限制 AI 能存取哪些資料、AI 的輸出結果會流向哪些下游流程、以及 AI 在哪些情況下可以不經人工確認就直接執行動作。只要加入人工審核關卡、確定性驗證規則(如格式檢查、業務邏輯判斷),並縮限 AI 的操作權限範圍,就能大幅降低風險,完全不需要更換模型本身。

假設一家公司部署了一個 AI 助理,讓員工可以用對話方式申請 IT 設備,AI 會自動送出工單(例如:「幫我申請一台新筆電」)。若架構設計不當,AI 可能讀取到包含薪資或人事資料的公司文件(資料外洩),或者自動送出一張內容錯誤的工單,員工事後才發現(不預期行動)。按照本文的架構思維來改善:第一,限制 AI 只能存取 IT 知識庫,而非整個公司的雲端硬碟——縮減 AI 能看到的資料範圍;第二,AI 要送出工單前,先顯示給員工確認再送——加入人工審核關卡;第三,AI 的操作只能呼叫「新增工單」這一個 API,無法修改或刪除其他工單——限縮操作權限。這樣的架構調整不需升級模型,卻能讓這套 AI 系統的風險從「隨時可能出包」降到「幾乎可控」。

T3
RushDB 2.0 統合 Agent 記憶層

RushDB 2.0 是一個專為 AI agent(能自主完成任務的 AI 助手,例如幫你搜尋資料、自動回信的 AI)設計的記憶基礎設施。過去要讓 AI agent「記住」資訊,開發者必須同時維護三套工具:向量資料庫(把文字轉成數字向量、靠相似度撈資料)、知識圖形資料庫(記錄人名、事件、組織間的關係網)、以及連通這兩者的程式管道,三套各自管理、容易失去同步。RushDB 2.0 把這三套整合成一個服務,開發者只要把 JSON 資料丟進去,系統就自動建立圖形結構與語意索引,不需預先定義欄位格式。新版還加入本體 API(讓 AI agent 在查詢前先查看「資料長什麼樣、有哪些欄位和值域」,減少 AI 亂猜造成的幻覺),以及 MCP 伺服器(讓 Claude Desktop、Cursor 這類 AI 工具能直接讀寫 RushDB,無需另外寫串接程式碼)。

假設我在開發一個「AI 客服代理」,需要記住每位客戶的歷史訂單、最近對話、偏好商品,以及這些商品的品類關係。舊做法要同時建三套:Pinecone 存語意向量、Neo4j 存商品關係圖、再寫 Python 把兩邊查詢結果合併——三套系統一旦其中一套掛了或欄位改名,整條流程就斷。用 RushDB 2.0,只要把每筆對話記錄以 JSON 推入,系統自動建圖並建語意索引;查詢「最近三個月買過運動裝備且詢問過退換貨的客戶」時,一次呼叫就能同時做語意搜尋(找語意上與「運動」相關的對話)加結構化篩選(時間範圍+行為標籤),舊做法需三套系統互打、新做法一行查詢搞定。

T3
MurrDB:ML 推論的低成本快取

MurrDB 是一個專門為機器學習推論(AI 模型在線上服務時,把用戶資料輸入模型、即時算出預測結果的過程)設計的快取(Cache,一種把常用資料先存在讀取速度很快的地方、下次直接拿用的加速技術)工具。它以 NVMe 固態硬碟(比一般 SSD 還快幾倍的高速儲存裝置,常見於伺服器)和 S3(Amazon 提供的雲端儲存空間)作為後端,特別擅長對大型表格資料(例如每個用戶的行為特徵、商品屬性等)進行批次讀寫。最大的優點是不需要把所有資料塞進記憶體(RAM)裡,大幅降低硬體成本。跟主流的 Redis(一種業界廣泛使用的快取資料庫,但需要把全部資料放進記憶體)相比,MurrDB 費用更低、查詢延遲也更短,是 ML 特徵值與文件屬性檢索的專用工具,而非一般用途的資料庫。

假設你在一家串流音樂平台工作,推薦系統(AI)每次用戶打開 App 都要計算「最可能喜歡的 20 首歌」,需要查詢這個用戶過去 60 天的收聽特徵(播放次數、跳過率、收藏紀錄等),特徵資料總量有幾百 GB。舊做法用 Redis 時,這幾百 GB 全部要放進記憶體,光這一塊每月伺服器費用可能高達數千美元。改用 MurrDB 後,資料存在 NVMe 硬碟或 S3 上,記憶體只保留一小部分最熱門的資料,查詢時以批次方式高效讀取;實際延遲反而更低(批次合併 I/O 效率更高),而硬碟費用比記憶體便宜數倍到數十倍,整體推論基礎設施費用可顯著下降。

T3
合成資料偵測 AI 模型隱藏偏見

Mimesis 是一個開源的 Python 函式庫(就是可以直接安裝使用的程式工具包),專門用來製造假的、但非常精確的測試資料,幫助開發者檢查自己訓練出來的 AI 模型有沒有暗藏歧視。所謂「歧視」是指:模型在預測時,對性別、年齡或種族不同的人給出不同結論,但這兩個人在其他條件(例如收入、學歷)上其實完全一樣。Mimesis 的做法是製造一批「配對資料」——每對資料只有一個特徵不同(例如性別),其餘全部相同,然後把這批資料丟進模型,看看結果有沒有差異。由於用的是合成假資料,完全不需要動用真實的個人敏感資訊,既能保護隱私,又能讓測試結果更精準、更有對照價值。

假設你訓練了一個貸款審核 AI,用來決定申請人要不要被核貸,你懷疑模型可能對女性有偏見,但手上沒有足夠的真實數據做對照實驗。用 Mimesis,你可以生成 3 組財務狀況相同的假申請人(例如年收入 50 萬、信用良好),每組分別建立一男一女兩份資料,其他條件完全一致。把這 6 份資料丟進你的 AI,結果發現:3 位男性全部核准,3 位女性全部拒絕——儘管財務條件一模一樣。這就清楚證明模型學到了性別歧視的規律,你必須回頭修正訓練資料或模型參數,才能讓它公平對待所有人。相比之下,傳統做法需要蒐集大量真實標記資料才能做類似分析,不僅耗時還有隱私風險。

T4
T4
AI Agent 權限疲勞遊戲

有人做了一個 60 秒的小遊戲,主題是「AI agent 權限疲勞」——所謂 AI agent(就是能代替你執行任務的 AI 助理,例如幫你查資料、寄信、訂行程)在執行每一個動作前,都會跳出一個確認視窗問你「要繼續嗎?Y 還是 N?」。問題是:當這種確認視窗出現太多次,人就會開始不看內容、直接按 Y,就像我們安裝軟體時快速點「下一步」一樣。這個遊戲讓玩家體驗這種疲勞感,並測試你在重複按 Y 的過程中是否還能保持專注、仔細閱讀每一個 AI 發出的請求。這是目前 AI agent 設計領域一個真實的 UX(使用者體驗)難題:如何在「讓 AI 更自主」和「讓使用者保持控制」之間取得平衡。

假設你使用一個 AI agent 幫你處理工作信件,它每隔幾分鐘就會問你:「我要傳送這封信,確認嗎?」「我要刪除這個草稿,確認嗎?」「我要在行事曆新增一筆會議,確認嗎?」剛開始你還會認真看,但確認視窗第 20 次出現時,你可能已經無意識地按下 Y——即使那封信的收件人其實寫錯了。這款遊戲模擬的正是這個過程:連續出現多個看似無害的確認請求,中間穿插一個真正有風險的操作,測試你有沒有停下來看清楚。結果往往是:大多數人都沒有。這凸顯出 AI agent 設計上的核心問題:光靠「讓人按確認」不等於讓人真正掌控 AI。

T4
YouTube 播客新增 AI 推薦功能

YouTube 在 2026 年 5 月為其播客(Podcast,就是可以隨時收聽的網路廣播節目)功能推出三項更新,其中包含一個 AI(人工智慧)推薦工具。這個 AI 工具屬於付費訂閱用戶的專屬功能,會根據使用者的收聽習慣、當下心情或喜歡的節目類型,自動推薦合適的節目,省去自己搜尋的時間。YouTube 同時推出「Auto Speed(自動速度調整)」功能,能感應主持人說話快慢,在語速過慢或內容密集的片段自動微調播放速度,讓你不用手動切換就能保持舒適的收聽節奏。這些功能背後是 YouTube 積極搶攻播客市場的策略——YouTube 付費用戶在 2026 年 4 月單月就收聽了超過 8 億小時的播客,正與 Spotify、Apple Podcasts 等平台直接競爭。

假設你每天通勤 40 分鐘,習慣用 YouTube 聽科技類播客。以前你得自己搜尋、翻找,試聽才知道今天哪集合口味。現在有了 AI 推薦工具,你可以告訴它「我在通勤,想聽輕鬆討論 AI 新聞的節目」,AI 根據你過去的收聽紀錄和你描述的當下情境,直接列出幾個推薦。而且如果今天那集主持人說話特別慢,Auto Speed 會自動把播放速度稍微加快,你全程不用動手調整。相比以前只能依賴平台算法或自己搜尋,這次更新讓選節目和實際收聽都更貼合個人節奏。

T4
Google AI 為何連字都拼不好

Google 的 AI 概覽(就是在 Google 搜尋結果最上方自動生成的摘要)被用戶發現連基本拼字都會出錯,例如把「Google」自己的名字拼成「Gppgle」,把「journalism」拼成含兩個 D 的錯誤版本,甚至把總統名字的字母順序搞錯。這個現象的根本原因在於 LLM(大型語言模型,也就是 ChatGPT、Gemini 這類 AI 的底層引擎)的運作方式:它並不像人類一樣一個字母一個字母地閱讀文字,而是把文字切成「token(語言單位)」再轉換成數字來計算。token 可能是一整個單字、一個音節,或一組字母,因此 AI 在處理時根本沒有「逐一看見每個字母」的概念,自然也就無從判斷一個字裡有幾個特定字母或正確的字母順序。這個限制叫做 tokenization(文字分詞)問題,研究人員表示目前不存在「完美的分詞方式」,是現有 AI 架構(transformer)的根本弱點,即使再大的模型也難以完全克服。

假設你想確認「strawberry」裡到底有幾個字母 r,或是請 AI 逐字拼出某個不常見的人名。用傳統 Google 搜尋,你直接找到人類寫的文章,自己數字母就好,不會有誤差。但如果你改用 AI 摘要來問,AI 會把「strawberry」這個詞對應成一個數字代碼(可能整個詞只算一個 token),在處理過程中根本沒有「s-t-r-a-w-b-e-r-r-y」這十個獨立字母的存在——所以它可能自信地回答你「有 2 個 r」,也可能說「有 1 個」,全憑它在訓練資料裡見過多少類似問答的頻率來猜。舊做法完全不會有這問題;而現在很多人直接相信 AI 給的答案、不再自行查證,這才是真正的風險所在。

T4
LiteParse V2 本機高品質 PDF 解析器

LiteParse 2.0 是一個開放原始碼(程式碼完全公開、任何人可免費使用)的 PDF 解析工具,主打「完全在你自己的電腦上執行」,不需要連上任何雲端服務,也不依賴 OpenAI、Anthropic 等商業 AI 服務。它能夠精準地讀取 PDF 文件中的文字,並記錄每段文字在頁面上的位置(所謂「邊界框」就是每個文字塊的上下左右座標),讓後續的程式可以知道「這段話在 PDF 的第幾頁、哪個位置」。它支援多種語言、多種作業系統(Windows、Mac、Linux),輸出格式也很多元,同時還能對 PDF 頁面截圖,適合需要處理大量文件的開發者或研究者使用。

假設你要建一個「上傳公司合約 → AI 幫你抓出重要條款」的工具(這是 RAG(讓 AI 在回答前先查你的文件庫,避免憑空捏造)的典型應用)。你需要先把 PDF 裡的文字撈出來,傳給 AI 分析。如果用商業 API(比如 AWS Textract、Adobe PDF Services),每次處理一份文件都要付費、文件還會上傳到對方伺服器。改用 LiteParse,同樣的任務完全在本機跑——文件不離開你的電腦、不產生每月 API 帳單、處理速度也快。特別是「邊界框」功能,讓你的程式可以精準知道「『付款日期』這四個字在第 3 頁右上角」,方便後續做文件 UI 標註或條款高亮顯示。

T4
食材嵌入模型 EPICURE 發布

EPICURE 是一組用機器學習技術訓練出來的「食材向量模型」(embeddings,就是把每種食材轉換成一串數字,讓電腦能理解食材之間的關係和相似度)。研究團隊從 11 個網站抓了 414 萬份食譜、涵蓋 7 種語言(英、中、俄、越、西班牙、土耳其、印尼),整理出 1,790 種標準食材,並訓練了三個版本的模型:一個強調食材在食譜中的搭配頻率(Cooc)、一個強調化學成分的相似性(Chem,使用 FlavorDB 這個記錄食材化學香氣分子的資料庫)、還有一個兩者兼顧的混合版(Core)。整個流程還借助了 LLM(就是 ChatGPT 這類大型語言模型)來輔助食材標準化,讓不同語言的「蒜頭」「大蒜」「garlic」都能對應到同一個標準項目。

假設我是食品研發人員,想找「在香氣上和巧克力最相近的食材」來開發替代配方。用 EPICURE 的 Chem 模型(化學成分版)查詢巧克力的向量,找出向量距離最近的食材,結果可能顯示咖啡、香草、紅酒——因為它們共享相似的化學香氣分子。改用 Cooc 模型(食譜搭配版)查詢,結果可能變成奶油、糖、麵粉——因為這些是食譜中最常和巧克力同時出現的材料。舊做法要靠人工查閱食材風味資料庫或憑經驗直覺,EPICURE 能直接量化出「哪兩個食材有多像」,且支援多語言,適合用在食品研發替代品搜尋、食譜推薦系統、或多語言食材知識庫建置。

T4
企業 AI 培訓計畫為何大多失敗

很多大公司正在花大錢(數十億美元)教員工使用 AI,但研究發現這些培訓計畫大多數會失敗。原因不是員工學不會,而是公司錯誤地把「學 AI」當成一般合規培訓(就是公司規定每年要完成的法規、安全課程,完成即交差的那種)來處理。真正的問題在於,員工即使學會了 AI 工具的操作,在日常工作中仍然不知道怎麼用,因為公司沒有同步改變工作流程、激勵機制和實際運作方式。成功的 AI 採用需要從根本上重新設計工作如何完成,而不只是辦幾場教育訓練了事。

假設某公司花了一大筆錢讓所有員工完成「ChatGPT(就是目前最廣為人知的對話 AI)基礎操作」線上課程,員工學完測驗也通過了。但三個月後,幾乎沒有人在日常工作中實際用 AI——因為公司的報告格式、審核流程、KPI 指標完全沒改變。員工就算想用 AI 寫報告,主管還是要求固定格式,AI 產出的內容還要重新改成舊格式,反而更麻煩。相比之下,成功的案例是先找出哪些工作流程可以讓 AI 真正省時間(比如客服回覆草稿、資料整理彙整),再同步修改流程和考核標準,讓員工有動機改變工作習慣,而不是完成一門課就算交差。

T4
Google Meet AI 助手入口升級

Google 把 Meet 視訊會議裡的 Gemini AI 助手按鈕,從不顯眼的右上角圖示移到左下角更醒目的位置,讓使用者更容易發現並使用這個功能。Gemini(就是 Google 的 AI 助手,和 ChatGPT 一樣是能對話的 AI,但整合在 Google 產品裡)在 Meet 裡可以幫你快速掌握會議目標與重點、列出討論中提到的決定和待辦事項、還能補充你遲到時錯過的內容。這次更新從 2026 年 5 月 26 日起逐步推出,純粹是調整入口按鈕位置,Gemini 在 Meet 裡的功能本身沒有任何變動。目前僅適用於 Google Workspace Business Standard/Plus 和 Enterprise Standard/Plus 方案的付費用戶。

假設你是一個常開視訊會議的上班族,某場會議開到一半才加入,想知道「之前都決定什麼了?我要負責哪些事?」以前,Ask Gemini 的入口藏在右上角一個不起眼的圖示,必須把滑鼠移上去懸停才會出現,大多數人根本不知道有這個功能。現在入口改到左下角更顯眼的固定位置,你可以直接點開、輸入「這場會議目前提到哪些行動項目?」,Gemini 就會整理出一份清單——比自己邊聽邊抄筆記快得多。對原本從未發現過這顆按鈕的用戶來說,這次調整等於讓他們第一次真正「用上」了這個 AI 功能。

T4
用 PostgreSQL 搭建 AI 行銷工作流

PostgreSQL 是一套歷史悠久、免費開源的資料庫系統,大多數人只把它當作「存表格資料」的工具。這篇文章說,其實它也能當 AI 行銷自動化工作流的核心骨幹,不需要另外購置昂貴的 AI 專用基礎設施。文章介紹三個關鍵技術組合:第一是 ENUM(列舉型別,讓你預先定義好一組固定選項,例如工作流的「草稿→待審→已核准→已發布」),讓整個自動化流程的進度狀態在資料庫裡乾淨地被追蹤;第二是 JSONB(把 JSON 格式的彈性資料直接存進資料庫的方式),讓不同廣告活動能帶著各自的客製化欄位而不破壞整個資料結構;第三是 pgvector(PostgreSQL 的向量搜尋擴充套件,讓資料庫能執行語意相似度查詢,是 RAG(讓 AI 回答前先查資料庫、避免憑空捏造)的基礎技術),讓 AI 在生成新內容前能先找到語意最相近的舊素材當參考,避免重複或前後矛盾。

假設行銷部門要用 AI 批量產生 500 則社群媒體貼文。舊做法是把 AI 生成的文稿存在 Google Sheets,靠人工複製貼上、用顏色標記狀態,追蹤誰審了誰沒審、何時排程發布,一旦有人改錯格就整張表亂掉。用 PostgreSQL 的新方式:先在資料庫裡建一個 ENUM 狀態欄 `draft → reviewing → approved → scheduled → published`,每次 AI 生成一則貼文就自動寫入為 `draft`;審核人員點確認,系統自動更新為 `approved`;pgvector 同步把每則貼文的語意向量存起來,下次 AI 生成類似主題的文案時,先查「近 30 天語意最接近的 10 則貼文是什麼」,避免生出雷同的重複內容;JSONB 讓春節促銷、周年慶、新品上市各帶自己的額外屬性,不需為每個活動建獨立資料表。整體比 Sheets 更可靠、可稽核,也省去另外架一套向量資料庫的成本——一個 PostgreSQL 就全搞定。

T4
資料產品 SDK 加入 AI 輔助 YAML 生成

Open Data Product SDK 是一個開放原始碼的軟體開發套件(就是讓工程師快速建東西的工具箱),專門幫團隊定義和管理「資料產品」(把公司內部的資料集打包成有說明書的產品,讓其他部門或系統更容易取用)。新版功能讓使用者可以把用白話或 Markdown(一種簡單的文字排版格式)寫的產品說明,直接交給 AI 模型自動轉換成標準化的 YAML 格式(一種機器可以讀取和處理的結構化文字)。生成的 YAML 符合 ODPC(開放資料產品規範)的標準,可直接建立資料目錄和產品組合清單。這項功能的目標是讓不懂技術格式的業務人員也能用自然語言描述需求,再由 AI 替他們完成繁瑣的規格文件。

我是一個資料工程師,要把公司「客戶訂單分析資料集」打包成可供其他部門使用的資料產品。以前的做法是手動一欄一欄填 YAML 規格文件——包含欄位定義、使用情境、業務目標、資料擁有者等,整份文件可能要花半天到一天。用了這個新功能後,我只要用自然語言寫:「這個資料集包含訂單日期、客戶 ID、商品編號和金額,主要供行銷部門做 RFM 分析(依購買頻率和金額把客戶分群的方法),目標是提升再行銷轉換率」——AI 就會自動產出完整的 ODPC Catalog YAML,包含欄位定義、業務目的、使用情境和資料關聯圖,我只需稍作確認就能上傳到資料目錄。原本半天的工作縮短到幾分鐘。