AI 每日彙整

LLM 自我改進有數學硬上限

What is this

2026 年 2 月，英國倫敦國王學院的研究員 Hector Zenil 發表了一篇數學論文，從理論層面挑戰了「AI 可以遞迴自我改進、最終超越人類」這個廣泛流傳的假設。所謂「遞迴自我改進」，是指 AI 用自己產生的輸出來訓練自己、讓自己越來越強——這是很多人相信 AI 最終會爆炸式進化（即所謂「技術奇點」）的核心前提。論文用三條數學定理嚴格證明：任何 AI 系統若只靠自身輸出閉環訓練，必然會走向「模型崩潰」（model collapse）——意思是 AI 越練越退步、輸出的多樣性越來越少、最後只剩少數重複的模式。唯一能打破這個命運的辦法，是每一輪訓練都引入來自外部、不可偽造的真實反饋訊號；目前許多 AI 公司仰賴的「讓模型自我迭代來壓低成本」路線，在數學層面遭到正面挑戰。

Use case

假設某間 AI 新創公司想讓自家大型語言模型（LLM，就是 ChatGPT 這種會回答問題、寫程式、做摘要的 AI）越來越聰明，同時節省標資料的費用。他們的計畫是：讓現有模型自己生成一萬組問答，再把這些問答拿來訓練下一版模型，如此反覆循環——聽起來省錢又有效率。但這篇論文的數學定理指出問題所在：每一輪「AI 教 AI」，模型接觸到的資訊分佈都會變得更窄、更單調；那些在真實世界中罕見但重要的知識（例如某個少被討論的科學事實、某種偏門但正確的程式寫法），會在一代代訓練後迅速消失，最後模型只剩常見廢話能說。相對地，AlphaZero（Google 開發的下棋 AI）之所以能靠自我對弈越來越強，是因為棋盤規則本身就是一個「完美的外部裁判」——每一步的對錯有絕對答案，不需要靠自己的輸出來評分。現實世界的大多數任務沒有這種完美裁判，因此這家新創若不在每一輪訓練中加入人類標注的新資料或真實世界的外部反饋，理論上就無法避免崩潰。

dailyRead more →

Mistral Workflows 企業 AI 工作流編排服務

What is this

Mistral AI（一家法國 AI 公司，以推出開源語言模型著名）正式推出 Workflows，一款針對企業的 AI 工作流程編排平台（「編排」就是讓多個 AI 任務可以自動串接、排程執行、出錯時自動重試的管理系統）。底層採用 Temporal 耐久執行引擎（這是一種即使程式崩潰或網路中斷，也能自動恢復工作進度的技術，Netflix、Stripe、Salesforce 都在用同樣基礎架構）。Workflows 最大特色是「控制與資料分離」的設計：Mistral 的伺服器只負責排程與調度，企業的實際資料和商業邏輯全程保留在企業自己的 Kubernetes 伺服器環境（Kubernetes 是一種管理大量容器應用程式的系統），支援在客戶自己的雲端、本地機房或混合環境部署，適合有資料主權（就是資料不能離開本國或公司內部）要求的金融、政府、航運等行業。目前已有 ASML（荷蘭半導體設備商）、CMA-CGM（全球大型航運公司）、France Travail（法國政府就業機構）等高合規需求企業採用，每天執行數百萬次流程。

Use case

假設我是一家銀行的工程師，要建立一套「企業貸款申請自動審核流程」：客戶提交申請 → AI 讀取並分析文件 → AI 計算信用評分 → 若申請金額超過門檻，暫停流程等待人工主管審批 → 主管線上同意後繼續 → 自動發出核准通知。舊做法需要自己串接 Celery（Python 的任務佇列工具）或 Prefect（開源工作流程工具），還得自己寫程式碼處理任務失敗重試、分散式追蹤、權限控管，整套架構複雜，也很容易在某個環節「靜默失敗」（任務沒跑完但也不報錯，工程師根本不知道）。改用 Mistral Workflows SDK v3.0，開發者只需在 Python 函式上加幾行 decorator（裝飾器，一種在函式執行前後自動插入額外行為的語法糖），重試策略、超時控制、完整執行日誌就全部自動處理；要插入人工審批暫停點，只需寫一行 wait_for_input()，主管線上審批後流程自動繼續。整個流程的資料都不離開銀行自己的伺服器，完全符合金融監管對資料落地的要求。

dailyRead more →

OpenAI 三大服務登陸 AWS Bedrock

What is this

OpenAI（就是做 ChatGPT 的那家公司）和 Amazon 宣布合作，把三項重要服務放上 AWS（亞馬遜雲端平台）旗下的 AI 服務平台 Amazon Bedrock（一個讓企業統一存取、管理各種 AI 模型的地方）。這三項服務是：第一，OpenAI 最先進的 AI 模型，可透過 Bedrock 的統一介面呼叫；第二，Codex（一個每週有 400 萬活躍使用者的 AI 自動寫程式工具）；第三，Bedrock Managed Agents（一種能自動規劃、執行複雜任務的 AI 代理系統（也就是能獨立幫你處理多步驟工作的 AI 程式））。企業現在可以直接用 AWS 原有的帳號驗證、安全管控體系使用 OpenAI 的服務，省去自行申請 OpenAI API 金鑰（類似密碼的存取憑證）和建置安全紀錄的麻煩。這次合作得以成真，是因為 OpenAI 修改了原本與微軟的獨家合作條款，解除了 AWS 提供 OpenAI 服務的限制；Amazon 也同時是 OpenAI 最新一輪 500 億美元融資的主要投資方。

Use case

假設我是一家把系統架在 AWS 上的企業，想讓工程師用 Codex（AI 輔助寫程式工具）提升開發速度。以往的做法：工程師要各自申請 OpenAI 帳號、管理 API 金鑰，IT 部門還要另外建立使用記錄才能應付公司或法規的稽核（使用行為審查）要求，兩套體系並行、管理麻煩。現在透過 Bedrock，公司只要在 AWS IAM（AWS 的身份與權限管理系統，類似公司內部門禁）裡開放對應角色，工程師就能直接用公司 AWS 帳號登入使用 Codex，每一次 AI 操作都自動寫入 CloudTrail（AWS 的操作日誌系統），安全部門完全不用額外建置稽核機制；這筆費用也可直接計入現有的 AWS 採購合約，不需走另一條採購流程。換句話說，導入前需要準備兩套憑證管理 + 兩套稽核流程，導入後全部合而為一。

dailyRead more →

NVIDIA Nemotron 3 開源五模態大模型

What is this

NVIDIA（製造 AI 晶片的公司，也做 AI 軟體）發布了一款全新的開源 AI 模型，叫 Nemotron 3 Nano Omni。這款模型採用 MoE（Mixture-of-Experts，混合專家，就是把一個大模型拆成很多小「專家」，每次只叫一部分出來工作，省算力但知識量不減）架構，總共有 300 億個參數（可以理解為模型的「記憶格」），但每次實際運算只用到 30 億，讓它可以在一張家用等級的 GPU（顯示卡）上跑起來。這個模型同時支援五種輸入：文字、圖片、文件（PDF 等）、影片和音訊，號稱是同尺寸開源多模態模型中表現最強的。和同規模的競爭者（Qwen3-Omni 30B）相比，它的推理吞吐量高出 9 倍、速度快 2.9 倍，而且現在已可免費在 Hugging Face 下載使用，Palantir、Foxconn、H Company 等大企業已率先導入。

Use case

假設我是一家法律公司的文件審核員，每天要審核幾百份合約 PDF，同時還要確認附件裡的影片錄影內容和音訊通話記錄是否與合約條款一致。以前的做法是：PDF 用 OCR 工具（光學文字辨識，把掃描文件轉成可讀文字）處理，影片另外用影片辨識服務，音訊再送去語音轉文字，最後三份結果人工交叉比對——涉及三套系統、至少雙倍人力。現在用 Nemotron 3 Nano Omni，可以把 PDF、影片、音訊一起丟進同一個模型，它的 256K 超長上下文視窗（能一次記住超過 500 頁的內容）讓模型直接跨格式比對矛盾點，輸出「第 12 頁合約條款與第 3 分 27 秒音訊內容不符」這類具體結論。整個流程只需一套系統，省去三套工具的授權費和整合成本；在文件理解 benchmark（MMLongBench-Doc）上，Nemotron 3 得分 57.5，同規模競爭對手 Qwen3-Omni 僅 49.5，差距約 16%。

dailyRead more →

DeepSeek-V4 長文推理架構突破

What is this

DeepSeek（中國知名 AI 研究機構）發布新一代語言模型 DeepSeek-V4，主打支援「百萬 token（token 是文字的基本單位，一百萬 token 大約等於七十五萬字英文或三、四十萬字中文）上下文視窗」。不過分析者強調，真正的突破不是「能吃進多少文字」，而是「能不能真的用好這些文字」——很多模型表面支援長文，實際上到後段就開始搞錯重點、忽略前面的資訊，甚至憑空捏造（稱為「幻覺」），原因在於 KV 快取（模型暫存歷史對話的記憶體機制）在超長文字時會耗盡或混亂。DeepSeek-V4 的設計哲學是：百萬 token 級的智慧需要全面重建底層架構，包括記憶層次結構（讓模型像電腦一樣分層管理不同重要程度的資訊）、注意力機制（讓模型精準定位長文中真正關鍵的段落）、訓練穩定器（防止模型在超長序列訓練時崩潰）、量化方式（把模型壓縮得更小但不失精度），以及能撐住推論成本的部署架構。這不只是一次「更大模型」的公告，更像一篇系統工程論文，提出讓長文推理真正可用的完整解決方案。

Use case

假設你是律師，需要同時審閱一份三百頁的商業合約、五十頁的相關法規說明和二十頁的先前判例，想問 AI：「這份合約第 47 條的違約條款，是否與勞基法第 12 條衝突？若有衝突，依照過去判例，法院通常會怎麼裁定？」。舊做法：因為一般 AI 工具的文字上限只有幾萬字，你必須自己先把三份文件手動切成小段，分批餵進去，但 AI 每次只看到片段，無法掌握全貌，很容易漏掉跨段落的邏輯關係而答錯；即使使用號稱「支援長文」的模型，若底層架構設計不佳，模型仍會在幾十萬字裡「迷失」——前面出現的關鍵資訊到後面已記不住。新做法：用 DeepSeek-V4 可以把三份文件共幾十萬字一次放入，模型透過新的記憶層次架構和注意力機制，能跨越文件邊界精準定位合約第 47 條、法規條文、相關判例三處的資訊，整合後給出有根據的分析，而不是回答「我找不到相關資訊」或給出前後矛盾的片段答案。

sequenceRead more →

vLLM 0.20 大幅提升推理效能

What is this

vLLM（一個廣受 AI 工程師使用的開源推理框架，讓工程師能在公司自己的伺服器上高效執行大型 AI 語言模型，不必把資料送到雲端）發布了 0.20 版本，帶來多項重大效能改進。其中最顯著的是 TurboQuant 2-bit KV cache（一種記憶體壓縮技術，把模型運算過程中必須暫存的中間資料縮小至原本的四分之一），讓同一張 GPU 能夠同時服務多出許多的使用者請求。這次更新同時重新啟用 FA4（針對最新 NVIDIA H100 系列 GPU 設計的注意力計算加速），並加入 fused RMSNorm（把原本分開執行的多道計算步驟合併成一次），整體回應延遲降低約 2.1%。此外，新版本全面支援 DeepSeek V4 MegaMoE（中國 AI 實驗室 DeepSeek 最新推出的超大混合專家模型，每次推理只啟動一部分參數以節省算力），可在 NVIDIA 最新 Blackwell 架構晶片上直接運行，並同步支援 Jetson Thor、ROCm（AMD GPU）及 Intel XPU 等非 NVIDIA 硬體。

Use case

假設你是一家中型企業的 AI 工程師，負責在公司內網伺服器部署開源大語言模型供 100 位同事使用。升級 vLLM 0.20 之前，GPU 記憶體被 KV cache 佔滿，尖峰時段只能同時處理 10 個問答請求，其他人必須排隊等待。升級後，TurboQuant 2-bit 壓縮讓 KV cache 記憶體佔用縮減 75%，相同硬體理論上可同時服務約 40 個請求；加上延遲降低 2%，每次回答稍微更快。如果公司決定換用 DeepSeek V4 這類更大的開源模型，新版本的 MegaMoE 支援讓你直接在現有 Blackwell GPU 上跑起來，不必再等社群另外開發適配補丁——整個流程從「買到新模型、裝上去、上線」縮短到當天就能完成。

swyxRead more →

Claude 打通 Adobe 等創意軟體

What is this

Anthropic（開發 Claude 這個 AI 助理的公司）推出了一系列「連接器」（就是讓 Claude 能跟其他軟體直接溝通的橋樑程式），讓 Claude 可以在 Adobe（平面設計/影片剪輯軟體）、Blender（3D 建模軟體）和 Autodesk（工程與設計工具）等主流創意軟體裡直接運作。有了這些連接器，使用者可以用自然語言（就是平常說話的方式，不用背指令或寫程式）向 Claude 下達任務，讓 AI 代替你在軟體裡完成一連串操作。這個整合還支援自動化（讓 AI 自動執行重複性工作步驟，不用一個一個點）和跨工具流程（不同軟體之間可以互相串接，比如設計稿直接丟進 3D 軟體生成模型）。主要應用場景涵蓋平面設計、3D 建模和音訊製作，創意工作者不需要離開熟悉的軟體介面就能呼叫 AI 協助。

Use case

假設我是一位 3D 藝術家，正在 Blender 裡做一個城市場景，需要幫場景裡二十棟建築逐一套上材質（就是讓物件表面看起來像磚牆、玻璃或金屬的視覺設定）和燈光調整。以前我需要手動點開每棟建築的材質面板、一個一個設定參數，光這個步驟就要花掉幾個小時。有了 Claude 的 Blender 連接器，我可以直接打字：「幫所有建築套上現代玻璃幕牆材質，整體場景打冷白色夜間燈光」，Claude 就能解讀指令並在 Blender 裡執行對應操作，把幾小時的手工設定壓縮成幾分鐘。與以前相比的差異是：以前我得把大量時間花在「操作軟體」，現在只需要描述「我要什麼結果」，創意決策與執行之間的摩擦大幅降低。

📰 每日 AI 彙整