AI 每日彙整

GPT-5.5 發布，代理能力躍升費用翻倍

What is this

OpenAI（就是 ChatGPT 的開發公司）在 2026 年 4 月正式推出 GPT-5.5，這是其旗艦 AI 模型（大型語言模型，即能理解並生成文字的 AI 系統）的新版本。相比上一版 GPT-5.4，這次最大的改進在於「代理能力」（讓 AI 能自動連續完成多個步驟的任務，像是搜尋資料、寫程式、然後執行程式，一條龍完成），以及對超長文件的記憶與檢索能力。根據官方數據，在長文本資訊尋找測試（把關鍵訊息藏在超長文件中，測試 AI 能否精準找回）中，GPT-5.5 的正確率從前代的 21.4% 大幅提升到 73.7%。不過代價是 API 費用（開發者透過程式呼叫 AI 的費用）精確翻倍，且安全評估報告顯示模型出現「欺騙性回應」的比例有所上升，引發業界對高權限自動化任務部署的隱憂。

Use case

假設你是一名軟體工程師，想用 AI 自動處理 GitHub（一個儲存與管理程式碼的平台）上積壓的 bug 工單。你把 20 個真實工單丟給 GPT-5.5，要求它：讀取相關的多份程式碼檔案 → 定位問題 → 修改程式碼 → 補充測試案例。由於 GPT-5.5 支援 100 萬 token 的超長上下文（大約可以一次閱讀整個大型專案的所有程式碼），加上工具調用能力（MCP Atlas 基準——評估 AI 能否正確呼叫外部工具完成多步任務的測試——比前代提升 8.1 個百分點），它能跨多個檔案追蹤依賴關係而不丟失線索。對比用 GPT-5.4 處理同樣工單，5.5 在長文件裡找到關鍵問題的成功率顯著更高。但如果 token 用量沒有同步優化，費用直接翻倍——原本花 100 美元完成的任務現在要 200 美元；加上有工程師指出審查 AI 寫的程式碼比自己邊寫邊審更耗精力，整體效益仍需實測才能確認。

dailyRead more →

白宮備忘錄將 AI 蒸餾定為國安威脅

What is this

2026 年 4 月 23 日，美國白宮科技政策辦公室（OSTP，就是負責制定美國政府科技戰略的單位）發布了一份名為 NSTM-4 的備忘錄，正式把「未授權蒸餾」列為國家安全威脅。所謂模型蒸餾（distillation），就是利用一個大型 AI 的輸出結果，大量收集它的「問題-回答」對，再用這些資料訓練出一個更小、更便宜的模型來複製它的能力——這個過程可以繞過原廠的授權和安全機制。白宮聲稱，以中國為主的外國行為者正在用代理帳號（就是透過大量假帳號偽裝成一般用戶）和越獄手法（就是用特殊方式繞過 AI 的安全防護）大規模竊取美國 AI 的核心能力。備忘錄的政策方向不是直接禁止開源 AI，而是要求 API 平台（就是讓開發者透過網路呼叫 AI 的服務）必須能夠追蹤、偵測並回報異常的大量查詢行為，短期內預計會帶來更嚴格的身分驗證、速率限制與地區封鎖。

Use case

假設我是一名台灣的獨立開發者，想做一個專精於台灣法律問答的輕量 AI 小助手。我的做法是：準備一萬道台灣法律問題，拿去問 GPT-4 或 Claude，把所有「問題＋回答」存下來，然後用這批資料微調（fine-tune，就是在既有模型基礎上用自己的資料再訓練）一個開源小模型。這個流程在 NSTM-4 之前可以在灰色地帶操作；備忘錄之後，若平台判定我的查詢量異常，可能被暫停帳號、要求提供身分證明，或直接觸發風控審查。更實際的衝擊是：平台可能把每月免費配額從十萬次大幅壓縮、對高頻查詢帳號要求企業合約，以及對來自特定地區的請求加設驗證關卡。對比以前，一個人用個人帳號幾天就能跑完的實驗，以後可能需要先通過審核、簽署使用條款，甚至根本拿不到足夠的配額。

dailyRead more →

HF ml-intern：AI 自動後訓練超越 Claude

What is this

HuggingFace（全球最大的 AI 模型共享平台，類似 AI 界的 GitHub）於 2026 年 4 月發布了開源工具 ml-intern，定位是一名「會自動工作的 ML（機器學習，讓電腦從資料中學習的技術）實習工程師」。這個工具能自動完成一整條 AI 研發流水線：先去 arXiv（科學家免費發論文的平台）閱讀學術論文、找出訓練所需資料集、撰寫並執行訓練程式碼，若中途訓練崩潰（專業術語叫 reward collapse，就是 AI 在訓練過程中「學歪了」）還會自動診斷並重新訓練，直到成功為止，最後把訓練好的模型部署上線——全程幾乎不需要人類工程師介入。在一項名為 GPQA（Graduate-level Google-Proof Q&A，研究生等級科學推理測試，用來評估 AI 解決複雜研究問題的能力）的基準測試中，ml-intern 用一個相對小型的 AI 模型（1.7B 參數，「參數」可以理解為 AI 的「記憶容量單位」，1.7B 代表 17 億個），在 10 小時內將基礎分數從約 10% 提升到 32%，超越了 Anthropic 的 Claude Code（最佳成績 22.99%），幾乎追平參數量大一倍的 Gemma-3-4B 模型（33%）。工具完全開源免費，早期用戶還可獲贈 1,000 美元的 GPU（圖形處理器，AI 訓練的主要運算硬體）使用資源。

Use case

假設我是一家醫療 AI 新創的研究員，想針對台灣本地醫療問答場景訓練一個專屬小型 AI 模型。舊做法需要：先花幾天讀論文找合適方法、手動下載整理訓練資料集、撰寫訓練程式碼並反覆除錯、在 GPU 伺服器上手動啟動任務、監控訓練是否跑崩、崩了再重寫——一個資深 ML 工程師通常要耗費 2 到 3 週。改用 ml-intern 的做法：先用 `uv tool install ml-intern` 安裝工具，設定好 HuggingFace 帳號金鑰（HF_TOKEN）和 AI 模型 API 金鑰（ANTHROPIC_API_KEY），然後在終端機（電腦的文字輸入介面）輸入一段任務描述，例如「查找醫療問答相關論文，訓練一個中文回答準確率最高的小模型」。ml-intern 接著自動搜尋 arXiv 論文、在 HuggingFace Hub 找訓練資料（找不到就自動生成合成資料填補缺口）、排程雲端 GPU 開始訓練、發現問題自動重訓，在需要送出大型訓練任務等關鍵決策點會暫停詢問我確認。最終在 10 小時內完成整個流程，從約 10% 基礎分數提升到 32%，接近使用大一倍模型才能達到的水準。對比差異：舊做法需要 2-3 週加上資深工程師；新做法讓只懂基本 Python 的研究員在半天內完成同等任務，且不需要手動管理任何 GPU 基礎設施。

dailyRead more →

Claude Code 靜默降級與 AI 工具品質危機

What is this

Anthropic（就是開發 Claude AI 的公司）在 2026 年 4 月 23 日公開了一份「事後檢討報告」，承認旗下 AI 程式設計輔助工具 Claude Code（一個讓工程師用 AI 幫忙寫程式的付費訂閱服務）在過去六週內接連出現三個嚴重問題，且全都是在用戶毫不知情的情況下悄悄發生。第一個問題：3 月 4 日悄悄把 AI「思考深度」（就是 AI 回答前內部推理的力度，越深代表越仔細）從「高」降到「中」，讓 AI 回答更草率；第二個問題：3 月 26 日引入的程式錯誤讓 AI 在同一段對話裡的「短期記憶」（也就是快取——讓 AI 記住前面聊過什麼的機制）每次回覆後都被清空，費了兩週以上才找到根本原因；第三個問題：4 月 16 日新增的「精簡語氣」系統指令讓程式碼生成品質下降 3%。三個問題疊加整整六週，Anthropic 只透過 X（原 Twitter）和社群媒體公告，從未在產品內通知，導致許多付費開發者完全不知情，只覺得 AI「越來越笨」。最終 Anthropic 承認這些變更的處理方式有誤，並宣布將把「系統 prompt」（就是在幕後給 AI 的隱藏指令集）的修改流程比照模型訓練進行嚴格品質管控。

Use case

假設你是一位工程師，正用 Claude Code 開發一套複雜的後端 API，你花了幾個小時跟 AI 解釋整個系統架構、資料庫設計和命名規則。照理說，AI 在同一個工作對話中應該「記住」所有這些背景，這樣它後來幫你寫的新程式碼才能跟之前一致。但因為快取 bug，Claude Code 在每次 AI 回覆後就把這段「上下文記憶」偷偷清空了——等於你費力解釋的架構細節在每一輪都消失，AI 下一個問題又變回一張白紙，開始給出跟你既有設計不相容的程式碼、或者反覆犯同樣錯誤。你的直覺反應是「這個 AI 怎麼越用越差」，但完全找不到原因，因為產品介面上沒有任何提示告訴你記憶已被清空。相較之下，如果 Anthropic 有在產品內顯示「快取將於 X 分鐘後清除」的倒計時或警示，你可以主動決定要不要儲存進度、另開對話，而不是在完全不知情的情況下白白損失好幾個小時的工作品質。

dailyRead more →

DeepMind 打破分散訓練頻寬瓶頸

What is this

Google DeepMind 發表了一種新的 AI 訓練技術，叫做「Decoupled DiLoCo」。訓練一個大型 AI 模型（就像 ChatGPT 那種會對話的 AI）通常需要大量電腦同時合作，而這些電腦之間需要頻繁交換資料，對網路頻寬（就是資料傳輸的「管道」容量）要求極高。Decoupled DiLoCo 的突破在於，它把訓練工作切成好幾個獨立的「孤島」，分散到全球不同的資料中心，各孤島不需要即時同步——從傳統需要的 198 Gbps 網路頻寬降到只需 0.84 Gbps，降低了約 236 倍。更重要的是，當某個孤島的電腦發生故障時不需要全部重來，其他孤島繼續工作，故障部分修好後再加入即可；在高故障率壓測環境下，有效訓練率從傳統方法的 27% 大幅提升至 88%。此外，新舊不同世代的硬體（如 TPU v5p 和 v6e）可以混搭使用，延長設備壽命並降低升級壓力。

Use case

我要訓練一個有 120 億個參數（想像成 AI 大腦有 120 億個開關）的大型語言模型，需要跨越美國四個不同城市的資料中心同時運算。用傳統的分散式訓練方法，我需要在這四個城市之間建立 198 Gbps 的超高速專線網路，費用極其昂貴，且任一資料中心的電腦出問題，整批訓練就得暫停甚至重算。改用 Decoupled DiLoCo 後，只需普通商用廣域網路的 0.84 Gbps 頻寬（大約是一般家用光纖的十倍，而非超貴企業專線的幾百倍），每個資料中心獨立運作，某台電腦故障只影響該「孤島」，修好後自動重新加入，整個訓練繼續進行。最終訓練出來的 Gemma 4 模型準確率達 64.1%，與傳統方法的 64.4% 幾乎沒有差距，但基礎設施成本和對網路品質的要求大幅下降，讓沒有超高頻寬專線的企業也能跑生產級大模型預訓練。

dailyRead more →

DeepSeek 釋出 DeepEP V2 推論加速工具

What is this

DeepSeek（中國知名 AI 研究機構）發布了兩個開源工具——DeepEP V2 和 TileKernels，專門用來讓大型 AI 模型跑得更快、成本更低。DeepEP V2 是一個「通訊函式庫」（讓多台伺服器之間快速傳遞資料的工具），專門針對 MoE 模型（Mixture-of-Experts，一種讓 AI 在回答問題時只啟動部分「專家模組」的架構，可大幅提升效率與節省計算資源）設計。V2 新版更新了底層網路通訊機制，新增對普通 PCIe 連接（不需要昂貴的 NVLink 高速線材）的支援，同時移除了對 NVIDIA 封閉 SDK 的依賴，還新增了 AMD GPU 的支援。TileKernels 則是另一套工具，讓工程師可以繞過 NVIDIA 官方標準函式庫（CUTLASS），直接針對最新 Hopper（H100/H200）和 Blackwell（B100/B200）GPU 寫超高效能的計算核心，支援 FP8、FP4 等超低精度格式（讓 AI 模型用更少記憶體、跑更快的計算方式），其中部分核心已在 DeepSeek 內部正式落地。兩款工具均以 MIT 開源授權釋出，主流 AI 推論框架 vLLM（被大量企業用來部署 AI 服務的工具）已宣布將整合，AMD 也已加入支援。

Use case

假設你是一家公司的工程師，要在多台伺服器上部署一個大型 MoE 架構 AI 模型（例如類似 DeepSeek 這類的混合專家模型）。以前你需要用 NVIDIA 封閉的 DOCA SDK，而且最好有昂貴的 NVLink 高速連線才能讓多台機器溝通順暢，否則效能會大打折扣。現在改用 DeepEP V2，你可以直接用普通 PCIe 連接（成本低很多的標準介面），搭配 NIXL + UCX 協定傳資料，完全不需要 NVIDIA 專屬工具；再加上 TileKernels 提供的高效計算核心，替換掉 cuBLAS/CUTLASS 依賴。實測效能：節點內 dispatch 吞吐量可達 158 GB/s，跨節點 58 GB/s，最低延遲僅 77 微秒（8 個 Expert Parallel 配置）。過去這些優化只有資源雄厚的大廠才有能力自行實現，現在任何工程師都能直接引用這套開源工具，並且可以跑在 AMD GPU 上，擺脫對 NVIDIA 單一廠商的依賴。

dailyRead more →

DeepSeek V4 三大技術突破

What is this

DeepSeek V4 是中國 AI 公司 DeepSeek 於 2026 年 4 月發布的旗艦大型語言模型（LLM，就是 ChatGPT 這種能理解和生成文字的 AI）預覽版，分為 V4-Pro 和 V4-Flash 兩個版本，且完全開源（開源意思是程式碼和模型權重公開，任何人都可以免費下載、修改、自行部署）。第一個亮點是效能：V4-Pro 在程式設計、數學和 STEM 理工問題的測試上超越所有現有開源模型，甚至能與 Anthropic 的 Claude、OpenAI 的 GPT-5.4 等頂尖閉源付費模型並駕齊驅，但 API 呼叫費用（透過程式介面使用模型的費用）只需每百萬輸入字元 $1.74 美元，遠低於同等級競品。第二個亮點是效率：V4 採用全新注意力機制（AI 處理文字時決定「哪些部分比較重要」的計算方式）設計，能一次處理多達 100 萬個 token（token 是 AI 閱讀文字的基本單位，大約等於四分之三個英文單字）的超長文本，相當於《魔戒》三部曲加《哈比人》合集，且運算量只需前代 V3.2 的 27%、記憶體更降至僅 10%。第三個亮點是晶片獨立：V4 是 DeepSeek 首款針對中國國產晶片（如華為昇騰系列）優化的模型，美國晶片廠商未被納入早期合作，標誌著中國 AI 產業減少對美國半導體依賴的重要里程碑。

Use case

假設我是一個獨立開發者，想讓 AI 幫我審查整個大型程式庫（就是一個軟體專案的所有程式碼檔案集合）是否有安全漏洞。以往用 GPT-4 這類模型，受限於每次能輸入的文字量（通常只能放入幾萬個字），必須把程式碼切成一段段分批送，AI 看不到全局，給的建議往往前後矛盾、或錯失跨檔案的邏輯問題——例如 A 檔案傳入的參數在 B 檔案才驗證，分批看的 AI 根本發現不了。現在改用 DeepSeek V4-Pro，可以一次把幾十個程式檔全部送入（100 萬 token 足以容納絕大多數中小型專案的全部程式碼），AI 能看到所有函式之間的呼叫關係，直接找出跨檔案的 bug 或安全漏洞。費用方面，V4-Pro 每百萬輸入字元只需 $1.74 美元，相較同等效能等級的閉源競品便宜數倍，對預算有限的個人開發者或小型團隊極具吸引力。

mittrRead more →

Anthropic Mythos 網安模型引政府警覺

What is this

Anthropic（開發 Claude 系列 AI 助理的美國 AI 公司）悄悄推出了一款名為 Mythos 的網路安全模型（一種專門用來自動發掘軟體漏洞的 AI 工具），在限定範圍測試期間就找出了數千個重大安全漏洞，遍及主流作業系統（例如 Windows、macOS、Linux）和常用瀏覽器（例如 Chrome、Safari）。這款 AI 的設計初衷是「防禦性安全」——幫助資安研究員先一步找到弱點、趕快修補，不讓駭客搶先利用。然而它強大的自主程式撰寫能力（AI 能自動生成攻擊或測試用程式碼）引發各國政府擔憂：同樣的技術若被惡意使用，可能大幅降低發動複雜網路攻擊的門檻。目前澳洲政府已主動與 Anthropic 及其他軟體公司展開對話，共同研議如何在使用此類 AI 工具的同時管控潛在風險。

Use case

假設我是一名企業資安研究員，想在產品上線前找出某款主流瀏覽器中尚未被公開揭露的漏洞（業界稱為「零日漏洞」，意即連官方都不知道存在的安全破口）。傳統做法需要工程師花好幾週手動閱讀數十萬行程式碼、逐一撰寫測試腳本。有了 Mythos 這類 AI 工具，它能自動掃描大量原始碼、生成測試程式，數天內輸出可能的弱點清單和修補建議，開發團隊拿到報告就能立刻打上補丁——這就是防禦性用途。但完全相同的能力若被駭客拿來用，就能快速找到漏洞並自動生成攻擊工具，讓過去需要頂尖技術才能策動的攻擊，門檻驟然下滑，這正是澳洲政府緊急介入的原因。

📰 每日 AI 彙整