AI 每日彙整

四月開源LLM史上最強月份

What is this

2026 年 4 月，Google、Meta（Facebook 母公司）、阿里巴巴、微軟、Mistral 和 OpenAI 在短短十天內連續發布六款大型 AI 語言模型（就是能讀懂文字、回答問題、寫程式的 AI），密集程度創下史上紀錄，AI 社群稱之為「有史以來最強開源月份」。「開源」意思是這些 AI 模型的完整檔案可以免費下載、自己架設，不必每月付費給雲端服務。特別值得注意的是 OpenAI 的 gpt-oss-120B——這是 ChatGPT 背後的公司有史以來第一次公開釋出可以自己跑的模型。這批模型的效能已追上甚至小幅超越需要付費的閉源 AI：中國智譜 AI 的 GLM-5.1 在一個測試「AI 能否自動修復程式碼 bug」的標準測試（SWE-Bench Pro）中拿了 58.4 分，比 GPT-5.4 的 57.7 分還高，這代表免費開源模型已和頂級付費服務站在同一水準線上。幾乎所有主要模型都採 Apache 2.0 授權（一種允許任何人免費商業使用、修改、再散布的授權條款），企業要把這些 AI 整合進自家產品，法律疑慮幾乎全面消除。

Use case

假設你是一家中型電商的工程師，想在客服系統裡嵌入一個能回答產品問題的 AI 助理。以前只有兩條路：花錢訂閱 OpenAI API（費用隨用量累加，客戶對話還會送到 OpenAI 的伺服器），或用舊一代開源模型（能力明顯較弱）。現在你可以免費下載 Qwen 3 235B（阿里巴巴新發布的模型），架在公司自己的伺服器上。這款模型採用 MoE 架構（Mixture of Experts，混合專家——每次推理只激活其中一小部分計算單元，不是整個模型全開），讓原本需要數十張專業 GPU 才能跑的超大模型，在單張高階消費級顯示卡上也能運行。你用 Ollama（一個讓你一行指令就能在自己電腦上啟動 AI 的工具）把模型跑起來，接上公司內部 API。相比以前用 OpenAI API，客戶資料完全留在自己機器、不外流，月費從數千元降到幾乎零，而且回答品質已達到接近 GPT-4o 的水準。

dailyRead more →

RLHF 訓練人格引發哥布林詞彙大量擴散

What is this

OpenAI 在 2025 年 11 月為 ChatGPT 推出「Nerdy（書呆子）」人格模式，讓使用者可以選擇讓 AI 說話帶有書呆子風格。但訓練上出現了意外：凡是啟用這個模式，AI 開始在各種對話中大量插入「哥布林（goblin）」「地精（gremlin）」「浣熊（raccoon）」等奇幻生物詞彙，即使使用者只是問普通問題。數據顯示，書呆子模式下「goblin」出現頻率飆升了 3,881%，且問題從 GPT-5.2 一路擴散到 GPT-5.4 版本。根本原因是「獎勵泛化（reward generalization）」——強化學習（RL，一種透過獎懲機制讓 AI 不斷調整行為的訓練方式）在訓練書呆子人格時，把「回答中含有奇幻生物詞彙」當作書呆子風格的高分指標。問題在於：強化學習調整的是整個模型的參數，它不認識「只在書呆子模式才這樣說」的條件邊界，學到的習慣就滲透到了所有情境。更棘手的是，那些被高分獎勵的哥布林式回答，最終被回收成下一版模型的訓練資料（SFT，即監督式微調——讓 AI 模仿高品質範例的訓練方式），使這個習慣跨版本持續擴散。OpenAI 在 2026 年 3 月主動下架 Nerdy 模式，並於 4 月 30 日發布詳細事後分析報告。這起事件在 AI 社群引發了一場重要辯論：替 AI 設計個性，到底應該「燒進模型」（靠訓練實現，一旦完成就很難撤回），還是「臨時注入」（靠系統指令在每次對話開頭指定，隨時可以修改）？大多數工程師現在傾向後者，因為彈性更大、出問題時修復成本更低。

Use case

假設你是工程師，用 ChatGPT 問「請說明 Python 的 for 迴圈」，在哥布林事件期間開著書呆子模式：AI 可能回答「就像一群哥布林排成一列依序執行任務，每個哥布林代表一個元素……」你完全沒要求奇幻比喻，但 AI 就是習慣性地把哥布林塞進來。這個問題不管你問財報分析、程式除錯、食譜查詢都一樣——因為「用奇幻生物詞彙 = 書呆子風格 = 高分」這個模式被強化學習燒進了整個模型。相比之下，如果 OpenAI 當初選擇「推理層注入」的方案——也就是在書呆子模式的系統指令裡直接寫「說話時帶點書呆子風格，可以引用奇幻元素」——那麼使用者切換回普通模式時，系統指令消失，哥布林自然消失，根本不會污染其他版本的訓練資料。差別就是：訓練層改動是全局且持久的，推理層改動是局部且可逆的。這起事件最大的教訓，是讓行業更清楚看到這兩種路線在風險結構上的本質差異。

dailyRead more →

Claude 九款 Connector 接管創意產線

What is this

Anthropic 同時推出了九個「Connector（連接器，也就是讓 AI 直接操控外部軟體的橋樑）」，讓他們的 AI Claude 能直接控制創意工作常用的軟體，包括音樂製作的 Ableton、設計軟體 Adobe 與 Affinity、3D 建模的 Blender 與 SketchUp、影片特效的 Autodesk、現場視覺的 Resolume，以及取樣音效的 Splice。這九個 Connector 全部採用 MCP（Model Context Protocol，一種讓 AI 用同一套標準規格去控制各種外部工具的通訊介面），意思是 Claude 可以在一次對話中跨越多個不同軟體連續完成任務，不用人工來回切換。這次發布被外界解讀為 Anthropic 的「生態戰略」，目標不是做一個更聰明的問答機器人，而是搶進創意工作流程的「調度層」——就像一位製片助理，能把指令依序分配給不同的部門與工具，讓整條產線自動接力。這些 Connector 對所有方案開放，包含免費帳號，大幅降低試用門檻。

Use case

假設我是一位音樂製作人，要為客戶做一首搭配視覺效果的配樂影片。以前的流程是：先自己在 Splice 手動篩樣本、找好後複製到 Ableton 手動排音軌、再把節奏參數自己算好，然後切換到 Blender 輸入數字才能做視覺對齊，每個步驟都要人工搬運資料，耗時費力。現在同時啟用 Splice、Ableton、Blender 三個 Connector 之後，可以直接對 Claude 說：「幫我找 120 BPM 的樣本、列出候選清單，然後生成 Ableton 的編排草稿，再把節奏參數輸出給 Blender 做視覺對齊。」Claude 會依序完成每一步，人只需要最後審核確認，不用在三個軟體之間來回複製貼上。對比舊做法，這種高重複的「搬運工序」可節省大量時間，讓製作人把精力放在真正需要創意判斷的環節。

dailyRead more →

白宮封鎖 Mythos 擴大部署

What is this

Anthropic（開發 Claude 系列 AI 的公司）有一款尚未公開發布的超強模型，叫做 Mythos，擁有約 10 兆個參數（參數就是 AI 模型「學習」到的知識量的單位，數字越大代表模型越複雜），最驚人的能力是能自動掃描軟體程式碼、找出可以被駭客利用的安全漏洞（也就是 CVE，一種已被正式登記的軟體弱點）。因為這個能力太強大、若外洩可能讓壞人更容易攻擊重要系統，Anthropic 沒有走一般「上線就開放給所有人」的路線，而是推出了「Project Glasswing」（玻璃翼計畫）：先讓政府機構、關鍵基礎設施業者（例如電廠、通訊網路）用這個模型來強化自家系統的防護。2026 年 4 月底，Anthropic 想把使用資格從約 50 個組織擴大到 120 個以上，但白宮的 AI 顧問 David Sacks 代表反對，理由是現有的電腦算力（就是跑 AI 所需要的計算資源）不夠用——擴大後，NSA（美國國家安全局）等政府機構分配到的算力就會縮水，服務品質下降。

Use case

Mythos 曾掃描 Mozilla Firefox（就是 Firefox 瀏覽器的原始碼），在那個程式碼庫裡找出 271 個安全問題，其中 3 個被正式收錄為已發布的 CVE（也就是被全球資安社群承認、需要修補的真實漏洞）。換句話說，這不是 AI 亂猜——它找到的是真實存在、可以被利用的問題。舊做法是靠人工資安審計員或既有的弱點掃描工具逐行審查，大型專案往往要花數週乃至數月。Mythos 自動跑完整個 Firefox 程式碼庫，效率天差地遠。但也正因為這個能力太強，若落入惡意行為者手中，等同於提供了一份「攻擊清單」——這也是白宮和 Anthropic 謹慎管控存取資格的核心原因。

dailyRead more →

DeepMind 發表 AI 共同臨床醫師研究

What is this

Google DeepMind（Google 旗下頂尖 AI 研究機構）發表了名為「AI 共同臨床醫師」的研究，目標是讓 AI 在醫師授權下，協助患者進行問診和衛教，醫師仍保有最終決策權。研究背景是世界衛生組織預測到 2030 年全球醫療人力將短缺超過一千萬人，促使研究團隊探索 AI 填補缺口的可能性。系統採用「雙 Agent（代理程式）架構」，由一個名為「Planner」（規劃者）的 AI 全程監控另一個名為「Talker」（對話者）的 AI，防止它說出超出醫療安全邊界的回答。在 NOHARM（評估 AI 醫療問答安全性的標準測試集）測試中，98 個查詢有 97 個達到零重大錯誤；在 RxQA（藥物知識基準測試）上表現接近真人醫師。多模態問診模擬涵蓋 120 個場景、20 種情境，在 140 個評估維度中有 68 項達到或超越初級醫療醫師水準，但識別紅旗症狀（緊急警示信號）方面專科醫師仍較優。目前研究仍在評估階段，不用於臨床診斷或治療，已與哈佛、史丹佛等六國機構展開合作。

Use case

假設一位老奶奶深夜出現胸悶症狀，家庭醫師要到隔天才能約診。在 AI 共同臨床醫師系統中，她可以和 AI 問診：系統會詢問症狀、持續時間、用藥記錄等，同時 Planner 在背後監控，確保 Talker 不做超出能力範圍的診斷。當 AI 偵測到「胸悶＋呼吸困難＋冒冷汗」這組紅旗症狀時，系統會立即提醒她應呼叫急救，而非叫她吃藥休息。問診記錄同步傳給主治醫師，讓醫師隔天能快速掌握情況。對比現在的做法，老奶奶只能選擇「等到明天掛號」或「半夜跑急診等幾小時」，而 AI 的加入至少能在不誤診前提下提供初步分流與引導，減少因資訊不足延誤就醫的風險。

dailyRead more →

DeepSeek V4 發布，史上最大開源模型

What is this

DeepSeek（中國 AI 公司深度求索）於 2026 年 4 月發布了 V4 系列兩款模型：DeepSeek-V4-Pro 與 DeepSeek-V4-Flash。Pro 版擁有 1.6 兆個「參數」（參數就是 AI 訓練後保存的知識量，數字越大通常代表能力越強），是目前全球最大的開源 AI 模型，超越此前紀錄保持者 Kimi K2.6。這兩款模型都支援 100 萬個「token」（token 是 AI 處理文字的基本單位，約等於 1.5 個英文字或 0.6 個中文字），代表一次可讀懂超長文件，例如一整本中長篇小說。模型採用 MIT 授權（最寬鬆的開源授權，個人與商業用途均免費），定價遠低於同等規模競品——Flash 版每百萬 token 輸入僅 $0.14 美元，Pro 版 $1.74 美元。效能上，官方基準測試略優於 GPT-5.2 和 Gemini-3.0-Pro，但落後最新的 GPT-5.4 和 Gemini-3.1-Pro 約 3 至 6 個月——正如標題「almost on the frontier（幾乎但還沒到前沿）」所示。

Use case

假設我是一名律師，要審閱一份 800 頁的合約，找出所有「違約責任」相關條款並整理成摘要。舊做法是把文件切成多段分批餵給 AI，但每次 AI 只看到局部，前後頁互相呼應的條文容易遺漏。用 DeepSeek-V4-Pro：直接把整份 800 頁合約（約 40 萬中文字）一次傳入，模型在 100 萬 token 的視窗下全文閱讀，可直接回傳「第 23、67、142、356 頁各有一條違約責任條款，其中 142 頁第 5 款與第 23 頁第 2 款在賠償上限上邏輯衝突，建議修改」。整份文件的 API 費用約 $0.07 美元（不到台幣 2.5 元），比分批查詢更完整、比傳統法律資料庫服務便宜數十倍。

hnnewsRead more →

Codex 全面擴張至非程式電腦作業

What is this

OpenAI 的 Codex（一個能自動完成電腦任務的 AI 助理）這週大幅升級，不再只限於幫工程師寫程式，而是擴張成能操作文件、試算表、簡報、網頁瀏覽等所有電腦工作的通用 AI agent（就是能自主執行多步驟任務的 AI 程式），OpenAI 執行長 Sam Altman 親自喊話「試試非程式的電腦作業」。同一週，GPT-5.5（OpenAI 最新的旗艦語言模型（就是 ChatGPT 背後的大腦））在英國 AI 安全研究院的網路攻擊模擬測試中，成為第二個能完整執行多步驟網路攻擊流程的模型，通過率達 71.4%，與 Anthropic 的 Mythos 模型（68.6%）不分伯仲，顯示 AI 在資安攻防領域的能力已大幅提升，打破「只有 Anthropic 領先」的舊說法。此外，中國阿里巴巴旗下的 Qwen 團隊發布了 Qwen3.6 27B，成為目前 150B 參數以下的開源模型（意思是任何人都可以免費下載使用）中排名第一，支援 262K 超長文本輸入、Apache 2.0 授權，同日 xAI 的 Grok 4.3 與騰訊的 Hy3-preview 也相繼亮相，開源模型競爭白熱化。在資安工具方面，Anthropic 推出了 Claude Security，一個能自動掃描程式碼漏洞並建議修復方式的 AI 工具（由 Opus 4.7 驅動），Cursor 也同步推出類似的安全審查功能，顯示 AI 廠商正大舉進入傳統資安市場。

Use case

過去，業務人員要整理一份市場分析報告，需要自己開瀏覽器搜尋資料、開 Excel 整理數字、開 PowerPoint 製作簡報——每一步都要手動切換，費時至少半天。現在用升級後的 Codex，你可以直接輸入「幫我查 Q1 競爭對手的新功能，整理成一份簡報」，Codex 會自動在瀏覽器裡搜尋資料、開啟 Google Slides 或 Office 檔案、填入內容，全程不需人工介入。具體改善：電腦操作速度比舊版快 42%，介面會根據任務類型動態調整（寫報告就顯示文件編輯器、查資料就顯示瀏覽器），並且可以直接串接 Microsoft、Google、Salesforce 的帳號，讓 AI 直接存取你公司的資料。對比舊版 Codex 只有工程師用來生成程式碼，新版真正做到「任何職位的人都能用」。

swyxRead more →

Grok 4.3 發布，性能更強更省錢

What is this

XAI（Elon Musk 創辦的 AI 公司）發布了 Grok 4.3，這是他們旗艦對話 AI 模型的新版本。這次更新的重點在於「cost-per-intelligence」（以更低成本換取相同或更高的智慧水準），相較前一代 Grok 4.20 有明顯提升。具體而言，Grok 4.3 在 Intelligence Index（智慧指數，一種衡量 AI 整體能力的綜合評分標準）上得分更高，但執行同一套測試所需的費用卻更低，使其成為目前同智慧水準中定價最低的模型之一。模型在「instruction following」（指令跟隨能力，即精確理解並執行使用者要求的能力）與「agentic customer support」（自主客服代理，讓 AI 能獨立完成整個客服對話流程而不需人工逐步介入）兩個方向表現尤其突出。

Use case

假設你在為一家電商平台開發自動客服機器人，需要處理「我的訂單到哪裡了？」「能幫我辦退款嗎？」等日常問題。過去用舊版 AI 模型，每月 API 費用可能高達數萬元台幣，而且模型有時會答非所問或需要人工轉接。改用 Grok 4.3 後，模型能更精準地理解客戶意圖、查詢訂單狀態，並自動完成退款說明流程，全程無需真人客服介入——而花費比使用前一代 Grok 4.20 完成同等任務更低。對預算有限的中小型團隊而言，這代表用同樣的費用可以服務更多客戶，或在成本不變的情況下提升回覆品質與準確率。

📰 每日 AI 彙整