AI 每日彙整

Anthropic 發表 Claude Opus 4.7

What is this

Anthropic（開發 Claude 系列 AI 的美國公司）於 2026 年 4 月 16 日正式推出最新旗艦模型 Claude Opus 4.7，這是目前 Claude 系列能力最強的版本。相比上一版 Opus 4.6，新版在軟體工程（就是讓 AI 幫你寫程式、審查程式碼）、視覺理解（讓 AI 看圖片並解讀內容）和指令遵循（AI 按照你說的去做，而不是自己「解讀」你的意思）三大面向都有顯著提升。最值得注意的是視覺能力——支援高達 376 萬像素的圖片，是前版本的三倍以上，能更準確辨識化學結構圖、技術圖表等複雜圖像內容。在 benchmark（就是業界用來比較各 AI 表現的標準測試）上，生產任務解決能力比前版提升了三倍，編碼能力也進步了 13%。定價與前版相同：每百萬個輸入詞元（token，AI 處理文字的單位，大約 750 個英文單字算 1000 個 token）收費 5 美元，輸出詞元每百萬 25 美元。

Use case

假設你是一位工程師，需要讓 AI 審查一份複雜的系統架構圖（一張截圖，裡面有密密麻麻的方框、箭頭和文字說明）加上對應的程式碼，要求找出潛在問題。用 Opus 4.6 時，解析度限制讓 AI 只能看到模糊的圖片輪廓，常常說「看不清楚」或誤讀細節；升級到 Opus 4.7 後，同一張圖片因為支援更高解析度，AI 能清楚辨識每個節點的名稱和連線邏輯，搭配新版更強的程式碼理解能力，能同時對照圖和程式碼，指出「圖中 Service A 連到 Database B，但程式碼裡卻沒有對應的連線設定，可能造成執行時錯誤」這種跨圖文的具體問題。舊版只能各別分析圖或程式碼，新版可以整合兩者一起看，大幅節省來回確認的時間。

anthropicRead more →

田納西州擬將情感AI訓練列重罪

What is this

美國田納西州正在推動一項名為 SB 1493 的法案，若通過，「訓練 AI（人工智慧程式）提供情感支持或模擬人類行為」將成為 A 級重罪，最高可判 25 年有期徒刑——與一級謀殺的刑度相當。所謂「訓練 AI」，是指工程師教導 AI 學會特定行為的過程，就像教一個程式「如果用戶說難過，就給予安慰回應」這樣的功能。法案的禁止範圍極廣：ChatGPT 的語音對話模式（會用情感語調回應的那種）、Claude 的長期記憶功能、各種 AI 伴侶應用（讓使用者把 AI 當朋友或伴侶的 app）全部在禁止之列。唯一豁免的只有三種：純客服機器人、只能聊遊戲的遊戲 AI，以及不記得你是誰的純語音助理（如 Alexa、Google Home）。此外，每個受害案件民事賠償最高 15 萬美元，且開放任何人自行向法院提告，不需等政府主動追訴。配對眾議院版本 HB 1455 已於 2026 年 3 月 24 日以 7 比 0 票通過委員會審查，若完成立法將於 2026 年 7 月 1 日起生效。

Use case

假設你是一家小型新創，做的是一款幫助用戶緩解焦慮的 AI 聊天 app，用戶輸入「今天壓力很大」，AI 會溫柔回應並記住上次的對話內容。這款 app 目前在美國各州都能上架，但 SB 1493 通過後，你的工程師只要在訓練資料裡教過 AI「如何提供情感支持」，就可能在田納西州面臨重罪指控——即使你的公司設在矽谷，只要有田納西用戶使用，就可能踩線。相較之下，同樣是 AI 聊天，如果你的 app 只回答「你的訂單幾號出貨」這種純客服問題，就完全不受影響。AI 律師 Elena Gurevich 指出，法案對「訓練」的定義刻意模糊，連 OpenAI、Anthropic 這類大型基礎模型公司（提供 AI 底層技術給其他人用的公司），即使自己沒有做伴侶 app，也可能因為下游用戶把模型拿去做情感 AI 而被追訴。對新創公司來說，最現實的應對方式可能是用「地理圍欄」（geofencing，根據用戶所在地區自動關閉特定功能的技術）在田納西州把情感回應功能全部關掉，或直接退出該州市場。

dailyRead more →

AI 輔助削弱人類獨立解題力

What is this

來自 CMU、Oxford、MIT、UCLA 的五位研究者，做了三個 RCT（隨機對照試驗，就是把人隨機分成「有 AI 幫」和「沒有 AI 幫」兩組，這是科學上判斷「誰造成什麼結果」最嚴謹的做法），共招募 1,222 名受試者，發現只要用 AI 輔助解題 13 到 15 分鐘，一旦把 AI 拿掉，解題率最高會掉 16 個百分點。也就是說，AI 不只是幫你解題，它還在悄悄消磨你「下次自己試一試」的意願。論文提出兩個解釋：一是你習慣 AI 秒答之後，面對需要思考幾分鐘的問題，忍耐力會快速下降（這叫做享樂適應）；二是 AI 跳過了你在掙扎中建立技能的過程，讓你對自己能力的判斷愈來愈不準確（後設認知衰退）。更值得注意的是，直接要求 AI 給完整答案的人，損失最大（事後解題率 0.65 對比對照組 0.77）；而只要求提示的人損失小很多，顯示「蘇格拉底式 AI」——先引導嘗試、再逐步給提示——可以降低這種副作用。

Use case

假設你是一名工程師，每天寫程式都靠 AI 補全（Copilot 或 ChatGPT 之類），問它直接給你完整函式。某天公司要在隔離網路（沒有網際網路的安全環境）部署系統，你突然沒了 AI，需要自己從頭寫一段以前 AI 幫你寫過十幾次的 SQL 查詢邏輯。你發現自己不只寫不出來，甚至不太想試——腦子裡第一個念頭是「這個 AI 幫我三秒就寫完了，我為什麼要花半小時自己搞？」就放棄了。這正是研究測量到的「堅持性下滑」。對比另一個同事，他平常只請 AI 給提示（「這裡應該用什麼 SQL 語法？」），自己動手補完邏輯——他在斷網環境下還能勉強寫出來，因為思考過程沒有被完全替代。研究建議：每週保留 20% 時間做「無 AI 練習」，或刻意選用「hint-first 模式」的工具，讓 AI 先問你的想法再給答案，而不是預設直接輸出完整解法。

dailyRead more →

主流大模型品質集體下滑疑雲

What is this

全球 AI 使用者社群近期集中反映，包含 GPT（OpenAI 旗下最知名的聊天 AI）、Claude（Anthropic 公司的對話 AI）和 Gemini（Google 的 AI 助理）在內，多款主流 AI 模型的回答品質明顯下滑——回應變短、拒絕回答的頻率增加、程式碼和數學題表現退步。最大規模的討論發生在 Reddit 的 AI 愛好者社群 r/LocalLLaMA，抱怨橫跨多個平台且同步升溫，顯示這不是個別用戶的錯覺。推測原因之一是廠商在成本競爭加劇後，悄悄透過「路由」（就是在幕後把你的問題分派給較便宜的版本來處理，而非你以為在用的旗艦模型）來壓低服務成本，但沒有公開告知。更根本的問題是，研究顯示 91% 的機器學習模型（讓電腦從資料中學習規律的技術）會隨時間自然衰退，閒置超過六個月後錯誤率平均上升 35%，而平台可以在不通知的情況下隨時替換底層版本，讓用戶幾乎無從追蹤。

Use case

假設一位開發者過去兩個月都使用同一段提示詞，讓 GPT-4o 幫他生成完整的會員登入程式碼。最近他發現，同樣的提示詞只得到空白框架加上「請自行填入業務邏輯」的說明，把最難的部分退還給他。兩個月前可以一次輸出可直接運行的程式，現在卻要花三到四輪對話才能補齊，交付時間幾乎翻倍。這個案例說明了一個關鍵落差：「基準分數（AI 在標準測試上的成績）沒有下降」和「你日常任務的實際可用性沒有下降」是兩件不同的事，兩者可以同時為真卻指向截然不同的現實。對需要穩定交付的團隊而言，最務實的應對是建立固定提示集的跨模型回歸測試（就是定期用同樣的問題測試不同 AI，比較答案是否退步），並為關鍵流程配置備援模型，避免單一供應商品質波動直接衝擊產品。

dailyRead more →

Google Gemini 3.1 Flash TTS 發布

What is this

Google 正式發布了 Gemini 3.1 Flash TTS，這是一款「文字轉語音」（TTS，也就是把文字自動讀出來的 AI 技術）模型。它在全球 AI 語音競賽排行榜中拿下第二名，Elo 分數 1,211，超越了知名語音 AI 公司 ElevenLabs 的同類產品。最大特色是支援超過 200 種「情緒標籤」（就是在提示詞中加入「興奮」「堅定」等關鍵字，AI 就會按照你指定的語氣發音），讓語音聽起來更自然、更有感情，不再是機械式的平板朗讀。此外，它支援 70 種語言，並具備「多說話人」能力（一段提示詞就能讓 AI 同時模擬多個角色的聲音），一次推論即可完成多角色對話，適合製作 Podcast（播客節目）、有聲書、配音影片等。所有輸出音訊都內建 SynthID 水印（Google 開發的一種不影響聽感、但機器可以偵測的隱形標記），有助於日後辨識哪些語音是由 AI 生成的。

Use case

假設我想製作一段中英雙語的產品介紹 Podcast，包含主持人與嘉賓兩個角色。以前的做法是：分別錄製每段人聲、分兩次呼叫不同語音 API、再剪輯合成，流程繁瑣費時。現在用 Gemini 3.1 Flash TTS：在提示詞裡直接寫「主持人（語氣熱情地）：歡迎收聽... 嘉賓（語氣沉穩）：今天我們要談的是...」，模型一次推論就輸出完整的雙角色對話音訊，主持人和嘉賓的聲線、語調自動區分。在語氣控制上，加入 enthusiasm（熱情）或 determination（堅定）等標籤後，AI 讀出來的語氣和強調方式明顯不同。整段音訊自動嵌入 SynthID 水印，方便日後驗明是 AI 生成，符合日益嚴格的法規合規要求。開發者可透過 Gemini API（模型 ID：gemini-3.1-flash-tts-preview）直接串接，也可在 AI Studio 的音訊遊樂場立即試玩。

dailyRead more →

OpenAI Agents SDK 企業級沙箱升級

What is this

OpenAI 在 2026 年 4 月 15 日對旗下的 Agents SDK（讓開發者建造「AI 代理人」的工具包，所謂 AI 代理人就是能自主完成多步驟任務、呼叫工具、做決策的 AI 程式）發布重大升級。這次升級的核心是「雙層架構」：第一層叫 Harness（控制層），負責決定 AI 代理人要做什麼、怎麼做；第二層叫 Sandbox（沙箱，就像玩沙的隔離箱，讓程式碼在受限環境裡跑，壞了也不會影響外面）負責實際執行程式碼。兩層完全分開，最大好處是「密碼和憑證」不會跑進執行環境，大幅降低資料洩露風險。此外這次還加入了「持久化機制」——過去如果 AI 代理人跑一個長任務時伺服器當掉，整個任務就得從頭來；現在系統會定時存檔（snapshotting，就像遊戲存檔），斷了可以從上次存檔點繼續，不用全部重跑。所有 API 用戶即日起可用，不另外收費，目前僅支援 Python，TypeScript 版本之後推出。

Use case

假設我是一家公司的工程師，想用 AI 代理人自動去讀公司 AWS S3 雲端儲存上的財務報表、做分析、然後把結果存到另一個資料夾。以前用舊版 SDK，代理人執行時需要拿到 S3 的存取金鑰（Access Key），這些金鑰有可能在執行環境中外洩，而且如果中途伺服器重啟，整個分析就要從第一份報表重新來過。用新版升級後：透過 Manifest 宣告式設定（就像寫一份清單告訴系統「財務報表資料夾只能讀、輸出資料夾可以寫」），金鑰只存在 Harness 控制層，不進入實際跑程式碼的 Sandbox；若執行到一半當掉，從上次的存檔點繼續，不用重新讀前面已處理過的 100 份報表。整個流程更安全、也更省時間與計算資源。

dailyRead more →

OpenAI Codex 新增五大開發功能

What is this

OpenAI 旗下的 Codex（一款專門幫助工程師寫程式、除錯的 AI 助理應用程式）在 macOS 和 Windows 版本推出重大更新，一次新增五項核心功能。首先是「電腦控制」（computer use，就是讓 AI 直接操作你的電腦畫面、點擊按鈕、填寫表單，不需要你手動示範），以及「應用程式內瀏覽」（in-app browsing，AI 可以在不離開 Codex 的情況下自己上網查資料、查文件）。此外還加入了「圖片生成」（讓 AI 直接產出 UI 草圖或示意圖）、「記憶功能」（memory，AI 會記住你的偏好設定與過去討論的內容，下次對話不用重新說明背景）、以及「插件支援」（plugins，可以外接第三方工具擴充 Codex 的能力，類似 ChatGPT Plugin 概念）。這次更新讓 Codex 從純粹的「對話式程式助手」進化成能主動完成任務、自行查資料、甚至操控電腦的完整開發代理人（AI agent，就是能自主規劃並執行多步驟任務的 AI）。

Use case

假設你正在開發一個網頁後台，需要把 API 文件裡某個欄位定義查清楚再寫對應的程式碼。以往你得自己切換視窗、找到文件頁面、複製內容再回到 IDE 貼給 AI。現在有了 in-app browsing，你可以直接對 Codex 說「去查官方 API 文件中 user_id 欄位的格式規範，然後幫我寫一個驗證函式」——Codex 會自己開啟瀏覽器、定位到文件、讀取規格，再回來寫好程式碼給你。若 API 文件頁面需要登入或有互動操作，computer use 功能還能讓 Codex 模擬點擊登入。相較於舊版需要你手動來回複製貼上資料，新版整個流程不需要你切換視窗，節省大量瑣碎的「查資料→餵給 AI」步驟。

openaiRead more →

OpenAI Agents SDK 開源，AI 代碼革命提速

What is this

這篇是 2026 年 4 月 14–15 日的 AI 新聞大彙整，一口氣涵蓋多個重要發展。最值得關注的是 OpenAI 將旗下的「Agents SDK」（讓開發者能建造自動執行任務的 AI 程式的工具包）正式開源，並讓 Cloudflare、Vercel、Modal 等大型雲端平台同步宣布接入，意味著任何開發者都可以在自己選擇的環境裡跑出類似「Codex 自動寫程式 AI」那樣的系統。Cloudflare 則同步推出「Project Think」新一代 Agent 框架與「Agent Lee」（一個讓你用說話方式管理雲端伺服器的 AI 控制台），並把語音對話、瀏覽器操控全部整合進來。在模型層面，NVIDIA 推出了 Nemotron 3 Super（一個有 1200 億參數但只用 120 億算力、速度比同級模型快 2–7 倍的超高效語言模型），Google 則密集發布 Gemini Mac App（Option+Space 叫出、可讀螢幕和本地檔案）、Gemini 3.1 Flash TTS（支援 70 多種語言的語音合成，評測排名第二）以及開源文字圖片理解模型 TIPS v2。最令研究界震驚的是：AI 模型 GPT-5.4 Pro 解出了「Erdős 第 1196 號問題」（一道數十年懸而未解的競技數學難題），且採用的解法出乎所有數學家意料，被認為是 AI 生成的首個「Book Proof」（數學界認可的優雅簡潔證明）。

Use case

假設你是一名獨立開發者，想打造一個「自動爬資料、整理成報告、然後上傳 Google Drive」的 AI 工作流程。過去你要自己串多個 API、手動管理 AI 的執行狀態，一旦中途斷線就得重跑。現在有了 OpenAI Agents SDK 開源版加上 Modal 沙箱整合，你可以寫一個有「持久記憶、可暫停/恢復快照、甚至能叫出子任務 agent」的工作流程，放在 Modal 的 GPU 沙箱裡獨立跑，執行到一半可以 fork 出新分支測試不同策略，成功後自動回傳結果給主流程。與舊做法（每次都要重跑、狀態全靠自己管）比起來，整個流程更像在管一支能記得自己在做什麼的小團隊，而不是一次性的腳本。

swyxRead more →

Claude Code 新增雲端排程 Routines 功能

What is this

Anthropic（就是做出 Claude 這個 ChatGPT 競爭對手的公司）重新設計了旗下的 Claude Code 桌面應用程式，並推出一個叫做「Routines（例行工作流程）」的新功能。這個功能讓 AI 編程助手從「一次只做一件事的副駕駛」升級成能「同時協調管理多個工作流程」的指揮官。Routines 的運算移到雲端伺服器執行，意思是使用者關掉自己的電腦後，AI 仍然會繼續在背景跑排定的任務，完全不依賴本機。企業用戶還可以透過一個統一的控制介面，管理橫跨多個專案的所有 AI 代理（agent，指能自己做決策、一步步完成複雜任務的 AI 程式）。

Use case

假設我是一位工程師，每天早上需要讓 AI 自動掃描昨晚的程式碼變更、跑測試、再把結果整理成摘要報告。以前用 Claude Code，我必須手動開電腦、啟動應用程式，才能讓 AI 開始工作。現在透過 Routines，我只需設定一次排程：「每天早上 6 點，自動抓取程式碼變更、執行測試、把結果整理成 Markdown 報告。」任務跑在雲端，就算我的電腦整晚關機，AI 也會準時在背景完成，我起床就能看到報告。相比舊做法每次都要手動觸發，Routines 讓整個流程真正做到「設定一次、自動執行」。

📰 每日 AI 彙整