AI 每日彙整

業餘者用 ChatGPT 攻克 60 年數學難題

What is this

一位 23 歲的業餘研究者 Liam Price，在沒有高等數學訓練的情況下，使用 ChatGPT（GPT-5.4 Pro，OpenAI 推出的高推理能力 AI 模型）進行一次完整提示，讓 AI 持續推理長達 80 分鐘，得到攻克「Erdős 問題 #1196」的初步證明草稿。Erdős 問題 #1196 是由數學家 Erdős、Sárközy、Szemerédi 在 1966 年提出的一個數論猜想（數論就是研究整數規律的數學分支），六十年來只有零星突破，始終未完全解決。AI 找到的突破口是把「Markov 鏈」（一種用機率描述事物隨時間如何轉移狀態的數學工具）和「von Mangoldt 權重」（一種凸顯質數在整數結構中影響力的數學函數）這兩個早已存在的舊工具，以幾乎沒有人想到的新方式組合在一起。初步草稿完成後，數學家 Kevin Barreto 與世界頂尖數學家 Terence Tao（陶哲軒）等人協同精煉修補，最終推進為可公開驗證的學術成果，Tao 已在 GitHub wiki 確認此案為完整解答。

Use case

假設你是一位對某道開放數學問題有興趣但思路卡關的研究者。以前的做法是：翻遍幾十年的文獻、手動嘗試各種引理（引理就是用來支撐主要定理的輔助結論）組合，往往要花幾個月甚至幾年才能找到一個值得深入追的方向。現在可以這樣做：用 GPT-5.4 Pro 以一次完整提示（例：「請針對 Erdős #1196 提出證明骨架，列出關鍵引理與每步可能的失敗點」）啟動高強度推理，幾十分鐘到幾小時內得到一份初步的證明草稿。這份草稿本身不夠嚴謹、可能有漏洞，但它最大的價值是「給出人類可能幾十年都不會先想到的搜尋方向」——就像此案中把兩個跨領域舊工具重組的靈感。接下來，由數學專家審閱、補上嚴謹性、修補每個漏洞，才能成為可發表的學術成果。對比舊做法：以前從零到「有一個值得追的方向」可能要幾年，現在可能只需幾天的 AI 探索加幾週的人工精煉。這不是 AI 取代數學家，而是 AI 把「找到正確切入點」的時間從幾年壓縮到幾天。

dailyRead more →

GPT-5.5 整合 Codex 終止獨立程式模型

What is this

OpenAI（美國知名 AI 公司，開發了 ChatGPT）決定終止獨立的 Codex 程式碼模型（一種專門幫助寫程式的 AI 工具），將其功能整合進全新的 GPT-5.5 模型。這是 Codex 第二度被併入主線模型，代表 OpenAI 不再維護獨立的「寫程式專用 AI」，轉而讓通用大型語言模型（就是能做很多事的 AI，像 ChatGPT 背後那種）直接包辦寫程式工作。新版 GPT-5.5 提供高達 100 萬個 token（可以理解為 AI 能記住和處理的文字量，1 萬個 token 大約等於 7500 個英文字）的超大記憶視窗，執行相同程式任務比前一代減少 37 到 62% 的 token 用量。API（讓開發者透過自己的程式呼叫 AI 服務的介面）定價則同步漲了約 20%，輸入每百萬 token 收 5 美元、輸出收 30 美元，並同步強化了 agentic coding（讓 AI 自主規劃並執行多個步驟的程式工程任務，減少人工介入）與電腦操作功能。

Use case

假設我是一名開發者，要用 AI 幫我「讀完整個程式專案後找出所有安全漏洞並自動修復」——這需要 AI 同時記住幾十個程式檔、理解跨檔案的程式邏輯。用舊版 GPT-5.4 或 Codex 時，大型專案的程式碼往往塞不進單次對話，AI 只能切片分析，容易漏掉跨檔案的關聯問題。換用 GPT-5.5 後，整個 repo（程式碼倉庫，就是所有程式碼的集合）可以一次塞進單一對話，AI 能在「完整記得所有程式碼」的狀態下自主規劃修復步驟、執行測試、確認 bug 消除——也就是 agentic coding 的完整流程，幾乎不需要人一步步指揮。完成相同任務的 token 用量比前一代少了將近一半，理論上可抵消部分漲價影響；但社群已出現「兩個 prompt 燒掉 100 美元」的警示案例，建議先在非核心任務試算 token 消耗量，確認 ROI（投入產出比）後再大規模導入。

dailyRead more →

Anthropic 承認 Claude Code 三大 Bug

What is this

Anthropic（開發 Claude AI 的公司）在 2026 年 4 月 23 日發布官方事故報告，正式承認他們的 Claude Code（一款讓開發者直接在終端機或編輯器裡用 Claude AI 寫程式的工具）在過去七週內同時存在三個程式錯誤（bug），導致服務品質大幅下滑，卻完全沒有提前通知用戶。第一個 bug 是「推理等級靜默調降」：Claude 本該以「高推理」模式深度思考，卻被系統悄悄切換成「中推理」，但畫面上仍顯示「高」，工程師整整一個月都沒發現。第二個 bug 是「快取清除錯誤」：系統應閒置一小時後才清空 AI 的思考記錄，但實際上每一輪對話都清除一次，AI 好像每回合都「失憶」，而且消耗的 token（就是 AI 處理一段文字所需的計算單位，消耗愈多帳單愈高）也大量增加。第三個 bug 是「系統提示字數限制」：限制工具呼叫只能用 25 個字、最終回覆只能用 100 個字，讓寫程式品質下降 3%，持續四天才修復。根據第三方測評平台 BridgeBench（專門比較不同 AI 版本能力的基準測試），旗艦版 Opus 4.6 的正確率從 83.3% 跌至 68.3%，排名從第 2 名跌至第 10 名。Anthropic 最後宣布重置所有付費用戶的使用額度作為補償，但社群中已有不少開發者轉向競品 Codex（OpenAI 的程式助手）與 GPT-5.5，並將此事定性為「AI 縮水通膨」（AI shrinkflation，意即同樣價格、悄悄縮水的服務品質）。

Use case

假設你是用 Claude Code 開發網站後端的工程師，在過去七週你可能遭遇這樣的情況：你叫 Claude 幫你分析一個複雜的資料庫查詢效能問題，它給出的答案明顯比以前膚淺、邏輯也不連貫。你以為是自己問法有問題，反覆重試卻還是得到類似的結果。但實際原因是推理等級被悄悄降成「中」，UI 卻還是顯示「高」——你沒有任何方法自行發現，因為你看到的資訊是錯的。更糟的是，快取 bug 讓 AI 每輪對話都忘記前面的思考脈絡，你為了讓它「記住」上下文，得在每次提問中重複貼上更多背景資訊，這又進一步拉高 token 消耗、讓帳單升高。對比正常情況（沒有這三個 bug），同樣的任務 Claude 能給出更深入的分析、保留前後邏輯一致性，且 token 消耗也更低。這次事件暴露的核心問題不只是 bug 本身，而是「服務品質在你完全不知情的情況下靜默降低」——開發者根本無從分辨「是我的問題」還是「AI 工具出了狀況」。

dailyRead more →

Claude Connectors 擴展消費應用

What is this

Claude Connectors 是 Anthropic（開發 AI 助手 Claude 的公司）推出的功能，讓 Claude 可以直接連接外部服務，使用者不用離開對話介面就能完成點餐、叫車、報稅等日常任務。2026 年 4 月 24 日，Anthropic 宣布把這個功能從工作場合擴展到日常生活，新增 Spotify（音樂串流）、Uber（叫車）、Uber Eats（外送）、Instacart（雜貨外送）、TurboTax（報稅軟體）、TripAdvisor（旅遊評價）等 15 個以上新服務，目前整個目錄已超過 200 個可接入的應用，所有方案（包含免費版）均可使用。背後的技術標準叫做 MCP（Model Context Protocol，一套讓 AI 和各種服務「說同一種語言」的開放規範），由 Anthropic 主導制定並開源。安全設計上，所有涉及付款或下單的動作，都必須先經用戶明確確認才會執行，連接器收集的資料也不會用於訓練模型，各應用之間資料彼此隔離。

Use case

假設你想點晚餐外送，以前要分別打開 Uber Eats 篩選餐廳、切換 Maps 確認距離、再回 LINE 問朋友推薦，來回切換三四個 app。現在在 Claude 對話框直接說：「幫我找 500 元以內的泰式料理，送到台北市忠孝東路，估計 30 分鐘內能到的」，Claude 連接 Uber Eats 後會查詢符合條件的選項，列出餐廳名稱、預估送達時間與價位，你選好後再次確認，Claude 才實際幫你完成下單。對比舊做法，最大差異是「不需要離開對話介面」，而且所有需要花錢的動作都需你手動確認，AI 不會自動扣款。

dailyRead more →

首個投行 AI 評測，最佳模型僅過 16%

What is this

2026 年 4 月，Handshake AI 與麥基爾大學聯合推出 BankerToolBench（簡稱 BTB，一套專門衡量 AI 在投資銀行（就是幫大企業買賣公司、辦理上市融資的金融機構）真實工作中表現的標準評測框架）。502 位來自高盛（Goldman Sachs）、摩根大通（JPMorgan）等頂級投行的銀行家，累計花了 5,700 多個小時，設計出 100 項真實工作任務，涵蓋 Excel（電子試算表）財務模型建立、PowerPoint 簡報製作、PDF 報告撰寫，每項任務以約 150 條評分標準判定通過與否。測試 9 個主流 AI 模型後，最好的 GPT-5.4 在 Pass@1（AI 第一次嘗試就做對、不需重試的比率）僅有 16%，整體得分 58.1/100；Claude Opus 4.6 在客戶準備度（63 分）和法規合規（46 分）略佳，但技術正確性只有 47 分。55% 的受測銀行家認為，若直接把這些 AI 產出交給客戶，失敗風險超過 99%；研究結論是目前 AI 最適合擔任「草稿加速器」——69% 的輸出可作為起點，但 41% 需大幅重做、27% 完全無法使用。

Use case

我是一位投行分析師，需要為客戶的企業併購案製作財務分析，包含 Excel 估值模型和配套的 PowerPoint 簡報。我請 Claude Opus 4.6 幫我建立 Excel 模型，它給了我一份看起來整齊的試算表，數字也落在合理範圍。但當我嘗試更改一個假設（例如把收入成長率從 5% 調整到 8%），才發現問題：模型裡很多關鍵數字是直接寫死的固定值（例如儲存格直接寫「100」），而不是用公式（例如「＝收入×成長率」）計算出來，改了假設後其他格子的數字根本不會自動更新，整個情境分析（在不同假設條件下模擬結果）形同失效。更糟的是，簡報裡寫「交易總值：6,500 萬美元」，但 Excel 模型算出來是 6,200 萬美元——這種跨文件的數字矛盾若被客戶發現，直接毀掉銀行的專業信譽。舊做法由人工建模，雖然慢，至少公式完整、文件一致性有人把關；現在靠 AI，反而多出一道「人工驗證 AI 有沒有偷用硬編碼固定值」的工序，效率未必真的提升。

dailyRead more →

SWE-Bench 刷榜坐實，Pro 版接棒

What is this

SWE-bench Verified（一套以 500 道真實 GitHub 程式問題來考核 AI 編碼能力的測試集，是過去兩年最廣泛引用的業界排行榜）已被確認存在系統性失真，分數不再可信。問題根源有兩個：第一是「訓練資料污染」——AI 模型在訓練時就已接觸過題目與解答，等於考前看過考題；第二是「scaffolding 膨脹」（scaffolding 指協助 AI 執行任務的輔助框架程式，類似考試時提供的計算機工具），加掛此類工具可讓同一模型分數虛增 10～15 個百分點。2026 年 2 月，OpenAI 正式宣布停用 SWE-bench Verified，改採 SWE-bench Pro——一套包含 1,865 道多語言任務、混入私有商業程式碼的嚴格新版本，從結構上防止題目外洩。驗證結果觸目驚心：在舊版宣稱 80% 以上高分的頂尖模型，在新版實測僅得 46～54%，落差超過 27 個百分點，顯示過去宣傳的高分有相當比例來自虛灌，而非真實能力。

Use case

假設你是工程主管，正在評估要採購哪款 AI 程式助理工具。廠商的行銷頁面寫著「SWE-bench Verified 得分 90%，業界第一」，按舊邏輯，這代表 AI 能自動修好九成的真實程式錯誤。但根據新版驗證，同一模型在 SWE-bench Pro 上可能只有約 50%；而且那 90% 裡有 10～15 個百分點純屬廠商幫 AI 加掛輔助框架的效果，並非模型自身的能力。舊做法是看排行榜挑工具，高分等於高能力；新做法是改查 SWE-bench Pro 排行榜，或直接拿自家程式碼庫的一批真實 bug 讓各家 AI 試修、比通過率——因為目前任何廠商在 Verified 上宣傳的高分，都不能直接等號為實際使用效果。

dailyRead more →

Claude Agents 官方記憶功能上線

What is this

Anthropic（開發 Claude 這套 AI 的美國公司）正式推出了一項叫做「Memory（記憶）」的功能，專門給企業版的 Claude Managed Agents（讓 AI 自動完成多步驟任務的平台）使用。過去 AI 助理每次對話結束就等於「完全失憶」——下次新開一個對話，它完全不記得你上次交代過什麼規則、累積了哪些知識。有了 Memory 功能之後，AI 代理人可以跨多次對話、跨不同時間持續記住並累積資訊，不需要每次都重新輸入背景說明。技術上，這個記憶是以「檔案系統」（就是電腦裡儲存文件的資料夾結構）作為底層，記憶內容可以匯出備份、透過 API（讓程式自動操作的介面）管理，也可以設定存取權限，讓企業在不同部門、不同用途之間安全地隔離資料。目前已進入公開測試（Beta）階段，所有 Managed Agents 用戶均可使用。

Use case

假設一家公司讓 Claude Agent 負責每日處理客服工單。沒有 Memory 之前，每次 Agent 啟動都必須重新讀一份幾千字的「公司政策說明提示詞」（即預先給 AI 的背景文件），既費時又耗費 API 費用；若政策更新，還得逐一修改所有 Agent 的設定。啟用 Memory 後，Agent 在第一天工作時自動把「退貨期限 30 天、VIP 延長至 60 天」等規則寫入記憶檔案；第二天起直接從記憶讀取，無需重新輸入。當政策變更時，工程師只更新記憶檔案一次，所有 Agent 實例立即反映新規則——省去每次重複交代的人力，也讓 AI 行為更一致、更可控。

📰 每日 AI 彙整