AI 每日彙整

Opus 4.7 API 採樣控制全廢

What is this

Claude Opus 4.7（Anthropic 公司出品的 AI 對話模型，同系列包含大家熟悉的 Claude）上週正式發布。從跑分來看，它在 SWE-bench Verified（一個測試 AI 能不能自動修程式碼錯誤的公開考卷）得到 87.6% 的成績，視覺清晰度辨識從 54.5% 暴升到 98.5%，整體屬於穩步進步的兩個月增量更新。但這次真正值得工程師注意的，是 API（讓其他程式呼叫 Claude 功能的介面）出現了破壞性改動：原本開發者常用的四個「採樣參數」—— temperature（控制回答隨機度）、top_p（控制字詞選取範圍）、top_k（控制候選字詞數量）和 thinking.budget_tokens（控制 AI 思考深度的 token（AI 處理文字的最小單位）數限制）——在 4.7 版全部移除，傳入這些參數直接會收到 HTTP 400 錯誤，不是過時警告、而是直接拒絕執行。取而代之的是兩個新參數：effort 枚舉（low / medium / high / xhigh / max 五個等級，告訴 AI 要花多少力氣）和 task_budget（一個軟性 token 上限，讓模型看到「這個任務的資源預算」）。這標誌著 Claude API 的設計哲學從「工程師調機率旋鈕」轉向「工程師說明任務優先級與資源，AI 自行決定怎麼思考」。

Use case

假設你原本有一段呼叫 Claude 4.6 的 Python 程式碼，裡頭設定了 temperature=0.7 來讓回答不要太固定，另外用 thinking.budget_tokens=8000 限制 AI 推理的深度。把這套程式碼直接指向 Claude 4.7 端點，你的請求會立刻以 HTTP 400 失敗，錯誤訊息指出這些參數已不存在。正確的升級方式是刪掉這四個舊參數，改成傳入 effort: "high"（告訴 Claude「這任務請認真思考」）和 task_budget: 8000（給它八千個 token 的思考空間）。結果上，你放棄了對「AI 如何隨機選字」的直接控制，改成用業務語言說明任務等級；而 Claude 4.7 已被訓練在這個框架內自律地分配推理資源。對於不需要精細控制隨機性的大多數應用場景，這次改版讓參數調整更直覺，但對於靠 temperature 做創意多樣性調控的場景，則需要重新設計呼叫邏輯。

sequenceRead more →

Gemma 4 對決 Qwen 開源模型選型指南

What is this

Google DeepMind 在 2026 年 4 月正式推出了 Gemma 4，這是 Google 旗下的開源 AI 語言模型（開源的意思是：程式碼和模型權重可以免費下載、在自己電腦或伺服器上架設，不需按月付費）。Gemma 4 提供四種大小版本，從 20 億到 310 億參數不等，全部採 Apache 2.0 授權（商業用途完全免費、不附加任何限制）。同期競爭的是中國阿里巴巴推出的 Qwen 3.5 系列；兩者在各種 AI 能力基準測試（基準測試是用標準題庫衡量 AI 答題能力的考試）中互有勝負——Gemma 4 在數學、程式碼與多步驟指令執行上表現更穩定，Qwen 在知識廣度測試略占優勢。目前開源模型的迭代速度已達「月更」節奏，對企業或個人開發者而言，在自己的機器上跑出接近商業服務水準的 AI 愈來愈現實。

Use case

我想建立一個能「看圖、分析、寫入資料庫」的自動化助理：給 AI 一張報表截圖，讓它讀懂內容，然後呼叫工具把結果存進資料庫，最後回報是否成功。用付費 API（例如 GPT-4o 或 Claude）可以做到，但每個月費用不低，且資料得經過外部伺服器。現在改用 Gemma 4 31B 部署在自己的機器，給它下指令「分析這張圖表，用 save_result() 工具把數字存入資料庫，再確認是否寫入成功」——Gemma 4 能穩定走完整個流程，圖片加進去後也不影響後續的工具呼叫。社群實測 Qwen 3.5 在同樣情境下容易「看完圖就忘記後面的指令」，呼叫了錯誤工具或直接跳過確認步驟。差別就是：同樣免費的開源模型，Gemma 4 在「讀圖 + 呼叫外部工具」的複合任務中明顯更可靠；而需要在模型基底上繼續自訂訓練的開發者，Gemma 4 也是唯一選擇，因為 Qwen 的 27B–32B 版本不公開原始基底模型（base model）。

dailyRead more →

AI 零日攻擊讓補丁窗口縮至小時級

What is this

Palo Alto Networks 旗下的 Unit 42 安全研究團隊警告，前沿 AI 模型現在已具備自主推理能力，能夠在「幾個小時而非幾天」內自動發現軟體漏洞（程式碼中的安全缺陷）並找出利用方式。CrowdStrike（全球知名資安公司）發布的 2026 年全球威脅報告顯示，42% 的漏洞在官方公開揭露之前就已遭駭客利用，而網路犯罪組織（eCrime，以商業獲利為目的的駭客集團）的平均入侵時間已縮短至僅 29 分鐘，最快紀錄更只有 27 秒。特別值得注意的是，Anthropic（製作 Claude AI 助理的公司）的 AI 安全測試工具 Mythos，已在 Firefox 150 這款瀏覽器中一次發現了 271 個安全漏洞。AI 的介入讓過去那種「等補丁每月發布」的傳統修補節奏完全失效，開發者必須把安全策略從例行維護升級為緊急即時響應模式。

Use case

假設你維護一個使用多個 Python 套件（可重複使用的程式模組）的開源應用程式，過去你可能每季更新一次依賴套件，認為這樣就夠了。但 AI 工具現在可以直接讀取開源程式碼，用幾個小時就掃出一條「攻擊鏈（exploit chain）」——也就是把多個小漏洞串起來，組合成可以入侵你系統的完整路徑。Unit 42 研究發現，AI 在看得到原始碼時格外厲害，開源程式碼反而讓攻擊者多了一份免費的「攻擊地圖」。新的建議做法是：建立 SBOM（軟體物料清單，把你用到的所有套件版本列清楚）並開啟 hash 驗證（防止套件被暗中替換的機制）；把補丁策略從「例行月更」升級為「一有漏洞立刻修」；同時讓構建系統禁止對外連線，防止供應鏈攻擊（Supply Chain Attack，駭客透過污染你依賴的套件來入侵你）。對比舊做法等到下個開發週期再處理，現在等待可能意味著系統在漏洞公告後幾分鐘內就已遭入侵。

dailyRead more →

Google Deep Research Max 發布

What is this

Google 同步推出兩款自主研究代理（就是能自動幫你查資料、整理報告的 AI 工具）：Deep Research 和 Deep Research Max，兩者都建立在 Gemini 3.1 Pro（Google 最新的大型語言模型，即 ChatGPT 那種會對話的 AI）之上。普通版強調快速回應，適合即時查詢；Max 版以「深度挖掘」為主，每次任務最多發出 160 次網路搜尋、處理接近 90 萬字的資訊量，適合需要幾小時才能完成的大型分析工作。在研究能力基準測試（評量 AI 做研究有多準確的標準測驗）上，Max 版在「DeepSearchQA」拿到 93.3% 準確率，比去年 12 月版本的 66.1% 大幅提升 27 個百分點；在「Humanity's Last Exam」（由人類頂尖專家出題、測試 AI 知識極限的測驗）也達到 54.6%，據社群觀察超越 GPT 和 Claude 同級別產品約 30 至 40 分。兩款代理均支援 MCP（Model Context Protocol，讓 AI 能連上公司內部私有資料庫、不限於公開網路的標準介面）整合，並可讀取 PDF、試算表、圖片、音訊、影片等多種格式的檔案，還能自動生成圖表。

Use case

假設我是一位投資分析師，需要對一家新興生技公司做盡職調查（就是評估一家公司值不值得投資的詳細背景調查）。舊做法：自己開十幾個瀏覽器視窗，分別查公開財報、搜尋學術研究論文、找 S&P Global 的信用評等，把零碎資料手動整理成 Word 報告，往往耗掉一整天時間。用 Deep Research Max 的新做法：透過 API（讓不同軟體互相溝通的橋樑）呼叫模型，設定 MCP 連上 FactSet、PitchBook（兩個專業金融資料庫）的私有資料，再上傳公司財報 PDF。AI 會自動跨資料庫發出多達 160 次查詢、比對財務數字、抓出同行競爭對手的數據、自動生成比較圖表，最後輸出一份附引用來源的完整分析報告——整個過程約幾十分鐘到幾小時，每次費用大約 3 到 7 美元。原本需要初階分析師花一整天完成的任務，縮短成設定好指令後等待輸出結果即可。

dailyRead more →

OpenAI 開源個資遮蔽 AI 模型

What is this

OpenAI 發布了一款叫做「Privacy Filter」的開源 AI 模型，專門用來自動偵測並遮蔽文字中的個人身份資訊（PII，也就是可以用來辨識特定人身份的敏感資料，例如姓名、電話號碼、身分證字號、電子郵件地址、家庭住址等）。這個模型屬於「開放權重」（open-weight，意思是 OpenAI 把這個 AI 模型的核心參數檔案公開釋出，任何人都可以免費下載並部署在自己的伺服器上，不需要透過付費 API 呼叫）。這對 OpenAI 來說比較特別，因為他們大多數主要模型（如 GPT-4、o1）都是閉源的，這次開放權重顯示他們願意在特定工具上走開源路線。根據 OpenAI 說法，這款模型在偵測 PII 方面達到了當前業界最高準確率（state-of-the-art），適合需要大量處理含有個資文件的企業與開發者使用。

Use case

假設你是一位工程師，公司需要把過去三年客服對話紀錄（裡面混有客戶的姓名、電話、地址）拿去訓練一個內部 AI 客服模型。過去有兩種做法：一是手動逐筆審查，費時費力且容易出錯；二是寫規則式程式碼（例如用正規表示式比對電話號碼格式），但這很容易漏掉不標準的寫法，像「我的手機是 0九零零-123-456」這類混用中文數字的格式就抓不到。現在你可以把整批對話丟給 OpenAI Privacy Filter，它會自動識別所有 PII 並替換成 [REDACTED] 或 [NAME]、[PHONE] 等佔位標籤，處理完再拿去訓練。更重要的是，因為是開放權重模型，你可以把它部署在公司自己的防火牆內網，原始個資完全不用傳到外部，大幅降低隱私外洩與法規合規（如 GDPR、個資法）的風險。

openaiRead more →

OpenAI 開發全天候 AI Agent 平台

What is this

OpenAI 正在 ChatGPT 內部開發一個代號「Hermes」的常駐 AI 代理人平台。所謂 AI 代理人（Agent，就是能自動幫你執行任務的 AI 助理），過去的用法都是「你問一句、它回一句」，對話結束就停了。但這個新平台的不同之處在於：AI 會一直在後台持續「跑著」，不需要你每次都手動去觸發。使用者可以在平台上自訂工作流程（workflow，就是把幾個步驟依序排好、讓 AI 照著做），加入各種技能（例如查資料、發郵件），還能設定排程（schedule，指定某個時間點自動執行），讓 AI 在你不在的時候也照常工作。目前這個功能仍在開發階段尚未正式推出，但一旦上線，將對 Notion、Zapier 等現有工作管理與自動化工具帶來強力競爭，因為 ChatGPT 擁有龐大的既有用戶基礎，能把這類進階自動化能力直接送到數億普通用戶手中。

Use case

假設你每天早上都要做一件固定工作：收集昨日各大新聞媒體的 AI 相關報導、整理成摘要、寄給你的主管。用現在的 ChatGPT，你每天都要自己進去、手動貼網址、輸入指令、等它回覆，一步都少不了。有了 Hermes 平台，你可以設定一個「常駐 Agent」：指定它每天早上 8:00 自動去指定網站抓 AI 相關文章，產出一份摘要報告並寄出——完全不需要你在場操作。對比現在的做法，差別就是從「每天要記得、手動啟動」變成「設定一次、永遠自動跑」。這種能力以前只有技術人員用 Zapier、Make.com 這類自動化工具才能建起來，Hermes 若正式上線，一般使用者也能在 ChatGPT 介面裡直接完成，門檻大幅降低。

📰 每日 AI 彙整