AI 每日彙整

What is this

Anthropic Mythos 在 Firefox 發現 271 漏洞

What is this

Anthropic（開發 Claude AI 的公司）最新推出了一款名為 Mythos 的 AI 安全研究模型。這個模型被用來掃描 Firefox 150（Mozilla 開發的主流瀏覽器）的程式碼，結果找到了多達 271 個「零日漏洞（zero-day）」——也就是過去從未被發現、也沒有修補程式的全新安全破口。Mozilla 的技術長（CTO，公司裡負責技術方向的最高主管）公開表示，Mythos 的能力「絲毫不遜於世界頂尖的安全研究員」。這不只是數量驚人，更代表 AI 已能在高度專業的安全領域，執行過去只有頂尖人類專家才能完成的漏洞挖掘工作。

Use case

想像你是一間公司的資安團隊，想確保你的產品（比如一款瀏覽器）沒有被駭客鑽空子的漏洞。傳統做法是聘請「滲透測試員（penetration tester，就是合法授權的攻擊者，專門找軟體弱點）」或靠「漏洞獎金計畫（Bug Bounty）」吸引外部研究員舉報問題，但這樣可能花上數個月、每次只找到幾十個問題。現在，Mozilla 讓 Anthropic 的 Mythos 模型直接分析 Firefox 150 的程式碼，Mythos 在短時間內就找出 271 個「零日漏洞」——每一個都是真實存在、可被駭客利用的安全破口，而且之前沒有任何人或工具發現過。對比之下，一個頂尖人類安全研究員可能一年只能深入找出幾個到幾十個這等級的漏洞。這代表 AI 已能大幅提升軟體安全審查的深度與速度，改變整個資安產業的工作方式。

artechRead more →

Kimi K2.6 開源，Agent 力逼近閉源旗艦

What is this

Kimi K2.6 是中國 AI 公司 Moonshot AI（月之暗面）推出的開源大型語言模型（就是像 ChatGPT 那樣會對話、會推理的 AI，「開源」代表任何人都可以免費下載、修改、自行部署）。這個模型採用 MoE 架構（Mixture of Experts，把模型拆成許多個「專家小模型」，每次只啟動其中幾個，用較少的電腦資源達到超大模型的效果），總參數量達 1 兆，每次運算啟動 320 億個。K2.6 最大亮點是「Agent 代理能力」（就是讓 AI 自己拆解複雜任務、一步一步呼叫工具完成，不只是回答單一問題），最多可同時指揮 300 個子代理並行工作、連續執行 4,000 步以上，已有連跑 5 天的實測案例。在業界標準測試 SWE-Bench（測 AI 自動修復真實軟體 bug 的能力）中，K2.6 得分 80.2%，逼近 Claude Opus 4.6 的 80.8%，並在部分搜尋與工具任務上超越 GPT-5.4。授權採 Modified MIT（一種開源條款），月活不超過 1 億用戶或月收不超過 2,000 萬美元的使用者可直接免費商用，對一般開發者與中小企業非常友善。

Use case

假設我是一家中型軟體公司的工程師，需要把一個 10 萬行的舊 Python 2 程式庫整個重構成 Python 3，同時修復所有過時的依賴套件（就是程式碼引用的外部工具包）並補上自動測試。用傳統 AI 輔助（每次只能問一個問題、等一個答案），要一個檔案一個檔案貼給 AI 看，一旦對話太長 AI 就開始忘記前面的內容，效率極低。改用 K2.6 的 Agent Swarm（多代理群集）功能，可以讓 AI 同時派出多個子代理分頭掃描不同模組、偵測不相容語法、提交修改、跑測試、根據錯誤訊息再修正，主代理在上方統籌協調，全程幾乎不需要工程師一直盯著。K2.6 支援 256K 長上下文（可以一次記住大量資訊，就像把整本參考書放在 AI 眼前），讓它同時掌握需求文件、所有程式碼、歷次錯誤記錄，不會中途「記憶斷線」。API 費用約每百萬 token 輸入 0.95 美元、輸出 4 美元（token 就是 AI 處理文字的基本單位，約 750 個英文字算 1,000 個 token），比同等能力的頂級閉源模型便宜，適合大量呼叫的長流程任務。舊做法可能要人工介入數十次、耗費數天；用 K2.6 Agent 自動跑，可縮短到以小時計的無人值守執行。

dailyRead more →

Anthropic Mythos 遭逆向，NSA 秘密部署

What is this

Anthropic（開發 Claude 對話 AI 的公司）推出了一款名叫 Mythos 的全新 AI 模型，但刻意不對外公開發布，而是透過「Project Glasswing」受控計畫，只授權給 40 多個特定組織使用，主要用途是找出電腦系統中的安全漏洞。就在 Anthropic 和美國國防部（Pentagon）鬧上法庭、雙方打官司之際，美國國家安全局（NSA，負責情報蒐集與網路安全的政府機構）卻悄悄開始使用 Mythos 掃描漏洞，形成政府內部「一邊告、一邊用」的奇特矛盾。與此同時，22 歲工程師 Kye Gomez 在 GitHub 上公開了 OpenMythos 開源專案，根據公開論文與技術推測重建 Mythos 核心架構——包括 RDT（一種讓 AI 用較少資源做更深層推理的設計）、MoE（混合專家模型，把大模型切成多個小專家輪流上陣、降低計算成本），以及可切換注意力機制（控制 AI 每次推理時「專注」哪些資訊的技術）。這件事揭示一個正在成形的問題：全球最強的 AI 模型正在以不透明、不受公眾監督的方式，被政府機構悄悄部署。

Use case

假設你是國家級資安機構，需要在黑客利用前搶先找出作業系統或瀏覽器的高危漏洞。傳統做法是讓工程師手動審查程式碼，或使用固定規則的掃描工具（如 Qualys、Tenable），但這類工具只能找出已知類型的漏洞，面對新型攻擊往往束手無策。換成 Mythos 的做法：NSA 使用 Mythos Preview 進行弱點掃描，Anthropic 官方資料顯示 Mythos 已在主流作業系統（Windows、macOS）與瀏覽器（Chrome、Safari）中發現數千個高危漏洞——這些漏洞在傳統工具偵測到之前就已被標記出來。舊方法找到的是「已知未修補」的漏洞；Mythos 能推理發現「以前沒人想到」的攻擊路徑。對加入 Project Glasswing 的 40 多個組織來說，這意味著能在競爭對手利用這些漏洞之前，搶先完成修補。

dailyRead more →

Google 精英突擊隊追趕 Claude 編程

What is this

Google 在 2026 年 4 月成立了一支被稱為「精英突擊隊」的特別小組，由 Google 共同創辦人 Sergey Brin 親自監督，任務只有一個：縮短 Google 的 AI 編程工具與競爭對手 Anthropic（就是開發 Claude 這個 AI 助手的公司）之間的差距。這個舉動等於是 Google 公開承認，Anthropic 的 AI 在「幫工程師寫程式」這件事上目前比 Google 強。突擊隊專攻的是「長程編程任務」（就是指那種需要 AI 讀懂好幾個檔案、前後連貫地完成複雜功能開發的任務，不是只回答單一問題那種），這正是 Claude 目前最有優勢的能力核心。Google 甚至開發了內部工具「Jetski」來追蹤工程師每天用 AI 的頻率並做排名，試圖從企業文化層面強迫工程師多用 AI，以便蒐集更多真實使用資料來改進模型。

Use case

假設我是一名工程師，要把公司舊系統的登入模組從帳號密碼改成支援 Google 登入。這個任務需要動到至少 5 個檔案：前端登入頁、後端驗證邏輯、資料庫使用者欄位、API 路由、還有單元測試。用現在的 Claude Code（Anthropic 的 AI 編程工具），我只需說「幫我把登入模組改成支援 Google OAuth 2.0（一種讓使用者用 Google 帳號登入的標準協定）」，Claude 能自己讀完這 5 個檔案、理解每個檔案的作用，並依序改對每一個地方，發現前後邏輯有衝突時也能自動修正。用現在的 Gemini 做同樣的事，工程師反映很容易在改到第 2、3 個檔案後「迷路」——可能修好了登入頁卻忘記同步更新後端驗證，或是改了資料庫欄位卻沒更新對應的測試。Google 精英突擊隊的目標，就是讓 Gemini 也能像 Claude 一樣，在這類多步驟、跨檔案的任務中保持前後一貫的邏輯，不再中途「失憶」。Google 預估 6 至 12 個月內可能透過新版 Gemini 體現成果，屆時 AI 編程工具的競爭格局可能重新洗牌。

dailyRead more →

Anthropic 獲 Amazon 百億美元換算力

What is this

Anthropic（開發 Claude AI 助理的美國公司）宣布再次獲得 Amazon（亞馬遜，全球最大電商與雲端服務公司）的 50 億美元投資，使累計投資額達 130 億美元，視商業里程碑還可能追加至 330 億美元。這次交易有個特殊條件：Anthropic 承諾未來 10 年必須在 AWS（Amazon Web Services，Amazon 旗下的雲端運算平台，可以理解為「租用 Amazon 的電腦和網路來跑自己程式的服務」）上花超過 1,000 億美元購買算力（讓 AI 運算與訓練所需的電腦資源），形成「你給我錢、我保證把錢花回你店裡」的深度綁定。透過這項協議，Anthropic 將取得多達 5 GW（5 吉瓦，一種衡量資料中心規模的電力單位，代表超大規模的計算能力）的 AI 計算資源，包含 Amazon 自研的 Trainium 系列晶片（Amazon 開發的 AI 訓練晶片，是 NVIDIA GPU 的競爭替代品）以及代號「Project Rainier」的超大運算叢集（叢集就是把幾十萬台電腦串在一起協同運算的系統），目前已安裝近 50 萬顆 Trainium2 晶片，Trainium3 大規模算力預計今年上線。對開發者最直接的影響是：使用 Claude API（API 是讓你在自己的軟體裡呼叫別人服務的橋接介面）現在可以直接整合進 AWS 的 IAM 權限管理系統（IAM 是 AWS 的身份驗證與存取控制系統），讓企業不需要另外維護一套獨立的 Anthropic 帳號憑證，目前已有逾 10 萬個客戶透過 AWS 帳號直接使用 Claude。

Use case

假設你是一位負責公司內部系統的工程師，要幫 HR 部門開發一套「員工自助查詢系統」，讓員工可以用自然語言問「我的育嬰假剩幾天」或「出差費用怎麼申報」，由 Claude 查詢 HR 系統後回答。以前你需要管兩套認證：一套是 AWS 帳號（用來架資料庫和伺服器），另一套是 Anthropic API 金鑰（用來呼叫 Claude）——兩者的存取權限、金鑰輪換、稽核日誌完全分開，IT 安控每次都要查兩個地方。現在透過 Claude on Amazon Bedrock（Bedrock 是 AWS 提供的一站式 AI 模型平台），你可以直接把呼叫 Claude 的權限設定在公司既有的 AWS IAM 規則裡：「只有 HR 系統的服務帳號才能呼叫 Claude」這條規則，就跟「只有 HR 系統才能讀 S3 薪資檔案」放在同一個控制台管理。所有 Claude 呼叫的 API 紀錄也自動出現在 AWS CloudTrail（AWS 的操作稽核日誌工具）裡，不需要另外串接。原本要分開維護兩套金鑰和稽核流程的麻煩因此消失，企業導入 Claude 的門檻大幅降低；而舊做法需要開發者自行處理 Anthropic API 金鑰的安全儲存與輪換，這在企業合規環境中往往是卡關點。

dailyRead more →

Qwen3.6-Max 全球第二，開源轉閉源

What is this

阿里巴巴在 2026 年 4 月 20 日推出 Qwen3.6-Max-Preview，這是他們目前最強的旗艦 AI 語言模型（就是像 ChatGPT 一樣能理解並生成文字的人工智慧）。這個模型在一個涵蓋全球 201 個 AI 模型的綜合評測排行榜（Artificial Analysis Intelligence Index）中拿下第 2 名，評測項目包括邏輯推理、數學、寫程式和知識問答。模型採用 MoE 架構（稀疏混合專家架構，意思是雖然模型有 1 兆個參數，但每次回答問題時只用到其中一小部分，讓它兼顧能力強大與運算高效），並支援 256K tokens 的超長上下文（大約等於 384 頁 A4 文件）。此次發布也標誌著阿里 AI 策略的一大轉變：過去積極開放原始碼讓外界免費使用，現在改為以付費 API 為核心的商業模式，定價為每百萬 tokens 輸入 $6、輸出 $24 美元。

Use case

假設你要開發一個自動化程式碼審查 agent（AI 自動執行多步任務的機器人）：第一步讓 AI 分析整份程式碼的架構、第二步找出潛在 bug、第三步提出修改方案。以前用一般模型，每換一輪對話 AI 就「失憶」——第一輪已判斷「這段是核心模組不能大改」，但到第二輪 AI 忘了這件事，給出的修改建議可能反而把核心模組全改掉，你得不斷重複提醒。Qwen3.6-Max-Preview 引入了 `preserve_thinking` 功能（多輪對話中持續保留 AI 的推理鏈），AI 在第一輪把「這段是核心模組」記進推理記憶後，後續每輪都帶著這個前提繼續思考，不需你反覆叮嚀。實測在 Terminal Bench 2.0（測量 agent 使用工具的能力）拿下 65.40 高分，在工具調用格式規範測試（ToolcallFormatIFBench）排名全球第一，超越 Claude。差異在於：多步驟 coding agent 任務的規劃一致性大幅提升，AI 不再每輪給出互相矛盾的方案。

dailyRead more →

「無審查」AI照樣悄悄過濾詞彙

What is this

一項新研究發現，即使標榜「無審查」的 AI 語言模型（就是那種號稱不限制回答內容的 AI），在底層仍然悄悄地對某些詞彙降低出現機率，讓這些詞很少或幾乎不會出現在輸出中——而且這一切不會觸發任何警告或拒絕訊息，使用者完全看不出來。研究者稱這種現象為「畏縮（flinch）」，意指模型遇到敏感詞彙時，會在技術層面上把該詞的「被選中機率」壓得極低。更驚人的是，研究發現即使把 AI 的拒絕功能移除掉，這種底層詞彙過濾的程度反而更嚴重——說明這種過濾不是後期加上去的補丁，而是從模型訓練最初就已植入資料裡。由於這種機制完全在暗中運作，理論上可以在數十億用戶毫無察覺的情況下，悄悄塑造他們讀到的資訊內容。

Use case

研究人員在同一個句子情境下，測試了 Pythia（EleutherAI 開發的無過濾模型）和 Qwen（阿里巴巴開發、有審查機制的模型）對「驅逐出境」這個詞的機率差距。Pythia 認為這個詞最自然，給出 23.27% 的高機率；但 Qwen 把同一個詞排到第 506 名，機率只剩 0.0014%——兩者相差超過一萬倍。換句話說，如果你請 Qwen 幫你寫一篇關於移民政策的文章，它寫出「驅逐出境」的機率幾乎是零，AI 會自動換成其他說法，你完全看不到任何拒絕訊息或提示。研究人員共測試了 1,117 個敏感詞彙、4,442 個不同語境，涵蓋政治批評、辱罵、性相關及暴力等六大類，並比較了包括 Google Gemma、OpenAI gpt-oss 在內共七家公司的模型，結論一致：「無審查」標籤並不代表真的無審查，過濾早在訓練階段就已發生。

📰 每日 AI 彙整