AI 每日彙整

Claude Opus 4.7 登場超越 GPT-5.4

What is this

Anthropic（開發 Claude 系列 AI 的美國公司）於 2026 年 4 月 16 日正式推出旗艦模型 Claude Opus 4.7。在業界最重要的自主編程測試 SWE-bench Pro（一個讓 AI 直接在真實 GitHub 程式碼問題上自己寫程式、跑測試的考試）中，Opus 4.7 拿下 64.3% 的分數，超越 OpenAI 的 GPT-5.4（57.7%），也比上一代 Opus 4.6（53.4%）大幅躍升了 10.9 個百分點，成為目前「正式對外開放使用」的旗艦模型中的第一名。除了寫程式能力，Opus 4.7 在看文件、讀圖表方面也大幅改善：它能處理的圖片解析度提升到前代三倍，讓它在文件理解測試 OfficeQA Pro 的準確率從 57.1% 跳到 80.6%，整體錯誤率下降了約兩成。同時推出的新功能「xhigh 推理層級」讓使用者可以要求 AI 在難題上花更多力氣深思熟慮，「adaptive thinking（自適應思考）」則讓 AI 自動判斷哪些題目需要深入推理、哪些可以直接回答以節省費用。不過，這套自動判斷機制目前被不少開發者批評判斷不準，常常對「看起來簡單但其實需要深度思考」的問題直接略過推理，導致回答品質下降。另一個引發廣泛反彈的爭議點是定價：雖然官方公告費率與上一代相同（每百萬輸入 token 收費 5 美元、輸出 25 美元），但 Opus 4.7 的新分詞器（tokenizer，就是 AI 把文字切成小單位來計費的機制）會讓相同的輸入最多多產生 35% 的計費單位，等於實際付費悄悄漲了價。同一週，Anthropic 還宣布對「特定高風險功能」要求用戶提交護照等政府證件做身份核實（KYC），由第三方公司 Persona Identities 處理，引發企業合規與開發者隱私兩方面的疑慮。

Use case

假設你的公司每天需要人工審查數百份合約 PDF，財務人員要從密密麻麻的表格裡抓出付款條件、違約罰則、金額數字。用舊版 Opus 4.6，因為圖片解析度有限，遇到掃描品質稍差的文件或字體偏小的表格，AI 常常讀錯數字或回答「無法辨識」。換成 Opus 4.7 後，解析度上限提升三倍，同一批掃描合約的資訊擷取準確率從 57% 提升到 80% 以上，等於原本每一百份有四十三份出錯，現在只剩不到二十份需要人工複核，審查人力需求大幅下降。若要進一步確保 AI 在複雜合約條款解讀上不馬虎，可在 API 呼叫中加入 "effort": "xhigh" 參數，強制要求 AI 投入更多推理步驟再給出答案，而非讓它自行判斷「這題夠簡單、可以直接回」。代價是：相同的合約文字在新計費機制下可能多收最多 35% 的費用，上線前務必用實際文件測試一批，確認真實費用增幅再決定要不要全面切換。

dailyRead more →

GPT-Rosalind 藥物發現 AI 登場

What is this

OpenAI 於 2026 年 4 月 16 日發布 GPT-Rosalind，這是他們第一個專為特定領域打造的 AI 模型，鎖定生命科學研究——也就是藥物研發、基因分析、蛋白質工程這些醫學研究領域。模型名字致敬英國科學家 Rosalind Franklin，她的研究直接揭示了 DNA（去氧核糖核酸，也就是每個細胞裡記錄遺傳訊息的物質）雙螺旋結構，但因時代偏見長期未受到應有的認可。和大家熟悉的 ChatGPT（通用型對話 AI）不同，GPT-Rosalind 是「研究工作流語言模型」——它能讀懂幾百篇學術論文、提出研究假說、規劃實驗步驟，並整合超過 50 個科學資料庫，把原本分散在不同系統的研究流程串成一條連貫的工作鏈。在基準測試（就是用標準題目衡量 AI 能力的測試）方面，GPT-Rosalind 在 BixBench 生物資訊學（用電腦分析基因、蛋白質等生物數據的學科）測試拿到 0.751 的通過率，領先所有已公布成績的模型；在 RNA（核糖核酸，負責把 DNA 的遺傳訊息轉成蛋白質的分子）功能預測任務中，表現超越 95% 的人類專家。目前以「研究預覽版」形式，僅限美國境內通過資格審查的企業客戶使用，合作夥伴包含 Amgen、Moderna（均為全球頂尖製藥公司）、Allen Institute（腦科學與生物研究機構）及 Dyno Therapeutics（基因治療公司）。

Use case

假設我是一名研究員，想找出能打擊肺癌中常見的 KRAS G12C 基因突變（一種讓細胞失控生長的 DNA 缺陷）的新藥候選分子。過去的做法是：花好幾週手動翻閱 PubMed（全球最大醫學論文資料庫）上的數百篇論文，再分別查詢蛋白質結構資料庫（PDB）、基因組學資料庫，把散落各處的資訊人工整合，才能勉強整理出幾個研究方向，這個過程至少要 2～3 週的研究助理時間。換成 GPT-Rosalind，我直接在 Codex Life Sciences plugin（整合 50 多個科學工具的統一入口）中輸入：「整合 KRAS G12C 抑制劑最新文獻，找出現有方法的空白，提出 3 個可測試的實驗假說」。模型會同時跨資料庫查詢、交叉比對最新論文，並輸出附有文獻來源的結構化假說，幾小時內完成。關鍵差異在於：傳統通用 AI 要嘛捏造不存在的引用來源（幻覺問題），要嘛無法把跨資料庫的線索串連起來；GPT-Rosalind 的垂直化訓練讓它能從文獻→假說→實驗設計走完整條研究鏈，且每個結論都有可追溯的來源。

dailyRead more →

Anthropic 推出 Claude Design 視覺設計協作工具

What is this

Anthropic（研發 Claude AI 的公司）在 2026 年 4 月 17 日推出了 Claude Design，這是一款讓使用者透過對話方式與 AI 共同創作視覺設計作品的工具。使用者只需用文字描述需求，Claude 便會自動生成第一版設計，涵蓋簡報、一頁式文件（one-pager，就是把重要資訊濃縮在一頁的摘要文件）、互動原型（prototype，可以點擊操作的設計稿，用來模擬真實產品的操作感）等多種格式。此工具搭載 Claude Opus 4.7 視覺模型（Anthropic 目前最強的 AI 模型之一，能同時理解文字與圖像），並能自動讀取團隊的品牌設計規範，讓每次生成的作品都符合公司的顏色、字體與元件風格。設計完成後可直接匯出為 PDF、PowerPoint、HTML 等格式，或打包成開發交接包讓工程師用 Claude Code 直接實作；目前開放給 Claude Pro、Max、Team 及 Enterprise 訂閱用戶使用。

Use case

假設你是一位行銷人員，需要在兩小時內製作一份給投資人看的提案簡報。過去你必須在 PowerPoint 或 Canva 裡一頁頁手動調整版面、配色與字體，費時費力。現在用 Claude Design，你只要輸入「幫我做一份 10 頁的 B 輪融資提案，主題是 AI 客服軟體，語氣專業」，Claude 會立刻生成完整簡報初稿；若公司已上傳品牌設計檔，Claude 還會自動套用企業配色與 Logo 字型。你看完覺得第 3 頁標題太長，直接在該頁用行內評論留言「精簡到 10 字以內」，Claude 馬上修改。最終一鍵匯出為 PPTX 傳給主管，全程不需打開 PowerPoint 或另外聘請設計師，對比舊做法至少省下半天的版面調整時間。

anthropicRead more →

Qwen3.6 以 3B 算力媲美 35B 旗艦

What is this

Qwen3.6-35B-A3B 是阿里巴巴 Qwen 團隊發布的新一代開源 AI 語言模型（就是能理解文字、寫程式、回答問題的人工智慧系統）。它採用一種叫做 MoE（Mixture of Experts，專家混合）的特殊架構——想像一個團隊裡有 256 名各有專長的員工，每次只呼叫最懂這個問題的 9 位來工作，其餘的人閒置不動。這樣雖然「員工總數」很多（35B 個神經元參數），但每次實際動用的只有 3B，電腦運算負擔因此大幅降低。最讓人驚喜的是：只需要約 22.4 GB 的顯示卡記憶體（相當於一張高階遊戲顯卡的容量），就能在自己的電腦上本地跑起這個模型，甚至 Apple 的 M 系列 MacBook 也可以，完全不需要付費訂閱雲端 AI 服務。在程式修復能力測試 SWE-bench Verified 拿下 73.4 分，在終端機任務測試 Terminal-Bench 2.0 以 51.5 分領先 Google Gemma 4-31B 的 42.9 分，且採用 Apache 2.0 授權，可免費商業使用。

Use case

假設我是一名小型軟體公司的工程師，需要讓 AI 自動找程式碼裡的 bug 並修復。以前的做法是把程式碼貼給 ChatGPT 或 Claude 這類雲端服務，每個月要付費，且程式碼得上傳到別人的伺服器（有資安顧慮）。現在我可以在公司自己的電腦上，用 SGLang（一套開源推理框架（執行 AI 模型的運算引擎））啟動 Qwen3.6-35B-A3B 的 Q4 量化版（壓縮過的輕量版，把模型精度略微降低以換取較小體積），輸入一段有 bug 的函式，讓模型用「思考模式」逐步推理出問題所在並給出修復建議。整個過程在本地執行，不需要網路、不洩露程式碼、不需月費，實測速度約 105 tokens/秒（相當於每秒輸出約 40 個中文字）。唯一需要注意的是一個參數陷阱：必須在設定裡使用 presence_penalty，而非許多工具預設的 repetition_penalty，兩者混用會導致模型輸出重複或品質明顯下降——這是與其他模型最大的不相容之處。

dailyRead more →

Codex 大改版，直衝 Claude Code

What is this

OpenAI 把旗下的 AI 寫程式工具 Codex 進行了一次大幅改版，不再只是「問它問題、它回一段程式碼」的輔助工具，而是升級成能在電腦背景自動操作應用程式、排定任務時程、跨多天持續執行工作的「桌面 AI 代理」（就是一個能自主行動、幫你完成多步驟任務的 AI 助手）。這次改版的背景，是 OpenAI 想正面挑戰 Anthropic 的 Claude Code——後者目前在能自動操作整台電腦這方面已有領先優勢。新版 Codex 同時加入了記憶功能（可以記住你上次工作的脈絡，不用每次重新交代）、內建瀏覽器、影像生成，以及與 GitHub、SSH 遠端主機等開發者工具的深度整合。定價也新增了高階訂閱方案（歐區約 114 歐元）與隨用隨付選項，試圖降低企業採購門檻。目前最大的爭議是安全邊界——已有使用者回報因為給了 Codex 過大的系統權限，導致個人設定檔被誤刪，凸顯出「AI 可以操作整台電腦」這件事在實際使用上的風險。

Use case

我負責管理一個中型開源專案，每週都要手動處理新 issue 分流（判斷 bug 或 feature request）、初步審查 PR（pull request，即協作者提交的程式修改請求）、以及定時跑測試回歸（確認新改動沒有破壞舊功能）。過去這三件事我都要打開 GitHub 網頁、一條一條手動處理，每週花約 3 小時。用新版 Codex 的桌面代理功能，可以設定一個每日排程任務：「每天早上 9 點，自動開啟 GitHub、掃描新 issue 並貼上分類標籤、找出 24 小時內新開的 PR 並留下初步 review 意見、觸發測試腳本並把結果貼回 PR 討論串。」整個流程 Codex 在背景跑，我不需要一直盯著。對比舊做法差在哪：舊的 Codex 只能在我問它的當下回答一次，不能自己去操作 GitHub 介面、更不能排程重複執行；新版則像是有了一個會自己排班、自己動手的技術助理。但前提是：一定要用低權限的隔離帳號測試，不要一開始就給它操作整台電腦的完整權限，否則出錯時損害難以控制。

dailyRead more →

Claude Code 桌面版大改版支援多 Agent 並行

What is this

Anthropic 於 2026 年 4 月 14 日正式發布 Claude Code（Anthropic 出品的 AI 程式碼助理工具）桌面應用的全面重新設計。這次改版的核心思路是把操作模式從「輸入問題然後等待 AI 回應」轉向「同時派出多個 AI 任務、自己居指揮位」。新版的主要特色是「多 Session 側欄」（Session 就是一段對話或任務），讓工程師可以在同一個視窗裡同時管理好幾個不同任務，例如一邊讓 AI 重寫某個功能、一邊讓另一個 AI 幫你查 bug、再一邊讓第三個 AI 跑測試——三件事並行，不需要來回切換視窗。同步推出的 Routines（可排程的自動化工作流程，在雲端執行）功能，則讓你把常見的重複任務（例如每次有新 PR 自動觸發程式碼審查）設定好後交給 AI 自動完成，不需要人工一次次觸發。這個版本上線首日就在 Product Hunt（開發者工具評選平台）拿下第一名，顯示市場對「多工 AI 開發」需求相當強烈。

Use case

假設我正在做一個中型 Web 專案的重構（就是把舊程式碼整理改寫得更乾淨），同時還要修幾個緊急 bug、補充測試程式碼。以前用 CLI（命令列介面，就是全黑畫面純文字輸入的操作方式）版本的 Claude Code，只能一次做一件事：等 AI 重構完，再貼另一個問題問它如何修 bug。換成新版桌面版，我可以在左側欄同時開三個 Session：Session 1 讓 AI 負責重構 user-auth 模組；Session 2 讓 AI 分析並修掉那個讓測試一直失敗的 race condition（競態條件，就是兩個程序同時搶著用同一份資料而出錯）；Session 3 讓 AI 為新 API 補上單元測試（就是驗證每個小功能是否正常的自動化測試程式）。三個任務同時跑，我只需要切分頁查看進度、哪個 Session 問我就回答哪個。若配合 Routines，還可以設定「每次有人提 PR 就自動讓 AI 檢查有沒有安全漏洞」，讓審查流程完全自動化。與舊做法相比，原本可能要花一整天輪流做的三件事，現在並行推進，等待時間大幅縮短。

dailyRead more →

Claude Opus 4.7 內建 AI 設計工具挑戰 Figma

What is this

Anthropic（就是開發 Claude AI 助理的美國公司）計畫在即將推出的 Claude Opus 4.7（他們最新一代旗艦 AI 模型）中，直接內建一套設計工具。這個工具的特別之處在於：只要用文字描述你想要什麼，AI 就能自動生成可直接上線的網站、行銷頁面或投影片簡報，完全不需要學過設計或寫程式。現有的 Figma AI 和 Adobe Firefly（Adobe 旗下的 AI 設計輔助功能）是「幫助設計師更快工作」；而 Anthropic 的新工具是直接「取代設計這個起點」，讓從未接觸設計的普通人也能從零產出專業成品。同時，Anthropic 的首席產品官 Mike Krieger（Instagram 共同創辦人）在消息曝光當天辭去了 Figma 董事會的席位，意味著兩家公司的關係正式從合作走向競爭。

Use case

假設你是一個賣手工皂的小商家，想做一個讓顧客填寫訂購單的網頁，但既沒有設計師朋友，也不懂程式碼。舊做法：花錢請設計師用 Figma（目前全球最多設計師使用的協作設計軟體）畫出版面稿，再另外找工程師把設計稿轉成可上線的網頁，費時費錢，整個流程可能要一到兩週、費用數萬元起跳。用 Anthropic 新工具的做法：打開 Claude 對話介面，輸入「我要一個賣天然手工皂的訂購頁面，風格溫暖自然，要有產品圖區、價格說明和訂購表單」，AI 直接輸出完整的可部署網頁程式碼，貼到主機上就能上線。如果之後想精修細節，生成的結果還能匯入 Figma 讓設計師調整，不會完全被鎖死。

dailyRead more →

π0.7 機器人組合式泛化新突破

What is this

Physical Intelligence（一家專門研發機器人 AI 大腦的公司）發表了新一代機器人基礎模型 π0.7，最大亮點是「組合式泛化」（Compositional Generalization，就是把學過的不同技能自由拼接、解決從沒練習過的新任務）。過去機器人 AI 需要針對每一種新任務組合，分別蒐集大量人類示範影片才能學會；π0.7 透過分層推理架構——高層理解語言指令、中層規劃視覺目標、底層執行精細動作——讓機器人能把已學技能靈活組合，大幅壓縮訓練資料需求。實測成果相當驚人：空氣炸鍋操作只有 2 筆訓練資料，原始成功率僅 5%，但經指令精煉後飆升至 95%；折疊衣物任務甚至完全沒有對應的訓練資料，成功率卻與擁有 375 小時以上經驗的人類、首次跨到陌生機器人上遠端操作的水準相當。換句話說，這個模型有點像「舉一反三的實習生」——只要教過相關技能，它就能自己拼出沒學過的新任務。

Use case

假設我是一家工廠自動化廠商，想讓機器人學會「製作濃縮咖啡＋打奶泡＋倒入杯中」這個拿鐵流程。舊方法需要錄製數百段人類示範影片、逐一標記每個動作，再花幾週時間針對這個任務從頭訓練——換一款新機器人本體還要重來。用 π0.7，如果機器人已學過「操作咖啡機」和「倒液體」這兩個基礎技能，它可以自行組合完成拿鐵製作；基準測試中製作濃縮咖啡成功率約 100%、折疊多樣衣物成功率接近 100% 且吞吐量提升 1.6 倍。最關鍵的差異是：新任務部署週期從「需要數百筆資料、耗時數週」縮短為「少量甚至零資料即可啟動」，大幅降低機器人廠商的定制開發成本。

dailyRead more →

Meta Agent 平台優化資料中心效能

What is this

Meta（就是 Facebook、Instagram 的母公司）在自家龐大的資料中心（儲存和運算 FB/IG 所有資料的地方）部署了一套由 AI 自動管理效能的系統。這套系統的核心是「AI Agent（人工智慧代理人，就是能自主執行任務、不需要人一步步指揮的 AI 程式）」，採用雙層架構：底層是 MCP Tools（Model Context Protocol，一種標準化的工具呼叫介面，讓不同的 AI Agent 都能共用同一套工具去查資料、抓數據，不用每個 Agent 各自重複開發）；上層是 Skills（技能模塊，把資深工程師多年累積的診斷邏輯「編碼」進去，讓 AI 能像老手一樣思考）。系統分兩種運作模式：「防守模式」靠 FBDetect 每週自動偵測數千個效能異常，AI 再自動產出修復程式碼；「進攻模式」則讓工程師主動要求 AI 找出浪費電力的地方並產生改善方案。實際成效驚人：原本工程師需花 10 小時手動調查的問題，AI 在 30 分鐘內就能給出診斷，一年下來回收了數百 MW 的電力（足以供應數十萬個美國家庭整年的用電量）。

Use case

假設 Meta 工程師發現某個服務在最新版本部署後 CPU 用量多了一點點，以往要確認這是真正的效能退步還是正常波動，工程師需要手動查 profiling 資料（就是記錄程式執行細節的日誌）、比對實驗結果、翻過去的程式碼變更記錄，大概要花將近一整個工作天。現在 FBDetect 能偵測到 0.005% 精度等級的細微異常，一旦觸發，AI Regression Solver 自動呼叫 MCP Tools 去拉 profiling 數據、查實驗結果，再用 Skills 裡封裝的「資深工程師診斷邏輯」分析原因，30 分鐘內產出一個可以直接送 code review（程式碼審查，就是請同事確認改動是否正確）的修復方案。工程師不再需要花時間查資料挖原因，只需審核 AI 提出的修復建議就好，資深工程師得以從重複性調查工作中解放，轉向更高價值的任務。

dailyRead more →

ChatGPT 女性用戶首度超越男性

What is this

OpenAI 官方報告顯示，ChatGPT（就是那個會對話的 AI 聊天機器人）自 2022 年底上線時，用戶中女性只佔約兩成，男性佔八成；到了 2025 年 7 月，女性比例首度突破 50%，達到 52%，翻轉了早期幾乎清一色工程師使用的格局。以 ChatGPT 每週約 7 億活躍用戶換算，估計近 5 億名女性定期使用這個工具。報告同時揭示使用內容也大幅轉變：寫作任務佔所有對話的 78%，而程式碼（就是寫電腦指令的技術工作）只佔 4.2%，顯示大多數人是拿它來幫忙寫文章、整理筆記、草擬信件，而非寫程式。個人日常用途佔全部對話的 73%，18 到 25 歲的年輕族群貢獻了將近一半的訊息量，說明 AI 工具已從科技圈的實驗品，變成一般大眾每天會用到的生活助手。

Use case

假設你正在設計一款讓用戶用自然語言（就是直接說人話、不用學指令）管理行事曆的 AI 應用。過去的設計假設是「用戶是工程師或科技愛好者」，因此花大量心力在 API 串接（就是讓不同軟體互相溝通的技術橋接）、自訂指令語法、批次處理效率這些功能上。但根據這份數據，現在 78% 的對話是寫作類、女性用戶已超半數、個人用途佔七成——真正的大眾用戶是想用它寫會議紀錄、整理待辦清單的普通上班族，不是要調 API 的開發者。舊做法做出來的產品操作複雜、術語多，這群用戶打開就放棄；新方向應把資源轉向「對話能不能一句話聽懂意思」「回答夠不夠口語自然」，讓不懂技術的人也能無障礙使用，留存率才會真正提升。

dailyRead more →

Google Gemini Mac 原生桌面應用登場

What is this

Google 在 2026 年 4 月 15 日正式推出 Gemini（Google 旗下的 AI 對話助理，功能類似 ChatGPT）的 Mac 桌面原生應用程式。這款應用以 Apple 的程式語言 Swift 100% 原生開發，意思是它不像某些 App 只是把網站硬包成視窗，而是真正從底層為 Mac 量身設計，執行起來更流暢、和系統整合更深。用戶只要按下 Option + Space 快捷鍵，就能在任何正在使用的程式裡立刻呼叫出 Gemini，完全不需要切換到瀏覽器或另外開視窗。特別值得一提的是「螢幕共享」功能——AI 可以即時分析你目前螢幕上顯示的內容，例如試算表公式或複雜圖表，並且整合了 Google Drive、Google Photos、NotebookLM 等 Google 服務；此外還支援圖像生成（使用 Nano Banana 模型）與影片生成（使用 Veo 模型），需要 macOS 15 以上版本，全球免費下載。競爭對手 ChatGPT 與 Claude 的 Mac 原生版早已上線超過一年，此次 Google 補上桌面空缺，對已使用 Google Workspace（Google 的企業辦公套件，包含 Gmail、雲端硬碟、文件等）的用戶而言整合成本最低。

Use case

假設你是行政助理，正在 Mac 上處理一份複雜的 Excel 預算試算表，裡面有一堆看不懂的公式。以前你要打開瀏覽器、切到 Gemini 網頁，再把問題手打或截圖上傳說明。現在你只要按 Option + Space 喚出 Gemini，點選「分享螢幕」讓它看到你的試算表，然後直接問：「這個 SUMIF 公式到底在算什麼？」Gemini 就能根據你實際畫面上的公式和數字直接回答，完全不需要你複製貼上或文字描述。對比舊做法——原本要花 2～3 分鐘截圖、說明背景、等回應；現在 AI 直接「看見」你的螢幕，幾秒內就能給出針對你那份文件的精準解釋，省去所有描述步驟。

dailyRead more →

Ollama 效能爭議與替代工具比較

What is this

Ollama 是一套讓一般人能在自己電腦上執行 AI 語言模型（就是 ChatGPT 那種能對話的 AI）的工具，以安裝方便著稱。但近期社群（尤其是工程師討論區 Hacker News）掀起一波批評聲浪，核心問題是效能明顯落後：在同樣的電腦硬體下，改用底層工具 llama.cpp 原生伺服器跑 AI 的速度可達每秒 161 個字符，Ollama 卻只有 89 個——差了將近兩倍；當多人同時使用時，差距甚至可拉大到三倍。批評者同時指出 Ollama 支援的模型格式（就是 AI 模型的「壓縮包」格式）種類有限，選擇彈性不如直接用 llama.cpp。另一個替代選項 LM Studio 提供圖形化介面（不用打指令的視窗操作），在 Apple 電腦上效能也比 Ollama 優秀，且不綁定特定平台。目前 Ollama 仍因簡單易用而有大量使用者，短期若沒遇到效能瓶頸不需要急著換，但需要跑更多模型或更高速度的開發者已有成熟的替代路徑。

Use case

我想在自己的電腦上架設一個私人 AI 助理，讓它快速回答問題，同時支援多種不同的 AI 模型。若用 Ollama，設定確實簡單，但實測發現回應速度偏慢；以 Qwen3-Coder 32B（一款開源程式碼 AI 模型）為例，吞吐量比 llama.cpp 慢約 70%。改換 llama-server（llama.cpp 附帶的伺服器元件），先寫一個設定檔（INI 格式，甚至可以請 AI 自動幫你生成），就能啟動一個完全相容 OpenAI API 格式的本地伺服器——上層的應用程式（如 Claude Code、open-webui）完全不需要改設定，直接接上去就能用，速度卻提升將近兩倍。若偏好視窗操作，改用 LM Studio 也能獲得相似效能提升，且能直接從 Hugging Face（最大的 AI 模型分享平台）搜尋下載模型，不受 Ollama 的格式限制。

dailyRead more →

Factory Droids 全流程 AI 編碼平台

What is this

Factory 是一家 2023 年成立的 AI 新創公司，在 2026 年 4 月完成了 1.5 億美元的 B 輪融資，估值達到 15 億美元。它的核心產品叫做「Droids」，是一套覆蓋整個軟體開發生命週期的 AI agent（就是能自主執行任務的 AI 程式）系統。這套系統包含三個主要 Droid：CodeDroid 負責寫程式碼、ReviewDroid 負責審查 pull request（就是工程師提交程式碼後需要同事審查的環節）、QA Droid 負責自動化測試。Factory 最大的技術特色是「不綁定單一 AI 模型」——同一套工作流程可在 Anthropic Claude、DeepSeek 等不同基礎模型之間自由切換，讓不同任務都能使用最適合的模型，而不是把所有工作硬塞給同一個 AI。目前已有 Morgan Stanley、Ernst & Young、Palo Alto Networks、MongoDB 等大型企業採用，並原生整合 GitHub、GitLab、Jira、Slack、PagerDuty 等工程師日常使用的工具。

Use case

假設你是一位軟體工程師，要新增一個功能讓用戶可以重設密碼。傳統做法：自己手寫程式碼 → 請同事 code review（審查程式碼） → 手動跑測試 → 修 bug → 重複以上步驟，整個流程可能耗費一兩天。用 Factory Droids 的做法：你描述需求後，CodeDroid 自動產生完整程式碼實作；ReviewDroid 接著自動審查這段程式、標記潛在問題（例如安全漏洞或風格不一致）；QA Droid 再自動產生測試案例並執行，確認功能正常。整個流程不需人工逐步介入，工程師從「執行者」轉為「最終審查者」。相比傳統做法，多模型切換的設計讓程式碼生成、審查、測試三個階段各自用最強的模型，而非全部依賴同一個 AI，理論上能在品質和速度上同時取得優勢。

dailyRead more →

Q1 零售商 AI 導流轉換率超越自然流量

What is this

Adobe Analytics 分析超過 1 兆次網站訪問後發現，2026 年第一季美國零售網站來自 ChatGPT、Perplexity、Claude 等 AI 工具（就是那些能對話、能回答問題的人工智慧助理）的導流量比去年同期暴增 393%。更驚人的是「品質」的提升：去年 3 月 AI 帶來的訪客購買率還比一般訪客低 38%，到今年 3 月已反轉為高出 42%。每次訪問帶來的營收也從落後 128% 翻轉為領先 37%。這意味著消費者在使用 AI 比較、篩選商品後，抵達零售網站時購買意願已非常強烈——AI 扮演了「幫消費者先做好決定」的角色，讓最後抵達網站的人幾乎已是準備付款的狀態。不過約 34% 的產品頁和 25% 的首頁仍無法被 AI 系統正確讀取，代表仍有大量潛在的高意願訪客在進門前就被擋住了。

Use case

假設我是一家網路書店的行銷負責人，想提升 AI 導流帶來的訂單。現在的問題是：有人在 ChatGPT 問「推薦幾本台灣作者的小說」，ChatGPT 有時推薦了我店的書，但導來的訪客卻沒有下單。根據這份報告的建議，我應該：1) 為每本書的產品頁加上 Schema.org 結構化資料（一種讓 AI 和搜尋引擎都能正確讀懂商品資訊的標準格式），確保書名、作者、價格、庫存狀態都能被 AI 正確抓取；2) 確認 robots.txt（網站對外公告「哪些機器人可以來爬我的資料」的設定檔）沒有意外封鎖 ChatGPT 或 Perplexity 的爬蟲；3) 在流量分析工具設定 AI 來源追蹤標籤，分辨哪個 AI 平台帶來的訪客最容易完成購買。對比舊做法：過去只優化 Google SEO（讓 Google 搜尋找到你），現在還需要優化「AI 引用率」——讓 ChatGPT 願意提到你、且提到時有足夠清晰的產品資訊，才能把那批「已決定要買、只差找到哪家」的高意願客戶接進來。

dailyRead more →

機器人如何從規則走向 AI 自學

What is this

過去，工程師讓機器人做事的方式，是把每種情況都事先寫好規則——例如教機器人疊衣服，就得把「辨識袖子」「處理各種布料皺折」「左右對齊」等數百條條件一一寫進程式。這種方法很快遇到瓶頸：真實世界情況太多變，規則永遠寫不完。大約從 2015 年開始，研究者改用「試誤學習（reinforcement learning，讓 AI 像玩電玩一樣不斷試錯，做對就給獎勵）」，讓機器人在虛擬環境中練習幾百萬次再移到現實。2022 年 ChatGPT 一類的大型語言模型（LLM，就是那種能對話的大型 AI）崛起後，機器人學習又進入新階段：工程師把照片、感測器讀值、機器人關節角度一起餵給 AI，讓它自己學出「下一步該怎麼動」，每秒發出幾十道動作指令，不再需要人工寫規則。Google DeepMind 的 RT-2（2023 年發表的通用機器人 AI 模型）就是代表作，它用整個網路的圖片訓練，讓機器人能完成「把可樂罐放到泰勒絲照片旁邊」這類從未練習過的新任務。目前全球人形機器人（外形接近人類的機器人）的投資，從 2024 年的 15 億美元暴增至 2025 年的 61 億美元，顯示這波 AI 驅動的機器人學習革命已吸引大量資金押注。

Use case

我想讓倉庫機器人把不同種類的商品分揀到對應的箱子裡。用舊做法，工程師要為每種商品的形狀、顏色、包裝方式各寫一套辨識規則，只要上架新商品就要重新改程式，根本跟不上品項快速變動的速度。用以 RT-2 為代表的新一代 AI 機器人學習方式，工程師改為：蒐集大量「機器人抓取各類物品」的影片與感測器資料，讓 AI 看過之後自己學出「手臂要怎麼動才能抓起這個東西」的通用策略。新品上架時，機器人能靠學到的通用能力自行嘗試，不需重寫規則。Agility Robotics 的人形機器人 Digit 目前已在亞馬遜、豐田、GXO 等公司的倉庫實際工作，就是這種學習方式商業落地的現實案例——舊方法需要數週重新程式設計，新方法讓機器人能自行適應新品項。

mittrRead more →

Perplexity 推出 AI 目標導向平台

What is this

Perplexity（一家以 AI 搜尋引擎聞名的美國科技公司）推出了名為「Personal Computer（個人電腦）」的全新 AI 平台。這個平台想從根本改變我們跟電腦互動的方式——過去我們要親自打開軟體、一步步下指令；現在你只需說出「我想完成什麼目標」，AI 就會自己規劃方法、上網查資料、決定步驟順序，然後替你把事情做完。它的核心技術是「深度網路搜尋」，意思是 AI 在執行任務前會主動到網路上蒐集最新資訊，再根據資訊決定下一步怎麼做，整個過程不需要人介入。這概念等於是把電腦從「等著你下指令的工具」升級成「主動幫你達成目標的協作者」，讓你不必再在十幾個零散軟體之間切換，AI 統一幫你打通。

Use case

假設你是自媒體創作者，想搞清楚「最近哪款 AI 影片生成工具最值得用」。以往你得自己開瀏覽器分頁、上 YouTube 看評測、去 Reddit 翻討論串、再去各官網比較功能與價格，前後可能花一兩個小時。用 Perplexity Personal Computer，你直接說出這個目標，平台會自動展開多步驟流程：先搜尋最新評測文章、比對功能差異、彙整使用者真實評論，最後輸出一份整理好的比較報告。你不需要額外下任何指令，AI 自主完成所有查詢、判斷與整合，從「你說出目標」到「拿到結果」之間的所有管理工作全部消失。

📰 每日 AI 彙整