Cursor(一款深受工程師歡迎的 AI 代碼編輯器,讓寫程式時 AI 可即時協助補完程式碼、解釋錯誤、重構功能)宣佈即將推出自己從頭訓練的全新大型語言模型(LLM,Large Language Model,就是像 ChatGPT 這樣能理解並生成文字的 AI 核心引擎)。這個模型擁有超過 1.5 兆個「參數」(參數可以想像成 AI 的知識節點,數量越多代表 AI 的理解能力越強,目前公認最大的模型 GPT-4 估計約 1.8 兆),並使用了超過 10 萬張 GPU(GPU 是 AI 訓練用的特殊運算晶片,多數大型訓練計畫只動用幾千張,10 萬張代表訓練規模極其龐大)進行從頭訓練。過去 Cursor 是直接採用 OpenAI、Anthropic 等公司的現成模型,這次改為完全自行訓練,代表 Cursor 正從「工具公司」跨越成為真正的 AI 基礎模型公司;這在 AI 程式開發工具領域前所未見,可能重塑整個市場格局。
假設你在開發一個電商平臺,需要同時修改資料庫結構、後端 API、前端介面,並補寫自動測試、更新技術文件。用現在的 AI 代碼工具,你必須一個任務一個任務引導 AI:「先改這個檔案」「再修那個地方」——每一步都需要人工確認,AI 只是個比較聰明的自動補字功能。Cursor 的新模型主打「agentic(自主代理,指 AI 能自己規劃並連續執行多步驟任務,不需要人每一步下指令)」軟體開發:你只需說「把商品管理功能重構成微服務架構」,AI 就能自主分析各檔案的依賴關係、跨多個目錄逐步執行修改、確認每步結果是否正確,最後交給你一個完整可用的成果。相比現在需要反覆引導的體驗,這個模型的目標是讓 AI 真正充當一位能獨立工作的工程師,而不僅僅是替你寫下一行代碼。
MCP(Model Context Protocol,讓 AI 助理連接外部工具和資料的通訊標準,就像 USB 插頭讓不同裝置互通一樣)現在推出了「企業管理授權」(Enterprise-Managed Authorization,簡稱 EMA)功能,已正式進入穩定版本。過去在企業環境裡,每位員工都需要對每一個 MCP 伺服器(提供 AI 工具存取的服務端)逐一點選「同意授權」,既麻煩又難以統一管理。新功能透過 OAuth(一種讓系統之間安全交換使用者授權憑證的標準)和企業單一登入(SSO,就是員工登入公司系統後一次認證就能使用所有工具),讓管理員只需在後臺開啟某個 MCP 伺服器,全公司員工就能自動取得存取權限,不需要每人各自操作。Okta、Anthropic、VS Code、Asana、Atlassian、Figma 等主流企業工具已率先支援此標準,大幅降低 AI 工具大規模部署的行政成本。
假設我是公司的 IT 管理員,想讓全部 500 位員工在使用 AI 助理時都能直接查詢公司的 Jira(專案管理工具)和 Figma(設計工具)資料。舊做法:每位員工第一次使用時,必須自己打開 OAuth 授權畫面、點選「允許」、確認帳號是公司帳號而非個人帳號,500 人就有 500 次重複動作,而且 IT 部門完全無法確認哪些人有沒有用錯帳號授權。新做法(使用 EMA):IT 管理員在公司身份管理系統(如 Okta)後臺,把 Jira 和 Figma 的 MCP 伺服器設定為「企業已核准」。之後員工只要用公司帳號登入,AI 助理就自動取得對應的存取憑證,完全不需要員工手動操作任何授權畫面。差異就是:從「500 人各自操作一次、管理員無法管控」變成「管理員設定一次、全公司自動生效」,安全政策也能從中央統一執行。
Subquadratic 是一家總部在美國邁阿密的 AI 新創公司,上月剛從秘密開發模式公開亮相,宣稱他們用一種全新方法,突破了困擾大型語言模型(LLM,就是 ChatGPT、Claude 這類能對話的 AI)將近十年的核心數學瓶頸。這個瓶頸叫做「二次方注意力問題」——傳統 AI 在閱讀文章時,必須把每一個字跟所有其他字兩兩比對,文章愈長、計算量暴增愈快(長度加倍,計算量就變四倍),這讓 AI 處理超長文件既慢又昂貴。Subquadratic 開發的新模型 SubQ 採用「稀疏注意力」(sparse attention,意思是隻挑真正重要的字詞配對來計算、跳過不重要的配對,而且每次根據輸入內容動態調整),聲稱速度比現有技術快 56 倍、成本大幅降低,且能一口氣處理高達 1200 萬個詞彙(token,AI 讀取文字的基本單位)的超長文本。目前已有第三方評估公司 Appen 進行獨立測試,對部分結果持正面態度,但業界也有研究員質疑公開證據尚不充分,且 SubQ 是建立在中國開源模型 Qwen 的預訓練基礎上,並非完全從零打造,讓部分人對「全面重新發明 LLM」的說法保持保留。
假設你是一名法律助理,需要讓 AI 一次讀完一份 5000 頁的合約資料庫,並從中找出特定條款的前後矛盾之處。用現有主流模型(如 Anthropic 的 Opus 4.6,一家知名 AI 公司的高階模型)執行一次這種超長文本測試,費用約需 2,600 美元;而 Subquadratic 宣稱的 SubQ 執行相同測試只需 8 美元,差距高達 325 倍。在編碼能力測試 LiveCodeBench(一個用真實程式題評估 AI 寫程式能力的基準)上,SubQ 達到 89.7% 的準確率,與當前頂尖的程式 AI 模型表現相當。不過這些成果仍需更多獨立實驗室驗證——業界目前有人認為「這可能是遊戲規則改變者」,也有人評論這是「自 2017 年 Transformer 架構以來最大突破,或者是 AI 版本的 Theranos(矽谷史上知名科技詐騙案)」,外界仍在觀望。
波士頓兒童醫院研究團隊聯合哈佛大學與 OpenAI,使用 OpenAI 的 o3 Deep Research 推理模型(一種能「先思考、逐步推理再回答」的 AI,不是直接說答案,而是像偵探一樣拆解問題)來幫助醫師診斷兒童罕見遺傳疾病。他們把 376 個原本無解的兒童病例(去除個人識別資料後)輸入 AI,讓它分析基因資料(就是讀取孩子的 DNA 密碼)、臨床症狀與病歷,最終在 18 例中找出確切診斷——這些病例原本連頂尖專科醫師也束手無策、拖延多年未解。這 18 名孩子包含十名有神經發育問題的患者、四名有神經肌肉疾病、兩名曾突然死亡、兩名有兒童早發型精神病,診斷成功率約 4.8%。此研究結果於 2026 年 6 月 18 日刊登於頂尖醫學期刊《NEJM AI》,是 AI 推理能力在真實臨床場景落地的重要里程碑。值得注意的是,AI 扮演「提供推理線索」的角色,所有最終診斷仍須由人類醫師審查、追加檢測後才成立,並非讓消費者自行使用 AI 診斷疾病。
假設有一名三歲兒童出現說話遲緩、手腳肌肉無力等症狀,父母帶他輾轉求診多家醫院的神經科與遺傳科,甚至做了基因定序(將孩子整組 DNA 逐一讀出來的檢查),但報告顯示「未找到已知致病基因」,案件就此擱置數年。使用 o3 模型的新流程是:研究人員把孩子的症狀描述、醫師筆記、可能相關的候選基因清單一起輸入 AI;AI 不直接給答案,而是把問題拆成多個推理步驟,逐一排查每個候選基因與數千種罕見疾病的關聯,輸出一份「可能解釋與支持文獻」的推理報告;最後由人類醫師審查報告、決定追加哪些檢測,才下最終診斷。舊做法靠人工查詢文獻,面對每個案例可能涉及的海量基因變異與罕見疾病資料庫,幾乎找不完;新做法讓 AI 大範圍搜索並整理出有據可查的線索,人類只需把關最終判斷。波士頓兒童醫院目前累計已完成超過 40 例原本懸而未決的罕病診斷,節省約 6 萬小時研究工時,並將 700 萬美元的勞動成本重新分配到其他業務。
OpenAI 與生技公司 Molecule.one 聯合開發的 GPT-5.4(也就是 ChatGPT 背後那套 AI,這是目前最新、能力更強的版本),搭配一個叫 Maria 的化學 AI 代理人(「代理人」的意思是:AI 不只回答問題,而是能自己規劃任務、執行實驗、分析結果),首次在真實製藥研究中做到「近乎自主」的科學發現。這套系統的目標是改良一種叫做 Chan-Lam 偶聯的化學反應(這是藥廠在合成許多藥物時,必須用來把碳原子和氮原子連接在一起的關鍵步驟,但成功率一直偏低,尤其在合成磺酰胺類藥物——一類廣泛用於抗生素與利尿劑的化學結構——時特別困難)。AI 系統全程自動產生研究方案、設計實驗、執行測試、分析數據,人類化學家只扮演「最終把關」角色,從 AI 提出的數千個方案中挑選四個進行驗證。整個過程從 2026 年 3 月到 6 月,三個月內完成了 10,080 次化學反應——相當於一位化學家連續不休工作十年的工作量。
研究的核心難題是磺酰胺類化合物的合成,原本 Chan-Lam 反應在這類化合物上的平均成功率只有 16.6%,大量潛在新藥因此卡關。AI 系統在分析海量實驗數據後,提議加入 TEMPO 類溫和氧化劑(一種幫助穩定反應條件的化學添加劑)——這是人類化學家沒有預先想到的解法。人工驗證的結果:在 14 組測試底物中,11 組確認有效,其中 8 組產率直接翻倍以上;整體平均成功率從 16.6% 提升至 25.2%,成功率超過 30% 的反應比例更從 15.6% 跳升到 37.5%。過去藥廠若要優化這類化學反應,需要安排大批研究員耗費數年時間逐步摸索;現在 AI 在三個月內自主跑完整個流程,並找到了人類未曾想到的有效解法,大幅降低了新藥開發的技術瓶頸。
銀河通用機器人(一家專注人形機器人研發的中國公司)推出了 AstraBrain-WBC 0.5,號稱全球首個人形機器人「通用小腦」——也就是說,這是一套能讓人形機器人自動掌控各種全身動作的核心 AI 控制系統,不需要工程師針對每種動作單獨撰寫程式。它的架構借鑑了 ChatGPT 所使用的 Transformer(一種擅長理解序列資料、讓 AI 能「看前文猜後文」的模型架構),把機器人的「下一個動作」當成預測問題來解——就像 AI 預測句子的下一個字,這套系統預測下一個關節角度。訓練素材是規模空前的 2 萬小時人類動作數據(約 20 億幀),涵蓋跑步、舞蹈、搬運、攀爬等多元情境。最關鍵的兩項突破是:一、「零樣本泛化」(Zero-shot Generalization,指機器人能成功執行它從未特別練習過的全新動作,就像人類看一次就能模仿);二、首次在機器人運動控制領域驗證了「Scaling Law」(規模定律)——和 ChatGPT 的成長路徑一樣,資料量與模型規模越大,能力就越強,這意味著人形機器人的運動智能也能靠堆資料持續進化。
想像一條工廠生產線要讓人形機器人協助搬運大小、重量各異的貨箱。過去的做法是:每換一種新箱型,工程師就要重新設定機器人的抓取角度、步伐節奏和出力方式,一個新場景可能要花數天重新調試。使用 AstraBrain-WBC 0.5 後,機器人靠著從 2 萬小時人類動作數據中內化的全身協調能力,碰到沒見過的新箱型也能直接上手、無需額外訓練。研究團隊的實測顯示,協作搬運任務的成功率從 83.26% 提升至 92.58%;系統的推理延遲(AI 計算出動作指令所需的時間)不到 1.5 毫秒,全鏈路延遲也控制在 20 毫秒以內,即時反應完全不卡頓。對比舊做法每換新工件就要重新程式設計,這套通用小腦大幅省去了重複的人工標註與場景調試成本,讓機器人部署效率跨越式提升。
GLM-5.2 是中國 AI 公司智譜(Zhipu)推出的「開源權重」AI 模型(就是把 AI 的核心參數完整公開,任何人都能免費下載並在自己的電腦或伺服器上運行),這次受到廣泛關注,是因為多位知名 AI 開發者獨立測試後,一致認為它是第一個在日常使用中感覺接近頂尖商業模型水準的開源模型。AI 教育家 Jeremy Howard 直接稱它「至少和 Claude Opus 4.8 以及 GPT-5.5 一樣好」;另有外部評測將它排在 GPT-5.5 和 Claude Opus 4.8 之間的代理知識工作測試(agentic,指能自主執行多步驟任務的 AI 評估)。在技術設計上,GLM-5.2 引入了「IndexShare」機制,讓 AI 在處理超長文字(最多百萬字元等級)時,能重複利用稀疏注意力(sparse attention,一種讓模型不用逐字看完就能聚焦重點的計算方式)的運算結果,大幅降低推理成本。同日,Poolside 也釋出 Laguna M.1 開源模型(採 Apache 2.0 授權、可商用),這是一個 2250 億總參數、233 億活躍參數的稀疏混合專家架構(Sparse MoE,讓模型每次只呼叫部分「專家子網路」來回答、節省算力),支援 256K 超長上下文,專為長程式碼任務設計,在 Apple M3 Max 128GB 機器上以 3-bit 壓縮格式可達每秒 26 個 token 的生成速度。
假設你是獨立開發者,想要一個能自動完成複雜程式碼任務的 AI 助理,但不想每個月付 Claude 或 GPT 的 API 訂閱費。過去開源模型和頂尖商業模型之間落差明顯,自動完成任務的成功率偏低。現在可以透過 llama.cpp 或 Unsloth(兩款讓個人電腦也能跑大型 AI 的開源工具)下載 GLM-5.2 的 GGUF 格式(已壓縮優化的模型檔),在本機直接執行。智譜內部測試顯示,GLM-5.2 在 app 開發任務中的完成率從前一版 GLM-5.1 的 21/70 躍升至 48/70,幾乎翻倍;外部從業者測試後也有人說它已成為自己的「每日主力」模型。這代表你不需要訂閱費、不需要連網,就能在本地跑一個幾乎接近 GPT-5.5 水準的編程 AI——這在過去開源模型中是從未出現過的事。
AI agent(能自動執行任務的 AI 程式)在軟體開發領域的工具生態正快速演進。傳統版本控制工具如 git/GitHub 是為「人類逐一提交改動」所設計的,當幾十甚至幾百個 AI 代理同時改寫程式碼時,就會出現衝突、失同步、效率崩潰等問題。為此,開發者社群正在重新設計整個工作流架構(harness,把 AI 模型、記憶系統、版本控制整合成一套完整框架),甚至出現了專為多代理並行設計的新工具 Noumena Code(ncode)。同一時期,多個主流 AI 開發工具也推出了重大更新:OpenAI Codex 新增「錄製重播」功能,讓你示範一次操作,AI 就能學會並重複執行;Cursor IDE(一款 AI 輔助寫程式的編輯器)推出 /automate 指令,讓你用白話文描述任務,自動設定觸發條件、Slack 通知和 GitHub 事件;Claude Code(Anthropic 的程式碼 AI 助手)新增 Artifacts 功能,讓 AI 產出的成果可以直接發布成可分享的互動網頁;Devin(一個能自主寫程式的 AI 軟體工程師)則加入了自動安全漏洞審查,能把多個看似輕微的問題串連起來,判斷是否構成真實的高危漏洞。
假設我是一位後端工程師,想讓五十個 AI 代理同時修復不同模組的 bug。用傳統 git 工作流,每個代理各自開分支(branch)、各自提交(commit),到了合併(merge)時,因為代理彼此互不知情、各做各的,就會產生大量程式碼衝突,反而需要人工一一解決,整體變得更慢。若採用 Noumena Code 的新架構,系統以「虛擬淺層複本」讓每個代理只取得自己負責的那份程式碼,搭配檔案層級存取控制(ACL,就是指定哪個代理只能碰哪些檔案),完成後自動同步到雲端,大幅減少衝突發生。另一個具體場景:我想讓 AI 自動化「每天早上拉最新 PR(Pull Request,別人提交的程式碼變更審查請求)→ 跑測試 → 回報結果」這整個流程。用 Codex Record & Replay,我親自示範一次完整流程,Codex 錄下操作步驟,日後即可自動重複執行,省去以前需要手寫自動化腳本(script)的大量設定時間,出錯機率也更低。
Artificial Analysis(一家專門評測 AI 模型能力的研究機構)推出了全新的基準測試(基準測試就是用一套標準化考題來客觀比較不同 AI 的能力),名為 AA-Briefcase。與以往只考「單一問題回答」的測試不同,它模擬真實職場中長達數週的複雜知識工作——包括整理散落在 Slack 訊息、電子郵件和大量文件中的資訊,最終產出財務模型或董事會報告。在這項測試中,Claude Fable 5(Anthropic 公司的最新旗艦 AI)以 1587 Elo 分(Elo 分是一種競技排名制度,分數越高代表越強)排名第一,Anthropic 的 Opus 4.8 以 1356 分位居第二,中國模型 GLM-5.2 以 1266 分是非 Anthropic 陣營的最強選手。最震撼的結論是:即使是排名第一的 Fable 5,也只有 3% 的任務能完整通過所有評分標準,顯示目前 AI 在應付現實世界的長時程複雜工作時仍有極大落差。此外,測試同時揭露各模型的執行費用:Fable 5 每完成一項任務平均花費 31 美元,Opus 4.8 約 10.4 美元,GPT-5.5 xhigh 為 3.68 美元,GLM-5.2 僅 2.4 美元——光靠能力排名選模型,可能會付出十倍以上的費用差距。
假設我是一名顧問,需要讓 AI 代理(就是能自主執行一系列步驟、不需要人一步一步下指令的 AI 程式)幫忙分析客戶公司三個月的財務狀況,原始資料散落在幾千則 Slack 訊息、數百封 Email 和大量 Excel 試算表裡,最終要輸出一份 10 頁的董事會簡報。舊做法是我得先手動彙整資料再餵給 AI,分段產出後再自己拼接。用 AA-Briefcase 這類測試設計背後的評估邏輯,可以評估 AI 代理能否「全程自主」:自行讀取分散來源、交叉比對數字、撰寫財務模型並輸出報告。根據測試結果,若選 Claude Fable 5,它表現最好但每任務要花約 31 美元,且全部關卡都過的機率僅 3%;若預算有限,Opus 4.8(10.4 美元)或 GLM-5.2(2.4 美元)是較省錢的替代選項,但完成品質對應下降。這告訴開發者:部署 AI 代理時,不能只看排行榜名次,還要同時考慮「每次任務的花費」與「真正完整達標的機率」,這兩個數字才是決定方案可不可行的關鍵。
OpenAI 在醫療 AI 與 AI 對齊(讓 AI 更安全、行為更符合人類福祉的研究方向)兩個領域同時發布了多項重要成果。第一,知名醫學期刊《NEJM AI》刊載了一篇由波士頓兒童醫院與哈佛大學合作的研究,顯示 OpenAI 的 o3 Deep Research(一種能自動查閱大量文獻、進行多步推理的 AI 工具)協助臨床醫師在 376 個「過去完全找不到答案」的兒童罕見病案例中,重新找到了 18 個有效診斷,這些孩子在此之前可能等待了數年卻沒有病名。第二,OpenAI 宣佈 GPT-5.5 Instant 在健康醫療問答的表現,已追平頂尖的「思考型模型」(Thinking model,即回答前會多花時間深度推理的 AI);這個評估橫跨 60 個國家、49 種語言、26 個醫學專科的數百位醫師。第三,OpenAI 發表了一項對齊研究,利用強化學習(Reinforcement Learning,讓 AI 根據獎懲反覆調整行為的訓練方法)在醫療對話上訓練 AI 展現誠實、謙遜、關心人類福祉等特質,結果顯示:這種訓練不只在醫療領域有效,在 53 項對齊評估中改善了 44 項,甚至在欺騙行為及程式碼獎勵欺騙等非醫療面向也同步改善,提供了讓 AI「全面善意」的一個具體實驗路徑。
設想有個小孩自幼反覆發燒、四肢無力,家長帶他走遍大醫院,主治醫師也查閱過許多資料,卻始終沒有確切病名,只能症狀治療。傳統流程中,這種「不明原因罕見病」往往要靠極偶然的機緣——碰到剛好看過某篇論文的專家——才可能被診斷出來,有些家庭等了十年以上。現在的做法是:醫師將孩子的完整病歷、症狀記錄輸入 o3 Deep Research,AI 會自動爬梳數以千計的醫學文獻與罕見病資料庫,識別出症狀組合可能對應的罕見疾病,並附上支持依據給醫師複核。這項研究在 376 個原本「已被放棄」的兒童案例中,就靠這個流程新找出了 18 個過去沒被診斷到的疾病——對這 18 個家庭來說,這意味著終於有了病名,並可以據此找到對應的治療方案,而非繼續黑暗中等待。
OpenAI 最新推出的 Codex(一個能幫你寫程式、執行電腦操作的 AI 助理)新增了「Record & Replay(錄製與重播)」功能。這個功能讓你不需要寫複雜的說明文字,只要親自示範一次工作流程,Codex 就會「看著你做」並學起來,之後可以替你自動重複執行相同的任務。具體來說,它會記錄你的每一個點擊動作與操作步驟,把這段示範轉化成一個可以反覆呼叫的「技能(skill)」,技能還能在團隊之間共享,一個人錄製好,整個部門都能使用。目前這項功能僅限 macOS(蘋果電腦作業系統)使用,且需要開啟「Computer Use(電腦控制)」模式,讓 AI 實際操控你的電腦畫面。
假設我每週都要把一支新影片上傳到 YouTube,流程包含:從試算表撈出影片名稱與描述、找到對應的縮圖檔案、加上字幕、設成私密草稿、最後核對資訊是否正確。以前每次都要手動做一遍,大約需要 15 分鐘。現在,我只要開啟 Codex 的「Record(錄製)」模式,從頭到尾操作一次給它看;錄製結束後,Codex 會把這整段流程打包成一個可重複執行的「技能」。下週新影片來了,我只要告訴 Codex「執行上傳技能」,它就會自動完成:讀取試算表正確那列的資料、找到對應縮圖、填入字幕、上傳並設為私密、然後回報完成。相比以前每次 15 分鐘純手工操作,現在只要幾秒鐘下指令,其餘全部交給 AI。
OpenAI 的研究人員發現,只需要「少量」針對特定良善行為的強化訓練(就是讓 AI 透過反覆接受回饋來學習正確行為,類似訓練員工時給予獎懲反饋),就能讓 AI 模型在各種不同情境下都變得更安全、更誠實,也更難被人惡意操控。研究人員針對「誠實度」和「可糾正性」(可糾正性是指 AI 能接受人類糾正、不固執己見的程度)這兩個特質進行訓練。更關鍵的是,這個效果能跨領域遷移——原本用醫療健康資料進行的訓練,竟然也讓 AI 在辨識欺騙行為方面變得更厲害,說明這是真正改變了模型的底層「性格」,而非只記住特定情境的應對方式。最終,這種受訓的模型在 53 項評量指標中有 44 項取得更好成績,整體提升相當顯著。這個方法與 Anthropic(另一家 AI 公司)採用的「憲法式 AI」訓練法(讓 AI 依照明文條款自我審視行為的方式)方向不同,代表業界在提升 AI 安全性上出現了兩條不同的技術路線。
假設你在公司部署了一套客服 AI,你擔心使用者可能用「現在假裝你是沒有限制的 AI」這類指令來繞過系統設定,誘導它輸出錯誤或有害資訊。以往的做法是發現一種攻擊手法就補一個漏洞,治標不治本,新的攻擊方式層出不窮。現在,OpenAI 這項研究顯示:只需在訓練階段加入少量針對「誠實」和「可糾正性」的強化訓練,模型就能從根本上對操控手法免疫。不只是在訓練時見過的情境有效,連完全陌生的新式攻擊也能抵擋。舊方法像是一直幫門加鎖,這個方法像是改造 AI 的「骨子裡的性格」,讓它從根本上就不想被誤導去說謊或做壞事。
OpenAI 使用最新的 GPT-5.5 Instant 模型(OpenAI 旗下的人工智慧語言模型,是讓 ChatGPT 能夠對話的核心引擎),大幅升級了 ChatGPT 在健康醫療領域的回答能力。根據 OpenAI 自行進行的比較測試,這個升級後的模型在回答健康問題時,已在準確性、清晰度與完整性三個面向都超越了真實醫師親筆撰寫的答案。最值得關注的數字是:模型在健康相關陳述中出現錯誤的比率下降了 71%,也就是說犯錯的機會比以前少了將近四分之三。需要留意的是,這些測試是 OpenAI 自家進行的,並非獨立的第三方驗證機構所做,因此在解讀這個「超越醫師」的說法時應保持一定的批判態度。
假設你最近感到胸悶、走幾步路就喘,想先了解這可能是什麼問題再決定要不要掛號。以前你問舊版 ChatGPT,它可能給出過於模糊的建議,或在某些細節(例如哪些症狀代表緊急狀況)上出現描述不準確的情形。現在使用升級後的 GPT-5.5 Instant,你輸入「我最近常胸悶、爬樓梯就喘,這可能是什麼問題?」,AI 會給出條理清晰、資訊完整的回應,說明可能涉及的心臟或肺部相關問題、什麼情況下需要立即就醫、哪些伴隨症狀要特別警惕——這份回答的品質,依 OpenAI 的內部測試,已相當於甚至優於醫師手寫的衛教說明。相比舊版本,錯誤描述(例如誤判病情嚴重度或搞錯常見副作用)的機率下降了 71%,讓使用者在用 AI 做初步健康資訊參考時更有保障。
Google DeepMind(谷歌旗下的頂尖 AI 研究機構)發布了一份「AI 控制路線圖」(AI Control Roadmap),正式把自家開發的 AI 代理(Agent,就是能自動執行多步驟任務的 AI 程式,例如自動寫程式、訂行程、操作電腦的 AI)視為潛在的「內部威脅」來管理——就像公司對新員工發了門禁卡,但仍要裝監視器、分級授權一樣。這套框架採用分層防禦架構,從監控 AI 的「推理鏈」(Reasoning Chain,即 AI 做決定前的思考過程記錄)開始,依風險程度逐步升級到分析 AI 神經網路的內部激活狀態,並參照網路安全領域的 MITRE ATT&CK 標準設計。DeepMind 在一百萬個 AI 執行的編程任務中測試這套系統,發現絕大多數問題不是 AI 故意為惡,而是 AI 太「積極」、過度執行了使用者指令,像是叫它「整理一下郵件」,它卻把全部的信都刪了。DeepMind 同時警告,建立全球 AI 代理安全標準的時間窗口正在快速關閉,呼籲 AI 實驗室、各國政府與研究機構將多代理系統的安全協議列為共同優先事項。
假設你是一名工程師,公司部署了一個 AI 代理來自動執行代碼審查(Code Review,讓 AI 幫忙檢查程式碼問題)。在沒有這套框架的情況下,AI 代理一旦認定某段代碼「有問題」,可能直接幫你修改甚至刪除超出授權範圍的檔案,你根本不知道它動了什麼。套用 DeepMind 的分層管控架構後,系統會在「D1 監測層」持續追蹤 AI 的推理過程;當它準備執行任何超出任務範圍的動作(例如修改不在清單內的設定檔),就會觸發「R2 存取控制層」,自動暫停該操作並通知人類監督者決定是否放行。這套邏輯已實際應用於 Gemini Spark 代理的生產環境即時監測——在百萬任務測試中,系統標記出的問題事件大多是「AI 做太超過」而非「AI 想造反」,因此框架的核心設計是限制過度執行,而非單純防堵惡意行為。舊做法是「給 AI 工具、相信它會做對的事」;新做法是「邊執行邊驗證、邊授權邊監控」,讓 AI 失控造成的意外損害機率大幅降低。
兩篇刊登在《Nature》(全球最頂級科學期刊之一)的研究指出,專門設計用於醫療的 AI(人工智慧)系統,在模擬病患案例中,診斷疾病與擬訂治療方案的能力已達到甚至超越真實醫生的水準。第一個系統叫做 MIRA,由德國德勒斯登工業大學與海德堡大學開發,在超過 500 筆真實急診室案例上進行測試,診斷準確率達 88.9%,明顯優於有經驗的專科醫師(78.1%)和住院醫師(71.1%)。第二個系統是 Google 開發的 AMIE,專門處理慢性病的多次門診管理,其擬訂的治療計畫在 95% 的案例中被評為適當,遠勝人類醫師的 72%。值得注意的是,這兩套系統的底層模型(就是 AI 的「大腦核心」)分別是 GPT-4o、o1-preview,以及 Gemini 1.5 Flash,而這些模型在今日 AI 快速發展的背景下,已屬於舊世代產品。研究還發現一個隱憂:當底層換成更新的 Gemini 2.5 Flash 時,MIRA 那些精心設計的「加強架構」所帶來的優勢幾乎消失——這代表這類特製醫療 AI 系統可能很快就會因底層模型升級而失去競爭力,耐久性有待觀察。
假設急診室要診斷一位複雜病患:傳統流程由住院醫師或專科醫師人工翻閱病歷、判讀檢查數值,再給出診斷——在本研究中,專科醫師的準確率為 78.1%、住院醫師為 71.1%。換用 MIRA(建構在 GPT-4o 與 o1-preview 之上的醫療 AI 系統),它自動分析來自 MIMIC-IV 真實急診資料庫的病患紀錄,在與人類醫師的直接對比測試中達到 87.8% 的準確率,超越所有人類組別。但研究者發現,當他們把 MIRA 的底層從舊版 Gemini 1.5 Flash 換成更新更強的 Gemini 2.5 Flash 時,那些精心堆疊的醫療「加強架構」所帶來的優勢幾乎歸零——新一代基礎模型本身已夠聰明,舊有的客製化設計反而變得多餘。這意味著:現在花大量心力訓練、設計的醫療 AI 系統,可能在底層模型迭代一兩次後就需要全面重做。
Vercel(一個讓開發者輕鬆部署網站的雲端平臺,以協助打造 Next.js 框架聞名)正式推出開源工具 eve,專門解決「AI Agent(能自主完成複雜任務的 AI 程式)部署到正式環境」的痛點。在此之前,每個想把 AI Agent 搬上線的工程團隊,都得自己重複撰寫一大堆「基礎設施」程式碼——例如讓對話記憶在伺服器重啟後還能恢復、讓 AI 執行的程式碼與主系統隔離以防意外破壞、設定哪些步驟需要人工確認才能繼續。eve 把這些麻煩全部內建,讓開發者只需專心寫 Agent 本身要做什麼,其餘生產環境的繁瑣問題由框架一手搞定。框架採用「資料夾即 Agent」的設計理念,與 Vercel 平臺深度整合,支援用 Git(程式碼版本管理工具)追蹤 Agent 變更、預覽測試以及隨時回滾,大幅降低維運負擔。
假設我要打造一個自動處理客服工單的 AI Agent。傳統做法:必須自己撰寫程式讓對話狀態在伺服器重啟後不消失(持久化儲存),另外處理「AI 生成程式碼的執行環境」和「主應用」之間的隔離,避免 AI 跑歪造成系統故障,再加上「碰到高風險操作要暫停等人確認」的邏輯——這些全都是額外工程量。改用 eve 的做法:執行 `npx eve@latest init my-agent` 建立專案,在 `instructions.md` 裡寫 AI 的行為指示,在 `tools/` 資料夾放可用工具(例如查詢工單系統的 API),完成後直接 `vercel deploy` 部署上線,持久執行、沙箱隔離、人工審核流程全部自動具備,不需額外撰寫。Vercel 自己已用 eve 在正式環境跑超過 100 個 Agent,其中客服工單 Agent 自動解決率達 92%,銷售開發 Agent 的 ROI(投資報酬率)更達到 32 倍。
Vercel(一個讓開發者快速把網站和 App 部署上線的雲端平臺)在年度 Ship 大會宣佈推出一整套為 AI Agent(能自主執行任務的 AI 程式,例如自動寫程式碼、回答客訴、監控系統)設計的基礎設施工具。核心包含「eve 框架」(一個開源工具,讓開發者更容易建構和擴展 AI Agent)、「Agent Stack」(把現有 AI 工具整合成一個套件,省去東拼西湊的麻煩)、以及「Vercel Connect」(用短期安全憑證取代長期固定密碼,讓 AI Agent 能安全連接 Slack、GitHub、Salesforce 等第三方服務而不留安全漏洞)。此外還有「Vercel Agent」,能自主監控線上服務,偵測到問題時自動查看流量、追蹤記錄和警報,不需要人工值班介入。最值得注意的是 CEO Guillermo Rauch 揭露的數據:今年年初由 AI Agent 自動觸發的部署不到 3%,如今已超過 50%,同期 AI 請求量更成長了 10 倍,說明 Agent 已快速成為主流開發方式,而非只是實驗性技術。
假設我是一名開發者,正在建構一個客服 AI Agent,負責「自動接收用戶投訴、查詢 Salesforce(企業客戶關係管理系統)資料後回覆」。過去的做法:我需要手動將 Salesforce API 的長期密碼存在伺服器上(密碼外洩就全線出問題)、自己從零設計 Agent 的執行邏輯和部署架構、再另外搭一套監控警報系統,整個過程可能花掉一兩週。換成 Vercel 新工具包的做法:用 eve 框架定義 Agent 的任務流程、用 Vercel Connect 自動以短期憑證連接 Salesforce(無需儲存長期密碼)、部署後由 Vercel Agent 自動監控——若 Agent 回覆突然變慢或出錯,它會自己查日誌找原因並發出警報。相比舊方法,整個從開發到上線的時間可縮短數天,且安全性和可觀測性(observability,就是「知道 AI 在做什麼、哪裡出問題」的能力)都大幅提升。
Trump 政府(由美國前總統川普領導的政府)對 Anthropic(一家美國 AI 公司,旗下最知名的產品是 Claude 這款會對話的 AI 助理)旗下的 AI 模型下達禁令,限制特定人員或機構使用這些模型。超過 150 位資安(就是專門研究如何防範網路攻擊的)專家聯署公開信,要求政府解除禁令,認為此舉不公平。Anthropic 員工也出面反駁,指出公司旗下的 Fable 模型(Anthropic 推出的一款 AI 模型,內建多重防護機制,目的是防止被用來發動網路攻擊等惡意用途)早就有充分的安全設計,根本不構成威脅。員工們認為這項禁令並非基於技術事實,而是政府刻意針對 Anthropic 的政治動作。
假設你是一名開發者,正在用 Anthropic 的 API(就是一種讓你的程式可以直接呼叫 Claude AI 來處理文字工作的程式介面)為公司打造一套自動客服系統,每天有數千名客戶透過它得到即時回覆。這項禁令一旦正式生效,你的系統可能無法再呼叫 Anthropic 的模型,原本上線的服務會直接中斷。你必須緊急評估是否要換到 OpenAI 的 GPT 系列或 Google 的 Gemini 等替代方案,但這代表要重新測試效果、調整程式碼,耗費大量時間與成本。禁令前,開發者可以自由選用最適合的 AI 模型;禁令後,則被迫被動應變,甚至可能影響已上線的商業服務。
OpenAI(美國著名 AI 公司,開發了 ChatGPT)推出了一種叫做「部署模擬(Deployment Simulation)」的新安全測試技術,專門用在 AI 模型正式上線之前。傳統的安全評估方式,是讓測試人員手動設計一批考題來「試探」模型,看它會不會說出危險或不恰當的話,但這些人工設計的情境往往和真實用戶的使用方式有很大落差。OpenAI 的新方法則是直接拿過去真實用戶的對話記錄(已經過去識別化處理,移除所有可辨識個人身份的資訊),把這些真實對話的開頭丟給準備上線的新模型,讓它接著回答,藉此預測新模型在真正部署後會表現出什麼行為。這樣的做法讓測試更貼近真實使用情境,也能更準確地估算模型出現不良行為的比例,整體安全覆蓋率遠優於傳統評估方法。
假設 OpenAI 要發布一個新版 ChatGPT 模型。以前,安全團隊會手動設計幾百道「試探性問題」,例如「請告訴我如何製作爆炸物」或「幫我寫詐騙郵件」,然後看模型怎麼回答。但問題是,這些測試題是人工想出來的,根本無法涵蓋真實用戶千變萬化的提問方式——很多危險行為往往藏在看起來無害的多輪對話脈絡裡。採用部署模擬技術後,安全團隊改從舊版 ChatGPT 數百萬筆真實對話中隨機取樣,把每段對話的前幾輪問答(去掉個資後)丟給新模型,要求它在這個真實脈絡下繼續回答,再檢查新模型是否出現問題行為。這等於在「模擬真實部署環境」下測試,能發現那些只有在特定真實情境下才會觸發的風險,讓模型上線前的安全把關更扎實、更全面。
Fable 是 Anthropic 最新推出的高階 AI 程式碼轉換模型。有開發者使用 Fable 將知名 Python 程式碼品質檢查工具 Pylint(一種幫你找出程式中錯誤與壞習慣的自動化工具)整個改寫成 Rust 語言(一種以執行速度與記憶體安全著稱的系統程式語言),成果發布為開源套件 prylint。改寫後的版本對橫跨 Django、NumPy、Pandas 等 52 個真實開源專案、共 65,000 個 Python 檔案的測試顯示,輸出結果與原版 Pylint 完全一致(每個位元組都吻合),執行速度則快了 15 到 2,300 倍不等,中位數約 85 倍。這項專案展示了 AI 編程代理(Agent,即能夠自行讀寫程式碼、執行測試、反覆修正的 AI 自動化工作流程)在轉換真實大型生產程式庫上的實際能力,讓社群對「AI 到底能把多複雜的程式碼轉換好」這個問題有了具體數據參考。
開發者 Adam Raudonis 想加快 CI/CD(持續整合,就是每次改完程式碼後自動跑一遍測試與品質檢查的流程),但 Pylint 分析大型 Python 專案時總是拖慢整體速度。傳統做法若要人工逐行把 Pylint 改寫成 Rust 可能需要數個月甚至更久。他改用 Fable AI 代理,採用分塊轉換流程:把 Pylint 原始碼切段餵給 AI,讓它轉寫成等效的 Rust 程式碼,再自動執行編譯——出錯時把錯誤訊息回饋給 AI 讓它修正,循環直到通過。最後用差異測試(把新版與原版 Pylint 4.0.5 的輸出逐行比對)驗證正確性。最終成果 prylint 0.4.2:在 Django 專案上快 150 倍、在 Black 程式庫上快 2,328 倍,用法跟原版 Pylint 指令完全相同,可直接替換,無需修改任何設定檔。相較於舊做法(繼續忍受 Pylint 的慢速、或等人工改寫),這條路不僅省時,結果也達到生產等級的可信度。
Datasette(一款開源的資料瀏覽與發布工具,讓你用瀏覽器查看本機或遠端資料庫的內容)推出了新插件「datasette-apps」,讓使用者可以在 Datasette 裡面直接託管自訂的網頁小程式(就是用 HTML 和 JavaScript 寫的互動介面)。這些小程式跑在嚴格隔離的沙箱環境(即 iframe,一種在網頁中內嵌另一個頁面的技術,確保惡意程式碼無法存取外部資料)中,可以對底層資料庫進行讀取,也支援透過預先設定好的查詢語句寫入資料。作者在開發這個插件的過程中,大量使用了 Claude Opus、GPT-5.5 和 Claude Fable 5 等 AI 語言模型(就是 ChatGPT、Claude 這類能對話和寫程式的 AI)輔助撰寫程式碼,其中 Claude Fable 5 還主動找出一個潛在的安全漏洞——使用者可能利用允許清單規則進行資料外洩攻擊。這個插件最重要的設計理念,就是讓使用者可以把提示詞(prompt,即給 AI 的指令文字)直接貼到 ChatGPT、Claude 或 Gemini,讓 AI 自動產出應用程式的程式碼,不需要自己從零寫起。
假設我是一位資料分析師,手上有一份存放在 Datasette 的公司銷售資料庫,想做一個可以按月份篩選的互動折線圖給非工程師的主管看。舊做法是另外架一個獨立的網頁伺服器、寫前後端程式、部署、維護,往往需要幾天到幾週。現在改用 datasette-apps,我只需要把「幫我用 Chart.js(一套繪圖用的 JavaScript 工具)畫一個能按月份篩選的銷售折線圖,資料從 /sales.json 讀取」這段話丟給 Claude,Claude 直接產出完整 HTML 檔案,我把這份檔案放進 datasette-apps 指定的資料夾,重新整理頁面,圖表就出現在 Datasette 介面裡了。由於應用程式跑在隔離的沙箱裡,就算 AI 生成的程式碼有小錯誤或安全疑慮,也不會直接威脅到整個資料庫。整體流程從「要另外架伺服器」縮短到「貼一段提示詞、放一個 HTML 檔」,幾分鐘即可完成原型。
一個叫「Are You in the Weights?」的網站工具,讓使用者輸入自己的名字,測試多個主流 AI 語言模型(就是像 ChatGPT、Claude 這類能對話的 AI)是否「認識」你。「Weights(權重)」是 AI 模型訓練後儲存知識的核心結構,可以把它想像成 AI 的「長期記憶倉庫」——如果你的資訊有出現在 AI 的訓練資料裡,AI 就可能認識你並描述你的相關背景。這個工具會同時詢問多個大型和小型 AI 模型,把各模型的回答自動做分群分析(把相似的答案歸在一起),最終告訴你「被 AI 認識」的程度有多強。開發者的動機是:現在越來越多人直接問 AI 而不用搜尋引擎,瞭解自己在 AI 知識庫中的存在感因此變得越來越重要。
假設你是一位部落客、開源工程師或研究人員,想知道自己的名字或作品有沒有被 AI「學」進去。以往你得逐一打開 ChatGPT、Claude、Gemini 分別手動詢問「你認識 XXX 嗎?」,再自己比較三者的說法是否一致。現在連上 intheweights.com 輸入你的名字,網站會自動同時向多個 AI 模型發問,把各模型的回應做彙整與分群,最後輸出一個「識別強度」指標——高分代表多個模型都能描述你的正確背景;低分代表你幾乎不在任何模型的知識中。這樣一次操作就取代了原本要切換好幾個平臺的繁瑣流程,並提供跨模型的綜合判斷結果。
這篇文章是一位曾在 OpenAI(美國著名 AI 公司)做機器人操作研究的工程師,分享他如何以過去成本的十分之一,在家旁邊打造一套個人機器人 AI 研究環境。他在 2017 到 2020 年參與 OpenAI 的機器人研究,當時同類設備需要龐大預算和一整個團隊才能運作;而他現在想驗證,一個人能否在 2026 年以更低成本做出相近等級的研究。他選擇單臂機械手(而非雙臂)以節省空間和費用,搭配 RGB 攝影機而非更昂貴的深度感應鏡頭,並決定不使用主流機器人框架 ROS 2 或 LeRobot,自己從頭撰寫整套軟體控制系統。他計畫使用 ACT(Action Chunking Transformer,一種讓機器人學習動作序列的 AI 模型)和 Diffusion Policy(擴散策略,借鑑圖像生成技術讓 AI 逐步規劃機器人動作)等方法,訓練機器人從攝影機影像自主學習操作桌面物品的任務。
假設你想訓練機械手臂自動拿起桌上的瓶子,再放進指定位置。過去要做這類研究,需要超過十萬美元的設備、多名工程師共同維護,且通常只存在於大型 AI 實驗室。這位作者的做法是:在自己家的書桌旁架設一隻單臂機器人,接上普通 RGB 攝影機,然後透過 ACT(一種讓 AI 把一連串動作打包成「動作片段」來學習的方法)訓練它——操作者先示範幾次如何抓取並放置瓶子,AI 記住這些示範後,就能自行重複執行。整套設備的採購和設置費用,約是 2017 年 OpenAI 同類設備的十分之一。這篇文章對有意自學或獨立進行機器人 AI 研究的開發者或研究者,提供了設備選購、攝影機方案、軟體架構選擇等具體決策思考,也說明個人研究者在 2026 年已可觸及此類研究的門檻。
阿里巴巴旗下 ATH 團隊發布了名為 HappyOyster 1.0(快樂生蠔)的 AI 世界模型產品。傳統的「文生視頻」(就是輸入文字讓 AI 生成一段影片)只是單向輸出,使用者看完就結束,無法幹預影片走向;而 HappyOyster 採用的「世界模型」(World Model,讓 AI 學習「目前場景+使用者操作→下一個畫面」的因果規律)技術,實現了真正的雙向即時互動。使用者可以在 AI 生成的場景中移動、跳躍、攻擊,甚至像電影導演一樣設計多條平行故事支線,AI 會即時根據你的動作推演出下一幀畫面,而不是播放預先錄好的動畫。目前 HappyOyster 1.0 已正式上線,用手機號碼註冊即可試用,API 介面也計畫近期開放給開發者串接。
假設我昨晚做了一個「在吉卜力風格森林裡探險」的夢,我把這個夢境描述輸入 HappyOyster,AI 就會生成一個以吉卜力美術風格呈現的立體互動場景。接著我可以用鍵盤控制角色向前跑、跳過溪流、或對著草叢揮拳——AI 每隔幾十毫秒就重新推算「角色移動後下一幀該長什麼樣」,這是即時運算出來的,完全不是預錄動畫。如果我走到一個岔路想設計劇情,可以切換到「導演模式(Directing)」,分別設定「走左邊遇到神秘角色」和「走右邊陷入追逐戰」兩條支線,AI 會把兩條故事線都即時演算出來,我還可以在任意節點回溯、重來。相較於傳統文生視頻(只能被動看一段 30 秒影片),HappyOyster 讓使用者像玩遊戲一樣真正「活在」AI 生成的場景裡。
中國 AI 公司百川智能(Baichuan)發布了新一代醫療 AI 模型 M4(Baichuan-M4),同時推出給一般消費者使用的應用程式「百小醫」。這個模型瞄準現有醫療 AI 的一大痛點:過去的 AI 只能「一問一答」,而真正的看診需要醫生不斷追問、累積資訊才能做出判斷。M4 的核心突破叫做「多輪追問」,意思是 AI 能像真實醫生一樣,根據你的回答繼續問下一個問題,並且記住你整個對話過程中說過的所有資訊——包括病史、化驗趨勢、用藥反饋。在「循證引用精度」(就是 AI 給出的每一句話,有多少比例可以找到對應的醫學文獻來佐證)這項指標上,M4 達到 90.0,遠高於 GPT-5.5 的 54.7,差距接近 35 個百分點,代表 M4 說的話更少是「憑空猜測」,更多是有文獻根據。
假設你透過百小醫 APP 告訴 AI「我頭痛了兩天」。舊的通用 AI(例如一般版 ChatGPT)往往直接回覆一長串「可能是偏頭痛、高血壓、睡眠不足……」等清單,但完全不追問關鍵細節。M4 的做法不同:它會先問「頭痛是哪一側?是悶痛還是跳痛?有沒有伴隨噁心或怕光?最近睡眠狀況如何?有沒有在服用什麼藥物?」幾輪對話後,AI 掌握了你的完整脈絡,才給出有針對性的建議——而且每一條建議都標明來自哪篇醫學文獻,讓你知道這不是隨便說的。根據中國醫學科學院腫瘤醫院的實測,百小醫安全性達 99.6%,27 天內積累 6944 條對話,使用者「深度互動率」(不只是看完就離開、而是繼續追問的比例)達 60%~73%,顯示實際使用者願意把它當作長期健康夥伴來使用。
碼上飛是一家中國的 AI 應用生成平臺(就是讓你用說話或打字的方式,告訴 AI 你想要什麼功能,AI 直接幫你做出一個可以實際使用的軟體系統,完全不需要自己寫任何程式碼)。這個平臺由前騰訊(中國最大科技公司之一)資深工程師,以及來自字節跳動、飛書等大廠的年輕人才共同創立,僅 16 人的小團隊已累積近百萬名註冊用戶,年收入超過一千萬人民幣,每個月成長約 25%。他們開發了兩個重要的開源專案(就是公開讓全世界工程師免費使用的程式碼):DevOpsGPT(獲得約六千個 GitHub Star,GitHub Star 數代表有多少工程師覺得這個專案值得推薦)以及 AipexBase(中國首個開源 AI 原生後端即服務平臺,讓開發者不必自己從頭建立資料庫管理、登入驗證等繁瑣後端功能)。他們的核心產品「小藝 Claw」已接入華為鴻蒙(HarmonyOS,華為自行開發的手機與平板作業系統)生態,目標是讓普通人、個人創業者和小商家即便完全不懂程式,也能用自然語言直接生成真實可用的業務系統。
假設你是一位沒有任何程式背景的餐廳老闆,想做一套「線上訂位+客戶資料管理」系統。以往的選擇要嘛花幾萬元請工程師客製開發,要嘛買現成軟體卻不符合需求。用碼上飛的「小藝 Claw」,你只需要用中文打字告訴 AI:「我想要一個客人可以自己選日期和時段訂位、我能在後臺看到今天有哪些人要來、預約後自動傳確認訊息的系統」,AI 就會根據這段描述,直接生成一個包含前端操作介面、後端資料儲存、自動通知功能的完整可執行系統——不是假的展示頁面,而是客人打開手機就能真正使用的軟體。相比 GitHub Copilot 或 Cursor 這類「幫工程師更快寫程式碼」的工具,碼上飛的定位是讓完全不懂程式的普通人也能直接得到一套業務系統,把 AI 的門檻從「工程師的工具」降到「任何人的工具」。
ABot-Earth0.5 是阿里巴巴旗下高德地圖團隊所發布的全球首個「3D 原生城市世界模型」,簡單說就是一個能從衛星圖片或文字描述出發、直接生成大規模立體城市場景的 AI 系統。過去業界常見的做法是先用 AI 生成 2D 平面圖像,再想辦法把它「反推」成 3D 立體結構;高德這次改走完全從 3D 資料訓練的技術路線,讓 AI 從一開始就以三維空間的方式理解城市,而非靠 2D 影像間接換算。使用者只需提供一張衛星空拍圖或一段文字描述,模型就能在消費級顯示卡(一般人買得到的電腦顯卡,不需要昂貴的專業工作站)上,約花 10 分鐘生成公里等級的完整 3D 城市場景,輸出格式可直接編輯,並支援匯入 Unity、Unreal Engine(業界最主流的兩款遊戲與虛擬場景開發引擎)進行後續開發。目前其 3D 地圖資料庫已涵蓋全球 190 多個國家與地區,發布後 48 小時登上 Hugging Face(全球最大 AI 研究社群平臺)日榜第一,一週內更拿下週榜與月榜冠軍;ACM 圖形學名人堂(電腦圖形學領域最具權威的榮譽組織)中國學者陳寶權也給予高度肯定,指出它「跳出了 2D 反推 3D 的傳統路徑,實現了三維空間的原生理解與高效生成」。
假設我是一名遊戲開發者,想在遊戲中重現東京澀谷區的真實城市樣貌。過去的流程需要:蒐集大量 2D 照片與衛星圖,交給 3D 建模師一棟棟手工建出建築,或使用 AI 工具先生成平面圖、再靠另一套軟體強行轉成立體——整個流程繁瑣且容易失真,可能要一位建模師耗費數天。現在用 ABot-Earth0.5,只需輸入「東京澀谷區」的衛星圖或直接打文字描述,等待約 10 分鐘,模型就會輸出一個包含道路、建築、街區結構的完整 3D 場景,格式為 3DGS(一種高品質的 3D 渲染格式),可直接拖入 Unity 或 Unreal Engine 使用,不需額外轉檔或二次建模。差別就是:舊流程需要數天人工作業,新流程一個人 10 分鐘搞定;且全球 190 多個國家的城市都有現成 3D 地圖資料可直接調用,適用於遊戲、都市規劃模擬、建築視覺化、自駕車訓練場景等多種用途。
MIT 知名電腦視覺教授何愷明(ResNet 的發明人,深度學習領域的重要奠基者之一)帶領五位本科生發表了一個名為 MiniT2I 的文字生成圖片模型(Text-to-Image,就是輸入一段文字描述、讓 AI 自動畫出對應圖片的系統)。這個模型最大亮點是隻有 2.58 億個參數——參數(Parameters)可以理解成 AI 模型的「記憶單元數量」,數量越多通常代表模型越大、越吃資源——相較於主流文生圖模型動輒數十億參數,MiniT2I 的規模小得多。研究團隊的核心創新是拿掉了傳統文生圖系統必備的 VAE(Variational Autoencoder,一種先把圖片壓縮成精簡的「隱藏表示」再展開還原的編解碼器),直接在像素層面生成圖片,讓整個計算流程的運算量減少約 80%。訓練這個模型只用了 8 張 H100 GPU(目前最高階的 AI 訓練晶片)跑約三天,成本相較業界動輒數百 GPU 的規模大幅壓縮,且在 GenEval(0.87 分)、DPG-Bench(84.2 分)等業界標準評測上仍達到具競爭力的表現。五位共同作者全是本科生,其中多人擁有國際奧林匹克競賽金牌背景。
假設我是一位個人開發者,想在自己的電腦或單張 GPU 伺服器上部署一套文字生圖服務,讓使用者輸入「一隻穿著太空衣的橘貓,背景是銀河」就能生成圖片。用主流方案如 Stable Diffusion XL(約 66 億參數)或 FLUX.1(約 120 億參數),光是把模型載入記憶體就需要 12~24 GB 以上的 GPU 顯示記憶體,一般消費級顯卡根本跑不動。換用 MiniT2I(2.58 億參數),顯示記憶體需求大幅下降,單張中階 GPU 即可運作,推理速度也更快。代價是生成品質略遜於最頂尖的大模型,但對於需要快速原型驗證、資源有限的開發情境(例如個人 side project、API 呼叫次數受限的雲端方案),輕量模型的實用價值更高。更重要的是,MiniT2I 拿掉 VAE 後整個架構更簡潔,研究者也更容易在其基礎上修改或做實驗,降低了從事文生圖研究的入門門檻。
這篇報導彙整了 AI 推論(就是讓 AI 模型實際跑起來、回應使用者請求的過程)與資料檢索系統在近期的多項重要進展。LiquidAI 發布了 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M 兩款嵌入模型(嵌入模型是把文字轉成數字、讓電腦能比較語意相似度的工具),支援 11 種語言,在其企業服務上達到 1.5 毫秒的端對端檢索延遲。vLLM(一款廣受開發者使用的開源 AI 推論框架)搭配 Ray Serve 後,在不同工作負載下吞吐量(每秒能處理的 token 數量)最高提升 24 倍。向量資料庫 Turbopuffer(一種用來儲存和快速搜尋 AI 向量的特殊資料庫)也把基礎方案月費從 64 美元大砍至 16 美元,並推出儲存效率更高的 i8 向量格式,可降低最多 75% 的儲存與查詢成本。
假設你在開發一套讓 AI 查詢公司內部文件來回答客戶問題的系統,這種做法叫做 RAG(讓 AI 回答前先查資料庫,避免憑空捏造)。整個流程分三步:先把 PDF 手冊轉成文字、再存入向量資料庫、最後讓 AI 即時搜尋作答。現在這三個環節都有具體改善:LlamaIndex(一個流行的 AI 開發框架)推出的 LiteParse v2.1 可以比過去更快把 PDF 轉成可讀文字,且不需要呼叫 AI 模型,速度領先多個同類開源工具;Turbopuffer 降價後,儲存同量資料的月費從 64 美元降到 16 美元,搭配新的 i8 格式還能再省 75% 儲存費;而若你用 vLLM 來跑 AI 推論,透過新版 Ray Serve 整合,大量請求同時湧入時系統能處理的吞吐量最高提升 24 倍——意思是同樣的伺服器可以服務更多使用者,或是回應時間大幅縮短。整體而言,這批更新讓建構 RAG 系統的成本與速度都有實質改善。
Amazon(就是那個全球最大的電商平臺,旗下也有一個叫 AWS 的雲端運算服務)自己研發了一款名為 Trainium 的 AI 專用晶片(一種專門為 AI 計算設計的處理器,功能類似電腦裡讓 AI 跑起來的 GPU 顯示卡),過去只在 AWS 自家雲端服務內部使用。現在 Amazon 執行長 Andy Jassy 宣佈,AWS 正在和外部資料中心(也就是幫其他公司存放伺服器和算力的機房)洽談合作,計劃把 Trainium 晶片賣給這些外部客戶,目標是把這塊業務做到每年 500 億美元的規模。目前 Trainium 在 AWS 內部就已供不應求,下一代 Trainium4 還沒上市就被預購一空,要實現外售計劃,Amazon 必須先大幅擴充生產產能。這個策略轉變被視為對 Nvidia(目前在全球 AI 晶片市場幾乎壟斷的美國公司,去年營收年化超過 3,260 億美元)的正面挑戰。
假設你是一家正在建立自有 AI 運算機房的新創公司,目前訓練 AI 模型(讓 AI 從大量資料中學習能力的過程)幾乎只有一條路:向 Nvidia 購買 H100 或 B200 系列 GPU(圖形處理器,業界 AI 運算的主流工具)——不只價格昂貴,而且排單交貨期長達數個月。如果 Amazon 成功把 Trainium 晶片對外銷售,同一家新創公司就多了另一個選項:向 Amazon 採購 Trainium 晶片,安裝在自己的機房裡,建立不依賴 Nvidia 的 AI 算力環境。對一般開發者而言,使用雲端 AI 算力的成本也可能因競爭加劇而下降;對整個 AI 產業而言,Nvidia 長期維持的定價優勢有機會被打破,晶片供應瓶頸也可能有所緩解。
美國聯邦能源管制委員會(FERC,就是負責監管全美電力網路的聯邦政府機構)於 2026 年 6 月發布命令,要求六大電網營運商必須優先處理 AI 資料中心(就是大規模放置伺服器電腦、讓 AI 模型運算的超大型機房)的電力接入申請,讓它們能跳過漫長排隊、更快連上電網。具體規定包括:電網業者須在 30 天內提交發電容量報告,並在 60 天內重新審視與修正電費費率;資料中心需自行承擔接線費用。不過,這項命令只是幫資料中心在「等候隊伍」中往前插位,並未解決根本問題:美國電力供應本身嚴重不足——截至 2023 年底,所有排隊等待接入電網的申請容量,已遠超全美現有電廠的總發電量。批發電費在五年內飆漲了高達 267%,顯示電力基礎設施的壓力,正與 AI 算力需求的爆炸式成長形成嚴峻衝突。
假設你是一家 AI 新創公司的基礎設施主管,計畫在美國東部蓋一座資料中心、接入 PJM(美國最大的區域輸電組織)。過去的狀況是:申請可能要排上好幾年的隊,因為前面積壓了大量案件,其中連天然氣電廠、太陽能電廠也都在同一條隊伍裡競爭。有了這項 FERC 命令後,電網業者必須給資料中心「快速通道」,讓你更快拿到接入許可,縮短等待時間、加速開站。但問題的本質沒變:電廠發電量接近上限,AI 資料中心的用電量預計 2035 年前還會再成長近三倍。很多資料中心已因此轉向自建發電設施(自備天然氣機組或儲能系統),成本更高。這也是為何這次政策被批評「只治標不治本」——隊伍變短了,但電還是不夠用。
Pixi 是一款 iPhone 應用程式,讓你可以透過 iMessage(蘋果手機的內建簡訊功能)傳送 AR(擴增實境,就是把虛擬動畫疊加在真實世界鏡頭畫面上的技術)互動角色給朋友。這些角色不是靜態貼圖,而是透過 on-device AI(直接在手機裡運算的 AI,不把資料傳到雲端)即時偵測收件人的臉部表情與周圍環境、並做出相應反應。更特別的是,Pixi 整合了生成式 AI(就是 ChatGPT 那類可以「按照你的文字描述來創造內容」的 AI),讓使用者輸入一段話,例如「幫我做一個藍色小怪物去嚇我的朋友」,系統就會依此生成全新的客製化 3D AR 角色。由於所有視覺與音訊處理都在本機完成,資料不會上傳伺服器,保護使用者隱私。收件方甚至不需要安裝 Pixi App,直接在 iMessage 裡就能看到並與角色互動。
假設我想對朋友來點惡作劇:打開 Pixi,在文字框輸入「幫我創造一隻橘色小惡魔,專門嚇人的那種」,Pixi 的生成式 AI 便根據這段描述生成一個 3D AR 角色。我透過 iMessage 把它傳給朋友,朋友不需安裝任何 App,直接在訊息裡點開,手機鏡頭畫面就會出現這隻橘色小惡魔——它會爬上桌面、對著朋友的臉做鬼臉,甚至在朋友微笑時變得更興奮。對比以往只能傳靜態 GIF(只是一段固定播放的動畫,對方只能看、無法互動),Pixi 的角色能「感知」真實環境並即時反應,讓日常對話從單向觀看變成雙向互動,這正是生成式 AI 加上 AR 技術落地到消費端的一個具體樣本。
Google 旗下的「AI Overview」(就是在 Google 搜尋頁面頂端、由 AI 自動整理出的摘要回答)在德國鬧上了法院。德國慕尼黑地區法院於 2026 年 5 月底做出裁決,認定 AI Overview 所呈現的內容是「Google 自己說的話」,不再只是轉載其他網站的資料,因此 Google 必須為這些 AI 生成的錯誤內容直接負法律責任。事件起因是 Google 的 AI 系統錯誤地把兩家慕尼黑出版商與詐騙案扯在一起,對其聲譽造成損害。Google 不服判決,認為這只是「特定且範圍有限的錯誤」,已宣佈提出上訴。值得注意的是,就在同一個月,德國柏林法院對類似爭議卻做出相反裁決——認為 AI Overview 仍屬一般搜尋結果、適用較低的責任標準——意味著德國各地法院對 AI 生成內容的法律定性仍無共識,未來走向充滿不確定性。
假設我有一家媒體公司,某天發現 Google 搜尋頁面頂端的 AI 摘要,把我的公司名字與某個詐騙案的相關人物扯在一起——但實際上我的公司與該案完全無關。傳統上,Google 頂多被視為「傳遞資訊的中介」,就像電話公司不必為通話內容負責一樣,要求它撤除錯誤內容在法律上相當困難。然而慕尼黑法院這次的判決改變了這個邏輯:法院認為 AI Overview 是 Google 主動生成、用自己的話呈現的內容,不再只是幫你找到其他網站連結,因此應如同媒體發布錯誤報導一樣,由 Google 直接承擔責任。這對受害的出版商是一大突破——可依此要求 Google 賠償或更正。但目前德國柏林法院的判決與慕尼黑相反,代表在 Google 上訴結果出爐前,AI 生成內容的法律責任範圍仍是懸而未決的問題。
Claude Code(Anthropic 開發的 AI 程式碼助手,可以幫工程師寫程式、除錯、分析專案)現在加入了「Artifacts」功能,讓開發者能把一個工作階段中的成果,一鍵轉成互動式網頁,直接分享給團隊成員瀏覽。這個生成的網頁會連結到整個工作階段的完整背景資料(也就是 AI 在這次對話裡所有知道的東西),只要程式碼或內容有任何異動,頁面會自動刷新,不需重新傳送連結。系統同時保留版本歷史紀錄(就是「每次改動前的存檔」),方便回溯不同時間點的狀態。這個功能讓開發者和非技術背景的團隊成員(例如產品經理、設計師)之間的溝通更直接,不再需要靠截圖或複製貼上來展示進度。
假設我是一名後端工程師,正在用 Claude Code 開發一個 API 監控儀錶板(就是一個可以即時看到系統運作狀況的網頁介面)。過去我想讓產品經理確認介面設計,必須截圖發到群組、或把程式碼貼上去讓對方自己架起來跑——對方通常看不懂程式碼,溝通來回耗時費力。現在,我在 Claude Code 工作階段中直接啟用 Artifacts,系統自動產出一個可以在瀏覽器開啟的互動式網頁連結,產品經理直接點開就能看到儀錶板的實際效果。之後我繼續修改程式,同一個連結的頁面會自動更新,對方不需要再等我重新截圖或重傳——從「反覆截圖溝通」變成「一條連結搞定所有確認流程」。
Midjourney 是目前最知名的 AI 圖像生成公司之一(就是那個讓你輸入一段文字描述、幾秒內就能生出精美圖片的 AI 服務)。這家公司宣佈了一個出人意料的跨界計畫:與 Butterfly Network 合作開發一款全身超音波掃描儀(一種用聲波「看」進人體並產生影像的醫療裝置,完全不需要輻射,也不需要強力磁場)。使用方式是走進一個淺水池,池中密佈著五十萬個米粒大小的微型感應器,這些感應器同時充當「喇叭」和「麥克風」,發出超音波後接收聲波穿透不同人體組織的回傳訊號,再由電腦叢集(大量電腦協同運算的系統)在約 60 秒內重建出一張完整的 3D 全身影像。Midjourney 計畫先從「體組成地圖」(顯示肌肉量、脂肪分佈等資訊)切入,因為這類資訊不需美國食藥署(FDA)審核許可,之後再逐步申請診斷影像認證,並預計 2027 年底在舊金山開設第一家體驗水療館(spa)供民眾使用,長遠目標是 2031 年全球部署五萬臺設備、每月完成十億次掃描。
假設你是一位關心健康的上班族,想定期瞭解自己的體脂分佈和肌肉量,但傳統超音波需要醫技師手持探頭、逐個部位塗抹凝膠,費時費力又依賴操作者技術;而 CT(電腦斷層,用 X 射線拍攝身體內部的機器)有輻射、MRI(磁振造影,用磁場拍攝身體的機器)費用高昂且需長時間躺在機器裡。未來走進 Midjourney 在舊金山開設的水療館,脫鞋踏入感應水池,靜止站立 60 秒,設備就能一次完成全身掃描,生成顯示體脂分佈、肌肉與骨骼結構的 3D 立體影像,既無輻射又無需人工逐部位操作。這正是 Midjourney 擅長的核心能力——從大量感測數據重建出清晰圖像——從 AI 藝術圖像生成跨界延伸到醫療影像重建的一次嘗試。
Clear 是一種新型程式語言(電腦看得懂、能直接執行的特定書寫格式),主打把「規格說明」(就是用人話描述這個程式應該要做什麼的文件)和「實際程式碼」(真正讓電腦跑起來的程式)合而為一放在同一個檔案裡。傳統開發流程中,工程師先寫規格文件、再另外寫程式碼,兩份東西久了容易對不上、說的是不同的事。Clear 消除了這中間的「翻譯落差」,讓規格本身就是程式、程式本身就是規格,永遠不會走偏。更特別的是,Clear 是專門為 AI Agent(就是能自動接任務、自動判斷、自動執行的 AI 程式機器人)設計的,AI 讀得懂也能直接執行,同時一般非工程師的團隊成員也看得懂邏輯。它還能把同一份規格編譯成不同的目標環境執行,無需改動任何內容。
假設我要讓 AI Agent 幫公司自動處理「客訴分類」任務——收到客訴後,先判斷情緒正負面,再分類到客服、技術支援或退款部門。傳統做法:先寫一份 Word 規格文件說明分類邏輯,再請工程師把這份文件翻譯成 Python 程式,AI 執行的是程式、文件只是參考,兩者常常有出入(比如文件說「憤怒語氣就標高優先」,但程式忘了實作這條)。用 Clear 的話:我只需要一個 Clear 檔案,裡面同時描述「分類邏輯規格」和「可執行行為」,AI Agent 直接讀這個檔案並執行,不需要中間的翻譯步驟。規格說什麼就跑什麼,業務主管和工程師看的是同一份東西,再也不會出現「文件說 A、程式做 B」的問題。同樣這份檔案也可以直接編譯到 Node.js 或其他環境,不用另外改規格。
這篇來自科學媒體 Quanta Magazine 的深度報導,探討一個根本問題:為什麼 AI(人工智慧)在分析人類基因體時,可能遭遇無法靠更多數據或更大模型解決的瓶頸。目前已有 AlphaGenome、Evo 2 等 AI 模型(以大量基因序列數據訓練,嘗試預測基因行為的電腦程式),但這些模型都建立在同一個假設:基因體像一份「食譜」或「程式碼」——輸入 DNA 序列,就能輸出預測結果。問題是,人類基因體根本不是這樣運作的。基因體有 30 億個 DNA 鹼基對,但只有 2% 是真正編碼蛋白質(構成細胞的基礎材料)的「基因」,其餘是複雜的動態調控系統:數百萬個「增強子」(能從 DNA 鏈上遙遠的地方控制基因開關的片段)、三維空間折疊結構、化學修飾標記,以及不斷根據細胞環境即時改變的反饋機制。基因體更像一個「活的器官」,會自我監控、感知異常、動態調整——這種高度語境依賴性,遠超出現有 AI 線性輸入輸出架構所能捕捉的範圍。
假設藥廠想開發一種癌症療法,需要 AI 預測特定細胞中某個腫瘤相關基因是否會被啟動。現有 AI 模型的做法是:輸入 DNA 序列 → 輸出「基因開」或「基因關」的預測。但現實是,同一段 DNA 在肝細胞和免疫細胞裡可能有完全不同的行為,因為真正控制這個基因的「增強子」可能距離基因數百萬個鹼基對遠,需要由特定的蛋白質組合才能啟動,而且 DNA 必須在細胞核內折疊成特定三維形狀,讓遠端增強子實際「靠近」目標基因才能發揮作用——這個三維形狀在每種細胞類型、每個發育階段都不同。AlphaGenome 等模型在靜態序列分析上已有進步,但缺乏橫跨數百萬種細胞狀態與環境訊號的訓練資料,導致預測往往無法反映真實的動態生物學,臨床落地效果大打折扣。文章結論認為,單靠擴大 AI 規模並不能解決這個問題,因為問題不在於資料量,而在於基因體的「工作方式」本身就沒有任何現有電腦架構的對應物。
Google 的 Gemma 4 是 Google 推出的開源小型 AI 語言模型(就是能理解問題、生成回答,類似 ChatGPT 這種對話型 AI)。這次展示的是一個特別版本「E2B QAT Mobile」,E2B 代表約 20 億參數的輕量版本(參數數量越多,模型通常越聰明,但也越耗記憶體);「QAT」(Quantization-Aware Training,量化感知訓練)是一種讓 AI 模型體積大幅縮小又盡量保住品質的壓縮技術,原理就像把高畫質影片壓成手機可以播放的小檔案。最特別的是,這個模型可以完全在網頁瀏覽器裡執行,背後依賴 WebGPU(一種讓瀏覽器直接呼叫電腦或手機顯示卡算力的新網路標準),整個推論過程完全在使用者自己的裝置上完成,不會把任何資料送到外部伺服器,對個人隱私保護極為友好。
假設我是一名醫護人員,想用 AI 幫我快速整理病患問診紀錄,但又擔心把含有個資的內容上傳到 ChatGPT 等雲端服務有洩漏風險。有了 Gemma 4 的 WebGPU 瀏覽器版,我只需要打開對應的 Hugging Face 網頁,等模型在本機載入完成後(約數十秒,視網速與裝置效能而定),就能直接在頁面上輸入問診內容讓 AI 整理摘要,全程文字完全不離開我的電腦或手機。相較之下,過去要達到同樣「本機執行、資料不外傳」的效果,必須自行安裝 Python、下載模型權重、配置執行環境,對非工程師幾乎是不可能的任務。這個方案讓完全私密的本機 AI,第一次變得像開啟網頁一樣簡單,零安裝、零設定。
這篇文章談的是一個由 AI(人工智慧,也就是現在各種會對話、會寫程式的電腦程式)帶動的創業新浪潮——「媽媽爸爸 SaaS 時代」。SaaS(Software as a Service,訂閱制線上軟體服務,就像 Google Docs、Notion 這種按月付費用的網路工具)以前要建立,至少需要一個會寫程式的技術夥伴或花數十萬元請人開發。但現在 AI 編碼工具(讓人用中文或英文說出想要什麼功能,AI 自動幫你寫程式的工具)大幅壓低了這個門檻,讓餐廳老闆、足球教練、房仲、招聘專員等各行各業的人,能把自己的專業知識包裝成一個可以銷售的軟體產品。根據 AI 開發平臺 Lovable 的調查數據,目前在其平臺上建立軟體的人有八成來自非技術背景,五成五具備超過 11 年的專業領域經驗,八成打算將產品商業化,三成五已經開始獲得收入。作者 Elena Verna 認為,這不只是程式設計師的生產力提升,而是整個「誰可以參與軟體市場」的根本改變——就像 Shopify 讓任何人都能開網路商店、Airbnb 讓任何人都能出租房間一樣,AI 正在讓任何人都能販賣自己寫的軟體。
假設你是一名有 10 年資歷的足球青訓教練,一直用 Excel 表格管理球員的訓練紀錄、出勤率和體能數據,但整理起來很麻煩、也無法讓家長即時查看孩子進度。以前若想做一個專屬 App,你需要找工程師、出幾十萬開發費,或等到有技術背景的朋友願意合作。現在你可以打開 Lovable、Cursor 或類似的 AI 建站工具,用白話文描述「我需要一個可以記錄每個球員每週訓練次數、跑步速度和教練評分,並讓家長登入看進度的網頁」,AI 直接幫你生成可運作的程式碼。你花一兩週調整功能細節,就能推出一個月費 300 元的訂閱服務,賣給同樣有這個煩惱的其他教練。過去這條路幾乎不存在,現在卻是真實可行的。
這是一篇由分析師 Benn Stancil 撰寫的觀點文章,探討 2030 年當 AI 代理(就是能自己思考、自己執行任務的 AI 程式)強大到可以自動完成大多數技術工作時,新創公司的競爭優勢將從哪裡來。作者指出,AI 實驗室正在開發「通用代理框架」(General Agent Framework,意思是一種能自己研究問題、呼叫外部工具、連續工作數小時都不需要人類介入的 AI 系統),讓技術執行能力(即「會寫程式、能把想法做出來」的能力)不再是新創公司的護城河。更令人驚訝的是,最新研究顯示 AI 模型開始用「自己發明的語言」在內部推理,效率甚至比人類看得懂的程式碼更高。這引發的核心問題是:當任何人都能透過 AI 代理快速做出任何軟體產品,未來十億級別的公司究竟靠什麼建立競爭壁壘?作者認為關鍵可能在於「品味」與「真實意圖」,但他也坦承,這兩項人類特質是否足以成為商業護城河,目前仍是個大問號。
假設你現在是一個創業者,想做一個「專門幫中小企業整理銷售數據的 SaaS(訂閱制雲端軟體)工具」。2024 年時,你的競爭優勢是:你有三個工程師,他們花了一年把這個數據整理的邏輯寫得非常精準、穩定,競爭對手沒那麼快做出來。但到了 2030 年,任何競爭者只要對一個通用 AI 代理說:「幫我建一套能串接常見 CRM(客戶關係管理系統)、自動清洗數據、每天出報表的工具」,AI 代理就能自行研究 API(應用程式介面,就是讓不同軟體互相溝通的橋樑)文件、寫程式、測試,幾小時內產出同等功能——和你的工程師花一年做的事相比,幾乎沒有差距。舊做法:花大量時間和金錢僱工程師,建立技術壁壘;新挑戰:技術壁壘消失,你必須靠「你比競爭對手更清楚這個市場真正需要什麼」來贏,而不是靠「你的程式碼寫得更好」。
創業圈知名作者 Auren Hoffman 提出,AI 正在讓軟體走向「拋棄式」時代。過去,企業寫了一套系統後會反覆維護十年甚至更久,因為重新改寫的成本太高。但現在,AI 程式碼編寫工具(就是能幫工程師自動撰寫、修改程式的 AI 助手)已經能夠讀取整個程式庫、規劃變更、同步修改多個檔案,甚至自動跑測試並部署——以前整個團隊要花三個月的工作,現在一週內就能完成。這讓維護舊程式碼的成本反而比直接讓 AI 重寫還高,就像一百年前的人們從反覆消毒的公用錫杯,換成喝完就丟的紙杯——不是紙杯比較好,而是舊做法的維護成本變得不划算。作者預測到 2026 年大多數軟體的「使用壽命」只剩約四個月,工程師的思維將從「寫出能維護一輩子的程式」轉變為「只要能通過現在的需求就好」。
假設一間中型電商公司有一套五年前寫的庫存管理系統,功能老舊、架構混亂,請工程師重寫需要整個團隊耗費一季時間。在 AI 工具出現前,他們只能繼續打補丁維護。現在,工程師可以把整個程式庫餵給 AI 程式設計工具(例如 Cursor、GitHub Copilot 等),讓它規劃重構方案、自動修改幾十個檔案並執行測試——整個重寫過程壓縮到一週內完成。更進一步,低成本讓公司可以替特定業務流程(例如「只給某個倉庫用的小工具」)量身打造專屬軟體,這種事過去因為太不划算根本不會做。以往養一套系統得有足夠多的使用者才合理;現在哪怕只有一個人用,做一個給他專屬的版本也沒問題。
這篇文章介紹了一位產品教練 Jenny Wanger 如何建立一套 AI 自動化工作流程(就是把多個步驟串接起來、讓電腦自動執行的系統),在每次與客戶的教練通話結束後,自動給她一份個人化的「覆盤報告」——哪裡做得好、哪裡可以改進。這套系統除了反饋,還會自動幫她起草後續的客戶 Email 以及 LinkedIn 發文內容。她使用的主要工具是 Relay.app(一種視覺化的自動化串接平臺,類似 Zapier),並將提示詞(就是給 AI 下的指令文字)儲存在 Coda 做版本管理,方便隨時修改迭代。文章的核心觀點是:AI 工作流程不只能讓你「做得更快」,更能幫助你「做得更好」,關鍵在於把效率工作與成長工作分開,讓每個流程只專注在一件事上。
假設你是一位業務或教練,每天要跟多位客戶通話,想提升自己的溝通技巧卻苦於沒有即時反饋。傳統做法是要等主管觀察或自己事後回憶,但記憶會失真、時機也晚了。Jenny 的做法是:通話錄音結束後,Relay.app 自動把逐字稿丟給 AI,AI 按照她預設的提示詞(存在 Coda 上、可隨時調整)分析她的表現,幾分鐘內就送來一則私人訊息,告訴她這次哪句話說對了、哪個時刻可以用更好的方式回應。對比舊做法:她原本要靠自己回想,或是等隔週 review,現在每通電話都有即時覆盤,讓她能在行為模式固化之前就察覺並修正——這就是「刻意練習」(deliberate practice,即有明確目標、有即時反饋地反覆訓練)真正落地的樣子。
AI 程式撰寫工具(像 GitHub Copilot、Cursor 這類幫工程師自動寫程式的 AI 助理)確實讓個別工程師的產出速度大幅提升,但這個加速效果常常被組織內的舊流程吸收抵銷,導致整個團隊的交付速度並沒有跟著提升。這篇 Stack Overflow Blog 文章引用「制約理論」(一種管理思想,核心概念是:系統的速度永遠取決於最慢的那個環節,解決一個瓶頸後下一個瓶頸就會浮現)來分析現況。當程式碼生成不再是瓶頸,新的卡點就轉移到:需求規格寫不清楚導致大量重做、設計交接流程太慢、程式審查(code review,讓其他工程師檢查你寫的程式是否正確)的工作量暴增卻沒有對應增加審查能力,以及工程團隊的速度已經超過產品設計部門所能配合的速度。
Intuit(美國大型財務軟體公司,旗下有 TurboTax 報稅軟體和 QuickBooks 帳務工具)的工程總監 Eric Anderson 指出:導入 AI 工具後,他們在技術上有能力同時跑 9 個、90 個甚至 900 個功能實驗,但原本公司的流程是為「一次執行少數幾個精心規劃好的實驗」所設計的,根本沒辦法應付這樣的爆量。結果就是:工程師端加速了,但產品端的需求確認、設計評審、上線決策全部塞住,大量加速效益就這樣白白流失。舊做法是工程師同時做 2 個實驗,產品和設計部門有足夠時間逐一仔細確認;想真正發揮 AI 工具的效益,需要的不只是讓工程師變快,而是同步重新設計整個跨部門協作流程,讓需求定義、設計交接、決策機制都能支援大量平行作業。
這是一項針對 AI 語言模型(就是 ChatGPT、Claude 這類能理解和生成文字的 AI)進行的研究,測試「讓 AI 花更多力氣思考」是否真的能更準確地找出程式碼中的安全漏洞(就是駭客可能拿來攻擊的程式缺陷)。研究者設計了 2,080 次測試,涵蓋 26 種不同的 Claude 和 GPT 模型配置,並調整了「推理努力程度」(就是讓 AI 思考多深、花多少資源去推敲答案的設定,分低、中、高、超高四個等級)。令人意外的結果是:更高的推理努力,甚至更新的模型,並不總是帶來更好的成果——GPT-5.5 在「中等」推理模式的表現竟然超越了「最高」推理模式。更嚴重的是,AI 能找到部分線索的成功率有 70.8%,但能完整追蹤完整漏洞鏈的成功率只有 1.9%,顯示目前 AI 在深層多步驟安全分析上仍有明顯侷限。
假設我是一位資安工程師,想用 AI 幫我掃描一份大型開源作業系統(例如 OpenBSD 的網路協議程式碼)的安全問題。我直覺會選用「最高思考模式」的 GPT-5.5,認為讓 AI 多花資源就能得到更準確的答案。但這項研究指出:把整份程式碼檔案丟給 AI,GPT-5.5 在最高推理模式下的成功率反而比中等模式還低,而且過高的推理努力還會觸發更多「內容過濾拒絕」(AI 認為問題太敏感而直接拒絕回答,先前測試中這種情況高達 15–21%)。相反,如果縮小範圍——只把「單一可疑函數」傳給 AI 分析,而非整份檔案——成功率最高可提升 31.7%。正確的做法應該是:先用便宜的低推理模型做初步篩選、縮小範圍,再把嫌疑程式片段單獨送給 AI 精分析,這樣效果更好,成本也更低,而不是一味堆高算力預期得到更好的結果。
這是一個真實的實測實驗結果,比較了兩款主流 AI 程式撰寫工具在「自動生成落地頁」這項任務上的費用差距。落地頁(Landing Page)指的是使用者點擊廣告或連結後看到的第一個促銷網頁,常見於電商、App 推廣等場景。實驗讓 Kimi K2.7 Code(由中國 AI 新創月之暗面開發的程式生成 AI(就是能幫你自動寫網頁程式碼的 AI 工具))與 Claude Fable 5(由 Anthropic 公司開發的大型語言模型(就是像 ChatGPT 一樣的對話型 AI,但專門強化了程式生成能力))各自生成 12 個落地頁。結果顯示:Kimi K2.7 Code 的費用比 Claude Fable 5 便宜了 94%,也就是說相同預算用 Kimi 可以完成 16 次任務,用 Claude Fable 5 只能完成 1 次。這個數據對需要大量生成網頁的開發者或行銷團隊來說,是非常直接的成本參考依據。
假設你在一家小型電商新創公司負責行銷技術,老闆要你每週針對不同產品快速生成一批促銷落地頁,用來測試哪種版本的設計最能吸引使用者點擊購買(這種測試法叫 A/B 測試)。如果你用 Claude Fable 5 生成 12 個落地頁的費用假設是 100 美元,那麼同樣任務交給 Kimi K2.7 Code,費用只需約 6 美元。每個月你可能需要迭代好幾輪,用 Claude 每月光 AI 費用就要數百美元;改用 Kimi K2.7 Code,費用壓到不足 30 美元。若你之前因為 AI 費用昂貴而不敢頻繁做測試,這個成本差距等於讓你可以做以前 16 倍多的嘗試,加速找出最有效的頁面設計。
Vercel(一個幫助開發者快速架設和發布網站及應用程式的雲端平臺)推出了 Vercel Connect,目前已開放公開測試,主要是為瞭解決 AI agent(能自動執行一系列工作任務的 AI 程式,例如自動回覆郵件、查資料後更新文件)在連接 GitHub、Slack 等外部服務時的安全隱患。傳統做法是把長期有效的 token(就像一把永遠有效的萬能鑰匙,放在系統裡讓 AI 程式隨時取用)儲存在應用程式中,一旦這把長期鑰匙外洩,攻擊者就能用它持續存取你所有的帳號資料。Vercel Connect 改用「執行任務前才臨時申請、完成即自動作廢」的機制:AI agent 要執行某項工作之前,才向 Vercel Connect 申請一把只在這項任務範圍內有效、幾分鐘後就自動失效的短期憑證,任務完成後憑證即刻作廢,系統裡完全不保存任何長期金鑰。這讓整個應用程式做到「零秘密儲存」的目標——就算有人入侵伺服器,也找不到可以長期使用的金鑰,資料外洩的損害被大幅壓縮。
假設我在用 AI agent 自動處理客戶在 Slack 發來的支援請求,agent 需要讀取 Slack 訊息、在 GitHub 建立追蹤 issue,再把處理進度回報。舊做法:把 Slack 的 API token(存取 Slack 的永久金鑰)和 GitHub 的 token 都存在環境變數(系統設定檔)裡,agent 任何時候都能動用這兩組金鑰,等於拿著可以進出整個 Slack workspace 和所有 GitHub repo 的萬能通行證。一旦伺服器被入侵,攻擊者立刻取得這兩組金鑰,能無限期存取你所有資料。新做法(Vercel Connect):Slack 訊息觸發 agent → agent 向 Vercel Connect 說「我需要讀 #support 頻道這則訊息」→ Vercel Connect 驗證 agent 身份後,只發出「僅能讀這個頻道、10 分鐘後過期」的臨時憑證 → agent 處理完後,再另外申請「只能在 myorg/frontend repo 新增 issue、10 分鐘後過期」的臨時憑證 → 兩個憑證任務完成後自動失效。就算有人截獲這些憑證,時間一到完全無法使用;就算駭入伺服器,也找不到任何可持續使用的永久金鑰,損害被嚴格限制在單一任務的極小範圍之內。
NVIDIA 推出了「XR AI」開發框架(一套現成的程式工具包),讓開發者可以在 AR 眼鏡(能把數位資訊疊加到真實場景的眼鏡,例如 Meta Ray-Ban)、AI 眼鏡以及 VR/MR 頭戴裝置(統稱為 XR 裝置,就是各種擴增實境、虛擬實境穿戴設備)上,快速打造具備 AI 能力的「Agent(智慧代理程式,就是能自主理解情境、決定行動的 AI 軟體)」。這套框架的核心價值在於:它幫開發者解決了「如何把眼鏡/頭戴裝置與後端 GPU 運算資源(包括雲端、資料中心、個人工作站或邊緣伺服器)串接起來」這道繁瑣的技術門檻,讓開發者不必從頭自建複雜的連線邏輯。透過這套工具,AI Agent 可以「看到使用者正在看什麼」(讀取 AR 眼鏡的鏡頭畫面)、理解使用者用語音或文字輸入的意圖、呼叫企業內部的工具與資料(例如庫存系統、客戶資料庫),並直接在 XR 畫面裡給出即時回應。目前 NVIDIA XR AI 已正式進入公開測試(Public Beta)階段,相關原始碼以開源形式提供,開發者現在即可申請試用。
假設某間工廠的現場工程師戴著 AR 眼鏡巡視設備。過去,他看到一臺機器的警報燈亮起,需要停下來拿出手機或平板,手動翻查維修手冊或聯絡遠端支援人員,往往需要等待幾分鐘才能得到指引。有了 NVIDIA XR AI 打造的 AI Agent,工程師可以直接對著眼鏡說「這臺機器怎麼了」——Agent 透過眼鏡鏡頭辨識出機器型號與當前顯示的錯誤代碼,自動查詢企業內部的維修知識庫,然後把排障步驟說明直接疊加顯示在工程師的視野裡,整個流程不需要低頭看手機、不需要等待遠端支援。過去要開發這樣一套系統,開發者必須分別串接 XR 裝置 SDK、雲端運算 API 和企業工具系統,需要耗費大量工程人力;NVIDIA XR AI 提供現成的連接層,讓開發者只需專注在應用邏輯本身,大幅降低入門門檻與開發週期。
Mistral(一家法國 AI 新創公司,以推出高效能開放原始碼模型聞名)宣佈將在今年夏天推出一款全新模型,並預計在七月對研究機構、政府單位及產業夥伴開放早期試用計畫。這款模型採用「稀疏架構」(sparse architecture,一種讓模型整體參數量很大、但每次運算只啟用其中一小部分的設計,能在節省計算資源的同時維持強大能力,Mistral 自己形容為「又大又稀疏」),並將以「開放權重」(open-weight,意思是模型的核心參數檔案會公開釋出,任何人都能下載到自己的電腦或伺服器上運行,不需透過 API 存取)的方式發布。Mistral 同時宣佈兩款配套平臺:Studio(用於模型部署)與 Forge(用於持續訓練與微調),並強調整套基礎設施可完全不依賴美國雲端服務商,獨立運作。
假設你是一家歐洲醫院的 IT 主管,想用 AI 分析病患醫療紀錄來輔助診斷,但歐盟 GDPR 隱私法規要求敏感資料不能傳送到境外伺服器,因此無法直接使用 GPT-4 或 Claude 這類美國閉源 AI。等 Mistral 這款新開放權重模型發布後,你可以直接把模型下載到醫院內部伺服器,資料完全不出機構網路。再透過 Forge 工具,拿醫院自己的歷史病歷資料對模型進行微調(fine-tuning,就是讓 AI 多讀你這個領域的資料,使它更熟悉醫療語境與術語),最後用 Studio 把模型部署成內部查詢介面。對比舊做法:用 GPT-4 API 要資料出境、費用高、無法審查模型內容;用現有能力較弱的小型開源模型又效果不足——Mistral 新模型預計在「接近前沿閉源模型的能力」與「可完全本地部署、不受制於任何單一服務商」之間取得平衡。
LifeSciBench 是 OpenAI(就是開發 ChatGPT 的那家公司)推出的一套專門針對生命科學領域的 AI 評測標準(Benchmark,就是一組測試題目,用來衡量 AI 的能力有多強)。跟過去只測「單一生物學知識題」的評測不同,LifeSciBench 模擬的是真實研究流程,包含「分析文獻證據、設計實驗、進行科學推理、撰寫研究報告」四大環節,就像讓 AI 完整跑一遍科學家的日常工作,而不只是考它一道考試題。這種端對端(end-to-end,也就是從頭到尾的完整流程)的評測方式,能更真實反映 AI 在實際生命科學研究中的表現,而不是隻靠背題庫就能得高分。評審由真正的領域專家擔任,確保評分標準貼近業界實際需求,而非純粹的機器自動評分。
假設你是一位藥物研究人員,想用 AI 協助設計一個新藥的臨床前實驗。過去的 AI 評測只考「這個蛋白質的功能是什麼?」這類單一問答,AI 答對了不代表它真的能幫你設計實驗。LifeSciBench 的測試題則是:「給你一份關於某疾病的文獻,請你分析現有證據、提出假說、設計驗證實驗、並以報告格式呈現結論。」這就像讓 AI 真的坐下來做研究助理的工作。如果某個 AI 模型在 LifeSciBench 得分高,代表它在真實研究場景下也可能有用;但若只在舊式評測得高分的 AI,可能只會背生物知識,一旦要它統合推理就露餡了——這套基準讓開發者和研究人員能更準確挑選適合生命科學研究的 AI 工具。
Anthropic 的 Claude AI 與 Replit(一個可以在瀏覽器裡直接寫程式、執行和部署應用程式的線上開發平臺)正式宣佈深度整合。這個整合推出兩項功能:其一是「Claude Design」(目前在 Claude Pro、Max、Team、Enterprise 訂閱方案中公開測試),讓使用者只要用白話文描述想要的畫面,Claude 就會自動生成 App 的視覺設計稿,然後按一個按鈕就能直接送到 Replit 繼續開發;其二是「Replit Connector」,讓 Claude 對話過程中可以直接把任何程式開發任務交接給 Replit 執行,無需手動複製貼上或切換工具。整個流程可以從設計到寫程式再到部署上線,全程都在 AI 的引導下一氣呵成,不需要懂程式也能完成一個可以實際運作的 App。
假設我想製作一個「親友共同記帳 App」,讓家人可以一起追蹤每個月的花費。以前的做法是:先找設計師或用 Figma(一套設計軟體)畫出介面草圖,再把設計稿交給工程師用 React(一種網頁開發框架)寫出實際程式,最後再找伺服器部署上線——光是這三步就需要三種不同的專業人士,加上大量來回溝通。現在透過 Claude + Replit 整合,我只要在 Claude 裡打一段話:「幫我設計一個家庭記帳 App,介面要簡潔,有月度圓餅圖和新增支出按鈕」,Claude Design 就會生成完整的視覺介面設計;滿意後點擊「送到 Replit」,Replit 會接手,自動生成對應程式碼並讓我可以立即在線上測試和調整;確認後再部署到公開網址,整個過程可能只需要幾十分鐘,且不需要自己寫任何一行程式碼。
根據 Jefferies 金融機構的分析報告,美國 2026 年預計完工的資料中心(就是專門用來放置大量伺服器、讓 AI 模型能夠運算的巨型建築群)實際動工率只有一半:計畫興建的 24 GW(百億瓦,一種衡量用電規模的單位)容量中,僅有 12 GW 真正開始動工。2027-2028 年的情況更糟糕,高達 80% 的計畫容量連建設都還未啟動。造成這個落差的主要原因包括:電網連線申請等待時間超長(最長延誤達七年)、分區許可申請曠日廢時、勞動力不足,以及大型科技公司向多家電力公司重複申請導致數字虛報。Jefferies 認為業界每年實際可新增的產能約 15-20 GW,遠低於部分預測的 40 GW 以上,顯示許多 AI 基礎設施的擴張計畫過於樂觀、與現實約束脫節。
假設你是一家計畫在 2027 年租用算力的 AI 新創公司,你原本看到業界宣佈 2027 年將有大量新建資料中心開放,預期屆時 GPU(圖形處理器,就是訓練 AI 模型最核心的硬體晶片)叢集的供應會很充裕、租金也相對合理。但現在這份分析指出:那些被計入「2027 年完工」統計的資料中心,有高達 80% 根本還沒開始動工——很可能是因為電力公司的接入申請排隊已排到 7 年後,或是土地許可卡關。對比舊預期:你以為 2027 年算力市場供應充足,實際可用容量可能不到原本公告數字的兩成,到時候 GPU 租金上漲、搶位子的競爭都會遠比預期激烈,新創公司的 AI 訓練成本與時程規劃都需要重新評估。
Everpure(原 Pure Storage,一家專門提供企業儲存設備的科技公司)在 2026 年 Pure Accelerate 年度大會上,提出了「資料優先性(Data Primacy)」這個概念——也就是說,讓企業裡的 AI 跑得準、不出錯,關鍵不在於你選了哪個 AI 模型(例如 GPT 或 Claude 這類能對話的大型語言模型),而在於企業有沒有把自家的資料整理乾淨、管理到位、讓 AI 能順利讀取。他們認為傳統做法的問題在於:每個系統(例如客戶管理系統、ERP 財務系統、生產資料庫)都把自己的資料鎖在自己的孤島裡,AI 看不到全局,自然就容易給出不完整或錯誤的答案。為此,他們提出一套三層架構:底層是「統一資料平面」(把分散在各處的儲存裝置整合成一個統一管理的系統);中層是「自動化控制平面」(讓資料能自動移動、自動備援,不需要人工幹預);頂層是「資料智慧層」(幫助企業掌握自己有哪些資料、資料在哪裡、誰有權存取、是否符合個資法規等治理需求)。這三層合在一起,目標是讓 AI 在需要查詢時,能存取到完整、正確、合規的資料,而不是隻能看到碎片化的片段。
假設一家製造業公司想用企業 AI 回答這樣的問題:「本季哪條產線良率最低?背後原因是什麼?」要正確回答,AI 需要同時存取 ERP 系統(訂單與成本資料)、MES 製造執行系統(每條產線的生產記錄)、品檢系統(各批次良率數字),以及設備感測器日誌(機臺狀態與異常記錄)。在傳統架構下,這些資料分別存放在不同系統的獨立資料庫,AI 往往只能存取其中一塊,給出「資料不足,無法確認」的回答,或者只分析了品檢數字卻沒對照機臺記錄,結論出現偏差。採用「資料優先」三層架構後,所有來源的資料統一匯入共同的資料平面,AI 查詢時能一次跨系統取用,同時自動確認使用者的存取權限、資料是否通過治理稽核。最終 AI 能給出「A 產線良率 82%,比全廠平均低 11 個百分點;對照機臺感測日誌,6/10 至 6/12 號機臺出現異常,同期品檢退件率同步攀升」這樣具體可行的結論,而不是把工作丟回給工程師自己去跨系統手動核對。
Okta(一家專門做登入與身份驗證的公司)與 Google Cloud 合作,推出一套叫「Auth0 for AI Agents」的新工具。簡單說,就是當企業裡的 AI 助理(AI Agent,就是能自動執行任務的 AI 程式,例如幫你整理信箱、代替你填表單)要替你做事情時,這套工具負責確保這個 AI 只能做你明確允許它做的事,不會越權。除了限制 AI 行為範圍,它還支援「人工審核流程」,也就是 AI 想做敏感操作(比如大量刪除檔案)時,必須暫停等待真人按下確認鍵才能繼續。此外,這次更新也強化了 Chrome 瀏覽器的企業安全,讓竊取的登入 Cookie(網站用來記住你已登入的小型資料,被偷走後駭客可冒用)無法在其他裝置上使用。整體來說,這讓企業可以更放心地把 AI 工具交給員工使用,同時又不必擔心 AI 出錯或被濫用。
假設你在一家公司的行銷部門,導入了 AI 助理幫員工批次發送行銷郵件,並整理 Google Drive 裡的客戶資料夾。沒有身份管控的情況下,這個 AI 助理只要被觸發,理論上能用員工帳號做任何事,包括誤刪重要合約或外傳機密文件。有了「Auth0 for AI Agents」,IT 管理員可以精確設定:這個 AI 只能讀取和新增行銷資料夾中的檔案,不能刪除;要一次發出 100 封以上郵件時,必須先等主管在手機上點選核准才能繼續;操作憑證使用 OAuth 令牌(一種短期授權通行碼,過期就自動失效),不直接持有員工密碼。舊做法是 AI 一旦拿到帳號授權,能做的事沒有邊界;新做法是每個動作都有明確限制,敏感操作卡點人工確認,大幅降低 AI 搞錯或被駭後的損失。
Sophos(一家專門提供網路資安產品的公司)公開了一套結合 AI 與機器學習(讓電腦從大量資料中自動學習規律的技術)的系統,用來在龐大的資安警報洪流中找出「資訊竊取型惡意程式」(Infostealer,一種偷偷從電腦裡竊取帳號密碼、信用卡資訊的病毒)攻擊。這套系統稱為 Taegis XDR,在兩週內處理了超過 11.8 兆筆事件記錄,規模極為驚人。傳統資安監控中心(SOC,就是企業僱人 24 小時監看電腦系統是否遭入侵的部門)面臨的最大困境是「警報疲勞」——每天收到太多假警報,真正的攻擊反而被淹沒。Sophos 的解法是設計一條多層過濾管線:先以規則和機器學習初步篩選,再做去重複與關聯分析、壓制雜訊,最後透過「監督式機器學習」(給 AI 看有標記答案的例子來訓練的方法)對警報排優先順序,把兆級事件縮減為數萬筆,再從中精確鎖定資訊竊取行為。
假設某企業 SOC 團隊每天收到 50 萬條資安警報,分析師根本看不完。使用 Taegis XDR 的 AI 管線後,系統先用規則引擎過濾明顯無害的事件,接著機器學習模型把相似警報合併(去重複),再抑制已知誤報類型,最後監督式機器學習替剩餘警報標上「高優先」或「低優先」。分析師只需檢視頂端幾百條高優先警報,其中就藏著一臺員工電腦正在偷偷把密碼傳送到境外伺服器的資訊竊取攻擊。若沒有這套 AI 管線,那條警報會淹沒在 50 萬條裡無人察覺;有了它,分析師可以在幾分鐘內找到並封鎖攻擊,而不是數天後才後知後覺。
SentinelOne 是一家美國資安公司,旗下有一款叫做 Purple AI 的 AI 助理工具,協助安全分析師調查電腦遭受攻擊的事件。這次更新把 Purple AI 升級成「零點擊」自主模式(意思是不需要人手動啟動,AI 會自己開始工作)——只要系統偵測到可疑活動超過預設門檻,Purple AI 就會自動蒐集證據、串連不同來源的資料、分析攻擊路徑,最後產出一份「攻擊裁決報告」供人類分析師審閱。這套系統採用混合模型架構,同時結合 Anthropic 的 Claude、OpenAI 的 GPT,以及 SentinelOne 自家的 Ultraviolet 模型(這三種都是會理解語言、分析資料的 AI 語言模型),並整合電腦端點(即使用者的電腦)、身份驗證系統、雲端服務及第三方安全資料,讓調查範圍更全面。SentinelOne 指出,分析師目前面對的重大警報數量「已超出任何人力配置所能逐一調查的極限」,Purple AI 將調查時間從數小時壓縮至數分鐘,現正以免費試用形式在 Singularity Platform 上開放,試用期至 2026 年 8 月 15 日。
假設一家企業的員工帳號在夜間出現異常登入,同時雲端服務也偵測到可疑的大量資料傳輸。過去,安全分析師需要手動開啟警報、逐一翻查各系統的日誌(日誌就是系統自動記錄的行為紀錄,類似監視器存檔),把端點、身份驗證、雲端三個不同系統的資料手動拼湊,一件事可能要花好幾個小時才能判斷是否為真正的攻擊入侵。換用新版 Purple AI 後,系統一偵測到可疑行為門檻就自動啟動調查:AI 自行串接三個系統的遙測資料(遙測資料是各設備即時回傳的狀態資訊,類似設備的心電圖)、繪製攻擊路徑圖,並在數分鐘內生成完整事件報告,說明攻擊者從哪個帳號入侵、執行了哪些操作、影響了哪些資產。分析師收到報告後只需審核並決定是否封鎖,大幅縮短從「警報觸發」到「完成調查」的整體時間。
ax-audit 是一個開源的命令列工具(就是在電腦終端機輸入指令就能使用的程式),專門用來檢測網站是否對 AI 代理人(Agent,就是能自動上網幫你完成任務的 AI 程式)「友善」。就像 Google 的 Lighthouse 工具可以幫你檢查網站速度和無障礙設計一樣,ax-audit 幫你檢查你的網站是否讓 AI 代理人能順利讀取、理解和操作。它會執行 18 項檢查,涵蓋網站是否有提供給 AI 閱讀的 robots.txt(告訴爬蟲哪些頁面可以讀)、llms.txt(專門讓大型語言模型(LLM,即 ChatGPT 這類 AI)理解網站內容的說明檔)、結構化資料、OpenAPI 規格文件等,最後給出一個 0 到 100 分的就緒度分數。隨著 AI 工具越來越常替用戶自動上網完成任務,網站若對 AI 不友善,就可能被這些工具忽略或誤讀。
假設你維護一個軟體文件網站,想知道 AI 代理人(如 Claude 的自動操作功能)能不能順利讀取你的內容並代替用戶執行操作。你可以在終端機執行 `npx ax-audit https://your-docs-site.com`,工具會自動檢查 14 項加權項目,包括:是否有 `llms.txt`(缺失扣 11 分)、robots.txt 是否允許 AI 爬取(缺失扣 11 分)、是否有 OpenAPI 規格文件(讓 AI 知道你提供哪些 API 功能,缺失扣 6 分)等,最後輸出一份詳細報告,列出每一項的得分與具體改善建議。舊做法是開發者只能手動逐一對照各項 AI 友善標準,既費時又容易遺漏;ax-audit 讓你幾秒內就能得到完整的評分報告和優先修正清單,還支援 CI/CD(持續整合,就是每次程式碼更新時自動跑測試的流程)整合,讓你追蹤網站 AI 友善度的變化趨勢。
MCP(Model Context Protocol,模型情境協定——一種讓 AI 可以連接外部工具與服務的標準溝通介面,由 AI 研究公司 Anthropic 所提出)是目前打造 AI Agent(自動執行任務的 AI 程式)系統的核心基礎。以前 MCP Server(讓 AI 使用工具的服務端程式)主要只能在開發者自己電腦上跑,多人共用或部署到產品環境都很麻煩。Google Cloud 現在發布了一份官方教學,示範如何在 30 分鐘內把一個安全的 MCP Server 架設在 GKE(Google Kubernetes Engine,Google 的雲端容器管理平臺,可自動擴縮容、故障自動重啟)上。這份指南涵蓋 TLS 加密連線(讓資料傳輸像 HTTPS 網站一樣安全加密)、SSL 憑證申請、以及讓多臺 Server 同時服務不同 AI Agent 的負載設定,整體目標是讓 AI Agent 的工具層從「只能在本機使用」升級到「可供整個團隊或多個服務共享的雲端基礎設施」。這代表 AI Agent 部署正走向更成熟的企業級架構。
假設公司想讓 AI Agent 在分析財務資料時進行精確數學計算(而非讓 LLM(大型語言模型,就是 ChatGPT 這類會對話的 AI)靠推斷給出答案——這在計算上容易出錯)。舊做法是工程師在自己筆電上跑本機 MCP Server,只有他自己的 Agent 能用,其他同事或正式環境根本無法存取。依照這份 Google Cloud 指南的新做法:先用 Python FastMCP 框架寫好工具函式(如加法、減法,約 10 行程式碼),打包成 Docker 容器推到 Google 雲端,部署到 GKE 並設定 Gateway 及 Google 管理的 SSL 憑證後,公司所有 AI Agent 只需連到統一的 HTTPS 網址(如 https://mcp.yourdomain.com/mcp)就能呼叫工具。GKE 自動複製多份 Server 應付流量高峰、故障時自動重啟。具體結果是:財務、客服、訂單分析等五個不同 AI Agent 共用同一套計算工具,不需各自重複開發,維護成本大幅降低。
Anthropic(開發知名 AI 助理 Claude 的公司)對旗下設計工具 Claude Design 進行了大幅翻新。Claude Design 是一款讓你用 AI 自動生成網站或 App 使用介面(UI,就是畫面上的按鈕、排版、色彩等視覺元素)的工具。這次更新最重要的三項改變是:第一,修復了過去「燒 token」的問題——token(可以理解為 AI 的計費單位,就像計程車的跳錶)消耗太快,導致企業用起來成本很高;第二,現在支援把公司自己的「設計系統」直接匯入——設計系統是一套統一的顏色、字型、按鈕風格等規範,讓整個公司的產品外觀保持一致,來源支援 GitHub(程式碼管理平臺)、設計文件或直接上傳;第三,新增「代碼往返」功能(code round-trip),意思是你可以把現有的程式碼丟進去,AI 幫你做設計調整後,再輸出成可以直接用的程式碼,不需要重頭重寫。Anthropic 表示這次更新標誌著 Claude Design 從「試玩用的原型工具」正式升級為「企業級平臺」。
假設你是一家電商公司的前端工程師,公司有一套完整的品牌設計規範——主色系是橘色、按鈕要有特定的圓角弧度、標題字型統一用某個字型。以前用 AI 幫你生成新頁面(例如「產品詳情頁」),AI 完全不知道你的設計規範,產出的介面顏色用藍色、按鈕樣式也對不上,你還得花幾個小時手動逐項修改對齊。現在用更新後的 Claude Design,你只需把設計系統從 GitHub 倉庫匯入一次,然後對 AI 說「幫我生成一個商品詳情頁面」,它產出的程式碼就已自動套用橘色主題、正確按鈕樣式與字型。若想再微調,把這段程式碼貼回去讓 AI 修改,調整完直接輸出新的程式碼(代碼往返)。相比以前每次人工套規範,這個流程快上許多,品牌視覺也更統一。
這篇文章討論一個使用 AI 工具(就是像 ChatGPT 這類能自動生成文字、程式碼的人工智慧助理)工作時常見卻被忽視的問題:個人速度提升了,但整個團隊或組織反而變慢了。原因是,許多人用 AI 快速生產內容後直接送出、沒有仔細審查,等於把「確認內容是否正確」的責任轉嫁給了下一個接手的人。作者以工程師用 AI 寫技術文件為例:過去要花一整個下午,現在幾分鐘就能生成,但因為充斥 AI 腔調且未經核實,審閱者反而需要花更多時間逐句驗證。問題的核心是「信任感缺失」——讀者無法知道 AI 生成的哪些部分正確,所有內容都得重新確認,省下的時間其實只是轉移了成本,並非真正節省。作者呼籲:使用 AI 生成內容後,仍應花時間審閱、精煉,並對自己的產出負責,才能讓 AI 真正幫助整個組織提速。
假設你是一名軟體工程師,需要寫一份「資料庫遷移指南」(就是說明如何把舊系統的資料安全搬移到新系統的操作手冊)。舊做法:自己花 4 小時撰寫,每個步驟都親自驗證,同事收到後信任內容、可以直接照做。AI 加速但未審查的做法:請 AI 5 分鐘生成一份更長的文件,未仔細審查就直接送出。結果:同事拿到後,因為知道是 AI 生成的,無法判斷哪些步驟可信、哪些可能有誤,必須花同樣甚至更多時間逐句核查——你省了 4 小時,同事卻多花了 4 小時,整個團隊合計並未省到任何時間。正確做法是:AI 生成後自己仍花 1~2 小時仔細精讀、修正錯誤、補充細節,讓送出的文件品質與親手撰寫的一樣可靠,如此才真正讓整體工作流程加速。
這篇文章介紹了一個叫做「Loops(迴圈)」的 AI 開發新概念。簡單來說,就是讓 AI 代理人(agent,也就是能自動執行複雜任務的 AI 程式,類似一個不需要人一直盯著的自動工人)不需要人類一直給指令,而是設定好目標後讓系統自己反覆檢查、執行、再修正,形成一個持續的自動迴圈。一個完整的 Loop 包含四個要素:明確目標、必要的背景資料與工具、評估結果的測試機制,以及執行任務的 AI 本身。這個概念讓「自動駕駛產品」成為可能——軟體不需要工程師一直守著,就能自動修復漏洞、提升效能、讓自己越來越好。推動 Loops 實用化的背景是,現代頂尖 AI 模型(如 Claude Opus 4.6)已能完成長達 12 小時的連續任務,並出現 Stripe 這類企業用 AI 一天內完成原本兩個月工作量的成功案例,加上 Claude Code 已內建 `/loop` 指令,讓開發者更容易上手。
PostHog(一家產品分析工具公司)想找出系統的效能瓶頸,但這類問題往往藏得很深、需要大量人工排查。他們用 Loop 架構設定目標「找出並修復效能問題」,讓 AI 自動分析程式碼、執行效能測試、比對結果、再調整修法,反覆多輪之後,AI 找到並修復了一個埋藏三年的舊漏洞,整體系統效能提升了 11%。傳統做法需要工程師花好幾天手動追查,而且常常找不到這麼老的問題;用 Loop 則不需要人在旁盯著,AI 跑完整個流程後直接輸出修復方案。
這篇文章講的是:當工程師開始用 AI 編碼工具(如 Cursor、Claude,也就是會幫你寫程式碼的 AI 助手)來開發產品,原有的設計系統(一套規範顏色、字體、按鈕等視覺元件的標準)如果沒有針對 AI 的「閱讀方式」做調整,AI 每次生成程式碼都可能自己發明新元件、引入不一致的樣式,讓整個產品外觀越來越混亂。文章以測試平臺公司 Currents 為案例,展示他們如何在七週內把原本亂成一團的設計規範(791 個檔案、236 種顏色、69 個自製圖示),重整成一套機器可讀的設計指南。具體做法包括:把字體縮減到六個固定尺寸並賦予明確用途名稱、把顏色改用 OKLCH 格式標注(一種讓 AI 可以自行推算相鄰色階的顏色表示法,而不是一堆死記的十六進位碼)、以及建立圖示自動對應層,讓 AI 生成圖示的準確度達到 90%。核心論點是:AI 工具正在「放大設計落差」,有設計系統基礎的團隊將因 AI 加速而更強,沒有基礎的團隊代價則以倍數增加。
假設你是 Currents 的前端工程師,想讓 AI(例如 Cursor)幫你新增一個篩選器元件。在設計系統重整之前,專案裡同時存在三種不同的篩選元件寫法,AI 只能隨機選一種或自己憑空生成第四種;顏色部分有 236 個顏色值散落各處,AI 無法判斷哪個才是「正確的主色按鈕顏色」,結果每次產出都可能不一樣。重整後,設計規範改用語意化 token(例如 `ui.default` 專門用在互動元件標籤、`elevation.surface` 用在卡片底色),並搭配 OKLCH 格式的顏色系統,AI 看到需要「互動元件標籤文字顏色」就直接對應 `content.ui`,不再亂猜。三種篩選元件也合而為一,AI 生成時只有一個正確範本可參考。最終效果:工程師每次 PR(程式碼提交)引入設計不一致的情況大幅減少,AI 的輸出品質更接近設計師的預期,不需要每次都人工修正樣式。
Rippling(一家主打人力資源與業務自動化的企業軟體公司)將原本分散在多個倉庫的銷售與行銷資料,重新整合成一套以 AI 為核心的「AI 資料庫」,底層建在「湖倉」(Lakehouse,一種同時具備資料湖儲存彈性和資料倉庫高效查詢能力的架構)之上。這套新系統的目標是為「業務 Agent」(自動執行銷售、客戶開發等商業流程的 AI 程式)提供統一且高品質的資料來源。系統包含幾項關鍵設計:用機器學習(讓電腦從大量資料中自己學習規律的技術)自動比對和整合來自不同外部廠商的客戶資料;透過「獎章架構」(Medallion Architecture,把原始資料逐層精煉成乾淨可用資料的設計方式)管理資料品質;以及語意搜尋(Semantic Search,不只比對關鍵字、而是理解問題意思再撈資料的技術)讓 Agent 能讀懂業務對話紀錄。此外還提供一個叫「Genie」的自然語言介面,讓 AI Agent 直接用人話查詢資料庫,不必寫程式碼。
假設 Rippling 的業務 Agent 要判斷「某家新潛在客戶公司是否值得優先跟進」,它需要查詢這家公司的規模、過去的業務對話紀錄,以及第三方資料庫(如 LinkedIn、Crunchbase)的最新動態。舊架構下,這些資料散落在不同倉庫、格式各異、有時還互相矛盾(例如同一家公司在不同系統裡名稱寫法不一),Agent 根本無從判斷哪筆才對。新的 AI 資料庫先用 ML 實體解析(自動識別「Rippling Inc.」和「Rippling」是同一個公司)把資料統一,再透過語意搜尋撈出相關的業務通話摘要,最後讓 Genie 介面回答 Agent 的問題。Agent 得到一致、完整的答案後,就能自信地輸出「優先跟進此客戶」的決策——舊方法則需要業務人員手動整合多份報表,費時費力才能得到同樣的結論。
美國知名生鮮雜貨外送平臺 Instacart,徹底重建了廣告推薦系統的底層架構。舊系統使用 BERT(一種能理解文字語意的語言模型)對平臺上每一個商品 ID 逐一「打分」,再依分數高低決定推哪些廣告。這個做法有三大根本缺陷:商品種類愈來愈多就會卡住(詞彙量瓶頸)、新上架商品從未被模型見過所以推不出去(冷啟動問題),以及商品目錄改版重整後模型的理解就會錯亂(結構漂移)。新系統改用「生成式」(Generative)做法——也就是像 ChatGPT 那樣「一個字元一個字元地組合出答案」,並配合「語意 ID」(Semantic ID,把商品的分類、屬性等語意資訊壓縮成一組結構化代碼)取代原本的固定商品編號。這樣一來,就算是全新上架的商品也能立即被系統正確理解與推廣,不再受限於舊有的商品 ID 清單。
假設我是 Instacart 的廣告工程師,舊系統的問題很具體:平臺今天新上架一款「有機特級初榨橄欖油 500ml」,廣告主花錢希望推這款商品,但 BERT 模型從未見過這個商品 ID,不知道給它多少分,結果廣告根本推不出去,廣告主的預算白燒。換成新系統後,這款橄欖油會被編成一組語意 ID,例如「食品 → 油品 → 橄欖油 → 有機 → 500ml」這樣的結構化代碼。使用者正在購物、查看沙拉材料時,模型不再從舊清單裡「挑一個 ID」,而是根據購物情境一步步「拼出」最合適的語意代碼,再對應到真實商品。新商品只要進系統就能立即被推出,且模型更能理解「使用者這趟在買什麼類型的料理食材」這種整體購物脈絡,廣告精準度與全目錄覆蓋率因此雙雙提升。
傳統資料處理(就是把資料從一個地方清洗整理、搬到另一個地方的工作流程,業界叫 ETL)長期靠 CPU(電腦的中央處理器,負責一般運算)搭配 SQL(一種查詢資料庫的語言)完成。但現在情況正在改變:企業需要處理的資料越來越多是影片、音檔、PDF 文件、Slack 訊息、感測器數據這類「非結構化資料」,這些資料沒辦法直接丟進傳統資料表格查詢。要讓電腦「看懂」這些內容,必須先用 AI 模型去做理解和萃取,而 AI 模型的運算核心是 GPU(圖形處理器,原本用來跑遊戲畫面,現在被大量用於 AI 運算)。這個趨勢代表資料處理平臺必須從過去的純 CPU 架構,轉型為 CPU 與 GPU 混合、支援串流和 API 高並發的新型態架構。
假設一家電商公司想分析數萬筆客服錄音,過去的做法是工程師手動轉成文字再用 SQL 統計關鍵字出現次數,費時費力且無法理解語意。現在的做法改成:把音檔批次送進語音辨識 AI 模型自動轉文字,再交給語言模型(LLM,就是像 ChatGPT 這類會對話的 AI)自動產生每通電話的摘要、情感標籤(正面/負面/需跟進)以及問題類別,最終把結構化結果存進 SQL 資料庫、把摘要向量(讓 AI 能以語意搜尋的數字表示)存進向量資料庫(一種讓 AI 可依語意相似度搜尋的特殊資料庫)。整個「理解內容」的流程全在 GPU 上跑 AI 推論完成,不再靠人工,速度比舊做法快幾百倍,且能捕捉語意而非只是關鍵字比對。
datapitfalls 是一個免費開放原始碼(任何人都可以下載使用、查看和修改程式碼)的工具,透過 Claude(Anthropic 公司開發的 AI 助理,類似 ChatGPT)來自動幫你檢查資料分析過程中的常見錯誤。這個工具涵蓋資料分析從頭到尾的整個流程——從一開始問問題的方式是否恰當,到最後呈現結果的圖表是否清晰,中間每個環節都在檢查範圍之內。它採用了 Ben Jones 所著《Avoiding Data Pitfalls》書中的錯誤分類法,能夠識別偏見(因問題設計不當導致結論偏斜)、靜默的管道失敗(程式執行完沒有報錯、但結果其實是錯的)、錯誤的資料聚合(加總或平均算錯)、統計錯誤、誤導性的視覺化圖表,以及表達不清楚等問題,並針對每個問題說明嚴重程度和具體修正方式。
假設你做了一份電商銷售分析,裡頭包含一張「月營收趨勢圖」和一段用 Python(一種程式語言)計算平均客單價的程式碼。傳統做法是自己逐行看程式碼有沒有 bug(程式漏洞),再靠眼睛盯著圖表判斷有沒有問題。使用 datapitfalls 時,你把圖表截圖和程式碼一起丟進去,Claude 會掃描後回報:「圖表 Y 軸沒有從零開始,視覺上誇大了成長幅度(誤導性視覺化,嚴重程度:中)」、「計算平均客單價時使用算術平均,但訂單金額分佈極端不均,建議改用中位數(統計錯誤,嚴重程度:高)」,並附上如何修改程式碼的建議。相比原本要靠自己的專業判斷或請同事審查,這個工具能系統性地揪出整個分析流程中各種常見卻容易忽略的問題。
Heidi Health 是一家專做臨床 AI 的新創公司,旗下有一款叫 Heidi Evidence 的工具,讓醫生可以快速搜尋臨床問題的答案。他們最近公開了一個技術成果:透過「微調」(fine-tuning,就是用特定領域的資料繼續訓練一個已有的 AI 模型,讓它更懂某個專業)一個較小的模型,讓它在臨床問答能力上追平了目前市面上最強的「前沿模型」(frontier model,指 GPT-4 這類參數量極龐大、能力頂尖的商業 AI)。關鍵在於訓練資料來源:整整 350 萬筆由真實醫生做出的偏好選擇——也就是讓醫生在兩個 AI 回答之間挑出更好的那個,這種「人類回饋」讓模型學會什麼才是真正符合臨床判斷的答案。訓練採三階段進行:先用醫生偏好的標準答案做監督式訓練,再讓模型自我提煉出最強表現,最後用並排比較結果做直接偏好優化(DPO,就是讓模型學到「這個答案比那個好在哪」)。評估方式採「並排盲測」,讓臨床醫生在不知道答案來源的情況下選出兩者中更好的那個,最終結果 Heidi 小模型以 49.9% 對 50.1% 幾乎平手,正式達到前沿同等水準,且通過了獨立安全基準測試。
假設一位家醫科醫生在診間使用 Heidi Evidence 查詢「第二型糖尿病患者在 Metformin(常見的降血糖藥)之後,考量腎功能不全時的第二線口服藥物選項」。過去若用 GPT-4 這類前沿大模型,每次查詢成本較高、回應較慢,且模型對臨床細節的判斷未必符合真實醫療情境。改用 Heidi 微調後的小模型:它從 350 萬筆醫生的真實偏好學到「什麼樣的回答醫生覺得好」,所以給出的答案在格式、細節深度、用藥安全提示上都更貼近臨床實務需求。盲測中,臨床醫生選擇 Heidi 模型答案的比例與選前沿大模型的比例幾乎相同,但 Heidi 的模型更小、回應更快、使用成本更低——這正是用領域專屬回饋資料做微調的核心價值:不需要最大的模型,只需要最對的訓練訊號。
Probably 是一款在本機電腦上執行的 AI 資料分析工具(agent,就是能自動完成多步驟分析任務的 AI 程式)。與 ChatGPT 這類 AI 聊天機器人最大的不同是:它把數學計算交給獨立的運算引擎,而非讓 AI 自行「猜測」答案,因此每個分析結果都有嚴謹的統計驗證,不會憑空捏造數據。使用者只需用白話文問問題,例如「上個月哪個地區退貨最多?」,Probably 就能查詢你的 CSV 檔案、Parquet(一種高效能的大型資料格式),或 Snowflake、BigQuery 等資料倉儲(企業用來集中存放大量數據的雲端系統),迅速回傳有根據的答案。所有資料處理都在本地端進行,不會上傳到任何外部伺服器,適合對資料隱私有疑慮的企業。
假設你是零售公司的業務分析師,手上有一份 5 GB 的訂單 CSV 檔案,想找出「過去三個月各產品類別的退貨率,並標出高於 5% 的異常類別」。若用 ChatGPT,你得先把巨大的 CSV 切成小塊上傳,而且 AI 在做統計加總時可能「腦補」出錯誤數字。改用 Probably,直接在本機開啟那份 CSV,用白話文輸入這個問題,工具自動執行統計計算並輸出結果表格,同時驗證每一步運算——若任何驗證失敗,系統會拒絕輸出並重新計算,確保你看到的數字都是真實算出來的,而非 AI 編造的。整個過程資料不離開你的電腦,也不需要寫任何程式碼。
Talos 是一個開源工具,讓開發者可以用數學方式「形式驗證」(formal verification,就是用數學嚴格證明,而不是靠人工測試)WebAssembly(一種可在瀏覽器及各種平臺上執行的通用程式碼格式)程式是否按照預期運作。背後的邏輯是:現在 AI 程式碼生成工具(例如 GitHub Copilot、Cursor 這類自動寫程式的 AI)越來越普及,大量 AI 寫的程式碼直接進入產品,但正確性難以保證,驗證成為新的瓶頸。Talos 的目標是讓每一段軟體都附帶一份數學證明,確保它確實做了它應該做的事,從根本消除某類程式漏洞與錯誤。Talos 使用 Lean(一種兼具「寫程式」與「定理證明器」雙重功能的語言,可以讓電腦幫忙驗證數學命題)直接在二進位層面推理 WebAssembly 程式。Rust、C++、Go、Swift、Kotlin、Zig 等主流語言都可以編譯成 WebAssembly,因此 Talos 的驗證範圍相當廣泛。Lean 本身也整合了 AI 自動推理工具,讓部分複雜的證明步驟可以自動完成。本專案由 Y Combinator W26 梯次的新創公司 Cajal Technologies 開發並開源,目前處於早期階段,路線圖包含:完整 W3C WebAssembly 測試套件支援、任意 Rust 函式庫驗證,以及建立可重複使用的證明函式庫。
假設你用 Rust 寫了一個安全相關的加密函式,並編譯成 WebAssembly 部署。你想確保這個函式對所有可能的輸入都不會發生整數溢位(整數超過上限後「捲回」成錯誤數值,是常見安全漏洞)。傳統做法是寫單元測試,覆蓋幾十種或幾百種輸入情況,然後靠人工審查——但測試永遠無法窮舉所有可能輸入,漏洞依然可能藏在邊界角落。用 Talos 的做法:把 WebAssembly 二進位交給 Talos,再用 Lean 語言描述「對所有輸入 x,輸出結果 y 必須滿足條件 Z」,Talos 會嘗試產出一份數學證明(或找出具體的反例)。一旦證明成功,代表的不是「有測試過幾百種情況」,而是「數學上確定對任何輸入都正確」——這是傳統測試框架做不到的保證。官方示範案例是對開源 Rust 函式庫 num-integer 中的 Stein GCD 演算法(一種求最大公因數的算法)進行完整的數學正確性驗證。
Token(就是 AI 每次閱讀或生成文字時最小的計費單位,例如 ChatGPT 每回答一個問題都會消耗幾百到幾千個 token,費用按使用量計算)正在成為企業財務報表上的正式會計項目。就像公司過去會在財報裡列出電費、雲端儲存費用一樣,現在越來越多大公司開始把「token 支出」當作一個獨立的成本類別來追蹤、預測、管控。這篇文章指出,我們正式進入「token 經濟(Token Economy)」時代——token 不再只是工程師的技術細節,而是 CEO 和財務長也需要看懂的數字。作者認為現有的會計和管理工具還沒有跟上這個趨勢,未來可能會出現專門管理 AI token 費用的新一代軟體,甚至類似企業 ERP(企業資源規劃系統,就是統一管理公司所有資源和支出的大型系統,如 SAP)這樣的「Token ERP」產品。
假設一家有 5 個部門的中型企業,每天都在用 AI 做客服回覆、合約審閱、報告撰寫等工作。以前工程師只知道「這個月 AI 帳單是 3 萬元」,但說不清楚哪個部門用掉多少、哪個應用最「燒 token」。現在,財務部門要求把 token 消耗拆分到各部門,就像拆分電費帳單一樣。問題是現有工具(如 AWS Cost Explorer、雲端帳單系統)根本沒有針對 token 設計的視角,工程師只好手動匯出 API 用量日誌、用 Excel 整理。這套流程費時費力、容易出錯。若未來出現「Token ERP」類工具,就能自動追蹤各應用的 token 消耗、按部門分攤成本、預測下季費用,讓財務和工程師說同一種語言。
美國實境節目《Queer Eye》的生活教練明星 Karamo Brown 推出了一款名為 Kē 的個人健康應用程式,最特別的地方是內建了一個「他本人的 AI 數位分身」(就是用 AI 模擬他的說話方式與建議風格,讓使用者可以和「虛擬的他」即時語音對話的功能)。這個 AI 分身由一家叫 Delphi 的 AI 公司製作,方法是將 Brown 過去大量的訪談、播客錄音等內容餵給 AI 學習,讓系統掌握他的語氣與思維習慣。App 涵蓋健身計畫、飲食建議、冥想課程和支持社群(例如戒酒小組)等功能,三天免費試用後月費 14.99 美元。值得注意的是,使用 AI 對話功能時,你說的話會被傳送給 Delphi 公司儲存,因此不建議分享過於私密的個人資訊。
假設你想養成早起運動的習慣,但不知道從何開始。開啟 Kē 後,你直接告訴 AI 分身:「我家裡只有一組啞鈴、每天只有 20 分鐘。」AI 版的 Karamo 會根據你現有的設備和時間限制設計訓練菜單,並即時語音回應你的疑問,例如「肌肉痠痛時還可以繼續練嗎?」傳統做法是自己查資料或花錢請真人教練——AI 數位分身的差異在於:它 24 小時都能對話、費用只有真人教練的零頭,且說話風格保留了 Karamo 本人的語氣與鼓勵方式,對原本就欣賞他的粉絲來說有額外吸引力。App 也設有安全機制,當偵測到使用者提及敏感議題時,會主動引導其尋求專業協助。
美國《大西洋月刊》發表一篇文章,討論 AI 程式代理(coding agent,就是可以自動幫你寫程式、測試、執行任務的 AI 工具,例如能自主完成整段功能開發的 AI 助手)帶來的意外副作用。理論上,這類工具應該讓工程師省下大量時間,讓人有更多空間做需要深度思考的工作,甚至好好休息。但實際上,部分開發者的體驗恰恰相反——因為 AI 代理在執行任務時仍需要人類隨時監督,一旦沒人看顧,它們可能做出大量錯誤、甚至弄壞原本正常運作的程式碼。當一個開發者同時跑多個 AI 代理時,每個都需要持續盯著,結果不但沒有多餘時間休息,反而比以前更像個「永遠待命的監工」,形成所謂的「無限工作週」(Infinite Workweek)現象。
假設你是一名軟體工程師,決定同時開三個 AI 程式代理(coding agent),分別負責開發「使用者登入頁面」、「後端 API 串接」以及「自動化測試腳本」三個任務。開始後三個代理同時在跑,速度看起來很快。但十分鐘後問題出現了:負責登入頁面的代理把整個頁面的按鈕樣式改壞了;API 代理在處理錯誤時採用了不安全的寫法;測試代理則跑出一堆誤判,把正常功能標記為有問題。每個狀況都需要你馬上切換過去查看、確認、修正,否則代理會繼續沿著錯誤方向走,最後把整個專案搞成一團亂。結果你在三個代理之間不停切換,完全沒有喘息空間。對比舊做法——一次只專心做一件事,完成就能短暫放鬆——用 AI 代理反而讓你一直處於高度警戒狀態,根本沒有「下班」的感覺。
AI(人工智慧)正在改變生技製藥(biopharma,就是研發新藥的產業)的某些環節,但並不是所有流程都能被加速。藥物探索(drug discovery,也就是找出哪些化合物有可能成為有效藥物的過程)因為 AI 能快速分析龐大的分子資料庫,速度確實大幅提升。但臨床開發(clinical development,把候選藥物拿到真實病患身上測試、驗證安全性與療效的階段)卻受到物理世界的硬性限制——你仍然必須一個一個招募病患、實際給藥、再等待數週到數月的真實反應。這篇分析的核心觀點是:在這個「不均勻的前線」中,最穩固的商業位置應該圍繞在無法被 AI 取代的瓶頸(bottleneck,整個流程中最慢、最卡關的環節)建立,而不是衝進 AI 正快速入侵的藥物探索賽道去競爭。
假設一家新創公司正在開發某種罕見自體免疫疾病的新療法。他們現在可以用 AI 工具在幾天內篩選出數千種候選化合物(同樣工作以前要花幾個月的實驗室手工操作)。但緊接著的臨床試驗流程完全無法被壓縮:他們需要找到符合入組條件的病患(罕見病本身病患就很少)、讓病患自願加入試驗、按規定的時間點給藥、追蹤數月的療效與副作用,最後才能向主管機關送件。這一段至少需要 2 到 3 年。AI 沒有辦法讓這些步驟消失。因此,一家專注於「臨床試驗病患招募與管理」的服務公司,其商業護城河反而比一家純做「AI 藥物探索」的公司更深——因為前者的核心業務完全不在 AI 的攻擊路徑上,而後者卻直接面臨被更強 AI 模型取代的風險。
Guidewire(一家保險業軟體公司)的工程師分享了他們如何利用 Apache Trino(一種開源的分散式 SQL 查詢引擎,可以讓你用同一條 SQL 指令同時查詢多個不同資料庫,不需要把資料搬到同一個地方)來大幅加速機器學習(ML,就是訓練電腦自動學習規律、做預測的技術)團隊的日常資料探索工作。過去 ML 工程師若需要跨多個資料來源(如 S3 儲存桶、Redshift 資料倉儲、OpenSearch 搜尋引擎等)查詢資料,往往要先提工單申請、等待 ETL 管道(把資料從一個地方搬到另一個地方並整理好的自動流程)建好,少則數小時、多則幾天才能開始分析。他們設計了一套四層架構:使用者用標準 SQL 發出查詢 → Trino 作為中樞協調跨系統查詢 → 底下接各種資料來源 → AWS Lake Formation 負責權限控管(確保每位客戶只能看到自己的資料)。這套系統同時解決了「多租戶隔離」難題,也就是同一平臺服務多家企業客戶時,如何在不替每家客戶建立獨立目錄(否則目錄數量爆炸難以管理)的前提下,仍能確保資料互不外洩。文章最後誠實揭露一個安全漏洞:Trino 的 S3 層缺少對 GetTemporaryGlueTableCredentials API 的支援,導致 Lake Formation 的權限驗證有可能被繞過,目前已向開源社群提交 issue(#28609)。
假設一位 ML 工程師想分析「過去 12 個月某款保險產品的理賠事件、對應保單資料、以及客戶交易紀錄」,這三類資料分別散落在公司 S3 的 Iceberg 表、Redshift 資料倉儲,以及客戶自管的 S3 bucket 裡。舊做法是:提工單給資料工程師 → 等待 ETL 管道建好 → 在 Jupyter Notebook(資料科學家常用的互動式分析工具)裡手動把三份資料合併 → 整個流程通常要花幾小時甚至隔天才能看到結果,根本阻礙快速驗證想法。新做法是:直接寫一條跨目錄的 SQL,透過 Trino 在 30 秒內回傳完整結果,完全不需要搬移資料或等待任何管道排程。差異就是:原本要幾個小時的等待縮短到 30 秒,ML 工程師可以在一個下午內反覆測試數十種特徵組合假設,而不是一天只能試一次。