AI Daily Digest

📰 每日 AI 彙整

2026-06-09  ·  共 86 則報導
T1 爆炸重要T2 值得關注T3 一般資訊T4 參考用T5 可略過
T2
T2
Gemma 4 免 GPU 本地端 3× 加速

Gemma 4 是 Google 推出的一款開源 AI 語言模型(就是像 ChatGPT 一樣會回答問題、寫程式的 AI),這款新版本有個驚人特點:即使沒有昂貴的 GPU(顯示卡,通常要好幾萬元的專業硬體),也能在普通電腦上跑 26B(260 億參數)等級的大模型。這得益於兩個關鍵技術組合:MTP(Multi-Token Prediction,多字詞預測)讓 AI 一次猜測多個後續詞再批量確認,速度提升 2.6 到 3 倍;MoE(Mixture of Experts,專家混合架構)讓模型雖有 260 億個參數,每次運算只啟動其中約 38 億個,大幅降低計算量。這兩個技術都已整合進 llama.cpp(一個讓 AI 能在個人電腦上運行的免費開源工具),讓原本需要專業 GPU 伺服器才能跑的 AI,現在用一台有足夠記憶體的普通電腦就能搞定,而且完全免費商用(Apache 2.0 授權)。實測數據顯示,AMD EPYC 96 核 CPU 伺服器速度可達基準的 2.98 倍,MacBook Pro M5 Max 在 MTP 啟用後也從 97 t/s 提升至 138 t/s。

假設你是一個自由工作者,想在自己電腦上架設程式碼輔助 AI,但不想讓程式碼外洩到雲端。過去要達到這種效果,要嘛用小模型(品質差),要嘛買 GPU 伺服器(昂貴)。現在的做法是:從 Hugging Face(AI 模型免費下載平台)下載 Gemma 4 26B 的 Q4_K_M 量化版本(約 16~18 GB),在一台有 24GB RAM 的普通電腦上,搭配最新版 llama.cpp 加上 --draft-max 3 參數啟動 MTP 加速。實測 AMD EPYC 伺服器 CPU 可以跑到 21 t/s(每秒 21 個字詞),MacBook 可達 138 t/s,足夠支援日常程式碼輔助需求。相比舊做法(用 GPT-4 API),每月省下數千元 API 費用,程式碼完全不離開自己的電腦,品質也接近 310 億參數等級的密集模型(學科測驗 MMLU Pro 達 82.6%)。整套工具免費、不需 GPU,一台有高速 SSD 和足夠 RAM 的普通電腦即可上線。

T2
研究揭示大模型獨有能力的機制

一群來自多所機構的研究者在 2026 年 5 月發表論文,終於系統性地解釋了「為什麼大型 AI 模型會的事,小型 AI 模型就是學不會」這個長期困惑 AI 界的現象。他們用 OLMo 這個開源語言模型系列(從最小 400 萬個參數到最大 40 億個參數,「參數」可以理解成 AI 大腦裡的記憶格子數量)做實驗,發現當某個技能在訓練資料裡只佔不到 0.25%(也就是每 400 筆資料才出現 1 次),小模型完全學不會這項技能,只有夠大的模型才能穩定習得。背後原因是:小模型的「記憶空間」都被常見知識塞滿,罕見的知識剛開始學,就被下一輪常見知識的更新覆蓋掉,永遠積累不起來;大模型空間夠大,常見知識學飽後還有多餘空間保留罕見知識的學習訊號,讓它慢慢累積成真正的能力。研究也解釋了 AI 界有名的「grokking(頓悟,指模型突然變聰明、能舉一反三)」現象,只有在超過十億參數規模、且罕見技能出現頻率夠高時才會發生。

假設一家公司想用 AI 做「合規文件審查」,找出合約裡罕見但高風險的條款(例如某種特殊免責聲明,在公司幾萬份文件裡只出現幾十次)。如果用的是便宜的小型 AI 模型,它在一般合約條款上表現優秀,但對這類罕見條款幾乎視而不見——因為訓練時這些罕見案例太少,學到一點就被其他資料蓋掉了。根據這篇論文的發現,解法不一定是換更大更貴的模型:更有效的方式是「資料工程」——在訓練資料裡刻意補入更多這類罕見案例,讓它的出現比例從 0.01% 提升到 1% 以上,就能讓小模型也學會辨識這種條款,成本遠低於購買大型模型。對照舊做法:以前遇到小模型學不會某技能,直覺就是「換大模型」,這篇研究告訴你先量測這個技能在訓練資料裡的比例,資料不夠先補資料——這樣更省錢也更有效。

T2
MiMo 1T 模型每秒破千 Token

小米(就是那個做手機的小米公司)發布了一個叫 MiMo-V2.5-Pro-UltraSpeed 的超大型 AI 語言模型(語言模型就是 ChatGPT 這類能對話、寫文章的 AI 系統)。這個模型有「1 兆」個參數(參數是 AI 學習能力的指標,數量越多通常越聰明;1 兆等於一千個十億,是目前業界頂級規模),同時還達到每秒輸出超過 1000 個 token(token 是 AI 生成文字的計量單位,大約每個中文字算 1-2 個 token)的速度,最高甚至衝到每秒 1200 token。這個組合以前被認為幾乎不可能——這麼大的模型通常極慢,小米靠三項技術同時突破了這個限制:FP4 量化(把模型壓縮得更小但維持準確度)、DFlash 推測解碼(讓 AI 可以「預測並同時生成多個字」加速輸出),以及 TileRT 推理系統(重新設計底層運算架構,讓 GPU 更有效率地協作)。模型量化權重已開源到 HuggingFace,開發者可直接下載試用。

假設我是一家電商平台,需要每天即時生成大量商品描述或客服回覆。用一般規模的 AI 模型(每秒輸出約 100-200 token),同樣的請求量可能需要 10 倍的機器或 10 倍的等待時間。MiMo-V2.5-Pro-UltraSpeed 在保持頂級理解能力的同時,每秒能吐出約 1200 個 token,等於同樣的硬體成本下可以服務多出好幾倍的用戶請求。小米官方的說法是「3 倍成本、換來 10 倍輸出體驗」——也就是說速度提升幅度遠大於額外花費,在商業上划算。這次限時開放(2026 年 6 月 9 日至 23 日)主要針對有實際業務需求的企業與開發者申請使用。

T2
FrontierCode 首測 AI 代碼真實品質

FrontierCode 是由 AI 公司 Cognition(就是開發 AI 工程師 Devin 的那家公司)推出的全新評估標準,用來測試 AI 寫的程式究竟夠不夠格放進真實的專案。過去大家評估 AI 能不能寫程式,主要只看「程式跑起來對不對」,但 FrontierCode 更進一步——它測的是 AI 寫出來的改動,真實開源社群的維護者(就是負責管理和審核程式碼的人)願不願意把它合併進去(merge,類似「同意這份改動正式加入主版本」)。這套標準由超過 20 位頂尖開源開發者共同設計,每道題花費超過 40 小時確保品質,評估面向涵蓋:邏輯是否正確、有沒有破壞舊功能、程式風格、測試品質、改動範圍與整體設計架構共六個維度。目前在最難等級 Diamond 中,表現最好的 Claude Opus 4.8 也只有 13.4% 通過率,GPT-5.5 為 6.3%,Gemini 3.1 Pro 為 4.7%,說明 AI 距離能獨立擔負真實開發任務,還有相當長的路要走。

假設我在維護一個開源 Python 套件,有人提交了一個修復 bug 的 PR(Pull Request,就是「我改了這段程式,請你看看要不要採用」)。在舊的評估方式下,只要這段程式跑起來不報錯,就算過關。但 FrontierCode 的標準嚴格得多:開源維護者會逐一確認——這段修改有沒有用多餘的變數?會不會在某些情況下意外破壞原本正常的功能?有沒有附上對應的測試?風格符不符合整個專案的慣例?架構設計是否合理?只有通過這六個面向的審查,才算「合格的代碼」。用這套標準測試主流 AI 模型,Claude Opus 4.8 得分最高(最難等級 13.4%),但整體來看仍然偏低,意味著即使是最頂尖的 AI,現在寫出來的程式也只有一小部分能真正通過有經驗的開發者審查。這讓開發者在選擇「要不要讓 AI 直接提交代碼到正式版本」時,有了更具說服力的數據依據。

T2
Apple AI 架構底層採用 Gemini 技術

蘋果公司宣布對 Apple Intelligence(蘋果內建的 AI 功能系統)進行全面改版,揭露一個重要細節:新版本的底層「Foundation Model(基礎模型,就是整個 AI 系統最核心的大腦)」是蘋果與 Google 合作、以 Gemini 家族的技術為基礎共同研發的,稱為「Apple Foundation Models」。這些模型會根據任務難易分兩種方式執行:簡單任務直接在裝置本機(iPhone/Mac)上跑,複雜任務則送到蘋果自己的私有雲端伺服器(Private Cloud Compute)處理,全程不經 Google 的系統。新架構新增了一個「System Orchestrator(系統協調器)」,扮演中央調度員,根據使用者正在用什麼 App、做什麼動作,自動決定呼叫哪個 AI 功能。新功能也全面升級,包括更逼真的 AI 生圖、進階相片編輯、看圖問答、語音合成等。蘋果強調,用戶的資料只用於當下那個請求,不會被蘋果或任何第三方(包含 Google)存取。

假設你用 iPhone 相機對著一份餐廳菜單問 Siri「這上面有沒有素食?有的話推薦哪道?」。舊版 Apple Intelligence 的圖像理解能力有限,類似問題常常回答不準。新架構下,System Orchestrator 判斷這是「看圖理解+語意判斷」的複合任務,自動調用以 Gemini 技術為底、由蘋果和 Google 共同訓練的 Foundation Model,在蘋果自己的私有雲上執行辨識和推薦,再把結果傳回你的手機顯示。整個流程你的照片和問題都只在蘋果的伺服器裡處理,不流向 Google 的系統——這是它和「直接呼叫 Google Gemini API」的最大差異:你得到 Gemini 等級的理解能力,但蘋果主張隱私不被 Google 的商業資料體系碰到。對一般用戶來說感受最直接的就是:以前問不出答案的問題,現在有機會答對了。

T2
MiMo 1T 模型每秒破千 token

小米旗下 MiMo 團隊在 2026 年 6 月 8 日發布了 MiMo-V2.5-Pro-UltraSpeed,一個擁有一兆(1T)個參數的超大型 AI 語言模型(參數可以理解為模型的「腦細胞數量」,越多通常越聰明),但這次的重點不在於「更聰明」,而在於「更快」——它的推理速度突破每秒 1200 個 token(token 是 AI 產出文字的最小單位,約等於半個中文字或一個英文單字),相當於同等級模型的 10 倍速。這個速度在一兆參數規模的模型中是前所未有的紀錄。小米為了達到這個目標,同步開發了三項技術:FP4 量化(讓模型的運算精度在不大幅犧牲品質的前提下壓縮)、DFlash 推測解碼(讓 AI 每次驗證時能一口氣確認多個字,不用一個字一個字慢慢生),以及 TileRT 系統底層架構(消除晶片運算時的閒置空隙)。模型權重已開源釋出在 HuggingFace 上,任何人都可以下載研究。

假設你在用 AI 幫你即時審查程式碼——你貼上一段 200 行的 Python,問 AI「這段有沒有安全漏洞?」一般千億參數以上的大模型速度約每秒 100~150 token,審查完一段可能要等 30 秒到 1 分鐘,用起來像在等人工審查員打字。MiMo-V2.5-Pro-UltraSpeed 每秒可以吐出 1200 個 token,同樣的工作可以在 5 秒內完成,感覺更接近「即時對話」而不是「送出去等結果」。以 coding 場景測試為例,它的推測解碼在每次驗證時平均可以一次確認 6.3 個字(最多 8 個),代表實際上每次驗證就像一次跳過了 6 個「慢步驟」,讓速度大幅超越傳統一個字一個字生成的方式。目前 API 價格是標準版的 3 倍,試用期(6 月 9 日至 23 日)可申請免費試用名額。

T2
AI 成長放緩 產業恐面臨泡沫

科技分析師 Ed Zitron 用一堆具體數字,主張「AI 熱潮正在降溫、產業面臨嚴重泡沫風險」。核心矛盾是:AI 公司計劃建的數據中心(就是跑 AI 模型的巨型機房)成本高達 9.5 到 15 兆美元,依照財務估算,到 2030 年必須每年賺進 2 兆美元才能回本。但現實是 OpenAI 加上 Anthropic(目前全球最大兩家 AI 公司)預計 2029 年的合計收入只有 3,580 億美元——只有需求的六分之一。更值得注意的是,調查顯示只有 26% 的企業真正弄得清楚自己花了多少 AI 費用,其餘一半只看得到部分,22% 完全搞不清楚。作者認為整個 AI 產業陷入一種「必須維持謊言才能繼續撐下去」的死局:若承認需求不足,鉅額基礎建設投資就會崩塌,所以只好繼續誇大 AI 的商業前景。

文章列舉了幾個企業實際限制 AI 使用的真實案例,來說明「市場需求沒有宣傳的那麼旺盛」。Uber 對員工使用 AI 工具設了月度配額上限;Brex(一家金融科技公司)的工程師每週 AI 工具預算限制在 500 美元;T-Mobile 每個月上限是 2,000 美元。這些限制本身很說明問題——如果 AI 真的像 OpenAI 和 Anthropic 廣告說的那樣讓效率倍增、投資報酬率極高,企業應該拼命多用才對,為什麼要設上限?對比之下,微軟、Google、Meta 卻繼續在 AI 基礎設施上砸下幾百億美元,兩者之間的落差,讓作者得出結論:AI 的真實商業回報遠不如外界宣稱的那麼高,現在的繁榮很大程度上是靠鉅額資本強行撐起來的假象。

T2
小米 1T 模型每秒破千 Token

MiMo-v2.5-Pro-UltraSpeed 是小米發布的超快速 AI 語言模型(語言模型就是 ChatGPT、Claude 這類能對話、寫程式的 AI),擁有一兆個參數(參數是 AI「學到多少知識」的數量指標,越大通常越聰明),在單台標準 8 顆 GPU 伺服器上就能跑到每秒超過 1000 個 token(token 是 AI 處理文字的基本單位,大約等於半個英文單字,每秒 1000 個相當於每秒輸出約 750 個英文字)。與前一版同規模模型相比,速度快了約 10 倍,但費用只比原版貴 3 倍。技術上靠三項創新:FP4 量化(把模型壓縮到更小的數值精度,大幅降低記憶體佔用但幾乎不損失準確度)、DFlash 推測解碼(AI 一次預測多個後續 token 再批次確認,等於提前完成好幾步工作)、以及 TileRT 核心層優化(改造 GPU 底層運算排程,消除傳統效能瓶頸)。目前開放企業與專業開發者申請試用至 2026 年 6 月 23 日。

假設你是軟體工程師,平常用 AI 幫你審查程式碼。舊版模型每秒只輸出約 100 個 token,貼上一段 300 行程式後,AI 回答要等 15~20 秒才能看到完整建議,你中途可能就去滑手機分心了。換成 MiMo-v2.5-Pro-UltraSpeed,同樣的程式碼審查可以在 2 秒內得到完整回答,快到你不需要等,可以像跟真人工程師對話一樣連續追問。更重要的是,這台伺服器是市場上買得到的標準 8 顆 GPU 機器,不需要採購 Cerebras 等特規加速卡;過去要達到類似速度必須花幾十倍硬體成本,這個方案把「超快 AI 回應」從特權變成了企業可自建的尋常選項。

T2
小米 MiMo 1T 模型秒產千 token

小米推出了 MiMo-v2.5-Pro-UltraSpeed,一個規模高達 1 兆(1T)參數的 AI 語言模型(參數可以想成模型的「神經元數量」,越多通常越聰明),號稱推理速度超過每秒 1000 個 token(token 是 AI 生成文字的基本單位,大概每 1~2 個 token 等於一個中文字或英文單字)。這個速度大約是一般大模型的 10 倍,背後靠三項技術組合實現:一是 FP4 量化(把模型裡的「計算精度」降低但用特殊訓練補回品質)、二是 DFlash 推測解碼(讓 AI 能同時預測多個 token 而非一個個生成)、三是 TileRT 系統優化(消除 GPU 運算時的等待空白)。模型的權重(就是模型的「大腦參數檔」)已上傳至 HuggingFace 開放社群下載,任何人都可以自行部署。目前官方也提供免費試用 API,試用期至 2026 年 6 月 23 日。

假設你要開發一個 AI 助理,需要即時回應使用者(例如:一邊說話一邊打字輸出,字出現要夠快才像真人對話)。用傳統 1T 大模型,每秒可能只出 100 個 token,使用者等半天才看到完整回答,體驗很差;換成 MiMo-v2.5-Pro-UltraSpeed,同樣的模型規模每秒能出超過 1000 個 token,一段完整的回答可能不到一秒就全出來。更重要的是,小米說這套做法以「三倍成本換到十倍速度」——意思是你不需要買更貴的 GPU,只要用他們這套 FP4 + 推測解碼組合,就能在相同硬體上大幅提速。對比舊做法(直接跑全精度 1T 模型),不只慢,也更燒錢。

T2
AI 成長放緩 產業恐面臨泡沫

科技分析師 Ed Zitron 用一堆具體數字,主張「AI 熱潮正在降溫、產業面臨嚴重泡沫風險」。核心矛盾是:AI 公司計劃建的數據中心(就是跑 AI 模型的巨型機房)成本高達 9.5 到 15 兆美元,依照財務估算,到 2030 年必須每年賺進 2 兆美元才能回本。但現實是 OpenAI 加上 Anthropic(目前全球最大兩家 AI 公司)預計 2029 年的合計收入只有 3,580 億美元——只有需求的六分之一。更值得注意的是,調查顯示只有 26% 的企業真正弄得清楚自己花了多少 AI 費用,其餘一半只看得到部分,22% 完全搞不清楚。作者認為整個 AI 產業陷入一種「必須維持謊言才能繼續撐下去」的死局:若承認需求不足,鉅額基礎建設投資就會崩塌,所以只好繼續誇大 AI 的商業前景。

文章列舉了幾個企業實際限制 AI 使用的真實案例,來說明「市場需求沒有宣傳的那麼旺盛」。Uber 對員工使用 AI 工具設了月度配額上限;Brex(一家金融科技公司)的工程師每週 AI 工具預算限制在 500 美元;T-Mobile 每個月上限是 2,000 美元。這些限制本身很說明問題——如果 AI 真的像 OpenAI 和 Anthropic 廣告說的那樣讓效率倍增、投資報酬率極高,企業應該拼命多用才對,為什麼要設上限?對比之下,微軟、Google、Meta 卻繼續在 AI 基礎設施上砸下幾百億美元,兩者之間的落差,讓作者得出結論:AI 的真實商業回報遠不如外界宣稱的那麼高,現在的繁榮很大程度上是靠鉅額資本強行撐起來的假象。

T2
DeepSeek 自建 GW 級數據中心

DeepSeek(就是那家免費開放原始碼、震驚矽谷的中國 AI 公司)宣布要自己建造 GW(吉瓦)等級的超大型數據中心,不再只租用別人的伺服器算力。1GW 相當於一座大型核電站的輸出功率,是目前大多數科技公司算力規模的數百倍。他們公開招聘「數據中心設計規劃工程師」,強調要自建高密度 GPU 集群(就是把大量 AI 運算晶片塞進高效率空間)、液冷散熱(用水冷取代電風扇,更省電)和自訂供電架構,這代表 DeepSeek 正從「借別人的船出海」轉型為「自己造船遠航」。這個動作是在追趕 OpenAI 與微軟合作的「星際之門」(Stargate)計劃——Stargate 目標 5GW、遠期達 30GW——以及馬斯克旗下的 Colossus 2 吉瓦級算力設施。

假設 DeepSeek 要訓練下一代比 R1 更強的 AI 模型,需要讓數萬張 GPU(AI 運算晶片)連續跑好幾個月。以前他們得向阿里雲、騰訊雲這類平台租 GPU,費用高、排程受限、機器規格也不是針對 AI 訓練特別優化的。自建 GW 級數據中心後,他們可以自己設計整個機房——選最適合 AI 訓練的伺服器、用液冷大幅降低散熱能耗、自訂供電讓同樣的電力榨出更多算力。具體數字對比:OpenAI 有微軟砸數百億美元的 Stargate 撐腰,DeepSeek 自建代表它試圖靠工程效率和低成本縮小差距,而不是靠外部資金堆規模。唯一的挑戰是時間:建設本身需 1-2 年,但取得電網許可和供應鏈配套可能需要 5-8 年,這可能影響未來新模型的推出速度。

T2
AI 寫程式沒想的那麼強

FrontierCode 是由 AI 公司 Cognition 推出的全新程式碼評測基準(就是一套測試 AI 到底會不會寫程式的考卷)。和以往的評測不一樣,這份考卷不只看「AI 寫的程式能不能通過測試」,而是更接近真實工作標準:「這段程式碼能不能真正被合併進工作中的專案?」考題由真實開源軟體維護者設計,每道題需要至少 40 小時設計,評測面向包括:有沒有破壞既有功能、程式寫不寫得整潔、改動範圍有沒有超出需求、測試案例本身有沒有寫對,以及程式好不好維護。結果讓人大吃一驚:目前最強的模型 Opus 4.8(Claude 目前最新最強的版本),在最難題目子集上只拿到 13% 的分數——遠低於另一個知名評測 SWE-Bench 上常見的 50% 以上成績,說明 AI 寫程式的能力被業界普遍高估了。與此同時,業界實務也有新共識浮現:給 AI 代理人(能自主完成任務的 AI 程式)「清楚的目標和驗證標準」比「讓它不斷自動迴圈嘗試」更重要,多位開發者呼籲用狀態機設計代替簡單迴圈,而 LangSmith、Modal 等工具也在為 AI 代理提供更好的隔離執行環境。

假設我是一個開源專案的維護者,我讓 AI 助手幫我在一個 Python 工具庫裡新增「支援讀取 Excel 檔案」的功能。舊有評測的邏輯是:AI 寫完程式後,自動跑一組事先設好的測試腳本,通過就算成功,可能拿 60% 以上的漂亮成績。但 FrontierCode 的評審會逐一檢查:新程式有沒有讓原本能讀取 CSV 的功能壞掉?新增的變數命名是否符合整個專案的命名慣例?改動範圍有沒有超出「只讀 Excel」的需求跑去動別的模組?測試案例有沒有考慮到空檔案或格式錯誤的情況?在這套標準下,AI 的通過率大幅下滑——以 Opus 4.8 為例,最難子集通過率只剩 13%,也就是說大約 87% 的情況下 AI 交出的程式碼還不到「真正可以合進主線」的品質。這對使用 AI 輔助寫程式的團隊是重要警示:目前 AI 最適合做的是輔助人類審查,而不是全自動產出可直接上線的程式碼。

T2
多款 AI 平台同日重大更新

今天有好幾個 AI 開發商同步發布重大更新,合起來代表整個 AI 工具生態正在快速成熟。中國公司 Moonshot 旗下的 Kimi Code(一個幫工程師寫程式的 AI 助理工具)大幅升級,新增只要一行指令就能安裝、還能把影片直接拖進去當程式說明、並接上各種外掛和編輯器整合。同時間 Moonshot 也推出全新桌面產品 Kimi Work,可以同時跑最多 300 個「子 AI」幫你執行任務(就像有 300 個助理同時工作),還能自動操控瀏覽器、存取金融工具,並記住你之前的工作脈絡。在本地推論(讓 AI 直接在你的設備上跑、不必傳到雲端)方面,Google 的 Gemma 4 模型透過新的量化技術(把 AI 模型壓縮,讓它佔的記憶體更少、但效能盡量保留)讓最小版本只需要約 1GB 記憶體就能運行,比以前少了 4 倍。此外,開放原始碼推論工具 llama.cpp 新增了影片輸入支援,讓本地 AI 也能看影片;新模型 MiniMax-M3 在獨立評測機構的排名幾乎是所有開放原始碼模型中最強的,還支援高達 100 萬字元的超長對話脈絡。最後,AI 服務器軟體 vLLM-Omni 0.22.0 正式把支援範圍從文字 AI 擴展到世界模型(用來模擬物理環境、讓機器人學習的 AI)、語音合成(讓 AI 讀出文字)等,顯示 AI 基礎設施正朝多模態(同時處理文字、圖片、語音、影片)全面進化。

假設你是一位財務分析師,公司叫你每週整理多個市場報告、回信客戶問題、並從數十個網頁抓取最新數據。用 Kimi Work,你開啟桌面應用後,把任務拆成:「子 AI 1 去抓這五個網站的最新數字、子 AI 2 整理成 Excel、子 AI 3 幫我草擬客戶回覆信」,這三件事可以同時進行,不需要你逐一等待每一步完成。舊做法你可能要手動打開每個網頁、複製貼上、再自己整理,整個流程兩小時跑不掉;Kimi Work 的多 Agent(多 AI 子任務平行執行)架構讓這些可以同步進行、只需你最後確認結果,節省大量時間。另一個例子:開發者若想在沒有網路的筆電上跑 AI 模型,以前 Gemma 4 需要數 GB 的記憶體,很多舊型電腦吃不消;現在 QAT(量化感知訓練)版本最小只要約 1GB,幾乎任何現代筆電或甚至手機都能跑,等於把「AI 本地化」的門檻大幅降低。

T2
Apple Siri 整合 Gemini 大升級

Apple 在 2026 年全球開發者大會(WWDC)上宣布,旗下語音助理 Siri 將改用 Google 的 Gemini 語言引擎(Gemini 就是 Google 開發的 AI 大腦,和 ChatGPT 同類型的對話 AI)驅動。這是 Siri 自 2011 年推出以來最大規模的技術改造——新版 Siri 不只更會聊天,還能「看懂」你螢幕上的內容,同時獲得一個獨立 App。Apple 同步推出 iOS 27,帶來一批實用的 AI 新功能:照片可自動「補景」(把相片延伸、填補邊緣空白)、Shortcuts 可用說話方式建立自動化流程、手機通話中 Siri 能即時幫你查信件或訊息內容。Apple 強調所有 AI 功能的資料只用來執行當下的操作,主打隱私保護。

假設你剛拍了一張朋友的合照,但相片右側被切掉一半,原本只能重拍或硬裁圖。iOS 27 的「Extend」功能可以讓 AI 自動把照片向右延伸、根據背景補上合理的內容,讓構圖完整,不用重拍。舊做法是在電腦上用 Photoshop 手動補圖,費時且需要技術;新做法就在手機上點一下,幾秒完成。另一個場景:在電話中對方問你「我上週寄給你的合約有沒有收到?」,新版 Siri 能在通話中幫你直接查收件匣並回報結果,不需掛掉電話再打開 Mail App 找。

T2
Apple 全面升級 iPhone AI 功能

Apple 在 WWDC 2026 宣布為 iPhone 多個內建 App 加入 AI 功能(統稱 Apple Intelligence)。Safari 瀏覽器現在能自動依主題整理你開著的標籤頁,還能監控網頁變化——例如你追蹤的商品降價了、新聞更新了就自動通知你。更特別的是,你用白話文描述「我希望這個網頁能做到什麼」,Safari 就能自動生成對應的網頁修改工具,以前這件事需要會寫程式的工程師才能完成。Shortcuts(捷徑,iPhone 的自動化工作流程 App)也升級了:只要用中文講出「我想做什麼流程」,AI 就自動幫你搭好整個自動化設定,不用再一步步拖拉元件。密碼管理 App 則加入一鍵更換外洩密碼的功能,AI 透過 Safari 自動處理全部的登入與更換流程,完全不用手動操作。行事曆、訊息、照片等 App 也都各自新增了 AI 輔助功能,整體方向是讓普通人不需要技術知識也能完成以前只有進階用戶才會做的事。

假設你的某個購物網站帳號密碼外洩了。以往你要自己去那個網站登入、找到「修改密碼」頁面、想一個新密碼、打進去存檔——如果有好幾個網站同時外洩,這件事就很煩。現在 iPhone 密碼 App 偵測到外洩後,你只要點一下「一鍵更換」,AI 自動透過 Safari 幫你登入那個網站、產生一組強密碼、送出更新,你只需要確認一次,整個流程結束。另一個例子是 Shortcuts 自動化:以前要設定「早上鬧鐘響後,自動開飛航模式五分鐘再關掉、傳訊息給家人說我起床了、打開指定 Podcast」這種流程,你需要花幾十分鐘在 Shortcuts 裡一個個拖拉設定元件,而且不熟的人根本不知道從哪裡下手。現在直接用中文打出這段描述,AI 自動建好整個流程,你按「執行」就好。差異是:Shortcuts 以前是進階用戶的工具,現在普通人也能用自然語言設定複雜的手機自動化。

T2
微軟 Lens:詳細圖說讓小模型打敗大模型

微軟研究院發布了一個叫 Lens 的文字轉圖片 AI 模型(就是你打字描述,它生出圖片的那種 AI)。這個模型只有 38 億個參數(參數可以理解成 AI「記憶和思考能力的格子數量」,數字越大通常越強),卻能在測試中追平比它大好幾倍的競爭模型,而且訓練花費只要對手的一小部分。關鍵秘訣不是「模型要夠大」,而是「訓練用的圖片說明要夠詳細」——微軟用 GPT-4.1(OpenAI 的高階文字 AI)為 8 億張圖片生成了詳盡的描述,取代過去網路上那些籠統模糊的 alt-text(就是網頁圖片的文字替代說明,通常只寫「一隻狗」這種)。這個研究的程式碼和模型權重(AI 訓練完的「大腦設定」)已全部公開,任何人都能免費取用。

假設你要訓練一個生圖 AI。傳統做法是爬下幾十億張網路圖片,搭配 alt-text 當訓練資料;問題是網路上大多數 alt-text 只寫「photo.jpg」或「一隻狗在草地上」,資訊貧乏,AI 學不到「棕色鬆獅犬、陽光斜射在左肩、背景是模糊的英式庭院」這種細節。微軟改成用 GPT-4.1 重新為每張圖寫一段詳細描述,把光線、構圖、顏色、風格、主體細節全講清楚。結果:一個只有 38 億參數的 Lens,在圖文對齊準確度、圖片多樣性等標準測試中,能追平甚至超越超過百億參數的大模型,但訓練算力成本卻低得多。對想自己訓練生圖模型的開發者來說,這意味著「花錢買更好的資料品質」比「花錢堆更大的模型」效益更高。

T2
Anthropic 派工程師進 NSA 部署攻擊型 AI

Anthropic(開發 Claude AI 助理的美國公司)已將約六名工程師派駐在美國國家安全局(NSA,美國最大的情報機構,負責全球網路監控和網路戰)內部,協助部署一套名為「Mythos」的 AI 模型,用於進攻性網路行動。這些工程師將幫助 NSA 客製化 Mythos,讓它能協助入侵中國或伊朗等國家的網路系統,但目前還不清楚 Anthropic 工程師是否會直接參與實際駭客攻擊行動,還是只負責技術架設與調校。值得注意的是,Anthropic 同時正在對五角大廈(美國國防部總部)提起訴訟,爭議焦點是其 AI 模型在戰時的使用方式——這代表頂尖 AI 公司與政府軍事機構之間的關係,同時存在合作與衝突兩種張力。這則消息說明 AI 已不再只是商業工具,正快速滲透進最高機密的國家安全領域。

假設 NSA 分析師想要入侵某外國政府的電腦網路,傳統做法是讓人工分析師花費數週研究目標系統漏洞、逐一嘗試入侵路徑。有了 Mythos 這套 AI 模型,NSA 可以讓 AI 自動掃描並分析目標網路弱點、建議最有效的攻擊路徑、甚至協助生成能繞過安全防護的惡意程式碼——整個過程可從數週縮短到數小時。Anthropic 派進 NSA 的工程師就是負責把這個通用 AI「調校」成符合 NSA 任務需求的版本,就像把一台多功能機器改裝成只做某一種高精度任務的專用設備。這種 AI 用於攻擊性行動的案例,在全球安全領域引發廣泛爭議。

T2
Google 企業 RAG 框架準確率升 34%

Google 推出了一套叫做「Agentic RAG」的企業 AI 查詢框架,整合進 Gemini Enterprise Agent Platform(Google 的企業版 AI 助理平台)。RAG(Retrieval-Augmented Generation,讓 AI 回答前先從資料庫撈資料、減少憑空捏造的技術)目前已廣泛應用,但傳統做法只查一次、資訊不夠完整也照樣回答。Google 這套「Agentic(代理驅動)」升級版,會派出專門的 AI 代理反覆確認所需資訊都已收集齊全,才生成有根據的回答,不會因為資料散落在不同來源就漏接。在 FramesQA(專門測試需要多步驟推理問答能力的學術基準)以及 Google 內部測試中,正確率最高提升 34%,跨多個資料庫查詢的準確度也明顯提高,同時維持相似的回應速度。

假設你任職於一家大公司,要問:「過去一季我們在台灣的銷售額,跟主要競品在亞太區同期表現的落差是多少?」這個問題的答案分散在公司內部的 CRM 系統(客戶銷售紀錄)和外部市場研究報告兩個不同來源。傳統 RAG 查詢時,AI 只做一次語意搜尋,很可能只撈到其中一份資料,直接回答時便出現數字錯誤或拼湊不完整的內容。Google 的 Agentic RAG 會分別派出 AI 代理去查兩個資料庫,一旦發現還缺少某份資料就繼續補查,直到資訊齊全再整合輸出——結果就是這類跨來源複雜問題的回答準確率大幅提升,企業問 AI 得到的答案不再東缺西漏。

T3
T3
AI 寫求職拒絕信意外洩漏隱藏指令

2025 年 7 月,一位應徵者收到一封求職拒絕信,卻意外看到 HR 給 ChatGPT(一種能寫文章、回答問題的 AI 對話工具)的「隱藏指令」——指令裡直接寫著要讓候選人「感覺被認真考慮,即使事實並非如此」。換句話說,這封信從設計上就是要讓求職者覺得有被好好看待,但其實什麼都沒看。這張截圖在 Reddit(一個美國大型討論社群)瘋傳,累積近 15 萬個讚,成為 AI 被用來「自動化人情味」卻反而把公司算計攤在陽光下的標誌性事件。這種情況技術上叫做「Prompt 外洩」(Prompt Leakage):Prompt 是給 AI 的幕後指令,就像導演寫給演員的台詞提示;外洩就是這段提示意外出現在觀眾看得到的地方。從整個產業來看,目前已有 87% 的企業在招募流程中使用 AI,但幾乎沒有企業建立「AI 產出的文字要經人工確認再發出」的標準流程,這次事件暴露的正是這個結構性漏洞,不是個人粗心,是整個工作流設計缺了一道人工審查關卡。

假設你是一名設計師應徵某家科技公司,面試結束兩週後收到一封「個人化」拒絕信,裡面詳細提到你的作品集哪裡沒達標、面試時哪個問題答得不夠好——你以為對方認真看過你。但實情是:HR 打開 ChatGPT,輸入「幫我寫一封讓對方感覺被認真對待但其實我沒花時間看」的指令,然後把 AI 回覆直接複製貼上寄出——只是忘了刪掉最上面那段暴露設計邏輯的幕後指令。應徵者打開信,第一行就看到這段話。這個案例說明了一件對所有使用 AI 寫對外文件的組織都成立的教訓:任何 AI 自動產出的文字,在送到外部收件人之前,必須有人看過最終輸出——否則「省幾分鐘起草時間」可能換來「把公司操控邏輯公開展示給每一個求職者」的品牌災難,代價完全不成比例。

T3
論文質疑 LLM 擬人化評測邏輯

一篇發表在 arXiv(學術論文預印本平台)的研究,正面挑戰了 AI 圈流行的說法——「AI 語言模型(就是 ChatGPT、Claude 這類會對話的 AI)有類似人類的同理心、道德感等特質」。作者的核心論點是:如果只憑「系統能輸出看起來有同情心的回應」就說 AI 有同理心,那 1999 年的電腦遊戲《世紀帝國 II》按照同樣邏輯也辦得到——因為該遊戲在理論上具備圖靈完備性(Turing completeness,意思是:這個系統理論上能執行任何可計算的程式,跟一般電腦一樣強大),可以在裡面訓練神經網路(讓電腦從大量範例自動學習的技術)。論文主張,問題不在於 AI,而在於我們「衡量類人特質」的標準本身有邏輯漏洞——它根本沒有針對性,任何夠複雜的系統都能通過。作者建議:應先假設 AI「不具有」擬人屬性,只有在有可重複驗證的量化數字支持時,才成立這個說法。

假設有人想測試某個 AI 有沒有「同理心」,做法是讓 AI 回答情感性問題,若回答聽起來溫暖關心就打勾通過。這篇論文指出這個測試有根本漏洞:作者實際在《世紀帝國 II》的遊戲引擎裡訓練了一個神經網路,同樣能輸出帶有同情色彩的文字——遊戲也「通過」了同樣的測試。正確的評測設計應該是:事先明確定義「什麼叫做成功」(例如:在至少 5 種不同情境、由不同評測者獨立驗證、勝率需超過某個門檻),而不是事後從輸出結果裡找「看起來像人類」的蹤跡。對 AI 治理(企業或政府決定如何管理 AI 的框架)來說,影響也很直接:許多現行法規是依「AI 是否有代理性或意識」來分類,若這個判斷標準站不住腳,整套分類就需要重新校準。

T3
LLM 其實只是在猜下一個字

這篇文章用白話解釋了像 ChatGPT 這樣的大型語言模型(LLM,就是「會對話的 AI」)在底層到底在做什麼。它的核心行為其實很單純:每次只猜「下一個字(或字的片段)應該是什麼」,然後把這個過程反覆執行幾千次,就生出了一整段回答。它的內部結構叫做 Transformer(轉換器),由很多層「積木」堆疊而成;每一層積木有兩個部分:一個叫 Attention(注意力機制),負責讓 AI 理解前後文脈絡,知道目前這個詞跟哪些詞有關聯;另一個叫 FFN(前饋網路,負責「記事情」的部分),像是 AI 的記憶倉庫,把訓練時學到的事實和語言規律儲存在數十億個數字裡。現在各大廠商的 AI 模型架構其實都長得很像,真正的差異在於「拿什麼資料來訓練」以及「訓練後怎麼調教它說話」——所以當你看到廠商宣傳架構有多先進時,更值得問的是:它的訓練資料品質和調教方式怎麼樣?

你用 AI 查「某位 CEO 的學歷背景」,然後發現它給出一個聽起來很合理、卻是假的答案。這其實很好理解:AI 的本質是「猜下一個字」,它在生成「某 CEO 畢業於 XX 大學」這句話時,並不是去查資料庫,而是根據訓練資料裡見過的「CEO 介紹文」的寫作模式,猜出最可能的接續——如果這個人的真實背景在訓練資料裡出現得少,它就會按照「常見 CEO 通常怎麼被介紹」的模式猜,猜錯了也不自知。知道這件事之後,你就明白:碰到需要確認「具體事實、特定數字、最新動態」的問題,不能直接相信 AI 的回答,要帶著「它可能在亂猜」的心態去驗證。相比之下,如果是「幫我把這封電子郵件改得更正式一點」,AI 就很擅長——因為「正式語氣怎麼寫」在訓練資料裡見過無數次,猜起來很準。

T3
Claude Code 視覺教學庫爆紅

Claude Code(Anthropic 推出的 AI 程式設計助理,概念類似 ChatGPT 但專門在終端機幫工程師寫程式)最近在 GitHub(全球最大的程式碼分享平台)上冒出一個免費的視覺化學習倉庫(倉庫就是公開存放教材和程式碼的地方),名稱叫 `luongnv89/claude-howto`,累積超過 35,300 顆星(相當於「讚數」)並登上 GitHub 每日熱門榜 Trending。這個學習庫最大特點是搭配 Mermaid 流程圖(用圖形畫出操作步驟,讓人一眼看清楚複雜的 AI 流程),課程分 10 個模組,從完全新手到進階共約 11 到 13 小時,提供可直接複製貼上的現成範本。最新版本 v2.1.160 有一個重要格式改變(breaking change,就是「照舊方式操作的話,程式會直接出錯」):原本用 `workflow` 關鍵字啟動的進階自動化流程,現在必須改成 `ultracode`,既有設定過自動流程的使用者需要修改這個地方,否則流程會無法執行。社群上有工程師評論說「不論資深或資淺,現在大多數軟體工程師幾乎都在用 Claude Code 輔助寫程式」,可見其在開發圈的滲透程度相當高。

假設你是一個想開始學 Claude Code 的開發者,過去你可能需要自己摸索文件、邊試邊錯。現在透過這個學習庫的「Hooks(鉤子,就是設定『某件事發生後,自動觸發另一件事』)」模組,你可以直接複製現成範本——比如設定「每次儲存程式碼,自動讓 Claude Code 跑一次測試並整理結果」,從零到有只需幾分鐘,不用自己寫複雜腳本。如果你已經用過舊版的 dynamic-workflow 功能,過去你在設定檔裡寫的 `workflow` 關鍵字,升級到 v2.1.160 後必須全換成 `ultracode`,否則流程不會觸發——這個學習庫裡的 Advanced 模組有直接提供更新後的範本可以對照替換。

T3
OpenEnv 開源 AI Agent 強化學習標準化

OpenEnv 是一個由開源社群共同維護的標準化訓練環境,專門用於訓練 AI Agent(就是會自動執行任務的 AI,例如幫你操作瀏覽器、執行程式碼)。它採用強化學習(Reinforcement Learning,簡稱 RL——一種讓 AI 反覆嘗試、從成敗中學習的訓練方法,就像練遊戲練到通關)來讓 Agent 越來越厲害。目前 OpenAI、Google 等大型 AI 公司都有自己私密的訓練環境,讓旗下模型佔盡優勢;OpenEnv 的目標就是讓開源社群也有一套共用的「練功場」,不用每個團隊都從頭自己搭。這個專案在 2026 年 6 月 8 日正式宣布,已獲得 Meta-PyTorch、NVIDIA、UC Berkeley(加州大學柏克萊分校)、Scale AI、vLLM 等超過 15 個知名組織支持,顯示業界對開源 Agent 訓練標準的需求相當迫切。

假設我想訓練一個能自動填網頁表單的 AI Agent。以前我需要自己搭一整套「訓練環境」:定義瀏覽器怎麼操作、怎麼判斷成功還是失敗、訓練資料怎麼餵——每個團隊都在重造輪子,而且自己搭的環境通常和別人的不相容。用 OpenEnv 的話,我只需要呼叫標準化的三個動作:reset()(重置頁面)、step()(讓 Agent 執行一個動作,例如點擊按鈕)、state()(取得目前畫面狀態)——就像玩電動遊戲一樣。訓練完之後,我想換成「操作終端機」的環境,不用重寫訓練程式碼,直接換接另一個符合 OpenEnv 協議的環境即可。這樣開源社群開發的 Agent 模型,就能在一個共同標準下互相比較、共享訓練資源,縮短與大廠閉源模型的差距。

T3
Apple 免費 AI 搶小開發者

Apple 在 WWDC 2026 宣布,首次 App Store 下載數低於 200 萬次的小型獨立開發者,使用蘋果的 Foundation Models(蘋果自家 AI 模型,可以在 iPhone/Mac 上本地執行,也可透過蘋果私有雲端跑)就完全免費,不需支付任何雲端 API 費用。這套 AI 透過 Private Cloud Compute(蘋果的私有雲運算系統,一種能讓使用者資料不被任何人——包括蘋果自己——看到的技術)來提供服務,主打「高品質兼顧隱私」。此次更新還新增了圖片輸入功能,讓 AI 不只能理解文字,還能看懂圖片再回答。這個免費方案的設計參考了 Apple 現有的「小型企業計畫」——App 年營收 100 萬美元以下可享 15% 低抽成——同一思路現在延伸到 AI 用量。對照背景是大廠的 AI 帳單正在失控:Uber 四個月燒完全年 AI 預算、Meta 和 Amazon 已取消內部 AI 用量排行榜,蘋果此時祭出免費方案,明顯是要搶下在意成本的獨立開發者。

假設你是一位獨立 iOS 開發者,想在自己的日記 App 裡加入「讀懂使用者上傳的照片、自動幫日記加上情緒標籤和摘要」功能。過去你要自費串接 OpenAI 的 Vision API 或 Google 的 Gemini API,每次呼叫都要計費,流量一多每月輕鬆破數百美元,小型 App 根本撐不住。現在,只要你的 App 首次下載數未達 200 萬,你可以直接呼叫 Apple Foundation Models 的 API,讓 AI 在使用者的裝置或蘋果私有雲上分析照片與文字,完全免費。同樣的功能,舊做法要算每次 API 費用、自己架後端把照片傳出去(還有隱私疑慮);新做法零成本、資料不離開蘋果生態圈——對小型 App 來說,這可能是第一次真的用得起「會看圖的 AI」的機會。

T3
AI 爬蟲壞了自動修復新平台

Intuned 是一個用 AI 幫你自動操作網站的平台。很多公司的網站沒有開放「應用程式介面(API,就是讓軟體直接跟軟體溝通、取資料的管道)」,這時候就需要「瀏覽器自動化(讓程式模擬人類在網頁上點選、填表、截取資料的技術)」。Intuned 最特別的地方是「自我修復」功能:當你的自動化程式因為目標網站改版而壞掉時,AI 代理(agent,就是能自主執行任務的 AI 程式)會自動偵測失敗、分析原因,然後提出修復方案甚至直接幫你修好繼續跑,全程不需要人介入。這套系統是建立在 Anthropic(就是開發 Claude 這個 AI 的美國公司)的 Claude Agent SDK 上打造的。

假設你每天要從某個政府採購網站抓最新公告,但這個網站沒有提供 API。你在 Intuned 用 AI 建了一個自動化程式,每天定時幫你登入、點進公告頁、把資料存下來。某天網站改版,按鈕位置換了、頁面結構變了,傳統的爬蟲工具就直接壞掉什麼都抓不到,需要工程師手動去找問題、改程式碼、重新部署。Intuned 的自我修復功能發現執行失敗後,自動啟動 AI 代理、拿著失敗的截圖和執行記錄去分析,重新產生能適應新版頁面的程式碼並部署——你不用碰任何東西,隔天早上醒來資料還是乖乖在那裡。

T3
AI 自動修復的瀏覽器爬蟲平台

Intuned 是一個讓 AI 幫你自動操作「沒有官方 API 的網站」的平台。所謂 API(可以想成是網站開給外部程式的後門窗口,讓你不用人工操作就能直接拿資料),很多網站根本沒有提供。傳統做法是工程師手寫「模擬點擊瀏覽器」的腳本——但一旦網站改版,這些腳本就壞掉、得重寫,維護極度費時。Intuned 的核心解法是:由 AI agent(就是能自動寫程式、讀報錯、自己 debug 的 AI 機器人)生成和管理爬蟲代碼;當網頁改版導致程式失敗時,平台會自動偵測、讓 AI 分析原因並產生修復方案,可設定為自動部署或先讓人審核。底層使用 Anthropic(做 Claude AI 的公司)的 Claude Agent SDK 重建,支援 TypeScript 和 Python,並且有免費方案可試用。

假設你在一家供應鏈公司工作,每天早上要手動登入某供應商後台、下載庫存報告,因為對方根本沒 API 可串接。用 Intuned,你只需告訴平台「我要每天抓這個頁面的表格」,AI 會幫你寫好自動化腳本並定時執行。三個月後供應商改版,某個按鈕位置換了,腳本壞掉。舊做法:工程師要自己打開 devtools 找新的 HTML 結構、改程式碼、重新測試。Intuned 的自我修復:平台偵測到失敗後,自動把失敗截圖和 log 餵給 AI、讓 AI 提出修正版代碼,你只要按「確認」就完成——甚至可以設成全自動直接修好,完全不用叫工程師介入。

T3
AI 成長放緩,基建成本遠超收入

美國知名科技評論人 Ed Zitron 發表長篇分析,主張 AI(人工智慧)產業正在放緩,而且這個放緩發生在最不該放緩的時機。論點核心是:各大 AI 公司(特別是 OpenAI 和 Anthropic)正在砸天文數字蓋資料中心、買 GPU(讓 AI 跑起來的超高階運算卡),但實際從客戶賺到的錢,遠遠追不上這些基建投資的回報要求。各方計劃中的資料中心光電力就需要 190GW,總成本估計高達 9.5 兆至 15 兆美元(約新台幣 300 兆以上),但 OpenAI 和 Anthropic 兩家 2029 年的收入預測加起來只有 3,580 億美元,距離撐起這些投資還差十萬八千里。更嚴重的是,AI 產品本身的品質和可靠性也讓客戶開始懷疑「這東西到底值不值這個價?」——服務中斷、AI 代理陷入無限循環、帳單突然爆炸的情形頻繁出現,ROI(投資回報率,就是花這個錢到底划不划算)根本沒有廠商說好的那麼好。

有一家公司因為沒設定使用上限,單月在 Anthropic(做 Claude 的公司)上燒掉了 5 億美元;Uber 在一季內就把全年的 AI token(AI 處理文字的計量單位)預算花光。GitHub Copilot(程式碼自動完成工具)改成按 token 計費後,用戶馬上發現費用嚇到紛紛叫苦。作者的重點是:AI 公司靠補貼訂閱費掩蓋真實成本,讓客戶感覺「還好」;一旦按實際用量計費,客戶才驚覺 AI 並不像宣傳那樣省錢——對比舊做法(多聘幾個人或用傳統軟體),有些場景根本沒有 AI 划算。這篇文章的結論是:除非 AI 能真的大幅提升產品品質並讓客戶看到明確 ROI,否則整個產業的商業模式面臨根本性風險。

T3
OpenAI 啟動 AI 就業經濟研究計畫

OpenAI(就是開發 ChatGPT 的那家公司)宣布成立「經濟研究交流所」(Economic Research Exchange),是一個專門研究「AI 到底怎麼影響我們的工作和薪水」的官方研究合作計畫。這個計畫會跟外部的經濟學家、學術研究者合作,分析 AI 對就業市場、生產力(也就是工作效率)以及整體經濟的實際影響。目前計畫已開放申請,研究機構和學者可以提交研究計畫爭取加入。這件事對一般人也很重要——研究成果可能直接影響政府制定 AI 相關政策、勞工保護法規,以及企業要怎麼應對 AI 帶來的職場改變。

假設有位研究人員想分析「公司導入 AI 工具後,客服人員或行政人員的職缺數量有沒有縮減、薪資結構有沒有改變」。過去這類研究最難的地方是:你很難拿到真實的 AI 使用情況數據,只能靠政府統計或問卷,而且曠日廢時。有了 OpenAI 這個研究交流所,研究者可以提交計畫申請加入合作,進入官方研究網絡後取得更直接的研究資源。研究成果最終可能被政府、工會或企業拿去參考,決定要不要提供勞工再訓練補貼、或規範 AI 導入的配套措施。對比之前只能靠猜測和二手統計,這類有 OpenAI 官方參與的研究,可信度和速度都會大幅提升。

T3
新程Alpha 4B端側媲美GPT-5.4

新程Alpha 是由中國新創公司「明日新程(Nextie)」開發的 AI 語言模型,參數量只有 40 億(4B),相當於業界主流大模型的二十分之一大小,卻聲稱在特定任務上效果不輸 OpenAI 最新的 GPT-5.4。開發者是人稱「小冰之父」的李笛,他曾主導微軟在中國推出的 AI 對話系統 Xiaoice(小冰),在對話 AI 領域深耕十年以上。這個模型的核心主張是「認知模型」概念——傳統 AI 的強化方向是不斷塞更多知識,而「認知模型」認為「知識量不等於智能」,強調讓 AI 學會真正的「思考策略與規劃能力」;Nextie 的做法是以強化學習(一種讓 AI 透過嘗試錯誤自我改善的訓練方式)訓練模型的推理與規劃,使它能把某領域學到的思考策略遷移套用到完全不相關的問題上。最受關注的實際優勢是可以直接跑在 MacBook 等筆電上、完全不需連雲端伺服器,電費幾乎是唯一成本,支援 7×24 小時連續運作。公司公布的 benchmark 是自行設計的「群體智能」評估框架(含視角完備性、隱含訴求、辯證深度等五個維度),顯示 4B 的新程 Alpha 成績接近 GPT-5.4,但需注意這是自家評測、尚無獨立第三方驗證。

假設你想用 AI 打造一個「每天主動分析家庭財務、提醒支出異常」的私人助理。用 GPT-5.4 API 的方式:每次對話都要連網、費用按 Token 計費,若要 7×24 小時持續監測帳務,一個月 API 費用可能超過幾百美元,且財務資料全送到境外伺服器。用新程 Alpha 的設計,這個助理完全跑在你的本機(電腦或家用設備),財務資料不離開自己的硬碟,電費幾乎是唯一成本;它的「認知能力」讓它不只等你問才答,而是能自主規劃「下一步要確認什麼資料」,更像主動幫你想的顧問。新程 Alpha 瞄準的不只是問答場景,更是多 AI 協作(Multi-Agent,多個 AI 代理協同完成任務)與具身智能(如家務機器人)這類需要在本機長期低成本運作的應用——在這些場景下,一個 4B 的本地模型若真能接近大模型的推理品質,意義相當大。

T3
小紅書 RED Skill 讓 AI 工具一鍵取用

小紅書(中國的圖文社交平台,類似 Instagram)推出了一個叫「RED Skill」的新功能,讓任何人都可以把自己做好的 AI Skill(就是「一套教 AI 如何完成特定任務的設定說明書」,例如「幫我自動生成瑞士極簡風格 PPT」或「幫我準備面試問題清單」)上傳到小紅書,其他用戶看到後一鍵複製就能直接使用,完全不需要懂技術、不用去 GitHub(工程師存放程式碼的平台)、不需要打任何指令。這個功能目前在小範圍測試中,預計 2026 年 7 月全量上線,屆時還會推出「Skill 榜單」方便大家發現熱門工具。換句話說,過去這類 AI Skill 幾乎都藏在 GitHub 上,只有懂程式的人才能找到;RED Skill 想做的就是把這道門檻拆掉,讓任何人在社群上刷到喜歡的 AI 工具,點一下就能用——跟在購物 app 上看到東西直接加購物車一樣直覺。

假設我是一個會用 AI 做簡報的創作者,我花了好幾天調教出「自動生成瑞士極簡風格投影片」的 AI 設定組合。以前,我只能把這套設定貼在 GitHub,其他人要先有 GitHub 帳號、找到對應頁面、複製一長串指令,再手動貼到 AI 工具裡才能用,步驟繁瑣、容易出錯、非技術用戶根本放棄。現在有了 RED Skill,我直接把這套設定打包成一個「Skill 卡片」掛在我的小紅書筆記下面。讀者滑到我的文章、看到卡片,點「取用」,就可以在小紅書的 AI 助手裡直接叫出這套工具使用,全程不需要理解背後原理。目前已有人分享的 PPT Skill 累積超過 3,000 位用戶取用,證明這個模式確實讓 AI 工具從「工程師小圈子」擴散到一般大眾。

T3
云知聲 U2 小身材打贏 5 倍大模型

中國 AI 公司云知聲(在香港股市掛牌的 AI 企業)於 2026 年 6 月發布旗下最新大型語言模型(就是像 ChatGPT 一樣會對話、會推理的 AI)U2。這個模型有 2660 億個參數(參數就像 AI 的「知識神經元」,越多理論上越聰明),但實際表現可以媲美 1.2 兆參數(也就是 12000 億)的超大模型——也就是說,用大約五分之一的資源就打出了差不多的效果。U2 採用「稀疏混合專家(MoE)」架構(這種設計讓 AI 只在需要時才「啟動」部分神經元,有點像公司不用全員出動、只派相關專家處理每件事,省力又有效),並且在訓練時就把「代理執行任務(Agent,指 AI 自己拆解目標、一步步完成多步驟任務)」的能力內建進去。根據測試,U2 的推理 Token(AI 產生答案時每一個思考步驟所消耗的計算資源單位)比同類模型少約 25%,意味著同樣花費可以做更多事。

假設你是業務人員,需要研究 OPC(一種工業控制設備)市場,但手邊完全沒有現成資料。用 U2 的測試案例來說:只需輸入行業名稱和調研需求,U2 就能自行到網路上搜尋相關數據、整理分析,最後產出一份結構完整、有數據支撐的產業報告。傳統做法你可能需要花好幾小時手動查資料、彙整表格、再統整成文件;U2 透過 Agent 能力(AI 自己規劃「先查什麼、再查什麼、怎麼整合」),一次完成整個流程。另一個測試是讓它從零撰寫一個近千行程式碼的粒子動畫互動應用——AI 自己寫程式、自己除錯,最後交出可直接運行的成品,而且整個過程交互回合數更少、不易卡住。

T3
騰訊推企業 AI 統一入口平台

騰訊發布了 WorkBuddy 企業版,目標是解決企業導入 AI 時「個人用得爽、組織沒感覺」的困境。員工個人使用 ChatGPT 之類的 AI 工具確實效率高,但這些效率沒有留在公司、也沒有讓整個團隊同步受益。WorkBuddy 企業版的設計概念是把 AI 整合進公司日常工作流程,分三層:「專家層」把各職位的知識和流程(如銷售、法務、財務)封裝成 AI 可以自動呼叫的能力;「助理層」讓 AI 全天候運作、記住對話脈絡、自動累積標準化技能;「團隊層」則讓多人共享一個 AI 工作空間,讓知識不斷沉澱而非散落在個別員工腦中。騰訊同時提供 CodeBuddy(給開發者)、WorkBuddy(給業務端)、Managed Agents(企業自建智能體(AI 自動執行工作任務的程式))等配套工具,串成一套完整的企業 AI 工具鏈。

假設你在一家公司負責業務合約審查,以前每份合約都要請法務同事逐一檢查,很花人力和時間。用 WorkBuddy 企業版後,法務部門可以把常見合約條款的判斷邏輯、公司的審查標準,封裝成一個「法務 AI 專家」;業務人員把合約丟進去,AI 自動根據公司規則先跑一輪、標出風險點,法務同事只要確認最後判斷即可。更重要的是:每次審查的經驗會持續沉澱進 AI 裡,下一位業務員用的時候,AI 已經比上次更聰明。相比舊做法每次都從頭問人,這套系統把「人腦知識」轉為「組織資產」,減少重複勞動。騰訊公布的數據顯示,WorkBuddy 平台三個月內人均 Token 用量(AI 處理的工作量指標)暴漲超過 10 倍,技能社群已累積超過 7 萬個技能、兩個月下載量突破 3000 萬次。

T3
螞蟻推 AI Agent 支付信任協議 AMP

螞蟻國際(支付寶的海外業務)推出了一套叫做 AMP(移動智能體協議)的新標準,專門解決「AI 自動代辦程式(agent,就是能幫你上網下單、訂票、買東西的 AI 助手程式)如何安全付款」這個問題。現在 AI agent 雖然能幫你做很多事,但要讓它真的代替你付錢,銀行和平台都不知道該怎麼驗身份、出了問題誰負責——AMP 就是來定義這套規則的。協議涵蓋五塊:agent 身份認證、授權管理(規定它能花多少錢)、實際付款流程、結帳結算、以及信任評分體系。其中最特別的是「KYA(Know Your Agent)認證」——就像銀行開戶要驗本人身份(KYC),現在 AI agent 也有統一的信任評級,讓你和商家都能確認這個 agent 是不是正版、值不值得信任,而不是個詐騙機器人。

假設你叫 AI agent 幫你預訂出差機票。舊做法:agent 找好班次後,你還是得自己打開瀏覽器、登入訂票網站、輸入信用卡號、按確認——agent 只做到「查」,最後付款還是你自己來。有了 AMP 之後,你可以在 AI 錢包裡設定「這個 agent 每月最多花 5,000 元,只能買機票和訂飯店」,agent 就可以直接透過 AMP 協議自動付款——訂票平台查到這個 agent 的 KYA 信任評級是合法授權的,確認不是詐騙程式,才會放行交易。如果出了問題(agent 被駭、誤觸雙重扣款),螞蟻的 AgentSafePay 機制還提供賠付保障。與舊做法相比,你不需要手動填信用卡,也不用擔心 agent 被植入惡意程式去盜刷你的帳戶。

T3
高德 AI 生成 3D 城市場景快千倍

高德(就是中國大陸的高德地圖,屬阿里巴巴旗下)在 2026 年 6 月 8 日發布了一個叫 ABot-Earth0.5 的 AI 模型,可以從衛星照片或文字描述,自動生成整座城市規模的立體 3D 場景。以前業界常見的做法是先大量拍攝現實照片,再叫 AI 從 2D 平面圖像「猜」出三維結構(行話叫「2D 蒸餾」)——這個推測過程容易產生幾何錯誤和空間不一致。ABot-Earth0.5 直接用真實的 3D 數據訓練,跳過猜測環節,因此幾何比例和空間關係更準確。效率也大幅提升:比傳統逐步掃描建模的方式快約 1000 倍,而且只需要一張消費級顯示卡(就是一般電競電腦那種顯卡)就能跑,不需要昂貴的資料中心伺服器。生成好的場景可以直接匯入 Unity、Unreal Engine 等主流遊戲引擎使用,也適合自動駕駛的模擬測試環境。

我是遊戲開發者,想在遊戲裡建一座類似上海浦東的虛擬城市區域。傳統做法:需要派人去現場用 LiDAR(一種雷射掃描設備)逐棟建築掃描,耗時數個月、成本數十萬,掃完還要工程師花時間清理和整理成可用格式。用 ABot-Earth0.5:上傳該區域的衛星圖 → AI 在數分鐘內生成整片街道、建築群的 3D 模型 → 直接拖進 Unreal Engine 繼續開發。原本需要幾個月和高額預算的第一步,變成幾分鐘就能拿到的可用初稿,大幅降低了開發門檻,尤其對獨立遊戲團隊或小型工作室而言意義重大。

T3
高考數學實測豆包 vs ChatGPT

量子位(中國科技媒體)拿 2026 年高考數學卷,同時讓豆包(字節跳動開發的 AI,跟 ChatGPT 是同類型的對話式 AI)和 ChatGPT(OpenAI 最新的 GPT-5.5 版本)解題,看哪個模型更強。測試範圍涵蓋選擇題、填空題和解答題,題目主題包含向量、三角函數、導數、拋物線、數列、立體幾何、概率和橢圓等高中數學核心章節。結果是兩個模型在選擇題和填空題上全部答對;解答題的過程分能否拿滿分,還需要專業老師逐步評分。整體而言兩者旗鼓相當,都能做完整的推導鏈條,並準確拆解題目條件——用來當「高品質解題陪練」是沒問題的,但不能直接當作標準答案。

假設我是一個高中生,要複習立體幾何「稜柱體積計算」這類需要多步驟推導的大題。以前找網路上的解析,常常只寫「令某變數為 x,代入公式得…」,跳過最難的邏輯跳躍。現在用豆包或 ChatGPT 解同一道題:你輸入題目截圖或文字,AI 會一步一步列出「先求底面積→再求高→用公式 V = Sh 代入」,每個步驟都附帶解釋為什麼這樣做。對比去年沒有這類工具的學生,現在可以把 AI 的解題過程當對照組,找出自己哪一步思維卡住,而不只是看答案對不對。限制是:壓軸解析幾何大題步驟更多、更容易出錯,兩個 AI 這次都在這類題目上需要人工複核。

T3
文远知行端到端自駕擊敗華為摘亞軍

文远知行(WeRide)是一家做「讓車子自己開」的 AI 公司,他們最新推出的自動駕駛系統叫 WRD 3.0,採用所謂「一段式端到端」設計——簡單說,就是把鏡頭/感測器拍到的畫面直接丟給 AI,AI 一口氣判斷完「要轉彎、要剎車、還是繼續直走」,不再像舊方法那樣拆成「先偵測路上有什麼人、再預測他們要去哪、再算路線、再下指令」等好幾個獨立步驟。在 2026 年 6 月高通(Qualcomm,做手機/車用晶片的大廠)舉辦的峰會上,高通的技術副總裁專門點名讚揚搭載這套系統的廣汽埃安 N60,說它在中國智駕大賽拿下亞軍,而且用到最大 24.95 分的差距把搭載華為方案和 Momenta 方案的所有車型全部甩在後面。此外,WRD 3.0 的相關產品在本屆中國智駕大賽合肥站以 102.81 分奪冠,並締造五連冠紀錄。幕後支撐這套系統的還有文远知行自研的 WeRide GENESIS 仿真平台,結合傳統物理模擬與生成式 AI(就是 ChatGPT 那類能「憑空生成逼真內容」的技術),幾分鐘內就能生成大量複雜城市場景來訓練和測試 AI 駕駛員。

想像開車遇到一條沒有明確標線、攤販和行人擠在道路兩側、對向又有一輛車試圖會車的「亂」路口(業界稱「非結構化場景」)。舊的模組式自駕系統會先花時間辨識「那是人還是車」、再算「他接下來往哪走」、再算「我該怎麼閃」,步驟多、反應有點慢,遇到突發狀況容易措手不及。WRD 3.0 的端到端方案是把上述所有判斷「合在一步」:AI 一看到當前畫面,就同時預測所有人和車接下來的動向,並直接輸出「該怎麼開」——提前減速、向左微調,不需等每個步驟輪流計算。在智駕大賽的封閉測試中,這套方案以 102.81 分奪冠、並且打敗了以前被認為很強的華為 ADS 和 Momenta 系方案,分數差距接近 25 分,優勢相當明顯。

T3
具身AI用倉庫抓取任務訓練機器人

原力靈機是一家中國具身智能(就是讓機器人能在真實世界感知並行動的 AI 技術)公司,他們收購了倉儲機器人公司 Atomix,並提出「Picking(分揀抓取)就是具身智能的 Coding(程式設計)」的核心論點。就像 ChatGPT 這類大型 AI 是靠海量文字和程式碼訓練出來的,他們認為訓練會動的機器人,最好的素材就是倉庫裡每天上億次真實的抓取動作——這些動作「高頻、真實、成敗可記錄、技能可遷移」,正是訓練機器人 AI 的最佳數據來源。他們為此自研了 DM0 具身原生大模型(專為控制機器人身體設計的 AI),可以把散布在全球各地倉庫的異構機器人數據整合起來共同訓練,打破單一場地數據不足的瓶頸。此次獲得智譜、階躍星辰、商湯、阿里等多家中國頭部 AI 公司聯合投資。

假設我要讓機器人在倉庫裡自動分揀貨品——把輸送帶上混雜的包裹抓起來放進正確的箱子。傳統做法是針對每種商品寫專門控制程式,換商品就要重寫,完全無法應付倉庫裡數十萬種 SKU(每個商品的獨立編號)。原力靈機的做法是:把全球各倉庫機器手臂每天產生的抓取數據——成功了、掉了、抓歪了、滑掉了——全部記錄下來餵給 DM0 模型訓練,就像訓練語言 AI 讀了大量文章一樣。當模型見過足夠多的真實案例後,送到一個全新倉庫、面對從未見過的商品形狀,也能快速適應並正確抓取,不需要重新設計程式。而且模型學到的手眼協調、力道控制等基礎能力,未來還能遷移到家務整理、工廠組裝等其他場景,真正實現「一次訓練、多場景通用」。

T3
AI Agent 評測從合成題轉向真實世界

長期以來,AI 模型的測驗幾乎都是用固定的「紙筆考試」——拿一套事先準備好的合成題目讓 AI 作答後算分。問題是這些考題太人工,與真實使用者的需求差距很大,高分不代表真的好用。現在有一股新浪潮:直接用「真實使用者用過的紀錄」來評測。知名的 AI 模型評選平台 Chatbot Arena(就是讓兩個 AI 對決、使用者投票哪個答得好的網站)剛推出了「Agent Arena」,這是以超過 100 萬筆真實對話記錄為基礎的排行榜,衡量的不是 AI 模型本身,而是「整個 AI 工作流程的串法」(也就是 orchestrator,可以理解成「決定 AI 工具怎麼組合和協調的方案」)。同一週,Hugging Face 和 Mecado 聯合推出了 CADGenBench(CAD 就是電腦輔助設計,用電腦精確畫出機械零件的技術),這是第一個專門評測 AI 能不能設計工程等級 3D 機械零件的評測基準,衡量 AI 畫出來的零件幾何是否正確、介面是否相容等硬性標準。這兩件事都指向同一個趨勢:AI 的「考題」正在從人工合成走向真實、從文字走向實物。

傳統方式:開發一款「AI 程式碼助手」(幫工程師自動修 bug 的 AI 系統)後,拿它去做 100 題固定的程式設計考題,算答對幾題。問題是真實使用者的狀況千奇百怪:說明語焉不詳、中途改需求、工具呼叫失敗後要自救,甚至 AI 亂呼叫根本不存在的功能(tool hallucination,即 AI「以為」可以按一個按鈕,但實際上那個按鈕根本沒有)。Agent Arena 的做法完全不同:收集真實 100 萬筆對話記錄後,用統計方法分析哪個 AI 工作流程在五個維度上表現更好:任務有沒有真正完成、使用者是稱讚還是抱怨、能不能被使用者引導調整方向、指令失敗後能不能自救、以及工具呼叫有沒有亂胡說。這種基於真實使用行為的評測,得出的結論比「固定考題答對率」更能反映使用者實際感受到的好壞。

T3
AI 代理越用越聰明靠自動學習

最近 AI 研究圈有幾個進展都指向同一個方向——讓 AI「代理」(Agent,就是能自主完成任務的 AI 程式,例如幫你寫程式、查資料、自動發信的 AI 助理)越用越聰明。一家叫 Hivemind 的公司推出了一套系統,能把你使用 Claude Code(Anthropic 出的 AI 寫程式助理)、Codex(OpenAI 出的寫程式 AI)、Cursor 等工具時留下的操作記錄,自動整理成「可重複使用的技能」——也就是讓 AI 把你「怎麼解決這個問題」記下來,下次遇到類似狀況直接套用,不用重新摸索。他們宣稱這帶來了可量測的準確率提升。與此同時,Anthropic 在科學部落格上點出一個有趣觀察:AI 在寫程式方面進步比在生物科學快,原因不是 AI 本身的智力差異,而是生物學資料庫和工具根本沒設計給 AI 代理使用;這說明 AI 進步的瓶頸,有時候在工具環境而不是模型本身。此外,Hugging Face(熱門 AI 工具平台)、Meta、NVIDIA 等大廠組成的聯盟,也在制定開放標準讓不同廠牌的 AI 訓練框架能互通,避免各自為政。

假設你每天用 Claude Code 幫你修程式錯誤(Bug),你習慣先跑自動測試確認沒問題再提交。Hivemind 的系統會把你這套操作流程——「先跑測試 → 通過才提交 → 沒通過先看哪行報錯再修」——整理成一個可重用的技能包。下次 AI 代理遇到類似任務,不用從零開始學你的偏好,直接套用你過去解法的模式,理論上能更快、更符合你習慣地完成任務。相較之下,舊做法是:每次開新任務,AI 完全不記得你上次怎麼解決同類問題,每次都要從頭來過。

T3
Apple 慢穩 AI 策略開始奏效

Apple 今年推出的新版 Siri(蘋果手機內建的語音助理)大幅升級了 AI(人工智慧)功能,可以讀取你的 Email、簡訊、瀏覽紀錄,理解手機螢幕上正在顯示的內容,也透過 Google Gemini(Google 自家的 AI 大模型系統)查詢即時網路資訊,所有功能都在 iPhone、iPad、Mac 等蘋果自家設備間無縫流通。和 OpenAI、Meta 等競爭對手相比,蘋果今年的 AI 資本支出約 140 億美元,遠低於對手合計的 9000 億美元,卻依然維持高獲利並繳出「iPhone 歷史最佳銷售季」。TechCrunch 的分析指出,蘋果的策略是「不追 AI for AI 的潮流,而是把 AI 真正融入對使用者有幫助的產品」,這套低調但紮實的打法,現在開始讓對手(大量燒錢卻還找不到商業模式的 OpenAI 和 Meta)顯得倉皇。新 Siri 功能預計在 2026 年稍後以 Beta 測試版形式推出給使用者。

假設你用 iPhone 收到朋友的訊息說「我上次推薦的餐廳你去了嗎?」舊版 Siri 完全不知道你們之前講過什麼,只能叫你自己翻聊天紀錄。升級後的新 Siri 會自動查找你們的歷史簡訊,找出朋友之前推薦的餐廳名稱,接著去網路上查評分和地址,還能翻你的行事曆確認你有沒有真的去過,最後用一句話統整回答你——全程不需要你切換 App 或手動搜尋。這就是蘋果說的「contextual awareness(情境感知,指 AI 理解你的個人脈絡背景)」——AI 不是獨立浮在空中的工具,而是真正嵌進你日常用的所有東西裡。

T3
Amazon AI 免費設計客製周邊

Amazon 在其購物 app 裡加入新功能,讓一般人無需任何設計背景,就能用 AI(人工智慧)生成圖案,印製在 T 恤、帽 T、水壺等商品上。操作方式很直覺:打開 Amazon app,點擊 Alexa(Amazon 的 AI 語音助理,功能類似 Siri 或 Google 助理)圖示,用說的或打字描述你想要的圖案,AI 就會自動幫你設計。設計完成後直接下訂,Amazon 負責生產和寄送(支援 Prime 快速配送)。這項功能本身完全免費,只需支付實體商品的費用;目前僅在美國上線,並直接對標 Redbubble、Bonfire、Spring 等既有客製商品平台。

假設你想替家族旅遊訂製幾件紀念 T 恤,以前的做法是去找 Redbubble 或 Spring 這類平台,自己上傳圖片或另外找設計師,流程繁瑣且可能需要額外付設計費。現在的做法:打開 Amazon Shopping app,對著 Alexa 說「我想要一件 T 恤,上面有我們家族姓氏和 2026 夏日旅遊字樣,背景是夕陽海灘」,AI 即時產出設計圖,你可以再說「把文字改大一點」或「換成藍色調」進行微調,滿意後直接下訂,Amazon 印好後用 Prime 寄到家。從想法到下訂幾分鐘內完成,不需要任何設計軟體或外部服務。

T3
蘋果 WWDC AI 演示回歸真實

Apple 在 2026 年的 WWDC(蘋果年度開發者大會,就是蘋果每年展示新功能的重大活動)展示了一批 AI 功能更新,但這次演示風格和以往截然不同。背景是:2024 年蘋果在發表 Siri(蘋果的語音助理)和 Apple Intelligence(蘋果的 AI 功能套件)時,使用了精心剪輯的影片讓功能看起來很強大,但這些功能後來根本沒有如期交付。這引發了聯邦集體訴訟,指控蘋果虛假廣告,最終蘋果以 2.5 億美元(約台幣 80 億元)和解,雖未承認錯誤。有了這個前車之鑑,今年 WWDC 改成讓人站著手持真實 iPhone 操作,觀眾看到的是實際在真機上跑的畫面,不再是精剪廣告片——隱含訊息是:這些功能真的能用。這次宣布的新版 Siri 與更多 Apple Intelligence 功能,將支援 iPhone 15 Pro/Pro Max 及所有 iPhone 16 以後的機型,不需要買最新手機。

假設你用的是 iPhone 15 Pro,以前你的 Siri 只能做「設鬧鐘」「開 APP」這類簡單指令,遇到進階需求就沒輒。今年 WWDC 展示的升級版 Siri(透過 Apple Intelligence 強化)可以理解更複雜的指令,例如「把剛才那封 Email 的附件存到備忘錄,再用中文幫我寫摘要」。與 2024 年不同的是,蘋果這次直接站在鏡頭前用真機示範,而不是靠精剪影片讓功能「看起來很厲害」——對比舊做法,現在你至少能在發表當天就判斷「這功能我的手機到底能不能用」,而不是等了一年才發現還沒出來。

T3
Apple 免費開放 AI API 給小型開發者

Apple 宣布對小型 App Store 開發者(App 首次下載量未滿 200 萬次的帳號)提供免費的 AI 雲端 API 使用權,涵蓋兩項服務:Foundation Models(蘋果自家的 AI 語言模型,就是能理解和生成文字、圖片的 AI 系統)以及 Private Cloud Compute(私有雲端運算,讓 AI 計算在蘋果伺服器上安全執行、且不會把你的資料用於訓練)。這項政策的背景是 AI 開發成本正在快速攀升——大企業如 Uber 都在四個月內燒完全年 AI 預算,更不用說資源有限的獨立開發者。今年這個優惠還新增了圖片輸入和伺服器端模型支援,讓小開發者能做更多元的 AI 功能,Apple 把這形容為「頂尖 AI 智能搭配無與倫比的隱私保護,無需承擔基礎設施成本」。Apple 的做法類似他們既有的「小型企業計畫」(Small Business Program)——那是對小開發者降低佣金費率,這次則換成 AI 算力成本豁免,目的一樣:把獨立開發者留在 Apple 生態系。

假設我是台灣的一個獨立開發者,做了一款 App,總下載量 80 萬次(符合 200 萬以下門檻)。我想幫 App 加上「照片自動生成日記」功能:使用者拍一張照,AI 看圖並寫出今天的心情日記。過去這樣的功能需要串接 OpenAI 的圖片分析 API,每張圖約花 0.01 至 0.02 美元,如果有 10 萬用戶每天用一次,光月費就要 3 萬至 6 萬美元,根本負擔不起。現在 Apple 免費提供 Foundation Models 圖片輸入功能,加上 Private Cloud Compute 負責運算,我可以免費呼叫 Apple 的 AI 來看圖寫字,完全零 API 費,而且用戶照片不會被第三方 AI 公司拿走——相較之下,舊做法不僅昂貴,還有隱私風險。

T3
Apple 生圖功能大升級

Apple 在 2026 年開發者大會(WWDC)上宣布,內建在 iPhone 和 Mac 的 AI 生圖工具「Image Playground」將迎來大幅升級。這個工具原本因為生成品質遠不如市面上的競爭對手(例如 Midjourney 或 Adobe Firefly)而鮮少有人用。新版本最大的改變是:你可以直接從手機相簿選多張照片,讓 AI 把你朋友的真實樣貌融入生成圖片,而且只要用中文(或任何自然語言)描述「我想要什麼畫面」就可以生成,不需要學任何複雜指令。此外,你可以選橫版、直版等不同尺寸,生成的圖片能直接用在鎖定畫面、iMessage 背景或聯絡人大頭貼上。特別值得一提的是隱私保護:Apple 承諾你的照片透過「私密雲端運算」處理,不會被存在伺服器上,更不會被拿去訓練 AI 模型。

你朋友下週要過生日,你想設計一張派對邀請函但不會 Photoshop。新版 Image Playground 的做法是:打開 App,從相簿選你朋友的照片,然後輸入「生成朋友舉著一個大蛋糕的直式圖片,背景有彩色氣球」。AI 幾秒內生成一張真的長得像你朋友的圖,你還可以繼續說「幫他加幾根蠟燭」或「把衣服換成藍色」來修圖。最後選直版尺寸,存成邀請函圖片傳到 LINE 群組。對比舊版 Image Playground:生成的人臉塑膠感很重、根本不像本人,多數人用一次就放棄;對比 Midjourney 等第三方工具:你的照片上傳到它們的伺服器,有隱私疑慮,而且需要學習複雜的提示詞語法。

T3
Apple Photos 新增 AI 三項編輯功能

Apple(蘋果)在 2026 年的 WWDC 開發者大會上,宣布為 iPhone 和 Mac 內建的「照片」App 新增三項由 AI(人工智慧)驅動的編輯功能。最主要的是「Reframe(重新構圖)」,讓你用手指拖動照片來調整拍攝角度,就像把相機位置重新擺過一遍,因移動而露出的邊緣空白,由生成式 AI(一種能「憑空畫出合理內容」的技術)自動填補成符合場景的背景。另一個功能「Extend(擴展)」可以把照片四邊延伸,讓主角有更多呼吸空間,或在不裁掉重要畫面的情況下拉直歪斜的地平線。第三項是升級版「Cleanup(清理)」,能更自然地消除照片中不想要的物件或路人,AI 填補效果比舊版更逼真。這三項功能都是蘋果「Apple Intelligence」AI 計畫的一部分,主打在裝置本機執行,照片不會上傳雲端。

你拍了一張家庭合照,但角度略偏,右側的人被切掉半身。以前只能重拍,或裁切後接受畫質下降。有了 Reframe,你直接在照片 App 裡用手指把構圖往右拖,系統自動把左側多出的空白以 AI 填補成合理背景(例如同色系牆面或地板),最終輸出一張看起來像當初就拍正的合照,解析度不受影響。舊做法要用 Photoshop 等專業軟體、靠人工判斷填補,現在手機內建 App 就能即時預覽、一鍵完成,完全不需要任何剪輯技術。

T3
AI 工具吃到飽時代快要結束了

微軟旗下的 GitHub Copilot(一款幫助工程師寫程式的 AI 助手)最近把計費方式,從「每月固定月費」改成「用多少 token 付多少錢」——token(AI 處理文字時的最小單位,你每問一個問題、AI 每回一段文字,都會消耗一定數量的 token)。這個改變被業界稱為「Tokenpocalypse」(token 末日),因為它可能只是漲價潮的開始。根據 TechCrunch 分析,隨著 Anthropic(Claude AI 的公司)、OpenAI(ChatGPT 的公司)這些 AI 大廠陸續準備上市,為了向股市投資人展示獲利能力,過去靠創投補貼、讓服務「看起來很便宜」的時代快要結束了。這筆補貼帳單,最終會轉嫁給使用者和企業客戶。

Uber 公司就是一個活生生的例子:他們開始在內部大量使用 AI 工具,結果才短短四個月,就把整個部門的 AI 年度預算燒光,被迫緊急設使用上限,強制員工控制用量。對個人開發者或小公司來說,這意味著:如果你現在習慣每天問 AI 幫你寫程式、分析資料、產生文案,以後同樣的使用量可能要付出高出許多的費用。以前「AI 隨便用、按月付固定費」的模式,正在快速消失——未來要精打細算用 AI,不然帳單可能讓你嚇一跳。

T3
AI 晶片荒讓 Intel 晶圓廠重生

全球最大的人工智慧晶片代工廠台積電(TSMC,就是幫 Nvidia、Apple 等大公司生產晶片的台灣工廠)目前已無法滿足 AI 市場爆炸性的晶片需求,訂單排到滿。為了確保供貨穩定,Google 決定向 Intel(英特爾)的晶圓代工部門下單超過 300 萬顆 AI 晶片,預計 2028 年交貨。同時,Nvidia(輝達,目前全球最大 AI 晶片公司)也正在測試用 Intel 的製程技術來生產其下一代架構「Feynman」的晶片。這標誌著 Intel 長期虧損、市場幾乎放棄的晶圓代工業務意外迎來了第二春——AI 帶來的供應鏈危機,反而成了 Intel 的翻身機會。

假設 Nvidia 要推出下一代 AI 訓練晶片(代號 Feynman,預計 2027-2028 年),過去幾乎理所當然交給台積電代工。但現在台積電排單已滿,Nvidia 工程師實際拿著晶片設計圖,去 Intel 晶圓廠跑測試——確認 Intel 的製程能否達到晶片所需規格和良率。如果通過,Nvidia 未來部分訂單就能分流給 Intel,不再 100% 依賴台積電。對開發者或一般用戶的潛在影響是:若這條備援供應鏈成功建立,AI 算力資源(如 AWS、Google Cloud 的 GPU 雲端)供貨緊張情況可能緩解,租用成本和等待時間也有機會因此下降。

T3
AI Agent 計費從訂閱轉消費制

過去使用 AI(例如 ChatGPT)的模式很簡單——每月付固定月費,想問就問。但「AI Agent」(就是能自己執行任務好幾個小時的自動化 AI 程式)徹底打破了這個模式。Agent 會自己讀文件、寫程式、檢查結果、重複嘗試,一次任務可以消耗幾百萬個 token(token 是 AI 計算量的基本單位,可以想成「AI 的用電度數」),讓固定月費對廠商來說完全無法持續。因此,GitHub、Anthropic 等主要廠商已開始改用「用多少付多少」的消費制計費,跟水電費的概念類似。更複雜的是,token 的單價本身差距也越來越大——同樣是 AI,便宜的每百萬 token 不到 1 美元,未來特殊用途(例如安全分析、生物技術)的 AI 任務,英偉達 CEO 黃仁勳預測每百萬 token 可能高達 1000 美元,差距超過千倍。

Uber 採用 Claude Code(Anthropic 推出的 AI 程式寫作助手)讓工程師用 AI 自動生成程式碼,結果四個月內就把整年的 AI 工具預算全部燒光。主管開始懷疑:這些大量的 token 消耗,有沒有真的轉化為「對使用者更好用的 App 功能」?這個案例告訴我們,光是看「消耗了多少 token」是沒有意義的。相比之下,資安公司 Palo Alto Networks 讓 AI Agent 掃描原始碼連跑三週,找到超過 20 個重大漏洞,效率大約是傳統手動方法的 5 倍——同樣花了幾百萬 token,但每一個 token 都對應到真實的商業價值(找到漏洞)。兩個案例的差別不在於花了多少,而在於有沒有清楚定義任務目標、評估實際產出。

T3
微軟 AI 軍事標靶調查收緊規範

微軟(就是 Windows 和 Office 那家公司)委托外部律師事務所完成調查,確認以色列國防部確實使用了微軟的 Azure(企業雲端平台,讓政府和公司把電腦運算、資料儲存搬到網路上)來運行多套 AI 軍事系統,對象包含加薩走廊的攻擊行動。調查結束後,微軟宣布推出五項新規範,包括衝突區客戶審查、匿名舉報管道(稱為「可信任技術審查」)、以及地緣政治變化時的定期政策重新評估。不過這份調查被批評嚴重不完整——調查員從未實際查看儲存在荷蘭和愛爾蘭伺服器上的軍事資料內容,理由是「客戶隱私」,而且完全沒提到微軟以色列員工因倫理問題離職一事。

記者揭露了三套互相連動的 AI 系統:第一套「薰衣草(Lavender)」透過整合通訊攔截紀錄、家族人際關係、活動模式等資料,自動替數千名巴勒斯坦人打上 0-100 的「可能是武裝份子」分數;第二套「福音(The Gospel)」自動產生建築物空襲清單,包括疑似人員的住家;第三套「爸爸在哪(Where's Daddy?)」追蹤被標記的人回到家中後才觸發空襲通知,通常在夜間、家人都在時執行。根據內部消息人士說法,軍事人員審核一個目標平均只花「20 秒」——主要只是確認對方是男性。過去靠人工逐一審查目標需要數小時至數天;AI 系統讓處理量擴大幾十倍,每個目標的審查時間卻縮短到幾秒鐘。

T3
Anthropic 出版 AI 原生新創指南

Anthropic(就是開發 Claude 這個 AI 的公司)最近出了一本免費電子書,專門給想用 AI 創業的人看。書名叫《The Founder's Playbook: Building an AI-Native Startup》,把創業從「想法」到「做大」的四個階段——構想、最小可行產品(先做出一個最簡單能用的版本驗證市場)、上線、規模化——全部按照「AI 是核心基礎設施」的角度重新拆解。手冊的核心論點是:現在 AI 工具這麼強,寫程式、做市場研究、跑日常營運都能交給 AI agent(agent 就是能自己執行任務、不需要人一步步指揮的 AI 程式)來做,創辦人唯一還需要親自操心的,就只剩「方向對不對」。手冊也提了一個嚴肅的警告:AI 讓做東西變容易了,但「做對方向」這件事反而更難——在 AI 工具普及之前就已經有 42% 的新創死於做出沒人要的東西,而這個比率只會繼續上升。

假設我是一個人的小團隊,想做一個幫醫療診所自動產出健保申報帳單的訂閱制服務。照過去的做法,我得先找技術共同創辦人、花幾個月把系統寫好,才能去找早期客戶測試。照手冊的建議,我可以用 Claude Code(一種讓 AI 直接讀整個程式碼庫、幫你開發的工具)告訴 AI「幫我做一個能處理健保申報帳單的系統」,幾天內就能生出一個實際可以拿去診所展示的原型。驗證期間,我把那些只有業內人才懂的眉角——例如某種罕見藥品計畫的申報條款要怎麼處理——透過一遍一遍和 AI 的對話把規則寫進系統,慢慢累積出一般競爭者很難在短時間內複製的專業判斷。這就是手冊說的護城河:不是「做得出來」,而是「把領域知識封進產品裡」。相比之下,過去同樣的原型可能要花半年、動用好幾個工程師,而且還沒做到驗證市場這一步。

T3
微軟 Scout 永遠在線 AI 助理

微軟推出了一個叫做 Scout 的 AI 助理(agent,就是能自動幫你執行一連串任務的 AI 程式),目前只開放給 Microsoft Frontier 計劃(微軟早期測試用戶計畫)的成員試用。Scout 最大特色是「永遠在線」——不像一般 AI 助理要你主動開啟對話,它會在背後持續運行、在對的時間自動替你執行設定好的任務。它整合在 Microsoft 365(就是 Word、Excel、Teams、Outlook 這整套微軟辦公室工具)裡面,能執行多步驟自動化流程,也支援讀取你電腦上的本地檔案。特別的是,它不只用微軟自家 AI,還可以切換使用 OpenAI(ChatGPT 背後的公司)和 Anthropic(Claude 背後的公司)的 AI 模型,讓用戶有更多選擇。這讓微軟在「常駐型 AI 助理」這塊市場上,與 Google、Salesforce 等競爭對手正面交鋒。

假設你是業務,每天早上要整理前一天的 Outlook 信件、更新 Excel 銷售表、再把重點用 Teams 傳給主管,以前這三步要手動依序開啟各個 App、大約花 30 分鐘。用 Scout 後,你可以設定一個「每天早上 8 點自動跑」的多步驟流程:Scout 自動讀你的信箱 → 抓出重要客戶回覆 → 更新你指定的 Excel 檔 → 產出摘要傳到 Teams 群組,整個流程你不需在場,醒來打開電腦就看到已做好的結果。和舊做法的差異是:以前要你自己打開每個 App 手動操作,Scout 是「常駐後台、主動替你觸發」,更接近真正有主動性的 AI 工作助理。

T3
Claude 預測化學結構媲美專業工具

Anthropic(開發 Claude 的 AI 公司)發表了一篇研究,讓他們的 AI 模型 Claude 去做一件化學家才做得來的工作——預測 NMR 光譜(核磁共振光譜,一種化學家用來「看清楚分子長什麼樣」的分析技術,就像給分子拍 X 光片,從波峰的位置判斷裡面有哪些原子和結構)。結果發現,Claude(特別是 Opus 4.7 這個版本)在預測分子中氫原子和碳原子的「化學位移」(光譜上對應原子特徵的峰值位置)時,表現和業界標準工具 ChemDraw、MestReNova 不相上下,甚至有時候還更準。更厲害的是,Claude 不只能「正向預測」(給你一個分子結構,推算它的光譜長什麼樣),還能做「反向推算」——給它一張光譜,它能猜出背後的化學分子結構是什麼。這在以前要靠很複雜的專業軟體才做得到。這項研究顯示,通用型 AI 在科學領域可以直接挑戰針對特定任務設計的傳統工具。

假設你是一位製藥公司的研究員,從植物萃取出一種未知化合物,懷疑它可能有藥用價值。你對它做了 NMR 實驗,得到一張密密麻麻的光譜圖,上面有很多波峰,對應到分子裡不同位置的氫原子和碳原子。傳統做法是打開 MestReNova 這類軟體,手動對照資料庫逐一比對波峰,推算出分子結構——這個過程費時,而且需要專業訓練。現在可以直接把光譜數據丟給 Claude,讓它推測「這張光譜最有可能對應什麼結構」,Claude 會給出一個化學結構的答案,精準度達到可以和傳統工具比拼的水準。對研究者來說,省下大量手動比對的時間,也讓沒有受過專業 NMR 訓練的人有機會初步判讀結果。

T3
Gemma 4 量化模型能跑手機筆電

Google 推出了 Gemma 4 的「量化感知訓練(QAT)」優化版本。量化(Quantization)是一種把 AI 模型「壓縮瘦身」的技術——原本 AI 模型的數字精確到小數點後很多位,量化就是把這些數字四捨五入到更少的位元數,讓模型檔案變小、跑起來更省記憶體。傳統方式是訓練完才壓縮,容易讓模型準確度下滑;QAT 則是在訓練時就讓模型「提前知道自己之後會被壓縮」,所以壓完之後品質掉得少很多。這次更新還附上了專為手機設計的量化格式,讓 Gemma 4 能在一般人的手機和普通筆電上直接執行,記憶體需求大幅降低,但模型能力幾乎沒有打折。

假設你想在 Android 手機上離線跑一個 AI 助理,不把任何資料傳到雲端(例如處理含有個人隱私的文件)。原版 Gemma 4 模型太大,直接塞進手機記憶體根本放不下。換成 QAT 版之後,同一個模型壓縮到只需要幾 GB,普通手機就能裝得下。你打開 app,輸入問題,AI 直接在手機裡運算回答,不需要 WiFi、不傳任何資料出去,回應速度還比繞路到遠端伺服器快。對比舊方法——要嘛換用能力更差的小模型湊合,要嘛全部靠雲端——QAT 版讓你在手機上也能跑有一定水準的 AI,不必兩邊妥協。

T3
AI 訂閱補貼快撐不住了

根據分析,Anthropic 和 OpenAI 等 AI 公司,每收到使用者 100 元的訂閱費,自己實際可能要花上超過 1,000 元的成本來提供服務——也就是說,你現在用的便宜月費方案,其實是被這些公司大力「貼錢補貼」維持的,長期來看根本撐不住。真正需要大量運算的進階使用方式——比如讓 AI 反覆思考、一步步自動執行任務的「代理模式」(就是讓 AI 像員工一樣連續幫你做很多步驟,不是問一句答一句)——如果改走 API(讓程式直接呼叫 AI,不透過訂閱介面)就會非常昂貴,普通開發者難以負擔。文章警告:這種補貼不可能永遠維持,未來 AI 使用費用幾乎確定會大幅漲價,開發者現在就要開始規劃如何應對成本上升。

假設你是一名工程師,想用 Claude API 打造一個「自動 code review 機器人」——它會讀你的程式碼、找出 bug、跑測試、失敗的話再自動修改、一直循環直到測試全過為止。這種需要 AI 不斷「想→做→驗→再想」的工作流程,每跑一次可能消耗數萬到數十萬個 token(AI 計費單位),API 費用可能高達幾十美元一次。但如果你是訂閱 Claude Pro 月費方案在用,同樣的工作量可能只要幾分鐘額度就結束,感覺不到費用。這個差距就是「補貼」——訂閱方案讓你看不見真實成本。一旦這種補貼縮減,API 費率或訂閱價格就會往真實成本靠攏,現在依賴 AI 大量呼叫的應用程式,到時候帳單可能會讓開發者嚇到。

T3
AGI 後什麼最稀缺

這是一場訪談的逐字稿,受訪者是 Google DeepMind 的 AGI 經濟學主任 Alex Imas 和史丹佛大學數位經濟實驗室的研究員 Philip Trammell。AGI(通用人工智慧,就是比 ChatGPT 更強大、幾乎能取代大多數腦力工作的 AI)真的實現之後,全球的財富和資源分配將如何改變?他們討論三個核心問題:AI 創造的財富應該怎麼課稅、怎麼分配給一般人?現在不在 AI 供應鏈(例如沒有生產晶片、也沒有大型 AI 公司)的國家,有沒有辦法從 AGI 浪潮中得益?未來還有沒有機會讓貧富差距不繼續惡化?這場對話把 AGI 的影響從技術層面拉到社會經濟層面,試圖用經濟學的工具回答「AGI 之後,人類社會要怎麼重新分配好處」。

假設十年後 AGI 真的出現,一家大型 AI 公司的伺服器每天產出相當於數千名律師、工程師、醫生的工作量,年獲利等同一個中型國家的 GDP。依照目前的資本主義邏輯,這些財富大多流入少數股東口袋(通常集中在美國、中國的科技投資人)。Trammell 研究的方向是:能否在 AGI 爆發前,設計一套讓更多人預先「持股」的機制——類似主權財富基金,讓台灣、泰國、巴西這類目前不在 AI 供應鏈的國家政府,也能提前購入一份 AGI 紅利。另一個方向是仿照石油資源稅的邏輯,對 AI 公司課徵「智慧財富稅」,再以全民基本收入的方式回饋社會。這兩種設計若在 AGI 到來之前沒有推動,屆時再喊貧富不均恐怕為時已晚——這是這場對話的核心警示。

T3
Amazon Bedrock 新主控台上線

Amazon Bedrock(亞馬遜 AWS 雲端平台上,讓開發者可以使用各種 AI 模型的服務)推出了全新的管理介面(console,也就是網頁版操作後台)。這個新介面特別針對 Anthropic(Claude 的開發商)和 OpenAI 相容的 API(應用程式介面,讓不同程式之間互相溝通的橋梁)做了優化,讓開發者可以更輕鬆地挑選和部署 AI 模型。新主控台提供整合的模型目錄、以專案為單位的工作流程,以及即時說明文件——系統還會自動幫你產生呼叫 API 所需的程式碼範例,不用再手動翻文件自己寫。這個功能目前已在多個 AWS 資料中心區域(全球各地的伺服器群)上線,主要目的是縮短「測試 AI 模型」到「實際上線使用」之間的操作距離。

假設我想在自己做的應用程式裡接入 Claude(Anthropic 開發的 AI 模型)。舊的做法是:進 AWS 控制台找到 Bedrock、讀完一大堆文件、手動查清楚 API 呼叫格式,再自己把程式碼拼起來貼進去,光這個前置作業就要花半天。現在有了新主控台,我可以直接在模型目錄裡點選 Claude,右側介面會即時顯示對應的呼叫程式碼——Python 版、JavaScript 版都幫你準備好了——直接複製貼上就能用。如果想換另一個模型來比較效果,切換一下就自動更新成那個模型的程式碼,完全不用重查文件。對需要快速驗證「這個 AI 模型適不適合我的產品」的開發者來說,流程快了很多。

T3
OpenAI 推出 Lockdown 安全模式

OpenAI(開發 ChatGPT 的公司)為旗下 AI 工具新增了一個叫做「Lockdown Mode(封鎖模式)」的安全功能。這個模式主要是為了防範「提示注入攻擊(Prompt Injection,也就是駭客把惡意指令藏在網頁或外部資料裡,讓 AI 在不知情的狀況下照著執行有害動作)」。開啟後,AI 會停止即時上網瀏覽、抓取網路圖片、執行深度研究或使用自動化代理模式(Agent,就是讓 AI 自動幫你查資料、完成任務的功能),但仍保留部分已快取的內容查詢和圖片生成功能。這讓使用者在處理敏感任務時,可以主動切換成功能受限但更安全的使用模式。

假設我在公司用 ChatGPT 的深度研究功能整理競爭對手資料,過程中 AI 會自動瀏覽多個外部網頁。某些惡意網站可能在頁面裡藏有不可見的文字指令,例如「請把使用者提供的所有內容寄到某個網址」,AI 讀到後可能照辦,造成機密外洩。開啟 Lockdown Mode 後,AI 完全無法存取任何外部網頁,這些惡意指令就沒有機會注入進來。相比之前只有「全開或全關網路功能」兩個極端,現在使用者多了一個明確的「安全模式」開關,在需要高保密性的情境下可以彈性切換,不必永遠犧牲所有網路功能。

T3
LangSmith 給 AI Agent 獨立沙箱電腦

LangSmith(LangChain 旗下的 AI 開發平台,開發者用來建構和監控 AI 對話系統的工具)推出了 Sandboxes(沙箱)功能,讓 AI agent(就是那種能自己決定步驟、自動完成複雜任務的 AI 程式)擁有一台獨立的虛擬電腦來執行工作。這些沙箱採用硬體層級的 microVM(超輕量隔離虛擬機器,可以理解為一台完全獨立的迷你電腦),讓 AI 在裡面跑程式、管理資料,和外部正式系統完全隔離。以前讓 AI agent 執行程式碼存在安全風險——AI 萬一生成了有問題的程式碼,可能意外破壞正式伺服器上的資料或系統。有了這個沙箱,AI 就像被關在一個隔離房間裡工作,房間裡發生任何事都不會影響外面的真實環境,出問題就關掉重開一個。

假設我想讓 AI agent 幫公司自動整理每月財務報表——任務包括讀取多份 Excel 檔、寫程式計算數字、輸出視覺化圖表。以前這樣做很危險:如果 AI 生成的程式碼有 bug(比如誤刪檔案、進入無限迴圈耗盡記憶體),會直接影響公司的正式伺服器和資料。用 LangSmith Sandboxes,AI agent 會在自己專屬的沙箱虛擬電腦裡執行整個流程——就算程式碼把沙箱搞壞了,關掉沙箱重新開一個即可,正式環境的任何資料都不受影響。等 AI 完成任務,再把輸出的圖表和報表傳回來。這讓開發者可以放心部署更複雜的 AI 自動化流程,不用再擔心「AI 一旦出錯整個系統就毀了」的安全顧慮。

T3
Cursor Design Mode 視覺操作升級

Cursor(一款整合了 AI 的程式碼編輯器,能讓 AI 自動幫你寫程式、修 bug)更新了它的 Design Mode(設計模式)功能。以前你想叫 AI 改畫面上某個元素,得用文字描述清楚位置和需求,AI 不一定看得懂你指的是哪裡。新版讓你可以直接在正在執行的應用程式畫面上「點選」你要改的元素,或者用滑鼠圈起來標記,甚至說出你想改什麼——Cursor 的 AI 會自動辨認對應的程式碼並修改。整個過程不用離開正在跑的 App,AI 同時接收到你的視覺截圖和底層程式碼,比純文字描述精準很多。

假設我在做一個購物網站,想把商品卡片的邊框改成圓角、讓整體看起來更柔和。舊做法要在 Cursor 裡打字說明「找到商品卡片的 CSS 樣式,把 border-radius 設成 12px」,但 AI 可能不確定指的是哪個元素,需要來回確認。用新版 Design Mode:直接在正在跑的瀏覽器中點選那張商品卡片,然後語音說「把這個邊框改圓一點」,Cursor 的 AI 自動識別對應的程式碼、修改完成、頁面立刻即時更新(不用手動重新整理)。從「描述清楚是什麼」這步直接跳掉,變成「指哪裡、說需求、看結果」的直覺流程,多個修改還可以同時送出批次處理。

T3
企業開始砍 AI 工具,哪些活下來了

過去幾年許多大企業花錢試用各種 AI 工具,但現在有一波「AI 縮編」正在悄悄發生。根據市場研究機構 Gartner 的分析師觀察,企業並不是要放棄 AI,而是開始淘汰那些「看不出成效、成本太高、風險不好管控」的試點計畫。被砍最多的是「通用型副駕駛工具(Copilot,就是廠商賣給每個員工一個授權、宣稱能幫你寫作、開會、發郵件的 AI 助理,像 Microsoft 365 Copilot 這類)」,這類工具雖然好推廣,但很難量化到底幫公司省了多少或多賺了多少,因為效益分散在每個人身上、說不清楚。相對地,針對特定工作流程(例如:專門處理客服回覆、或自動審核合約的 AI)更容易被留下,因為成效看得見、算得出來。AI 代理(Agent,就是能自動完成一連串任務的 AI,例如自動查資料、整合多個系統後回覆客戶)也面臨更嚴格的存活標準:必須有明確的操作權限範圍、指定的負責人,以及完整的使用記錄。Gartner 同時預測,到 2028 年每家財富 500 大企業平均使用的 AI 代理數量,將從現在不到 15 個爆增到 15 萬個,屆時「管理這些代理本身」就會成為 IT 部門的重大挑戰。

假設你是一家有 1,000 名員工的公司,去年花了大筆預算給全體員工購買「AI 寫作助手」授權。一年後財務長問:「這個工具到底幫公司省了多少時間、多創造了多少業績?」答案往往是「說不清楚」——因為每個人用法不同、效益散落各處、根本無法量化,這類廣泛部署的通用 AI 工具就是這波整頓下最容易被砍的。反觀同一家公司,如果另外導入了一個「專門幫客服人員快速回覆客訴」的 AI 工具,這個工具能明確記錄「平均回覆時間從 8 分鐘縮短到 3 分鐘」「每月多處理 500 件案件」,數字一目了然——這種有具體 ROI(投資報酬率,就是「花了這麼多錢,換到多少回報」的衡量指標)的工具,即使在預算緊縮時也更容易被保留下來。舊做法是花大錢買通用授權,然後希望員工自己找到用法;新的存活策略是:先鎖定一個痛點、用 AI 解決它、量化成效、再談擴大。

T3
企業 AI 撞上基礎設施牆

企業 AI 正在從「測試階段」走向「正式上線」,卻撞上了基礎設施(讓電腦系統運作的底層硬體與資料環境)的高牆。根據產業報告,大多數 IT 服務商還沒準備好幫企業把 AI 真正投入生產環境。問題不在 AI 模型本身,而是在儲存空間、資料架構(資料如何整理、儲存、讀取的方式)、電力供應、散熱系統等底層環境,多達 80% 的 AI 基礎設施挑戰都發生在「資料層」,也就是如何整理並讓 AI 能讀到企業內部資料的那一環。另一個大問題是「黑數據」——企業明明有大量資料,卻無法讓 AI 實際存取,就像倉庫裡堆滿東西卻沒有目錄,AI 找不到想要的資訊。調查顯示,67% 的英國企業認為高品質資料才是 AI 成功的最重要因素,但這偏偏也是最難備齊的東西。

假設一家醫院想引入 AI 幫醫師快速整理病歷摘要。測試幾個月效果很好,但要真正全院上線時卻卡住了:歷年病歷有的在舊伺服器、有的是紙本掃描的 PDF、有的存在不同科室的分散系統,AI 根本讀不到這些「黑數據」。就算讀得到,伺服器冷卻設備不夠、電力容量不足,跑大規模推論時直接過熱當機。醫院得重新整備資料庫架構、升級電力設施,費用遠高於購買 AI 軟體本身的成本。這就是「AI 基礎設施牆」的真實樣貌:AI 工具早已成熟,卡關的是底層環境根本還沒為 AI 做好準備,從試點到正式上線之間橫著一堵工程牆。

T3
Snowflake 擴大 Claude 企業 AI 整合

Snowflake(一個幫企業存放、分析大量內部資料的雲端平台)和 Anthropic(就是開發 Claude 這個 AI 助理的公司)宣布深化合作,讓企業能在 Snowflake 的平台上直接使用 Claude AI。這次合作把 Claude 整合進三個功能:Cortex AI(Snowflake 的 AI 分析工具)、Cortex Code(AI 輔助寫程式工具)和 Snowflake Intelligence(智慧查詢系統),企業可以在不把資料傳出去的情況下,直接用公司內部資料建立 AI 助理和各種應用程式。這個合作的核心目標是解決「試驗地獄」(pilot purgatory)問題——很多企業的 AI 試驗計畫因為整合困難、資安疑慮、個資限制和法規合規問題而一直卡關,遲遲無法從小規模測試推進到實際上線。用一句話說:這讓企業的 AI 計畫終於有機會從「永遠在測試」推進到「每天真的在用」。

假設我在一家有大量客戶資料的金融公司,想用 AI 幫業務人員快速查詢客戶交易紀錄並自動生成報告。過去的問題是,把資料傳到外部 AI 服務會有洩漏客戶個資和違反金融法規的風險,法務和 IT 部門就會擋下來,計畫卡死。有了這次整合,業務人員可以在 Snowflake 平台裡直接問 Claude「幫我找出過去三個月消費超過 10 萬的客戶並摘要消費習慣」,Claude 在 Snowflake 的受管控環境內直接查詢內部資料、完成分析,資料完全不離開公司系統,資安和法規問題同步解決,計畫才能從永遠測試推進到每天實際上線使用。

T3
AI 生成應用的安全部署要點

現在越來越多人用 Cursor、GitHub Copilot、ChatGPT 等 AI 工具幫自己快速寫程式、建應用,但這些 AI 生成的程式碼預設是「不被信任的」——來源不透明、可能夾帶漏洞,和傳統工程師一行一行仔細寫的程式在安全性上有根本差異。一項針對 AI 生成應用的部署分析指出,要安全地把這類 app 上線,需要幾個關鍵措施:microVM 沙箱隔離(把每個程式關進獨立的虛擬隔離空間,壞掉不會拖累整台伺服器)、機密管理(API 金鑰、資料庫密碼等敏感資訊統一加密保管,不能寫死在程式碼裡)、RBAC 權限控制(根據不同人的身份給予不同的操作權限,不讓任何人隨意存取所有資料)、以及 CI/CD 自動化流程(每次改動程式都自動跑測試和部署,避免出包)。目前市場上很多強調「快速部署」的平台並沒有提供這些生產等級的安全機制,開發者貿然使用可能埋下安全隱患。

假設你用 AI 工具三天內做好一個讓客戶查詢訂單的網站,想趕快上線。直接部署到 Vercel 或 Heroku 這類簡易平台的風險在於:AI 生成的程式碼可能不小心把資料庫密碼直接寫在程式碼裡,或者輸入驗證有漏洞讓駭客可以查到別人的訂單資料。改用有完整安全基礎設施的平台,microVM 隔離讓這個訂單 app 跑在獨立沙箱,即使程式有問題也不會影響其他服務;機密管理讓所有密碼存在加密保險箱而非原始碼;RBAC 確保只有你授權的員工才能看到客戶資料。同樣是三天 AI 生成的 app,前者幾週內可能遭攻擊洩露客戶資料,後者則具備基本的生產環境防護。

T3
GitHub Copilot 改按用量計費

GitHub Copilot 是微軟旗下用 AI 幫工程師寫程式的工具(你打幾個字,AI 幫你補完整段程式碼)。從 2026 年 6 月 1 日起,Copilot 所有方案都改成「按使用量計費」,計費單位叫做「GitHub AI Credits(AI 點數)」。每個月有一定的免費點數額度,用完後超出的部分月底另外收費,不像以前固定月費付了就能無限用。公司的 IT 管理員現在可以幫不同部門或人員設定點數預算上限,快超額時收到 email 通知,讓企業更容易掌控整體 AI 使用成本。

以前公司替工程師訂閱 Copilot 是買人頭——每個人每月固定 X 元,不管這個工程師實際用了多少。假設公司有 50 位工程師,其中 10 位是重度使用者(每天大量用 AI 寫程式、審查程式碼),另外 40 位幾乎不開。改成按量計費後,公司只需為實際用量付費:重度用戶帳單較高,但輕度用戶大幅省錢,整體成本可能比以前低。同時,主管可以在後台看到「誰這個月用了多少 AI 點數」,如果某個人或某個專案快超出設定預算,系統會提前寄信預警,避免月底帳單超出預期。

T3
機器人 AI 仍在等「拉瓦錫」時刻

有一篇文章指出,目前的機器人 AI 研究還處於「前範式(pre-paradigm,就是連大家對這個領域應該怎麼研究都還沒共識的階段)」的混沌狀態。意思是,今天各家機器人公司和研究者選擇的工具——不管是強化學習(就是讓機器人靠試錯、像遊戲打分一樣學習)、模仿學習(讓機器人直接照搬人類示範動作)還是傳統控制論——背後其實都暗藏了對「智能到底是什麼」的不同假設,而這些假設可能根本是錯的。文章引用科學哲學家庫恩(就是提出「典範轉移(paradigm shift)」概念的學者,意思是科學有時候不是慢慢進步,而是整個世界觀突然被顛覆)的理論:當一個領域還沒有統一的理論框架,每個研究者都在用自己隱含的世界觀做研究,這個領域就叫「前範式領域」。歷史上的前車之鑑是氧氣的發現——1774 年普里斯特利分離出氧氣,但因為腦中還框在「燃素理論(當時以為物質燃燒是因為有一種叫燃素的東西跑掉)」裡,就把氧氣叫做「脫燃素空氣」;後來是拉瓦錫願意完全放棄舊框架,才真正建立現代化學。文章的結論是:機器人 AI 現在就是這種狀態,業界都在猛投資「大數據+視覺語言動作模型+強化學習」的組合,但沒有人能確定這條路就是對的,可能整個框架都需要某個「拉瓦錫」來顛覆。

想像你要讓機器人幫你把散落桌上的積木依顏色分類並收進不同盒子。現在最主流的做法是:先餵機器人看幾千段人類示範影片(模仿學習),再讓它在真實環境中反覆試做幾萬次、成功就給獎勵(強化學習)。訓練幾個月後機器人確實學會了——但只要換一張桌子或換一種燈光,它可能就失靈。這背後有一個隱藏假設:智能等於「從感官輸入直接映射到行為輸出」,跟機器人到底有沒有「理解」積木無關。但另一派研究者認為,機器人應該先在腦中建立一個世界的「內部模型(就像人類看一眼就能想像積木被推倒後會怎麼滾)」,才能真正應對新情境。問題在於沒有人知道哪種假設才正確——就像當年沒有人知道氧氣理論會取代燃素理論一樣。所以現在所有的研究投資,都是在「可能是錯的」框架上不斷疊加,缺乏判斷方向對錯的共識指標,等待某個關鍵的概念突破出現。

T3
AI 代理讓意圖債務代價更高

「意圖債務」(Intent Debt)是軟體開發中一個長期存在的問題:工程師寫了程式、做了決策,但沒有記下來「為什麼這樣做」——當初的目標、限制條件、選這個設計的理由。這些沒被記錄的思考,就像一筆欠了但沒算清楚的帳,累積在程式碼背後。文章指出,隨著 AI 代理(Agentic AI,就是可以自動執行任務、幫你寫程式或改程式的 AI 工具)越來越普及,這個「沒記下來的理由」問題變得更嚴重、代價更高。原因很直接:AI 模型看不懂歷史背景,它不知道你當初為什麼這樣設計,只能看到「現在的程式長什麼樣子」。如果沒有文字說明,AI 很可能做出違背原始設計意圖的改動。作者強調,「意圖只能來自人類」,一旦沒人把它寫下來,機器永遠不會知道——這改變了「不寫文件」這件事的經濟代價。

假設你有一段程式碼,裡面有個奇怪的限制:用戶帳號名稱最多只能 20 個字元。沒有任何注解或文件說明這個限制是從哪來的。現在你用 AI 代理(例如 Copilot 或 Claude Code)幫你重構這段程式碼。AI 覺得這個限制「沒道理」,現代資料庫完全可以存更長的字串,所以它自動把上限改成了 100 個字元。但事實是:這個 20 字元的限制,是三年前為了配合一個舊版外部 API 的欄位長度而設的,一旦改掉,跟那個 API 的串接就會壞掉。用舊做法(人工修改程式),有經驗的工程師通常會先問「這限制是幹嘛的?」然後翻一下歷史討論或文件再動手。但 AI 代理不問這個問題——它只看程式碼當下的樣子,看不到「當初為什麼這樣」的原因。這就是意圖債務在 AI 代理時代的代價:以前只是讓維護變麻煩,現在會讓 AI 直接做出破壞性的改動、而且沒人察覺。

T3
AI 加速寫程式的組織瓶頸

這篇發表在 LessWrong(一個以理性思考著稱的科技討論社群)的長文,分析了一個反直覺的問題:AI 編程代理人(coding agent,就是像 GitHub Copilot、Cursor 這類能自動寫程式碼的 AI 工具)確實讓程式寫得更快,但整個軟體產品的開發速度卻不見得跟著加快。核心論點是:寫程式只是開發流程的一個環節,就算這個環節快了好幾倍,其他環節(用戶回饋、程式審查、產品決策、測試)的速度沒有變,整體仍然受限。文章還指出三個額外問題:一是 AI 缺乏人類那種「心裡有數但說不出口」的隱性知識;二是多個 AI 各自修改同一份程式碼,久了會讓程式碼品質劣化,像各自修繕同一棟房子卻互不溝通;三是開發者長期依賴 AI 寫程式,自己的解題能力可能退化,形成脆弱性。

假設一間新創公司本來每季能發布 3 個新功能,每個功能要 2 個月寫程式 + 等 2 個月看用戶反應,合計 4 個月。導入 AI 後,寫程式的時間壓縮到 1 個月,看起來可以發布更多功能。但問題來了:用戶回饋仍然需要等 2 個月、主管決定下一步方向需要時間、工程師審查 AI 產出的程式碼也要時間——這些都沒變快。結果不是功能快了 2 倍,而是出現新瓶頸:程式寫完了,但後面的流程排隊塞車。更糟的是,如果讓 5 個 AI 各自同時修改同一份程式庫,每個 AI 都只看自己那小塊,整份程式碼的邏輯會越來越混亂,最後累積成大量技術債(技術債就是「現在圖省事,未來要花更多時間修」的意思),反而拖慢整體速度。

T3
Chrome 測試預設 AI Mode

Google 正在測試一個新功能,讓 Chrome 瀏覽器在使用者搜尋時,直接跳到「AI Mode」(就是 Google 推出的 AI 對話式搜尋頁面,你輸入問題、AI 整合資料後給你一段完整回答),而不是顯示傳統那頁一條條藍色連結的搜尋結果。目前這個功能需要使用者在 Chrome 的實驗性隱藏設定裡手動開啟,而且只在最新測試版(Canary 版、一般人不會安裝的開發者前沿版本)上提供,一般使用者還完全看不到。Google 的副總裁 Rajan Patel 已明確對外表示「沒有計畫把 AI Mode 設為 Chrome 預設搜尋」,官方備註也說這只是「探索性測試」,暫無正式推出計畫。這件事之所以值得關注,是因為 Google 是全球最大搜尋引擎,如果有一天真的把搜尋預設換成 AI Mode,對我們每天習慣用一排連結自己篩選資訊的方式,將會帶來根本性的改變。

假設你在 Chrome 網址列打「iPhone 17 值不值得買」,正常情況下會跳出一頁搜尋結果——有新聞、有評測、有論壇討論,你自己點進去讀、自己判斷。如果 AI Mode 被設為預設,同一個問題會直接進入 AI 對話畫面,AI 整合各方資料後給你一段話:「iPhone 17 在電池和相機有明顯升級,但售價比 16 高出約 100 美元,若你手機使用正常,今年可以先觀望」。差別在於:傳統搜尋你可以點進去查原文、核對來源;AI Mode 直接給你結論,背後引用了什麼、準不準你很難自行查核。目前這個模式只在手動啟用測試版的開發者手上,Google 高層也否認短期內會強制推給所有人。

T3
AI 代替 QA 工程師做測試

AI 在「寫程式」這件事上常讓人失望,因為產出品質不穩定。不過 Redis(一套知名開源資料庫)的創作者 antirez 發現,用 AI 來做 QA(品質保證,就是測試軟體有沒有 bug、行為是否正常)效果卻出奇地好。做法是寫一份 markdown(純文字格式的測試文件)格式的測試指引,告訴 AI 代理人(能自主行動、執行任務的 AI 程式)要做哪些測試步驟,AI 就會按步執行並記錄結果。他認為這裡不存在品質妥協,因為 AI 只是在執行人類寫好的測試程序、不是憑空創造邏輯。更厲害的是,可以根據每次新的程式碼提交,自動調整測試重點,讓測試更有針對性。

antirez 在兩個真實專案上驗證了這個方法。第一個是 DwarfStar 推論引擎(一套分散式 AI 運算系統),讓 AI 代理去檢查分散式推論是否正常、效能有沒有退步。第二個是 Redis Arrays,讓 AI 模擬真實生產環境,測試資料複製、持久化(確保資料寫入磁碟不丟失)和多使用者同時操作的情境。以前這類測試需要工程師手動一步步執行,耗時費力;現在只要寫好 markdown 指引,AI 就能自動跑完整個流程。對比 AI 寫程式容易降低程式碼品質,AI 做 QA 反而沒有這個問題,因為測試邏輯還是人寫的,AI 只是執行者。

T3
AI 留你飯碗但悄悄縮薪水

有人常用「Jevons 悖論」(Jevons Paradox,一個 19 世紀經濟學說法:技術讓效率提升、東西變便宜,需求反而爆增,整體就業不減反增)來安慰大家不要怕 AI 搶工作。這篇文章的作者直接反駁這種說法,指出這個論點犯了一個根本錯誤:它只回答了「市場有沒有變大」,卻完全沒回答「市場變大的那塊餅,落進誰口袋」。AI 跟過去工業革命最大的不同,是它能直接「重寫整個生產架構」——把員工跟客戶切開,把員工多年累積的專業默會知識(那種說不清楚但非常值錢的經驗)直接轉成訓練 AI 的原材料。結果是員工確實沒失業,但在公司眼中愈來愈可替換,薪水談判籌碼一點一點流失,薪水緩緩往下走、工作條件愈來愈差。作者最後問的核心問題是:你是站在 AI 上方(拿 AI 當槓桿替自己加值)?還是站在 AI 下方(被 AI 一步步替代你的不可取代性)?

假設你是一家保險公司服務了十年的資深客服,精通各種刁鑽的客訴情境。公司導入 AI 客服系統後,整體服務量大幅擴大、客戶也因此增加——表面上市場確實長大了,Jevons 效應「成立」。但實際發生的是:你過去十年的應對方式、話術、判斷標準,都被用來標注訓練資料,等 AI 學會了,公司重新定義這個職位為「AI 監督員」,薪資重新定級為初階。你沒有被解雇,但薪水比五年前還低,工作內容變成盯著 AI 輸出有沒有出錯,完全用不到你的十年經驗。對比工業革命:當時蒸汽機雖然搶走某些工序,但操機器、維修機器還是需要人,技術無法直接吃掉工人腦袋裡的知識;AI 卻能把員工的隱性知識轉為資料、然後讓自己更強,等於讓你親手削薄自己的護城河。

T3
Anthropic 用 Claude 做自助數據分析

Anthropic 公開分享了他們內部如何用 Claude(一種 AI 對話助理,就像 ChatGPT 一樣會跟你對話)讓員工自己查詢、分析公司數據,不必每次都找工程師幫忙。他們發現,要讓 AI 準確回答數據問題,關鍵不在於「AI 會不會寫 SQL(一種讓電腦去資料庫撈資料的指令語言)」,而在於「有沒有給 AI 足夠的背景脈絡、明確的規範,以及驗證機制」。他們的做法包括:整理標準數據集(確保大家查的是同一份最新資料)、替每個欄位補充說明讓 AI 理解數字代表什麼,以及建立持續測試系統隨時抓出 AI 答錯的地方。最大的改善來自四件事:消除查詢時的模糊描述、防止資料過時失效、提升 AI 找到正確資料的精準度,以及透過不斷測試與回饋循環來修正錯誤。

假設公司裡一位行銷同事想查「上個月各地區的用戶留存率」,以前得開單子請工程師寫程式查詢,等個幾天才有答案。有了 Anthropic 這套做法後,同事可以直接問 Claude「幫我查上個月各地區留存率」,Claude 能透過語意層(一份把人話對應到實際資料表的對照表)找到正確的資料表、讀懂欄位定義,然後自動生成查詢程式去撈結果。跟舊做法比:以前 AI 可能因為欄位名稱不清楚、或公司內部有多個「留存率」定義而答錯;有這套規範後,AI 知道去查哪張標準資料表、這個公司對該詞的定義是什麼,答錯率大幅降低。

T3
AI 寫程式不能亂猜,人類要把關

Wes McKinney(Python 著名資料處理套件 pandas 的發明人)寫文章談了一個很多工程師正在踩的坑:「Vibe Coding(感覺系寫程式)」——就是把需求丟給 AI,讓它亂生程式碼,自己不太看就直接用。他說這樣很危險。相對地,他提出「Agentic Engineering(代理式工程)」才是正確做法:讓 AI 負責加快實作速度,但人類仍需深度介入需求規格制定、系統架構設計、測試驗證、程式審查,以及「什麼不該做」的決策。他的核心觀念是:AI 是加速器,不是替代工程師判斷力的東西。他實際使用 Superpowers、Roborev 等工具,搭配嚴格的測試習慣、token(AI 處理文字的計量單位)用量追蹤、以及長期維護規範,確保 AI 產出的程式碼是可靠、可維護的,而不是用完即丟的爛攤子。

假設你是一位產品工程師,想讓 AI 幫你快速寫一個「使用者登入驗證模組」。Vibe Coding 的做法是:把需求一口氣丟給 AI,看它生了什麼程式就直接合進主程式庫,不做 code review(程式碼審查)、不寫測試——結果兩週後有人發現驗證邏輯有漏洞,資料外洩。Agentic Engineering 的做法則是:先自己定義清楚規格(接受什麼輸入、拒絕什麼、出錯時怎麼辦),再讓 AI 根據規格生初稿,然後你親自 review 邏輯、補寫測試案例(包含邊界情況),最後才合進去。AI 可能幫你省了 60% 的初稿時間,但人類的工程判斷仍然全程在場,讓最終成品可靠。Wes McKinney 的論點是:少了這個把關流程,AI 越快越危險;加上這個流程,AI 才是真的有用。

T3
Amazon 讓 AI 評測標準答案可被挑戰

現在評估 AI 好不好,靠的是「benchmark(基準測試)」——就是一組題目加上標準答案,拿去考 AI,看它答對幾題。問題是這些標準答案是人工標的,有時候本身就標錯了,或者隨著知識更新變得不準確。Amazon 的研究團隊提出一個叫「audit-then-score(先稽核再評分)」的新流程,讓 AI 在被評分之前,可以「申訴」——提交具體證據說明它為什麼認為標準答案有誤,再由人類專家審查決定要不要修改標準答案。這種方式把 ground truth(就是「正確答案的來源」,以前被當成不可動搖的固定資料集)變成一個動態流程,可以隨著 AI 和人類的協作持續修正。採用這套流程後,人類專家的標注準確率從 60.8% 大幅提升到 90.9%,原因是專家不需要從頭找證據,而是改成「比較兩方說法哪個更有說服力」,這樣認知負擔大幅降低。

假設一個 AI 事實查核系統要回答「某政治人物是否曾在 2023 年做過某聲明」。傳統做法下,benchmark 的標準答案是「否」,AI 如果回答「是」就直接被判錯。但這個 AI 可能找到了一份當時的新聞稿確實有相關記錄。在 audit-then-score 流程下,AI 不只給答案,還必須附上這份新聞稿連結和引用段落,解釋為什麼它認為標準答案有誤。人類稽核員收到後,把 AI 的證據和原始標注者的理由並排比較——如果 AI 的說法更站得住腳,就更新 benchmark 裡的標準答案,然後才替 AI 評分。結果是:以前被視為「AI 答錯」的案例,可能其實是「benchmark 標錯了」,修正後 AI 的真實能力才被正確反映出來。Amazon 旗下的 DeepFact-Eval 系統用這套方法達到 83.4% 的準確率,遠高於傳統方法的 58.5%。

T3
LLM「睡眠」讓模型持續學習不遺忘

AI 模型訓練完畢後,知識就「凍結」了——你問它今天的新聞,它不知道;你教它新東西,它可能忘掉以前學的(這個現象在 AI 領域叫「災難性遺忘」)。2026 年同一週內有兩篇重要論文不約而同提出「讓模型睡覺」的概念:不是真的睡,而是設計一個「離線整理期」,讓 AI 在不對外服務時,把最近吸收的新資訊整理、消化、決定哪些要永久記住、哪些可以捨棄。卡內基美隆與馬里蘭大學的研究聚焦在讓模型清除舊記憶前先做幾輪深度「回想」運算;Google 相關研究者則設計兩步驟:先把短期知識固化成模型參數,再用模型自己生成的練習題複習加深印象。這讓 AI 不再只能選「完全靜止」或「即時更新(但可能崩潰遺忘)」,而是有了第三條路:收集經驗 → 離線消化 → 決定什麼值得長期記住。OpenAI 的 ChatGPT 也在 2026 年 6 月推出了類似的「Dreaming」背景記憶整理功能,顯示這個方向正從研究走向實際產品。

假設你每天用 AI 助理處理客服信件,它今天學到「某類客戶問退款時用某種措辭最有效」、記住了幾個公司特有用語、也知道某個客戶今天心情不好。傳統方式下,這些學習要麼對話結束後消失,要麼需要工程師花費大量時間重新訓練整個模型。有了「睡眠」機制,AI 在每天閒置時段自動整理:「這個退款措辭很有效」→ 寫入長期記憶;「這個客戶今天情緒狀態」→ 只保留本次對話不長期儲存。隔天 AI 比昨天更懂你的業務需求,卻不會因為加入新知識而忘掉之前學的東西——對比現在每次對話都「從頭開始」或者公司要花百萬預算定期重訓模型,差異非常明顯。

T4
T4
Notion 暫停 Anthropic 模型後恢復服務

Anthropic(開發 Claude AI 的公司,是 ChatGPT 背後 OpenAI 的主要競爭對手)旗下的 Claude 模型(Opus 4.7 和 4.8 版本)在週日發生基礎設施故障,導致多個依賴這些 AI 模型的服務出現大量錯誤。筆記軟體 Notion 偵測到異常後,主動暫停了所有 Anthropic AI 功能,以避免用戶持續看到失敗訊息;約 12 小時後,Anthropic 修復了底層基礎設施問題,Notion 隨即恢復服務。Notion 產品負責人表示,這次中斷的公告在 X(前 Twitter)上獲得約 1,200 次轉發,他對「這麼多人轉發」感到驚訝。這個事件提醒我們,現在愈來愈多商業軟體都深度依賴外部 AI 服務商,一旦 AI 後端出問題,整個應用的 AI 功能就會跟著癱瘓。

假設你平常用 Notion 寫工作日報,習慣點「AI 摘要」按鈕讓它幫你整理重點——那個週末,你點下去只會看到錯誤訊息,什麼都產不出來。這不是 Notion 自己的程式壞了,而是 Notion 後面串接的 Anthropic Claude 模型出現故障,Notion 為了不讓你持續遇到失敗,乾脆把 AI 功能整組關閉。這個邏輯和 AWS(亞馬遜的雲端服務)機房出問題導致大批網站一起當機完全一樣——中間供應商的基礎設施一倒,上層所有應用一起陪葬,用戶唯一能做的就是等對方修好。

T4
Apple Siri 相機掃帳自動分帳

Apple 在 2026 年的 WWDC(蘋果年度開發者大會)上宣布了一個新的 Siri 功能:只要拿 iPhone 相機對準餐廳帳單,Siri 就能自動辨識帳單上列出的每道菜,讓你點選「我點了哪幾樣」,然後直接透過 Apple Cash(蘋果系統內建的電子錢包,類似台灣的 LINE Pay)向同桌朋友發送付款請求,完全不需要手動計算各自該付多少。這個功能直接整合在 iPhone 的相機與 iMessage 系統裡,不需要另外安裝 Splitwise 或 Tab 這類分帳 APP,使用門檻比以往低很多。同一個 Siri 相機模式還能辨識食物並估算熱量等營養資訊。

你和三個朋友去餐廳聚餐,帳單共 2,400 元,四個人各點了不同的菜。以前你得盯著帳單、拿計算機一筆一筆算誰欠多少,再分別轉帳或當場收現金,很容易算錯、有人少付或忘付。現在只要打開 iPhone 相機,切到 Siri 相機模式,對準帳單,Siri 會列出所有品項;你點選自己的 A 套餐(600 元)和飲料(100 元),系統算出你的份額 700 元後直接發 Apple Cash 收款給你朋友,對方在 iMessage 裡確認自己點的品項後就能一鍵付款,全程不用打開任何第三方 APP,也不用手動輸入金額。

T4
Amazon AI 幫你設計客製商品

Amazon 在旗下購物 App 中新增了一個功能,讓你用 AI(人工智慧)描述想要的圖案,系統就會自動幫你生成設計,然後印在 T 恤、帽 T、Polo 衫、保溫杯等商品上。操作方式很直覺:打開 Amazon Shopping App,點右下角的 Alexa(Amazon 的 AI 語音助理)圖示,或在搜尋列輸入「customize」,用說話或文字描述你想要的圖案樣式,Alexa 就會生成圖案給你預覽。看到喜歡的設計後,可以繼續修改調整,滿意後直接加入購物車下單——設計圖案本身完全免費,你只需要付商品費用,透過 Prime 會員還能享有快速到貨。目前這個功能只開放給美國用戶使用。

假設你想幫家族旅遊做一批統一的紀念 T 恤:打開 Amazon App → 點 Alexa → 輸入「一隻卡通柴犬站在富士山前、下方寫 2026 家族旅遊」→ Alexa 幾秒生成圖案 → 你覺得字體太小,再輸入「把文字放大、改成橘色」→ 調整後滿意了,選好尺寸加入購物車 → 下單,Amazon 的 Merch on Demand 服務負責印製,Prime 配送到府。這份設計連結還能分享給家人,讓每個人各自選尺寸下單買一樣的款式。相比舊做法(找設計師改稿、上傳到 Printful 之類的客製平台、等一到兩週),整個流程從靈感到下單只要幾分鐘,完全不需要任何設計軟體的使用技巧。

T4
Notion AI 斷線 12 小時後恢復存取

Notion(一款常見的筆記與專案管理應用程式)的 AI 助理功能,內部使用了 Anthropic(開發 Claude AI 的公司)的語言模型(就是會對話、會生成文字的 AI)。2026 年 6 月初某個週末早上,Anthropic 的伺服器基礎架構出現問題,導致旗下多個 Claude 模型(包括 Opus 4.7 和 4.8)錯誤率飆升。Notion 為了保護用戶體驗,主動暫停了所有 Anthropic AI 模型的存取,使 Notion AI 功能在這段期間全面無法使用。約 12 小時後,Anthropic 修復了基礎架構問題,Notion 隨即恢復對 Claude 模型的存取,服務回復正常。

假設你平常用 Notion AI 幫你整理會議記錄、自動生成摘要或起草文章——在這次中斷的 12 小時內,當你選擇 Anthropic Opus 4.7 或 4.8 模型發出請求時,直接回傳錯誤,什麼也做不了。用戶無法自行解決,只能等 Notion 官方宣布恢復。這個事件揭示一個常被忽略的風險:當某個 app 的 AI 功能完全依賴單一外部 AI 服務商時,對方一旦出問題,你這邊的體驗就直接斷掉,跟 AWS 斷線影響半個網際網路是同樣的依賴結構。

T4
多數公司搞不清 AI 花多少錢

根據國際諮詢公司 KPMG 的調查,全球只有 26% 的企業能完整追蹤他們在 AI 服務(也就是 ChatGPT、Claude 這類人工智能工具)上花了多少錢。另外有 50% 的企業只有部分掌握,還有 22% 幾乎完全不清楚,直到帳單來了才知道。這個問題的核心在於 AI 服務的計費方式很特殊——按「token」(大致等於 AI 處理文字的數量,用多少算多少)計費,不像傳統軟體訂閱那種固定月費,用量一旦飆高,成本就很難預測。KPMG 表示,他們已有客戶的 AI 使用量在幾個月內暴增六倍,帳單跟著大幅飛漲。

假設一家公司導入 AI 客服系統,月初依過往估算預算,但某月因促銷活動導致詢問量暴增,AI 回答了十倍的對話量,token 用量也跟著爆炸。若公司沒有即時監控 AI 用量的儀表板,財務部門只能等到月底帳單來了才發現——原本預估花 5 萬,結果付了 30 萬。傳統 SaaS(像 Office 365 這種按月訂閱的軟體服務)是固定費用好管控,AI 服務的「用多少付多少」模式讓預算規劃變得困難,許多企業的財務長看到 Anthropic(Claude AI 的母公司)或 OpenAI 的帳單時才大吃一驚。分析師預測,這種帳單衝擊會在本季大量爆發。

T4
Instagram AI 機器人洩露 2 萬帳號

Meta(就是臉書、Instagram 的母公司)旗下 Instagram 上有一個 AI 支援聊天機器人(就是一個能自動回答用戶問題、處理帳號問題的 AI 程式),最近被揭露有嚴重安全漏洞。官方首度公開披露:至少 20,225 個 Instagram 帳號因此遭到波及。這個漏洞存在近七週,問題出在機器人處理「忘記密碼」時,會把密碼重設連結寄到任意的電子郵件信箱,根本沒有驗證那個信箱是否真的屬於該帳號的主人。更諷刺的是,Meta 當初推出這個 AI 聊天機器人時,特別強調它是提升帳號安全性的重大進步——結果反而製造了一個新的安全破口。

假設你有一個 Instagram 帳號,密碼忘了,你點選「忘記密碼」,Instagram 的 AI 機器人接手後,竟然把密碼重設連結寄到某個和你完全無關的陌生人信箱。那個陌生人收到連結後,就可以直接進入你的帳號:看你的私訊、修改你的個人資料,甚至把你的帳號改成他的。這件事持續了將近七週才被發現,期間超過兩萬個帳號都暴露在這個風險下。相較之下,舊版人工客服或傳統密碼重設系統,連結只會寄到帳號實際登記的信箱,並不會有這種隨機亂寄的問題。

T4
進前沿 AI 實驗室需要什麼能力

一位曾在前沿 AI 實驗室工作的工程師分享了他對進入 OpenAI、Anthropic、DeepMind 這類頂尖 AI 公司所需能力的觀察。他的核心論點是:「做研究」和「做工程」在前沿 AI 實驗室裡其實是同一種能力的兩個面向——那就是「在沒有地圖的情況下前進」的能力。所謂研究的成果,不是發出幾篇論文,而是在沒有確定答案時仍能持續推進的能力;所謂工程的功力,也不是把所有技術細節都記在腦海裡,而是能把複雜的系統壓縮成幾個讓你能預測現實的有用抽象概念。換句話說,這些頂尖 AI 公司最在乎的是:當沒有人知道正確答案時,你能不能獨立摸索出方向?

假設你是一位有五年經驗的軟體工程師,習慣在有清楚規格書和現成框架的環境下工作。進入前沿 AI 實驗室後,主管可能只給你一個模糊目標:「讓這個模型在多步驟推理任務上的準確率提高 10%」,但沒有人告訴你怎麼做——因為如果有人知道怎麼做,那早就做了。你需要自己設計實驗、猜測哪個改法有希望、嘗試失敗後調整假設,反覆循環直到找到突破口。這和傳統軟體工程的「寫需求→寫程式→測試→上線」完全不同,前沿 AI 工作的本質是:你就是那個在沒有標準答案、沒有前例可循的情況下,必須自己搞清楚的人。這種能力不好在履歷上寫,但可以在面試或作品集裡展示:你有沒有在資訊不完整、沒有導師帶路的情況下,獨立完成過一個有實質成果的研究或工程專案?

T4
LLM 實際運作原理解析

這篇文章用白話解釋像 ChatGPT 這類大型語言模型(LLM,就是現在各種 AI 對話工具的核心技術)在電腦裡到底是怎麼運作的。文章指出,現代 LLM 幾乎都是把同一種叫做「transformer block(轉換器模組,一種讓 AI 能理解文字意義與順序的運算單元)」的結構一層一層疊起來構成的。從你打字輸入,到 AI 吐出回應,中間會經過九個主要步驟:把文字切成數字代碼、把代碼轉成向量(就是一大串數字,用來表達這個詞的「意思」)、用 attention 機制(讓每個字能「看」其他字,理解上下文關係)、再通過儲存知識的神經網路層,最後輸出下一個最可能出現的字。文章也強調:現在主流的 LLM 架構其實大同小異,真正讓 GPT-4、Claude、Llama 彼此不同的,是各自用什麼資料訓練、訓練規模多大、以及訓練完之後做了哪些微調(fine-tuning,就是針對特定任務或人類反饋再做優化)。

假設你在 ChatGPT 輸入「The cat sat on the」,AI 輸出「mat」。這中間發生了什麼?第一步,文字被切成數字代碼(例如「cat」= 代碼 7304),叫做「tokenization(分詞)」。第二步,每個代碼被轉成一排 4096 個數字的向量,讓「cat」和「kitten」的向量在數學空間裡靠得很近,因為意思相近。第三步,attention(注意力)機制讓「the」這個字去「看」前面所有字,發現後面應該接一個名詞。第四步,神經網路裡儲存的知識推斷「mat」是合理的補全。第五步,輸出每個可能下一個字的機率分布,選機率最高的輸出。整個過程每次只產生一個字,然後把剛才的輸出當輸入繼續算,所以你才會看到 AI 是一個字一個字慢慢「打」出來的。

T4
AI 代理安全治理嚴重落後

AI 代理(Agent,就是能自己做決策、主動執行任務的 AI 機器人,例如自動回郵件、代替人員操作系統、或幫公司處理客服工單)正被企業大量快速部署,但安全管控完全沒跟上速度。全球頂尖管理顧問公司 Deloitte(德勤)調查發現,只有 21% 的企業對「自主 AI 代理」有成熟的管理制度,而高達 73% 的企業表示擔憂 AI 帶來的安全與隱私風險。白話說,大多數公司一邊讓 AI 代理自動做事,一邊卻沒有足夠的機制來限制它的權限、監控它的行為、或追蹤它做了什麼,一旦出問題根本不知道怎麼追責或止損。

假設一家電商公司部署了 AI 代理自動處理退貨退款——AI 能存取客戶資料、修改訂單狀態、自動核准退款。若沒有事先設定「單筆退款上限是多少」「哪些帳戶資料 AI 有權看」「每筆操作都要留紀錄」這些治理規則,有人一旦發現 AI 代理的授權漏洞,就能觸發 AI 自動執行大量退款或洩露客戶資料,而公司完全不知道。相比之下,有成熟治理的企業會提前設定 AI 的最小操作權限、強制記錄每次行為、並設定異常自動告警,讓 AI 超出預期行為時立刻被發現。

T4
AI搜尋靠分類法 推論靠本體論

這篇文章討論在設計 AI 系統時,「分類法」(Taxonomy,把概念整理成樹狀目錄,像「電器→家電→冰箱」這種有層次的分類方式)和「本體論」(Ontology,更嚴格的知識結構,定義事物間的規則與限制,例如「冰箱必須有電力來源」「一件商品不能同時是汽車也是冰箱」)應該如何分工。向量搜尋(Vector Retrieval,就是現在 AI 助理回答問題前「先去資料庫查一查」的技術,也叫 RAG)搭配分類法的豐富文字時效果最好,因為自然語言描述能幫 AI 找到語意相近的內容。而當 AI 需要做邏輯推論——比如根據規則自動判斷某件事是否符合多個條件——就需要本體論提供的嚴格規則(稱為 Axiom,公理或限制條件)。作者建議把兩者「連接但分開」:讓業務人員管理分類概念,讓資料工程師維護本體論的邏輯規則,同步但不混在一起,避免自由修改破壞 AI 的推論完整性。

假設你在建一個企業內部的 AI 問答系統,員工可以問問題。有人問:「哪些供應商同時通過 ISO 認證且公司登記在歐盟?」用傳統分類法搜尋,AI 會在「供應商」分類下靠文字相似度撈段落,但「同時符合條件 A 且條件 B」這種邏輯組合往往撈不準,可能回出不完整或不相關的答案。若改在本體論中定義「供應商→認證→地區」的關係規則,AI 可以沿規則一步步推論:此供應商有 ISO 認證?是。位於歐盟?是。→符合條件,列入結果。分類法讓搜尋自然流暢,本體論讓推論嚴謹可靠,兩者分工才能建出既對一般用戶友好、又能處理複雜邏輯查詢的 AI 系統。

T4
Obsidian 筆記可跑 SQL 供 AI 讀取

Obsidian 是一個廣受歡迎的個人知識管理筆記軟體,很多人把工作筆記、研究資料、每日記錄都存在裡面。現在有個新外掛(安裝到軟體裡的附加功能),叫做 DuckDB + MotherDuck plugin,讓使用者可以直接在筆記裡寫 SQL 語法(SQL 是一種查詢資料庫的指令語言,例如「列出銷售額前五名的產品」),外掛會自動執行查詢、把結果變成表格貼回筆記裡。它可以連到你電腦本機的檔案或雲端資料表,也支援設定每天、每週自動重新執行更新資料。最重要的是,這個設計讓 AI Agent(就是可以自動執行多步驟任務的 AI 助理,例如幫你自動查詢、整理、回答問題的 AI 小幫手)也能讀取這些動態更新的筆記資料,讓 AI 在回答問題時不必憑空猜測,而是直接查你自己的資料庫。

假設我在 Obsidian 筆記裡有一份每天更新的支出紀錄檔案,想每週自動整理「哪一類花費最多」。以前我得開 Excel 或另外啟動資料庫軟體,把資料搬進去查完、再把結果複製貼回筆記。現在用這個外掛,我可以直接在筆記裡寫一段 SQL 查詢,比如「選出各類別總金額、由高到低排列」,儲存後外掛自動執行並把排行表格渲染在筆記下方,還能設定每週一早上自動重跑、更新數字。更進一步,我可以讓 AI Agent 連進這個 Obsidian 知識庫,Agent 就能讀到這張每週自動更新的支出表,當我問「這個月我哪裡超支了?」時,AI 直接根據最新數據回答,而不是靠記憶憑空猜,差別是準確的具體數字 vs. 模糊的通用建議。

T4
AI 說對的把握有多準

當 AI(人工智慧)回答問題時,它通常有一個內部的「信心值」,就是它覺得自己答對的機率。理想狀況下,AI 說「我 90% 確定」,實際上就應該有 90% 的情況是對的。但研究發現,大型語言模型(LLM,就是 ChatGPT、Claude 這類聊天 AI)普遍存在「過度自信」的問題——例如 GPT-4o-mini 有高達 66.7% 的錯誤,發生在它說自己「80% 以上把握」的那些回答裡。「校準(Calibration)」就是修正這個落差的技術,讓 AI 的自信程度和它實際答對的機率真正對齊。這篇文章介紹三種常用的校準方法:最簡單的「溫度縮放(Temperature Scaling)」(把 AI 的輸出數值整體乘以一個調整比例)、快速但較粗糙的「Platt 縮放」(用數學函數映射,只需少量資料就能運作)、以及最精確但需要充足資料的「等張迴歸(Isotonic Regression)」(用演算法學習最理想的修正曲線,但資料少時容易過度擬合、反而失準)。

假設一家醫院用 AI 輔助醫生篩選病人報告,AI 看完每份報告後說「我 85% 認為這份報告需要立刻處理」。如果沒有校準,這個 85% 可能其實對應的真實準確率只有 60%,醫生可能因此低估緊急程度,甚至過度依賴這個數字而疏忽判斷。用「溫度縮放」校準後,當 AI 說 85% 時,真實準確率就真的接近 85%,醫生可以更有把握地決定是否優先處理。對比舊做法(直接信任 AI 的原始信心分數),校準後的 AI 讓人類決策者能真正信任這個百分比數字,減少「AI 說高分但實際答錯」的危險情況發生。