2026 年 6 月,國際頂尖科學期刊《自然》(Nature)刊出一篇整合報導,彙整三份獨立研究的共同發現:長期藉助 AI(人工智慧)工具完成工作的醫師和工程師,一旦沒有 AI 輔助,核心專業能力會明顯下滑。第一份研究來自《刺胳針》(Lancet)旗下的消化系期刊,發現臨床醫師在 AI 輔助三個月後,不靠 AI 自行偵測腫瘤的能力下降了 6%。第二份研究由 Shen 與 Tamkin 進行,讓 52 名程式設計師(負責寫電腦程式的工程師)分成「有 AI 幫忙」和「沒有 AI 幫忙」兩組,結果有 AI 輔助的那組在理解程式邏輯的測驗中,分數比對照組低了 17%,而且速度也沒有因此變快。第三份由 Gerlich 主導,針對 666 名各年齡層的受試者調查,發現重度使用 AI 者在批判性思考(也就是自己獨立分析、判斷資訊真偽的能力)的自評分數上明顯偏低。研究人員提出「認知卸載」(cognitive offloading,意思是把思考外包給 AI,大腦就不再主動運作,新技能無法真正記住)的概念來解釋這個現象,並指出唯有自己費力解題,技能才能真正內化——教育心理學稱之為「有益的掙扎」(productive failure)。
假設你是一位放射科醫師,醫院導入了 AI 輔助系統幫助你在 X 光或內視鏡影像中自動標記疑似腫瘤的區域。用了三個月後,你的日常工作效率看起來沒有太大變化,但某天系統臨時故障,你必須完全靠自己判讀影像。根據 Lancet 研究,你在沒有 AI 的情況下實際偵測腫瘤的準確率,平均已比三個月前下滑了 6%。同樣的情況也發生在工程師身上:平常有 AI 自動補全程式碼(就是 AI 邊看你打字邊猜下一行要寫什麼,幫你自動填完),看起來工作順暢,但若公司要你獨立接手一段完全陌生的程式、讀懂並修改它,理解能力已比完全不用 AI 的同事低了 17%。差異在於:「被動使用 AI」(讓 AI 直接給答案、自己不思考)會讓大腦停止練習;「主動使用 AI」(先自己嘗試、再用 AI 驗證或辯證)才能真正學習。研究建議先在沒有 AI 的環境中練熟基礎技能,再導入 AI 提升效率,並刻意在某些練習場合把 AI 關掉,保留那段「費力思考」的時間。
世界頂尖數學家陶哲軒(Fields Medal 得主,Fields Medal 是相當於數學界諾貝爾獎的最高榮譽)在 2014 年立下三個預言:大規模數學協作將成常態、電腦能自動驗證數學證明、論文將改用電腦可讀格式取代傳統 LaTeX(數學界慣用的排版語言)。12 年後,三項預言全數成真,而 AI(人工智慧)是主要推手。具體來說,Lean4(一種讓數學家把證明寫成電腦可以直接判讀的格式、並由電腦自動確認對錯的工具)搭配 AI,讓全球數學家協作速度大幅提升——2023 年,一項名為「PFR 猜想」的困難數論問題(數論就是研究整數性質的數學分支),由全球社群透過 AI 輔助在 23 天內完成形式化證明。到 2026 年,陶哲軒本人也坦承:「AI 在研究中節省的時間已超過浪費的時間。」這個發展的重要性不只限於數學本身,因為密碼學(保護網路通訊安全的技術)、材料科學、藥物設計等領域,全都依賴尚未解決的數學難題做為基礎;若 AI 能加速這些底層數學的突破,實際應用的轉化速度也可能跟著大幅縮短。
2024 年啟動的「Equational Theories」計畫是最具說服力的示範。這個計畫要驗證 4,694 條代數等式(代數的基本運算規則,例如「A + B 是否永遠等於 B + A」這類問題)之間,約 2,200 萬條「A 能不能推導出 B」的邏輯關係。若靠人工逐條驗證,以每位數學家每天能處理數十條來估算,完整驗證需要數十年以上,而且人工審稿容易出現主觀誤差。有了 AI 輔助加上 Lean4 自動化驗證系統,全球研究者協作,48 小時內就完成了 99.866%,第 57 天主項目基本收工。更出乎意料的是:過程中意外發現了一個全新數學概念——「magma cohomology(原群上同調)」,這是電腦在自動驗證時發現人類原本沒有預期存在的新數學結構,顯示 AI 不只加快驗證速度,還可能在過程中幫人類「看見」原本看不見的數學規律。
Anthropic(開發 AI 對話系統 Claude 的美國公司)發布了「Project Fetch」第二階段研究,測試最新的 Claude Opus 4.7 模型(就是一種高階 AI 對話系統,能理解指令、自動寫程式)能否讓完全沒有機器人背景的一般員工,獨立操控四足機器人(四條腿、像狗一樣行走的機器人)完成取球任務。第一階段在 2025 年 8 月用舊版 Claude Opus 4.1 測試過相同任務,這次第二階段重跑以比較新舊模型的差距。結果非常驚人:讓 Claude Opus 4.7 主導操控的團隊,平均完成速度是「沒有 AI 協助的專業團隊」的 37.7 倍,是「有舊版 Claude 協助的一般員工」的 18.9 倍。原本需要 3 到 6 小時的機器人初始設定步驟,在 Opus 4.7 的協助下縮短到不到 10 分鐘。
假設你是一名完全不懂寫程式的行政人員,公司給你一臺四足機器人,要你讓它自動偵測並撿起地上的球。傳統做法需要專業機器人工程師花幾小時設定感測器、撰寫數百行控制程式碼,一般人根本無從下手。在 Project Fetch 第二階段的實驗中,參與的一般員工只需把攝影鏡頭和 LiDAR 感測器(雷射測距設備,用雷射光偵測物體距離與位置)接上機器人,再把任務描述輸入給 Claude Opus 4.7,剩下的全部交給 AI——包括撰寫控制程式、設計球體偵測邏輯、讓機器人自動走過去撿球。最終 Opus 4.7 只寫了 1,045 行程式碼就達成目標,而由人類工程師完成同樣任務則寫了 10,309 行。具體差距就是:原本需要一整天的專業工程工作,現在變成非專業人員在 10 分鐘內啟動、當天完成的事。Anthropic 指出,這預示著「物理代理 AI(能在真實世界操控實體設備的 AI)」時代正在到來。
Anthropic(開發 Claude 對話 AI 的美國公司)的前沿紅隊(專門研究 AI 能力邊界的內部研究小組)在 2026 年 6 月發表「Project Fetch 第二階段」研究報告。這次研究讓 Claude Opus 4.7(Anthropic 目前最強的 AI 模型之一)在幾乎沒有人類介入的情況下,獨立操控一臺四足機器人(有四條腿、像機械狗一樣行走的機器人)完成六項工程任務,包括連接感測器、自己撰寫控制程式、讓機器人偵測並追蹤地上的球。結果顯示 Claude Opus 4.7 完成這些任務的速度,比最快的人類工程師團隊快了約 20 倍,比有 Claude 協助的人類團隊也快了約 19 倍。這是 AI 代理人(agent,指能自主完成複雜連續任務、不需人逐步指揮的 AI)開始滲入真實物理世界的重要研究里程碑。
研究人員給 Claude Opus 4.7 一個初始任務描述,之後幾乎只負責插上電源、輸入第一道指令,以及在系統要求時點擊批准按鈕。Claude 接手後自行完成:連接攝影機和 LiDAR 感測器(雷射測距設備,用來偵測周圍物體的距離與位置)、從頭撰寫手動控制程式、開發球體偵測演算法(讓機器人「看到」球的 AI 視覺程式),並嘗試指揮機器人自主走去撿球。完成五項任務的時間對比如下:沒有 AI 協助的工程師團隊需要 361 分鐘才能完成四項,有舊版 Claude 協助的人類需要 264 分鐘完成五項,而 Claude Opus 4.7 獨自完成五項只花了平均 12 分 7 秒。Claude 自己一共寫了 1,045 行程式碼,且幾乎每次第一次執行就成功——人類有 Claude 協助時還寫了 10,309 行卻花了更久。唯一的未竟之處是「真正把球夾起來」的最後一步,因為那需要即時感知與精細動作調整,這類閉環控制(依據感測回饋即時修正動作的控制方式)仍是當前 AI 的挑戰,但研究團隊認為以現有模型能力再加上適當工具就能突破。
Anthropic(開發 ChatGPT 競爭對手 Claude 的美國 AI 公司)的安全研究團隊發表了「Project Fetch 第二階段」研究報告,讓最新的 Claude Opus 4.7 模型(就是一個可以思考、下指令、寫程式的強大 AI)自主操控一隻四足機器狗,完成連接攝影機、感測器、手動控制程式、路徑監控、偵測球、自主撿球等六項任務。結果顯示,AI 單獨完成這些任務的速度,比「沒有 AI 輔助的人類團隊」快了 37.7 倍,比「有 AI 輔助的人類團隊」快了 18.9 倍——全程只花了 9 分 35 秒,而人類團隊需要 3 到 6 小時。更驚人的是,AI 自動產出的程式碼只有 1,045 行,僅是人類團隊版本的十分之一,但效果相當。這項研究標誌著 AI 代理人(AI agent,指能自行規劃步驟、採取行動完成任務的 AI)已開始從純數位世界延伸進入實體物理環境。
假設你是一位完全沒有機器人工程背景的研究助理,想讓一隻機器狗自動偵測並撿起地上的球。以往你需要:先花數小時查教學文件、手動撰寫幾千行程式碼、逐一測試感測器連接是否正確——整個流程至少要半天以上。現在,你只需在 Claude Code(一種讓 AI 直接幫你寫程式並控制硬體的工具)輸入「請讓機器狗偵測並撿球」,然後 Claude Opus 4.7 會自行查詢文件、規劃步驟、寫程式、偵錯、送出指令——不到 10 分鐘即可完成整套系統。相比之下,同樣任務讓人類工程師從零開始做需要 3~6 小時;以往 AI 只能「輔助」人寫程式,現在則能「完全取代」人類去完成完整任務流程。
這篇研究報告揭露了高通(Qualcomm)的行動裝置 AI 晶片內部黑盒機制。所謂 NPU(Neural Processing Unit,就是手機裡專門跑 AI 任務的小晶片),高通一直沒有公開其編譯器(把 AI 模型翻譯成晶片看得懂的指令的程式)的運作細節。研究者利用 Ghidra(一套開源的逆向工程工具,可以把編譯好的程式碼反推回可讀形式)搭配 Claude Code(一種 AI 輔助程式碼分析工具)對高通從未公開文件的 NPU 編譯器進行深度剖析,找出三個關鍵機制:記憶體排程採用數學優化演算法、運算排程以最小化數據存活時間、內建效能模擬器可預測晶片表現。最危險的發現是「隱性精度降級」——編譯器可能在使用者完全不知情的情況下,把 AI 模型的數值精度從較高的 float32(32 位元浮點數,精度較高)偷偷降成較低的 FP16 或 BF16(精度各只有一半),結果導致同一款 AI 模型在新舊兩款晶片上,記憶體存取量竟相差高達 33 倍,效能與耗電也跟著劇烈波動。這對在手機上本地執行 AI 模型(例如讓 LLM(大型語言模型,就是 ChatGPT 這類能對話的 AI)離線運作)的開發者,提供了過去完全看不到的診斷工具。
假設你要把一個輕量 AI 模型(例如 Qwen 0.8B,約 8 億參數的小型語言模型)部署到搭載高通晶片的 Android 手機上。用官方 SDK 編譯後,你發現模型推論速度比預期慢很多,電池消耗也高,但完全不知道原因在哪——因為高通的編譯器是黑盒,沒有任何內部說明文件。有了這篇逆向工程研究的發現,你現在知道可以去查 `spillFillBufferSize` 這個內部指標:如果它不是 0,代表模型沒有完整裝進晶片的片上高速記憶體,需要持續從外部主記憶體(DDR,速度慢很多)搬運資料,這才是速度慢的真正原因。你也知道要確認張量(AI 模型裡數值計算的基本單元)是否被靜默降精度,這可能讓模型在某些晶片上默默計算出錯誤結果。相比過去只能憑感覺猜測、反覆改參數,現在有了明確的診斷指標,大幅縮短除錯時間。
一位自學成才的 AI 工程師 Tom Di Mino 在 2026 年 6 月宣稱,他已破解線形文字 A(Linear A,米諾斯文明留下的未解古文字,距今超過三千年,全球語言學界至今無人讀懂)。他並非直接叫 AI「幫我翻譯這些古字」,而是使用 Claude Code(Anthropic 公司開發的 AI 程式設計助理,能幫使用者寫程式碼)來建立 Python 腳本(一種自動化程式),系統性地對兩大古文字數位資料庫執行約 10 萬次假設測試。他的主張是:線形文字 A 對應一種已滅絕的閃族語言(希伯來語、阿拉伯語等都屬於這個語系),是現代希伯來文的前身。研究最終產出了 40 個字符讀音提案與 408 個詞的詞彙表,並聲稱已送交 Rutgers 與 Cambridge 大學的語言學專家審查,但兩校迄今未公開發表任何聲明。語言學界對此普遍持保留態度,因為現存語料僅約 7,500 個字符,資料量極少,即使統計工具再強,也很難排除「過度配適」(overfitting,即結果只是剛好對上現有資料,並不反映真實語言規律)的問題。
假設你對某套古文字有研究假說,想驗證「這套文字是否符合某語言族群的音韻規則」。過去,業餘研究者即使有想法,也因缺乏程式設計能力,無法對資料庫執行大規模統計測試,這種工作只有受過訓練的語言學家或程式工程師才能做。Di Mino 的做法是:對 Claude Code 說「幫我寫腳本,連接 GORILA 與 SigLA 兩個古文字資料庫,然後系統性跑假設測試,找出哪些字符組合最符合閃族語言音韻模式」。Claude Code 扮演的是「統計測試基礎設施建構者」,幫他把想法變成可執行的程式,讓他能跑 10 萬次測試,篩出統計上最有可能成立的字符讀音對應。對比舊做法:以前沒有程式背景的人根本無從下手;現在只要能清楚描述需求,AI 工具就能幫你把想法化為實際的資料分析流程。這個案例揭示了一個新趨勢:AI 工具正在大幅降低業餘研究者進入專業學術領域的技術門檻——但工具變強不代表結論正確,資料本身的稀缺才是無法繞過的根本瓶頸。
AI 技術的普及讓詐騙犯罪成本大幅下降,過去需要國家級間諜機構才能執行的「量身訂製詐騙」,現在任何有一點技術能力的人都做得到。根據 2024 年研究,用 LLM(就是 ChatGPT 這種會對話的 AI)執行「魚叉式釣魚」(針對特定人物量身寫的詐騙信件,比一般垃圾郵件難以識別許多)的成本只要每封約 0.04 美元,比以前便宜了幾十倍。同年香港發生一起案例,詐騙犯用即時換臉技術(深偽,Deepfake)假冒公司高層開視訊會議,讓員工匯出 2,500 萬美元(約臺幣 8 億)。這意味著過去兩個判斷「對方是否可信」的直覺——「個人化信件很費人力,通常是真人寫的」與「視訊看到臉就可以相信」——如今都已完全失效,任何人都必須重新建立防禦思維。
假設我是一間有 20 名員工的小型投資基金財務人員,某天老闆透過通訊軟體傳訊說要緊急匯款給某合作對象,並附上一封看起來是「老闆親自寫給我」的確認信,信裡提到我上週參加的某個會議細節。用 AI 之前,詐騙犯要花幾小時查我的背景、自己打信,一次只能詐騙幾個目標;現在詐騙犯只需把幾百個人的 LinkedIn 資料餵給 AI,AI 自動生成幾百封「量身打造」的詐騙信,每封成本不到 5 臺幣,甚至再安排一通「老闆臉孔」的深偽視訊電話確認。傳統做法「打電話給老闆本人確認」已不可靠,因為聲音和臉都能即時偽造。目前最有效的防禦是改用「硬體安全金鑰」(FIDO2/WebAuthn,一種插入電腦 USB 孔才能完成登入驗證的實體裝置),其加密機制內嵌網域驗證,即使詐騙犯架設假網站中繼攻擊,金鑰也不會認可,AI 無法繞過這層保護。
Palmier Pro 是一款從頭以 AI 協作為核心設計的 macOS 原生影片編輯器(NLE,非線性影片編輯器,就是 Final Cut Pro 或 Adobe Premiere 這類可以任意拖拉排列影片片段的剪輯軟體)。它最大的特點是內建了一個 MCP 伺服器(MCP,Model Context Protocol,一種讓 AI 助理與外部應用程式溝通的標準介面協定),讓 Claude、Cursor 等 AI 助理可以直接連線進軟體,在時間軸(timeline,剪輯軟體裡那條橫向排列所有片段的工作區)上自主執行剪輯、重排、生成素材等動作,而不是隻提供建議讓你自己手動操作。軟體本體免費且開放原始碼(GPLv3),內建的生成式 AI 功能(讓 AI 自動生成影片或圖像素材)則需訂閱 Pro 方案,每月 29 美元。由 Y Combinator(全球頂尖新創加速器,孵化過 Airbnb、Dropbox 等知名公司)2024 年夏季班校友公司 Palmier 開發,2026 年 6 月 17 日正式公開,目前僅支援搭載 Apple Silicon 晶片的 Mac 電腦,且需要 macOS 26(Tahoe)系統。
假設我是一位 Podcast 影音頻道主,錄完一場 40 分鐘的來賓訪談,想快速剪出一段 8 分鐘的精華版上傳。傳統做法是自己一段一段聽完、手動標記要保留的時間點,再一個個拖拉片段拼接,通常要花 3 到 5 小時。換用 Palmier Pro 的做法是:打開軟體並讓 Claude 連上內建的 MCP 伺服器,然後用文字指令說「把訪談中提到創業故事和產品功能的片段抓出來,拼成一段 8 分鐘的精華,開頭要有自我介紹」。Claude 會直接在時間軸上移動、裁切、重組片段,幾分鐘內產出一版草稿供你確認微調。與舊做法相比,差別不在於 AI「告訴你怎麼剪」,而是 AI 真的幫你動手把軟體操作完成,你只需要最後確認成果即可。
WorkClaw 是紐約新創公司 Workmate Labs 在 2026 年 6 月推出的 AI 職場協作工具,它改變了 AI 助理的使用方式——不是讓你一對一跟 AI 問答,而是讓公司可以在 Slack(一種企業常用的即時通訊軟體)或 Microsoft Teams 裡「正式聘用」有職稱、有主管關係的 AI 同事,這些 AI 同事被稱為「Claw」。每個 Claw 都有自己的雲端作業環境(稱為 ClawOS),能連接超過三千種應用程式,可以主動去執行任務,也可以等待有人用 @ 標記才回應——就像真正的同事一樣。多個 Claw 之間可以透過內建的 ClawMail(AI 之間的後端溝通管道)和 ClawChat(即時訊息層)互相協調、共同完成跨部門工作,而且具備持久記憶(就是說 AI 能記住公司的工作脈絡和歷史),組織知識不會因為人員異動而流失。目前平臺仍在 Early Access(早期測試階段),文件尚未完整公開,定價與服務水準協議也尚未揭露。
假設你的公司每週需要整理客戶回饋、更新 CRM(客戶關係管理系統,就是記錄客戶互動的軟體)並通知相關主管。以往你要嘛指派員工手動處理,要嘛每次重新打開 ChatGPT、從頭解釋公司背景再操作。使用 WorkClaw 的話,你可以在 Slack 裡建立一個「客服分析 Claw」,給它「客服部門 AI 分析師」的職稱,讓它持續監看客戶回饋頻道——它會每週自動摘要重點、更新試算表,偵測到異常數據時主動 @ 通知主管,完全不需要你開口要求。因為 Claw 有跨專案持久記憶,它知道公司的 SOP(標準作業流程)和歷史脈絡,不像傳統 AI 每次對話都要重新說明背景,大幅降低重複溝通的成本。
Nathan Lambert(Interconnects 電子報作者)與 Kevin Xu 聯合撰文,反駁「應禁止開源 AI」的論調。開源 AI 是指模型的程式碼與權重(就是 AI 學會的所有知識參數)都公開、任何人都能免費下載使用的人工智慧模型。文章指出,全球 90% 的軟體建立在開源基礎之上,開源貢獻的經濟產值已超過 8 兆美元,開源是整個現代軟體產業的根基。若美國針對訓練算力(就是訓練 AI 所需的龐大運算量)超過特定門檻的模型實施禁令,其他國家仍會繼續發布這些模型,禁令根本無法阻止模型在全球流通,反而讓美國喪失對開源 AI 發展方向的主導權。創投機構 a16z 更指出,其投資組閤中有 80% 的新創公司,目前正大量使用中國的開源模型(例如 DeepSeek、Qwen 等),若美國貿然封鎖開源 AI,等同把全球開源 AI 的話語權拱手讓給中國。此外,開源 AI 的「可審計性」(程式碼公開,安全漏洞可被社群發現並修補)恰恰是安全保障,禁令反而削弱了這項優勢。
假設一家臺灣的教育科技新創,想開發一個能批改學生作文、給出個人化建議的 AI 工具。在開源 AI 存在的情況下,他們可以下載 Llama(Meta 釋出的開源大型語言模型,也就是免費可自由修改的 AI 模型)部署在自己的伺服器,每月伺服器成本可能只需幾千元臺幣,還能針對臺灣國語教學特性微調(就是用自己的資料再訓練)模型,讓批改結果更貼切。更重要的是,因為程式碼與模型都公開,若有人擔心 AI 是否會把學生的作文資料傳到境外,可以直接審查程式確認。但若開源 AI 被禁止,這家新創只能付費使用 Anthropic 或 OpenAI 的 API(應用程式介面,就是透過網路呼叫大廠 AI 的付費管道),定價、使用條款、資料政策全由大廠單方面決定,一旦對方漲價、停服或修改條款,新創毫無替代選項,這才是真正的技術依賴風險——而禁止開源 AI,正是在製造這個風險。
一家名為 Qontour 的網頁設計公司,未經授權將作家 John Koenig 的創意著作《The Dictionary of Obscure Sorrows》(晦澀悲傷詞典,一本收錄 311 個自創情緒新詞的書)全部內容搬到自己的網站,並利用 GPT-4(OpenAI 的大型語言模型(就是 ChatGPT 背後的技術))加入「讓使用者自己生成新詞彙」的功能,還把書中原有的手繪插圖全部換成 AI 生成的圖片。該公司甚至宣稱「網站上每一頁都是用 Claude(Anthropic 公司開發的 AI 助理)撰寫」。更嚴重的是,這個冒牌網站在 Google 搜尋結果中排名超過原作者的官方網站、出版社頁面和維基百科,連 ChatGPT 和 Gemini(Google 的 AI 助理)被問到官方網站時,都把使用者導向這個盜版網站。Qontour 同時在網站上嵌入 Amazon 聯盟推薦連結,從每一筆透過盜版網站產生的書籍購買中悄悄抽取佣金獲利。
假設你剛讀到「sonder」這個詞——這是 Koenig 創造的詞,意思是「突然意識到街上每個陌生人都有一段跟你一樣複雜的人生」——你想查清楚這個詞的完整定義及更多類似詞彙。你在 Google 搜尋,跳出來排名第一的是 Qontour 架的盜版網站;你改問 ChatGPT「《晦澀悲傷詞典》的官方網站在哪裡」,ChatGPT 也把你導向同一個假站。你以為找到了原作者的正式網站,點進去瀏覽了幾個詞條,還順手點了頁面上的購書連結——實際上流量與佣金全進了 Qontour 的口袋,而原作者 Koenig 完全不知情、也沒獲得任何分潤。出版社 Simon & Schuster 雖曾兩度提出 DMCA 侵權通知(就是著作權法規定的下架要求),但效果有限,盜版網站至今仍在運作。這個案例直接說明:AI 工具不只可以用來創作,也可以被用來快速複製、偽裝並取代原創內容,而 AI 聊天機器人對「哪個才是官方來源」往往無從辨別。
美國作家 John Koenig 花多年心血寫出的著作《晦澀悲傷詞典》(一本收錄 311 個自創情緒詞彙的創意詞典),遭到一家名為 Qontour 的網頁設計公司未經授權全數複製到自己的網站上。更嚴重的是,對方不只是複製貼上——他們用 DALL-E 2(一種能根據文字自動畫圖的 AI 工具)替換原書插圖,用 GPT-4(OpenAI 開發的語言 AI,就是 ChatGPT 背後的技術)加入「AI 自動造詞」互動功能,還用 Claude(Anthropic 公司的 AI 助理)撰寫整個網站的文案說明。這個山寨網站不但在 Google 等搜尋引擎的排名超越了 Koenig 的官方原版網頁,連 ChatGPT 和 Gemini(Google 的 AI 問答助理)也誤將這個盜版網站列為官方來源推薦給用戶。Qontour 甚至透過嵌入亞馬遜聯盟代碼,從讀者點擊購書的行為中直接獲取佣金。這個事件讓外界看到:當 AI 工具讓「複製、重包裝他人創作」的成本趨近於零,傳統著作權保護機制已嚴重跟不上新型剽竊手法的速度。
假設你是一位獨立作家,用多年時間出版了一本口碑不錯的詞典,某天你發現搜尋自己書名時,第一頁出現的竟然不是你的官方網站,而是另一個陌生網站——點進去一看,你的每一個詞條、每一段解釋都原文照錄,只是圖片換成了 AI 生成版,還多了一個「讓 AI 幫你造新詞」的互動功能,讓網站看起來比你的「更豐富」。最糟的是,當有人問 ChatGPT「哪裡可以找到《晦澀悲傷詞典》官方資源」,它推薦的是那個盜版網站而非你的原版。這正是 Koenig 親身遭遇的情況。傳統剽竊是人工逐段複製,費時費力,容易被發現;但現在,任何人都可以在數小時內用 AI 工具將一整本書「重製升級」,成本幾乎為零,搜尋引擎和 AI 助理又難以辨別真偽——獨立創作者因此直接失去了自然流量與收入,卻幾乎無法即時阻止。
《晦澀悲傷詞典》(The Dictionary of Obscure Sorrows)是美國作者 John Koenig 花十年創作的書,專門為那些難以言喻的情感創造新詞彙,例如「對陌生人生命的莫名哀愁」這類概念。一家名為 Qontour 的設計公司在未取得授權的情況下,把書中幾乎全部的 311 個詞條抄到自己的網站上,並且把原書精心製作的手工拼貼插圖全換成了用 DALL-E 2(OpenAI 開發的 AI 圖像生成工具,可依文字描述自動畫圖)產出的圖片。他們還在網站加入由 GPT-4(ChatGPT 背後的語言模型)驅動的功能,讓使用者可以「自己創造新詞彙」,並聲稱整個網站內容都是用 Claude AI(Anthropic 公司開發的對話式 AI)撰寫。更嚴重的是,ChatGPT 和 Gemini 等 AI 搜尋工具在被問到這本書時,竟把盜版網站列為官方資源,進一步搶走原作者的流量與曝光度。
假設你是一個部落客,花了十年寫了一本關於生活哲學的書,內含大量原創插圖與文字。現在有人把整本書搬到自己的網站,用 DALL-E 2 把幾百張插圖一鍵替換成 AI 生成的圖,再加上「AI 幫你生成更多詞條」的功能,讓網站看起來更豐富完整。結果 ChatGPT 被問到「這本書的官網在哪」時,推薦了侵權網站而非你的原版網站。舊做法是費力抄書、手動換圖,整個過程耗時費力;有了 AI 工具之後,替換幾百張插圖只需要幾分鐘,生成「更多新內容」幾乎不費工夫,而 AI 搜尋引擎又無法辨別真偽,直接把流量引導到侵權方。這個案例具體呈現了 AI 工具如何大幅降低大規模著作侵權的成本,同時又讓 AI 搜尋系統無意中成為幫兇。
一家名為 Cosine(Y Combinator W23 梯次孵化的新創公司)的團隊,針對 ChatGPT、Claude 這類主流 AI 模型遇到資安攻擊類需求就直接拒絕的痛點,自己訓練了一個專門執行滲透測試(就是模擬駭客攻擊、主動找出系統漏洞的方法)的 AI 模型。他們以開放權重的 Kimi K2.6(月之暗面推出的大型語言模型,任何人都可以下載其模型權重自行部署)為基礎,用十年份的 CTF(Capture the Flag,一種資安競賽,選手需要破解有意設計漏洞的系統來得分)解題紀錄做 SFT(監督式微調,就是讓模型大量學習特定領域的示範答案),再透過 RL(強化學習,讓模型只有在「真的成功找到並利用漏洞」時才得到獎勵)進一步訓練,使其真正學會如何偵測與利用系統弱點。這個工具以 CLI(命令列介面,即在終端機裡輸入文字指令來操作的工具)形式提供,分兩種模式:一是靜態掃描(只讀程式碼找問題、免費到 200 萬 token(就是 AI 處理文字時計算用量的單位));二是主動滲透測試(對沙盒環境實際發動攻擊並驗證漏洞是否真的可利用,目前仍限制開放)。目標是讓中小企業也能用上原本只有大型企業才能負擔得起的 AI 資安工具。
他們以 Google 開源的模擬銀行程式 Bank of Anthos 為例,對它執行了一次靜態掃描。AI 找到一個整數溢位漏洞(integer overflow,就是數字計算結果超過系統能儲存的最大值後會「繞回」變成負數,導致程式邏輯判斷出錯):銀行轉帳時,amount(金額)加上 fee(手續費)若溢位就會變成負數,讓「餘額是否足夠」的驗證誤判為通過,使用者因此可轉出自己根本沒有的金額。傳統做法需要僱用資安顧問手動審查程式碼,費用高、時間長且結果往往是模糊的風險評分;用這個 AI 工具則能直接輸出「第幾行、哪個檔案」的具體位置,讓工程師可以立即定位並修補問題,而不是面對一份叫人不知從哪裡下手的報告。
菲爾茲獎(數學界最高榮譽,相當於數學界的諾貝爾獎)得主陶哲軒是全球公認最頂尖的數學家之一,2 歲教鄰居數數、10 歲拿下國際數學奧林匹克銅牌、31 歲獲菲爾茲獎。早在 2014 年,他就預言數學研究未來會走向三個方向:數百人規模的大型線上協作、電腦自動驗證每一步邏輯正確性、以及用電腦看得懂的「形式化語言」取代現在的 LaTeX(一種撰寫數學論文的排版語言)。如今 12 年過去,AI 的爆發讓這三個預言正在一一實現。研究者開始大量使用 Lean(一種能讓電腦逐行核對數學推理是否正確的工具,相當於數學界的程式碼編譯器),搭配全球分散式協作,讓以往要花幾年才能完成的數學工作縮短到幾天。2024 年「等式理論(Equational Theories)」專案更在 48 小時內分析了超過 2200 萬組代數等式之間的邏輯關係,這種規模在 AI 出現之前根本不可能達到。
「等式理論」專案是最具體的例子。數學家想回答一個問題:在各種代數系統(代數系統就是定義了某種運算規則的數學結構,例如整數的加法或乘法規則)中,哪些等式可以從其他等式邏輯推導出來?過去這類問題靠少數頂尖研究者花幾年時間逐一推導,而且結果很難確認有沒有出錯。2024 年,陶哲軒與全球數十位志願者合作,把 2200 萬個等式關係拆解成幾千個小任務,分頭處理;每一份子結果再由 Lean 系統自動驗證邏輯正確性。最終 48 小時內完成基本篩選,產出的是機器可讀的形式化證明——未來任何人都能一鍵確認每一步邏輯,不用再依賴「期刊評審員沒找到錯誤」來擔保正確性。相比舊做法:同樣規模的工作要靠少數專家手動推導,可能需要數年,且結果難以獨立驗證。
一家名為 Catnip(貓薄荷)的中國 10 人新創團隊,由 3 位核心研究員花費 2 個月打造出一款叫做 MaineCoon(緬因貓)的 AI 影音生成模型(就是能讓 AI 自動產出有畫面又有聲音的影片的程式)。這個模型專門針對社交媒體的短影音應用場景設計,最大亮點是「流式生成」(streaming,意思是不用等全部算完才看到結果,而是像水流一樣邊算邊輸出):輸入指令後不到 1 秒就能看到第一幀畫面,而且音訊和視訊同時產出。在速度上,MaineCoon 在單張 H100 顯示卡(一種用來跑 AI 的高階運算晶片)上達到每秒 47.5 幀,比同類型流式模型快約 7 倍(競品普遍只有 6~7 幀/秒)。更驚人的是成本:每秒生成費用低於 0.001 美元,只有 Google Veo 3(另一款知名 AI 影片生成工具)的兩千分之一。這個模型有 220 億個參數(參數是 AI 模型複雜度的衡量單位,越多代表能力越強),卻能在單張顯示卡上部署,門檻相當低。
假設你是一位社群媒體內容創作者,想製作一段「在海邊日落時分彈吉他的年輕女孩」的影音短片,配上輕柔的海浪聲和音樂。用傳統的 AI 影片生成工具(如 Veo 3 或 Sora),你通常需要等待數十秒到數分鐘才能看到結果,而且若不滿意還要從頭來過、費用也高昂。換用 MaineCoon,輸入文字描述後 1 秒內畫面就開始出現,音訊同步生成,理論上可持續產出 10 分鐘以上的連續內容;若途中你改變主意想換成「在咖啡廳裡彈吉他」,可以即時修改指令,模型隨即調整方向,不需要重新等待。整個過程每秒耗費不到 0.001 美元,製作一段 60 秒的短片成本大約不到臺幣 2 元,比起競品動輒數十美元的費用,差距達數千倍。
DVD-JEPA 是一個極精簡、完全可重現的開源 AI 專案,展示了一種叫做 JEPA(Joint-Embedding Predictive Architecture,聯合嵌入預測架構,可以理解為「讓 AI 在腦中建立抽象物理規律而非死記畫面」的技術)的世界模型如何運作。所謂「世界模型(world model)」,是指讓 AI 能夠預測環境未來狀態的技術——就像人類即使閉著眼也能想像丟出去的球會落在哪裡,AI 也能靠學到的規律「想像」接下來會發生什麼。這個專案選用最簡單的場景來示範:一個 16×16 像素大小的彈跳 DVD logo,讓 AI 學習它的物理行為(位置、速度、反彈)。整個模型可在普通電腦 CPU 上約 10 秒完成訓練,甚至可直接在瀏覽器中運行,完全不需要 GPU。除了預測下一幀位置,它還能偵測「異常」——若 DVD logo 突然瞬移,模型的「驚訝值」會暴增 88 倍,因為這不符合它學到的物理規律。此架構與 Meta 的 V-JEPA 2(Meta 用來訓練機器人理解物理世界的大型 AI 系統)使用完全相同的訓練目標,等於是業界頂尖系統的縮小、可讀版本,方便研究者和開發者學習核心概念。
假設你想搞懂 Meta 的 V-JEPA 2 到底是怎麼運作的,但那套程式碼龐大複雜難以入手。你可以改用 DVD-JEPA 作為學習踏板:執行 `git clone https://github.com/mandarwagh9/dvd-jepa`,安裝套件後執行 `python -m dvd_jepa.train`,10 秒內訓練完畢,完全不需要雲端算力。訓練完成後,你可以啟動「夢境模式」,讓 AI 在腦中的潛在空間(latent space,即它對世界的抽象數學描述)想像 DVD 未來 30 幀會彈到哪裡,誤差僅約 0.028 像素。還可以手動注入「DVD 突然瞬移」的異常事件,親眼看到模型的驚訝訊號暴增 88 倍。若不想安裝任何東西,直接開啟瀏覽器前往 dvd-jepa.vercel.app 即可互動體驗。相比之下,過去要理解 JEPA 架構,只能硬啃艱澀的學術論文,沒有這樣從零到尾可執行、可視覺化、還附 LaTeX 論文原始碼的最小範例——DVD-JEPA 填補了這個「概念到程式碼」的理解缺口。
Signal(一款以隱私保護聞名的加密通訊軟體,許多人用來取代 LINE 或 WhatsApp)的主席 Meredith Whittaker 公開警告大眾,不要對 AI 聊天機器人(就是像 ChatGPT 這種能用自然語言對話的 AI 程式)產生情感依賴或過度信任。她直言這些系統「不是你的朋友,不是有意識的生物,也不是有感知能力的對話者」,強調許多人誤解了 AI 的本質。她特別點名微軟的 AI 助理 Copilot(微軟把 AI 整合進 Windows 和 Office 的功能),指出當 AI 助理被授予存取信用卡、瀏覽器紀錄、通訊軟體、聯絡人名單和行事曆的權限時,等同於開了一個「後門」(backdoor,即企業可從後臺悄悄取得大量個資的隱密入口)。她也擔心過度依賴 AI 思考會讓人喪失獨立判斷能力,因為這些系統的回答本質上只是對網路上既有資訊的「平均化整合」,並非真正的推理或創造。
假設你開始使用微軟 Copilot 的「AI 幫你買聖誕禮物」功能(微軟執行長曾公開提出這個構想):為了完成這項任務,Copilot 必須取得你的信用卡資訊來付款、瀏覽器歷史紀錄來瞭解你的喜好、訊息軟體內容來掌握你和家人說了什麼、聯絡人名單來知道禮物要送給誰,以及行事曆來確認時程。Whittaker 指出,這樣一來,一家商業公司就同時掌握了你幾乎全部的個人生活資料。相比之下,如果你自己花 20 分鐘上網搜尋比價、手動刷卡結帳,商家只能取得這一次的購買紀錄,而非你的整個生活輪廓。這個案例清楚說明瞭「AI 便利」背後潛藏的隱私代價:你省下的每一分鐘,可能都是用個人資料換來的。
John Jumper 是因開發 AlphaFold 而在 2024 年獲得諾貝爾化學獎的 AI 研究員。AlphaFold(由 Google 旗下 AI 研究公司 DeepMind 開發的模型)能根據基因序列,自動預測蛋白質(生物體運作的基本分子機器)的精確立體結構——這是困擾生物學家數十年的難題,AlphaFold 的出現讓它可以在幾分鐘內解決。Jumper 在 DeepMind 服務近九年後,於 2026 年 6 月宣佈離職,轉投競爭對手 Anthropic(就是開發 Claude 這個 AI 對話助理的公司)。同一週,AI 界另一重量級人物 Noam Shazeer(Character AI 共同創辦人、Transformer 神經網路架構關鍵開發者之一,Transformer 是所有現代大型語言模型(LLM,也就是 ChatGPT、Claude 這類會對話的 AI)的技術基礎)也在同期離開 DeepMind,選擇加入 OpenAI,外界因此高度關注 Google DeepMind 的人才流失問題。
假設你是生物醫藥公司的研究人員,想開發一種針對特定蛋白質的新藥,首先需要知道那個蛋白質的立體結構,才能設計出能精準嵌入的藥物分子。傳統做法(例如 X 光結晶學)耗時數年、費用動輒數百萬美元;AlphaFold 上線後,只要輸入蛋白質的胺基酸序列(基因密碼翻譯出來的字串),幾分鐘內就能得到高精度的立體結構預測,大幅加速藥物開發前期工作。Jumper 正是在博士畢業後僅六個月就主導了這項技術突破的科學家。他加入 Anthropic 後,業界預期他可能將「AI 用於科學發現」的研究方向帶入 Anthropic——但目前其具體職位與職責尚未對外公佈。
牛津大學與史丹佛大學的研究團隊共同開發了一套叫做「Data2Story」(又稱 Data Journalist Agent,數據新聞代理)的 AI 系統,它能把一份 CSV 檔案(就是試算表格式的原始數據,例如 Excel 匯出的資料)直接轉換成一篇完整的互動式新聞報導。整個系統由七個 AI 代理(agent,可以想成七個分工合作的 AI 小員工)像新聞編輯室一樣分工協作,有人分析數據、有人上網查資料、有人核實事實、有人寫文章、有人製作圖表。最終產出的文章中,93% 的陳述都附有可查證的原始來源連結,讓讀者能自行驗證內容是否屬實。在一項讀者研究中,74% 的受試者表示更喜歡 AI 生成的文章,而非人類記者撰寫的同主題原版報導;不過面對人工精心製作的深度長篇調查報導時,AI 的表現則打成平手。
假設你手上有一份記錄全臺各縣市空氣品質數據的 CSV 檔,裡面有幾千筆 PM2.5、臭氧濃度、監測站位置的數字,你想把它變成一篇給一般民眾看的新聞。用傳統做法,記者需要先自己讀懂數據、找規律、上網補充背景資料(例如去年同期對比、相關政策),然後手動畫折線圖、撰寫稿件、再逐句核實來源,整個流程可能花上好幾天。交給 Data2Story 之後,七個 AI 代理同步分工:一個代理分析 CSV 找出關鍵趨勢(例如「臺中市 PM2.5 比去年同期升高 18%」),另一個代理自動上網搜尋政府報告和媒體報導作為佐證,第三個代理驗證每句話是否有來源可查,最後整合成一篇附有互動地圖、折線圖,以及每段話皆有引用連結的完整報導,全程只需輸入那份 CSV 檔即可。
OpenAI 更新了 ChatGPT(就是 OpenAI 推出的熱門 AI 對話工具)的排程管理功能。以前 ChatGPT 的定時自動任務分散在各處、難以一覽,現在新增了一個叫做「Scheduled」(排程清單)的側邊欄頁面,讓使用者在同一個地方看到所有正在執行中的排程任務,可以隨時暫停、修改或刪除,管理起來更直覺。更進一步的是,新的「研究任務」功能讓 ChatGPT 能夠定期自動上網搜尋或查看你連結的應用程式,只有在偵測到真正有新變化時才發通知,不會一直打擾你。原本的「Pulse」功能(舊版的週期性摘要推送)將隨之停用。這個更新讓 ChatGPT 朝「真正的 AI 私人助理」方向又邁進一步——不只能回答問題,還能在背景主動幫你盯著事情、有變化再告訴你。
假設你是行銷人員,想隨時掌握競爭對手官網的動態,一有新文章或產品更新就要知道。以前你得每天手動造訪對方網站,或者設定 Google Alerts(谷歌的網頁變動通知服務),但功能有限、常常漏報或漏洞。現在可以在 ChatGPT 建立一個排程研究任務:「每天早上 9 點搜尋 XX 公司官網,看看有沒有發布新內容」,ChatGPT 會在背景自動執行,只有真的找到新東西才主動通知你。所有這類定時任務都集中列在「Scheduled」頁面,要暫停某個任務或改時間,直接在那裡操作即可,不需要重新設定整個流程。相比舊做法,省去每日手動查找的時間,也不會因為忘記查而錯過重要資訊。
一位創客把氣體感測器(偵測空氣中煙霧濃度的裝置)接到本地運行的語言模型(就是像 ChatGPT 一樣會對話的 AI,但跑在自己的電腦上,不需要網路或付費 API)。感測器讀到的煙霧濃度,會即時調整 AI 說話的三個「隨機性旋鈕」:temperature(溫度值,越高 AI 說的越天馬行空)、top_p 和 top_k(決定 AI 每次選字的範圍有多寬)。煙霧越濃,這三個數值就越高,機器人說話就越跳脫、越不重複,像醉了一樣;煙霧散去後,AI 自動恢復正常輸出。這個創意機器人外殼是一臺行李箱,整個系統(感測器→參數調整→語音輸出)全程自動,無需人工幹預。貼文在 Reddit 的本地 AI 社群獲得約 1,500 個讚,引發了「物理感測器動態控制 AI 行為」的跨界討論。
我想在藝術展覽裝一臺會說話的互動機器人。傳統做法是手動把 AI 的 temperature 固定在 0.7,機器人說的話條理分明但整晚大同小異,沒人第二次互動。改用這個方案:在展場多加一顆 MQ-2 煙霧感測器(約 5 美元),當舞臺施放乾冰煙霧效果時,感測器讀到高濃度,AI 的 temperature 自動從 0.3 飆到 1.8,機器人說話立刻變得更癲狂、更詩意、輸出永不重複;煙霧散去後,AI 自動回到正常狀態。對比:舊做法機器人說話一成不變,新做法機器人「情緒」跟著展場氣氛走——有煙霧的高峰時段互動最精彩,成為觀眾打卡亮點,而整個改動的硬體成本不超過 20 美元。
歐盟人工智慧法案(EU AI Act,一套管理 AI 使用方式的法律規範)要求業者在使用「深偽內容」(deepfake,指用 AI 合成或修改、讓人難以辨別真假的圖片或影片)時,必須加上透明度標示,讓消費者知道這是 AI 生成的。但代表 Amazon、H&M、IKEA 等零售巨頭的歐洲商業協會 Eurocommerce,正在遊說爭取讓「AI 生成的廣告圖片」豁免這項規定,理由是:用 AI 生成一張沙發放在客廳裡的情境照片,根本不是在「欺騙消費者」,與深偽造假是兩回事。德國電商平臺 Zalando 更直接揭露,旗下平臺高達九成的行銷素材已是 AI 生成的,顯示這個問題的規模已非常龐大。整件事的核心在於:歐盟對「什麼是深偽」的定義至今仍模糊不清,導致零售業者面臨法規遵循的灰色地帶。
以 Zalando 為例,他們想為一款藍色沙發製作「情境照」,以往需要租攝影棚、佈置場景、請攝影師拍攝,現在改用 AI 直接生成一張光線良好的客廳空間並置入沙發圖。這張圖在法律上算不算「深偽」?如果算,Zalando 就必須在廣告上加上「此為 AI 生成內容」的標示;如果不算,則什麼都不用做。目前歐盟的定義尚未明確排除這類純商業用途的 AI 產品圖,導致零售商必須在合規成本與法律風險之間抉擇——而 Zalando 九成廣告素材都是 AI 生成的現況,讓這個問題的影響範圍難以估量。