2026年5月23日 星期六

微軟取消使用 Claude Code


微軟給員工試用 Claude Code 六個月,經過這段時間後,工程師大多選了 Claude Code;但是,微軟卻決定把它砍了。大多數報導抓的角度是公司政治和商業套利,但我認為這則消息最重要的訊號不是那裡,而是在成本。


真正的重點是 token 計費的成本已經讓公司撐不住。Hedgie(@HedgieMarkets)點出微軟砍掉 Claude Code 的原因是 token-based billing 讓成本變得無法承受——連一家擁有近乎無限雲端資源的公司都撐不住。而且這不是個案。Uber CTO Praveen Neppalli Naga 證實,Uber 在四個月內就燒光了整個 2026 年的 AI 預算,原因正是 Claude Code 的採用率從 32% 一路衝到 84%(一個 5,000 名工程師的組織),每名工程師每月 API 成本落在 500 到 2,000 美元之間,Uber 自己的說法是「回到白板重新規劃」。


所以可以清楚看見:工具越好用、採用率就會衝得越快,但是 token 帳單也會衝得越快。微軟和 Uber 是同一個現象的兩個資料點,agentic coding 的「按 token 計費」模式正在撞上企業預算的天花板。


回到事件本身。2026-05-14,The Verge 的 Tom Warren 獨家報導: 微軟 Experiences + Devices 部門副總 Rajesh Jha 發了一封內部 memo,「6/30 前將砍掉大部分 Claude Code 授權,全員改用自家 GitHub Copilot CLI」。E+D 這個部門負責的是 Windows、M365、Outlook、Teams、Surface 這些產品線,影響幾千名員工。脈絡要回到 2025-12:當時微軟針對 E+D 部門同時開放 Claude Code 跟 Copilot CLI 讓員工試用,Jha memo 自己說目的是「在真正的工程流程裡 benchmark 兩個工具,搞清楚哪個比較適合我們的團隊」。六個月後結果出來,The Verge、Windows Central、TechRadar、The Decoder 各家報導跟 Tom Warren 的內部來源都指向同一件事,員工大多偏好 Claude Code 勝過 Copilot CLI。


官方說法是要統一使用的工具鏈,「我們對自家工具才可以有完整控制,可以直接跟 GitHub 一起調整成符合微軟自己的 repo、流程、安全要求」。這個說法成立,但放回成本這條主線會看得更深。微軟改用自家 Copilot CLI 不只是品牌一致性——掌握 harness 就是掌握 token 燒錢的速度。Claude Code 是 Anthropic 控制的產品,token 怎麼燒、燒多少,微軟管不到;換成自家 harness,微軟才能優化 token 用量、把成本壓回可控範圍,而且後端模型仍然可以選 Claude。


不過,對 Anthropic 其實沒差。被砍掉的是按 token 計費的產品/訂閱層,也就是成本撐不住的那一層。模型 API 那層沒變:員工換到 Copilot CLI 之後仍然可以選 Claude 當後端模型,M365 裡的 Claude 整合照常運作,2025-11 簽的 Foundry deal 也照常。成本問題是產品層的問題,不是模型層的問題,這正是它對 Anthropic 沒差的原因。被換掉的是 Anthropic 的產品介面,不是模型本身。


這跟「Anthropic 被微軟切割」是兩件事。媒體標題很容易寫成 Anthropic 被微軟踢出去,但實際發生的事情是微軟挑了 Claude 模型仍然要繼續用、但 Anthropic 的產品介面換成自家的。這個區分對理解模型廠跟平台廠的關係很重要:模型可以是商品,產品介面才是平台廠想自己掌握的層。


對企業 AI 工具規劃,這件事蠻值得注意的:當你內部最受歡迎的 AI 工具是按 token 計費,「好用」和「養得起」是兩件事。微軟和 Uber 已經先撞上這道牆,每名工程師每月燒掉上千美元 token 的成本壓力遲早會得被處理。現在用得開心的工具,明年的預算還養不養得起是另一回事。


來源:

- Hedgie(@HedgieMarkets): https://x.com/HedgieMarkets/status/2057531661785628841

- Uber 四個月燒光 2026 AI 預算 — Briefs: https://www.briefs.co/news/uber-torches-entire-2026-ai-budget-on-claude-code-in-four-months/

- Tom Warren X scoop: https://x.com/tomwarren/status/2055000505923871219

- Microsoft cancels Claude Code licenses — Windows Central: https://www.windowscentral.com/microsoft/microsoft-cancels-claude-code-licenses-shifting-developers-to-github-copilot-cli-a-move-likely-driven-by-financial-motives

- Microsoft pulls Claude Code licenses — The Decoder: https://the-decoder.com/microsoft-pulls-claude-code-licenses-and-pushes-developers-back-toward-its-own-ai-tool/

- Microsoft Resells Anthropic's Tech at a 65% Premium. It Just Canceled the Free Version — Major Matters: https://majormatters.co/p/microsoft-claude-code-walkback-cowork-resale

- Microsoft may discontinue Claude Code internally — TechRadar: https://www.techradar.com/pro/microsoft-may-discontinue-claude-code-internally-as-it-looks-to-push-users-towards-github-copilot


Google I/O 2026

2026/5/19 Google I/O 2026 盛大登場,從我的角度來看,這次 Google I/O 2026 的真正主角不是 Gemini Omni 那段影片,是 Antigravity 2.0 完全取代 Gemini CLI


每年 I/O 結束我都會問一個問題:這場 keynote 之後,開發者明天的工作流程會不會變。今年 5/19 ~ 5/20 在 Shoreline Amphitheatre 那場,答案是會,而且變動的幅度比過去幾年都大。


大多數人很容易被 Gemini Omni 那段影片生成 demo 搶走目光。Demis Hassabis 把它定位成「從任何輸入創建任何內容」,單一架構原生處理 video、audio、image、text,跨模態 reasoning 之後產出單一輸出。可以用對話編輯影片,角色、物理性質、先前的編輯在多輪對話中保持一致;對重力、流體、運動的理解明顯改善;使用者可以建自己的 avatar 拍片,建立時要錄一段念數字以防 deepfake。首發 Omni Flash 一次最多生 10 秒影片,每個輸出內嵌 SynthID 浮水印加 C2PA Content Credentials,從 Gemini app、YouTube Shorts、AI 創作工作室 Flow 進入。


這段 demo 適合上新聞,但對大多數工程師的日常沒有直接影響。會改變開發者明天工作流程的另一條線,是 Google Antigravity 2.0。


Antigravity 過去是附在 IDE 內的 agent 插件。這次升級成獨立 desktop app 加完整生態系,分成四塊:Antigravity Desktop 是圍繞 agent orchestration 設計的獨立 app,不是傳統 IDE;Antigravity CLI 完全取代 Gemini CLI,原本的 Agent Skills、Hooks、Subagents 都保留,Extensions 改名 Antigravity plugins;Antigravity SDK 開放程式化存取,跑的是 Google 內部產品用的同一套 agent harness;Managed Agents 透過 Gemini API 與 AI Studio 提供,跑在 Google 託管的環境上。Enterprise 那條線整合進 Gemini Enterprise Agent Platform。


技術層面看,新工具支援動態 subagents 平行 workflow、scheduled tasks 背景自動化、多輪 session 狀態保存、原生語音指令。


產品層面看,Google 公開選擇跟進 Claude 和 Codex:未來開發者跟 LLM 互動的單位從「我問一句、它答一句」改成 agent harness 跑一段,把多個子任務分派下去,自己處理中間的失敗、重試、狀態。


而這次,底層模型也跟著換。新發表的 Gemini 3.5 Flash 是「最新模型家族第一款,結合 frontier intelligence 與 action」,主打便宜加為 agent workflow 設計,成本大約是同等前沿模型的 1/2 到 1/3。這個價格是 Antigravity 2.0 能跑得起來的前提,agent 工作流的特性是會反覆呼叫模型,模型成本不壓下來,整個 platform 就只能服務小眾。


還有幾個比較不顯眼的工具也一起發布。Code Mender 是自動找漏洞並修補的安全工具,目前邀請外部專家測試中。Google AI Studio 加上原生 Android 支援、Workspace 整合、行動 app。Gemini API 新增 Interactions API。這幾個消息放在一起,隱約可以看到 Google 在補的是「從模型到生產系統」中間的那一段,也就是測試、安全、整合、行動端。這段過去是 Vercel、LangChain、Cursor 這些公司在做的事,Google 現在自己來。


消費者端的更新則有自己的節奏。Gemini Spark 是一般用途 AI agent,定位 24/7 personal agent,「在你指示下執行動作」。Daily Brief 是 Gemini app 每日簡報。Universal Cart 是跨網站智能購物車,agentic commerce 的基礎建設。搜尋結果加入 Search Information Agents 主動整理。Android XR 智慧眼鏡確定秋季正式推出,具備導航、訊息、拍照、Gemini live demo。Android Halo 把 agent 智能整合進狀態欄。Google Pics 是 Google Workspace 的新設計工具。SynthID 加 C2PA 的 AI 生成內容識別則擴展到更多場景,確保內容的安全。


訂閱方案部分則多了一階。新增 Google AI Ultra 月費 $100 USD,給 dev、creator、power user。


把這些放在一起看,2026 的 Google I/O 跟 2025 之前最大的差別是產品定位。過去 Google 講 AI,講的是 Gemini 變強了,更好的 benchmark、更長的 context window、更多模態。今年講的則是 AI agent,是在你指示下執行動作,是跑一段、做完一件事、回報結果。從 Omni 的多模態原生產出,到 3.5 Flash 為 agent workflow 設計的成本結構,到 Antigravity 2.0 全棧取代 Gemini CLI,到 Spark、Universal Cart、智慧眼鏡這些消費者入口,整套東西指向同一個產品形態。


來源:

- Google I/O 2026 官方 collection: https://blog.google/innovation-and-ai/technology/developers-tools/google-io-2026-collection/

- I/O 2026 developer highlights: https://developers.googleblog.com/all-the-news-from-the-google-io-2026-developer-keynote/

- Gemini Omni 詳細介紹: https://techcrunch.com/2026/05/19/googles-gemini-omni-turns-images-audio-and-text-into-video-and-thats-just-the-start/

- Antigravity 2.0 詳細介紹: https://www.marktechpost.com/2026/05/19/google-launches-antigravity-2-0-at-i-o-2026-a-standalone-agent-first-platform-with-cli-sdk-managed-execution-and-enterprise-support/


2026年5月21日 星期四

NVIDIA H200 為何無法出貨中國?真正原因不是美國禁令

美國批准每家中國大廠買 75,000 顆 H200,總額度可達 75 萬顆,一顆都沒出貨。


事情經過大致是這樣。美國商務部今年放行了大約十家中國公司買 Nvidia 的 H200,名單包含阿里巴巴、騰訊、字節跳動、京東,連聯想和鴻海這些經銷商也拿到許可,每家上限七萬五千顆。額度全用滿的話理論上是七十五萬顆的量,這是 2023 年底美國收緊管制以來,開給中國最大的一筆。但根據路透 2026-05-14 的報導,截至五月中,沒有任何一顆 H200 真的送到中國買家手上。


擋下來的是北京自己。中國政府要國內廠商先暫停 H200 訂單,把資源留給國產晶片。美國商務部長 Howard Lutnick 在參議院聽證會上直接說,中國中央政府還沒讓這些公司買,因為要把投資集中在自己的產業上。國務院同期發布了兩項供應鏈安全規定,要求企業全面排查對外國技術的依賴。


我覺得這個轉折才是這件事真正的訊號。過去幾年的劇本是美國管制、中國想盡辦法買,Nvidia 為了保住中國市場一路做出 H800、H20,每次都是一個剛好合規的降規版本,H200 也是這條線上的產物。Nvidia 整套商業策略是建立在「中國一定還是會想買」這個假設上的。當北京主動把一個合規產品擋在門外,這個假設整個垮掉。靠再做一個降規版本、靠政策層面再談一輪,都救不了這個結構性問題。


讓中國敢這樣做的底氣,是國產替代真的開始跑起來了。DeepSeek 公開說最新模型針對華為的 Ascend 晶片做了優化,這件事的意義很實際。實驗室裡跑得起來不代表能上量產,一個前沿模型廠願意把工程資源花在 Ascend 上面優化,等於告訴市場 Ascend 已經能在真實生產環境跑起來,而不只是 demo 等級的概念驗證。騰訊也宣布加大國產 GPU 的資本支出。


另一邊還有「Trump tax」這個變數。這次的安排是 Nvidia 要把 H200 對中銷售營收的 25% 給美方,而且晶片要先過境美國本土才能繼續往中國走。北京擔心晶片在過境期間被動過手腳,這個顧慮在中央政府的層級被當作真實的安全風險處理。三件事疊在一起:合規產品被擋、Ascend 軟體生態起步、過境環節有顧慮,方向就很清楚了。


對台廠這條供應鏈,影響已經發生。Nvidia 在 2026 年三月把台積電原本配給 H200 的產能轉去做下一代的 Vera Rubin(Financial Times 引述兩名知情人士的報導),因為它不想再卡在美中之間的灰色地帶,寧可把產能放到市場前景清楚的產品上。鴻海和聯想雖然拿到 H200 的經銷許可,但訂單出不了貨,許可現在等於只是一張紙。中國市場一度佔 Nvidia 營收超過兩成,現在剩下約 5%,黃仁勳自己說,Nvidia 在中國 AI 加速器的市佔已經實質歸零。


華為這邊的時程表是 Ascend 950PR 在 2026 年第一季、960 在 2027、970 在 2028,HBM 也開始用自研的 HiBL 1.0 跟 HiZQ 2.0。脫鉤要走多快,要看接下來一兩年華為的量產良率跟軟體生態能不能撐住規模化部署,這個我還沒有定論,要看實際部署數據。


有一件事已經可以確定。當一邊把對方最想要的東西批准賣給你,另一邊選擇不要,雙方都認定,未來自己要用的算力得長在自己家裡。


來源:

The Next Web, US clears H200 sales to 10 Chinese firms, but not a single chip has shipped (2026-05-14): https://thenextweb.com/news/nvidia-h200-china-licences-huang-beijing-trip

Business Standard / Reuters, US clears Nvidia H200 chip sales to Chinese firms, deliveries yet to begin (2026-05-14): https://www.business-standard.com/world-news/us-clears-nvidia-h200-chip-sales-to-chinese-firms-deliveries-yet-to-begin-126051401840_1.html

Asia Times, Nvidia halts H200 production as China backs Huawei AI chips (2026-03-10): https://asiatimes.com/2026/03/nvidia-halts-h200-production-as-china-backs-huawei-ai-chips/

Yahoo Finance, Trump Clears Nvidia H200 Sales To Alibaba, Tencent And 8 Others, But Beijing Halts Deliveries (2026-05-16): https://finance.yahoo.com/sectors/technology/articles/trump-clears-nvidia-h200-sales-193006781.html


Claude、ChatGPT 都很好用,但別把大腦一起外包出去


Addy Osmani 寫了一篇「不要把學習外包出去」。

Addy Osmani 目前是 Google Cloud AI 的 Director,主導 Gemini、Vertex AI、ADK 等 AI 開發者工具的體驗,自己也是 AI 輔助開發的重度使用者。在這之前他在 Google Chrome 待了快十四年,DevTools、Lighthouse、Core Web Vitals 這些工具都是他帶過的,前端工程師應該都不陌生。他也寫過幾本 O'Reilly 的書,《Learning JavaScript Design Patterns》、《Leading Effective Engineering Teams》、《Image Optimization》都是業內熟悉的教材。

他這個月寫了一篇文章叫 Don't Outsource the Learning,引了兩份研究我覺得值得記下來。

第一份是 Anthropic 自己做的。他們把工程師分成兩組去解 Python library 的任務,一組可以用 AI,一組純手動。結果兩組完成速度一樣,但後測理解題的分數差距非常明顯:AI 組 50%、手動組 67%。

這份研究最有意思的地方是 AI 組內的細部分析結果。同樣是用 AI,把 AI 當作「問概念的對象」的人,後測分數高於 65%;直接 copy-paste 生成程式碼的人,後測分數低於 40%。同一個工具、同一段時間、產出速度也接近,但學到的東西差非常多。決定結果的不是工具,是你如何使用工具。

第二份是 MIT 那篇 Your Brain on ChatGPT。他們用 EEG 量受試者寫文章時的大腦連結度,發現 AI 介入越多,腦部連結越弱。寫完文章後,83% 用 LLM 的受試者連自己剛剛產出的文章中的任何一句話都背不出來。研究者把這個現象叫做 cognitive debt,意思是現在省下的思考成本,之後會用批判思考的能力補回來。

兩份研究的方法跟切角不同,但結論相同。把產出外包給 AI 沒問題,把思考也一起外包就不行了。

Addy 自己說他過去一年用 AI 完成的東西,比前面五年加起來還多,所以他不是反 AI 的人。他文章裡舉了五個就算 AI 再強,工程師還是需要懂底層的場景:debug 失敗的時候、AI 出現幻覺需要被抓出來的時候、framework 升版或要做安全審查的時候、遇到非標準問題的時候、還有勞動市場本身正在變化(他引的數據是 2022 年至今初階工程師就業數字掉了 20%)。前四個是技術理由,最後一個是現實。

Addy 論述裡我覺得最該被引用的是這句:The tool didn't determine the outcome. The posture did. 工具沒有決定結果,使用方式決定了結果。

我自己在用 Claude Code 跟 Codex 的時候有個習慣:每隔一段時間就刻意關掉 AI 寫一段功能。理由很簡單,我想看看離開 AI 的時候,自己懂得還剩多少。如果發現某個東西已經不會自己寫了,那就超過使用的範圍了,要回頭把基礎補起來。Addy 在文章裡也提到類似的做法,他建議偶爾把 AI 生成的程式碼從頭重寫一次,或在請 AI 寫之前先自己提出假設、再讓 AI 回答。

這篇文章我想推薦給兩種人。一種是還在猶豫要不要用 AI 寫 code 的工程師,這篇能讓你知道用了之後該怎麼用才不會把自己用廢。另一種是已經重度依賴 AI 的人,可以拿這兩份研究當鏡子照一下自己現在的工作模式。

MIT 研究 Your Brain on ChatGPT:https://arxiv.org/abs/2506.08872

2026年5月18日 星期一

Claude、Cursor 都能解 LeetCode 後,工程師該學什麼?

Yann LeCun 全球著名的電腦科學家,被譽為「深度學習教父」與「卷積神經網路(CNN)之父」。他是 2018 年電腦科學最高榮譽圖靈獎(Turing Award)的得主。他最近回答了一個問題:為什麼法國的 Fields 獎得主數量在歐洲第一,但在 IMO(國際數學奧林匹亞)的表現很差,而匈牙利、羅馬尼亞、保加利亞這些 IMO 強國連一個 Fields 獎都沒拿過?他的回答是這樣:他認識的 2022 年 Fields 獎得主 Hugo Duminil-Copin 親口告訴他,自己從來沒比過數學競賽,而且非常不擅長這類比賽。創新的數學研究需要的是創造力、直覺、極高強度的專注,以及長時間的思考,有些問題要想好幾年。IMO 測的是快速解題能力,而這件事 AI 現在也做得到。研究者真正重要的工作不是回答問題,是提出正確的問題。


把這段話接到 vgod 多年前寫的那個系列文。vgod 是資訊奧林匹亞獎牌得主,台大保送、MIT 資工博士,程式能力強到「幾乎什麼解決方案都實作得出來」,但職涯前幾年升遷受挫。後來他理解到,自己一直把精力放在錯的地方,產出多但選錯題目,再怎麼努力也升不上去。原句是「不重要的事,就算做兩倍也不會變比較重要」。


這個對比是在說:不論是 Fields 獎還是 Staff+ engineer,真正能持續往上走的人,差異不是解題速度,是選題能力。這件事不是 AI 時代的新發現,是 AI 時代讓這個問題變成更重要。


過去十幾年,軟體業招人的主流方式是 LeetCode 面試,四五十分鐘解兩三題演算法。這套面試篩出來的是「IMO 型」候選人,特徵是快速 pattern match、套熟悉模板、限時內給答案。在 AI 編程工具普及之前,這套還勉強合理,因為「快速解題」跟「能寫 production code」有一定相關性。但這個相關性在 2025 年之後就斷了。Claude Code、Cursor、Codex 跑個一兩小時就能解完整個 LeetCode hard 的題目,速度和正確率也都贏過絕大部分工程師。而市場上仍然繼續用 LeetCode 篩人,但篩出來的能力跟資深職涯所需要的能力,卻剛好是兩個不同的維度。


具體分歧是這樣:LeetCode 型工程師面對「實作這個 spec」會做得又快又好;面對「這個產品功能該不該做?哪個版本能省 80% 工又涵蓋 90% 場景?要不要先做 A 或 B?」這類題目,卻往往答不出來,或是很難給一個精準的判斷。不過,Staff+ 工程師的工作有很大比重是後者。而當把 AI 接進來之後,可以發現「實作這個 spec」的成本掉到接近零,組織還需要工程師存在的理由就完全在「問對問題」這一塊。Andrew Chen 近期寫過一篇 token scarcity,講的是同一件事的另一面:當實作變便宜,瓶頸搬到「要把 token 花在哪一個問題上」。


這對招募、升遷、職涯規劃都會有具體影響。招募端:LeetCode 不會立刻消失,但 senior 缺的篩選邏輯要往「過去解過什麼模糊問題、怎麼定義範圍」這類題目傾斜,Amazon 的 Staff engineer 面試那套「給你一個模糊的商業需求,請設計系統」其實一直就是在測試這個。升遷端:寫程式多的人不再會自然升上去,要看他開始的專案有沒有解到對的問題、他取消的專案是不是該被取消。職涯規劃端:寫 code 多的時段不再是線性累積經驗,要刻意騰出時間培養 problem framing 的習慣,主動跑去做 user interview、看競品、定義成功指標。


回到 Duminil-Copin 那段話。他說數學研究「有時這種思考甚至會延續好幾年」,這在軟體業聽起來奢侈。但其實 資深工程師花一個月寫提案、推一個季度才讓組織決策轉向、用兩年讓某個架構決定的價值浮現,這跟「思考延續好幾年」是同一件事的工程版本。會做這件事的人原本就比較少,接下來這個技能的價值會更大。


AI 沒有讓「會問問題的人」變成新的稀缺資源,他們本來就稀缺。AI 只是讓這件事更容易被看到。


Sources:

- ExplainThis 軟體工程白話聊原文:https://www.facebook.com/explainthis.io/posts/pfbid0bHPiN5xR8J8PL9EjWfV6KJjteiNALVUKwD9q3iNbUbTVpPRPc3bMtxmFS34aHDbdl

- Hugo Duminil-Copin 2022 Fields Medal(CNRS 官方新聞):https://www.cnrs.fr/en/press/hugo-duminil-copin-french-mathematician-and-permanent-professor-ihes-has-been-awarded-fields

- Yann LeCun on LLMs passing IMO(Times of India, 2026-02):https://timesofindia.indiatimes.com/technology/tech-news/godfather-of-ai-yann-lecun-says-yes-llms-may-be-passing-maths-olympiads-and-bar-exams-but-they-will-still-fail-in-/amp_articleshow/128614667.cms


2026年5月16日 星期六

Anthropic:就算華為算力只有 NVIDIA 的 4%,中國仍可能在 2028 追上 AI


Anthropic 算過:2026 華為算力是 NVIDIA 的 4%,但他們仍認為中國會在 2028 追上


Anthropic 這週釋出一篇 4000 字的政策論文,叫《2028: Two scenarios for global AI leadership》。論文的核心問題是:到 2028 年「country of geniuses in a datacenter」(資料中心裡的天才國度,他們對變革性 AI 的稱呼)級別的 AI 出現時,定義它的規則跟價值觀,會由民主國家還是中共主導。


論文的結論很直接。美國要做三件事:堵晶片走私跟海外資料中心遠端存取的漏洞、阻斷大規模蒸餾攻擊(distillation attacks,中國實驗室大量註冊假帳號爬取美國模型的輸出來複製能力)、推動美國 AI 在全球的擴散。如果做了,2028 年美國領先 12-24 個月,這個差距在變革性 AI 時代代表全面優勢。如果不做,雙方近乎平手,AI 的規則由中共定義。


這篇是公開的政策遊說,Anthropic 在把自己定位成「跟美國國安綁在一起的 AI 公司」。而這個定位有代價的:去年 9 月 Anthropic 主動把存取限制延伸到「總部在受限地區的母公司多數持股的所有公司」,這不是配合美國政府命令,是自己加上去的紅線。這篇論文是把這個立場理論化、推向政策圈。


但抽離遊說性質,論文裡的數據值得看,因為這是第一次有前沿實驗室把「為什麼中美差距會這樣演變」攤開給人看。我覺得三個數字值得單獨看。


第一個是算力差距。Anthropic 引用的分析顯示,2026 年華為的總處理效能是 NVIDIA 的 4%,2027 年掉到 2%。如果再算上 Google 的 TPU 跟 Amazon 的 Trainium,美國這邊的整體算力供給還更高。同一份分析估計,如果美國把漏洞補完,美國的 AI 部門可以拿到中國 11 倍的算力。


第二個是蒸餾。DeepSeek 的 R1-0528 在常見越獄手法下,對明顯惡意請求的順從率是 94%,美國對照模型是 8%。再加上中國 13 個頂尖 AI 實驗室裡,只有 3 個發布安全評估結果,沒有任何一個發布 CBRN(化生放核)風險評估。中國實驗室在安全上的投入跟美國差距很大,因此用蒸餾抓取美國模型的能力,幾乎不會帶著對應的安全護欄。


第三個是落差被堵住的速度。Anthropic 提到 Firefox 拿到他們的新模型 Mythos Preview 之後,一個月修掉的資安漏洞比 2025 整年都多,是 2025 年單月平均的 20 倍。這是前沿模型在實際工作流程上的階梯式跳躍。


問題是 Anthropic 的兩個情境其實少了第三個,「美國堵了漏洞,但中國靠演算法效率追上」。Brookings 跟很多分析都指出,DeepSeek 的成功有一部分正是因為晶片受限,逼出了 MoE 架構、grouped query attention 這類效率優化。Anthropic 對這個反論的回應是,演算法改進本身也需要算力來做實驗,所以算力差距會影響到演算法差距。這個論述邏輯成立,但成立的程度取決於演算法突破的天花板在哪。這個很難說。


而對站在旁邊的台灣來說意義是什麼。論文裡 TSMC、Samsung、ASML 被點名為「democracies' compute ecosystem」的核心,這不是讚美,是把台灣綁進這個競爭架構。如果美國真的執行論文裡的三項政策,尤其是把 SME(半導體設備)的維修服務也納入管制、把東南亞資料中心的遠端存取也堵住,台廠在 ASIC 設計、伺服器組裝、光模組這些環節會直接受益於對手被卡的供需缺口。但同時台灣也會被更深地綁進這場競爭,沒有兩邊都做的空間。


我比較想留意的不是這篇論文本身,是 Anthropic 把自己重新定位的軌跡。從去年 9 月主動限縮中國股權母公司的存取、今年 3 月跟美國國防部打官司爭取「不能用於自主武器」紅線、到這週寫一篇連政策建議都列出來的論文。一年內把「我們是誰、跟誰站」說清楚。跟一般商人盡量不碰政治,想兩邊都賺錢的態度還真不一樣。


來源:

- [2028: Two scenarios for global AI leadership — Anthropic](https://www.anthropic.com/research/2028-ai-leadership)

- [Anthropic 強化區域限制,中國企業持股過半之公司不得使用其服務 — iThome](https://www.ithome.com.tw/news/171038)

- [Competing AI strategies for the US and China — Brookings](https://www.brookings.edu/articles/competing-ai-strategies-for-the-us-and-china/)

- [DeepSeek shows the limits of US export controls on AI chips — Brookings](https://www.brookings.edu/articles/deepseek-shows-the-limits-of-us-export-controls-on-ai-chips)


2026年5月15日 星期五

一把外洩的 Google API Key,兩天燒出 8.2 萬美元:LLMjacking 正在爆發

 一個 Google API key 外洩,月帳單從 180 美元兩天內衝到 82,000 美元,重點不是粗心,而是 API key 現在直接等於錢


這是開發者 Jacopo Castellano 寫下的真實案例。他平常每月在 Gemini 相關服務的花費大約 180 美元,一把 key 外流之後,兩天內帳單跳到 82,000 美元。攻擊者沒有偷走他任何資料,只是拿他的額度跑自己的推論工作。


這類攻擊有個名字叫 LLMjacking,由資安公司 Sysdig 在 2024 年 5 月命名。概念很單純:攻擊者拿到一把能存取 AI 服務的憑證,就用它去跑推論,帳單算在你頭上。它跟過去的 cryptojacking(挖礦綁架)邏輯一樣,都是偷算力,差別在於 LLM 推論的單價高很多,燒錢速度也快很多。Sysdig 記錄過的案例裡,有受害者一天就被跑出超過 46,000 美元;也有人的個人 AWS 帳號從每月 2 美元,兩三個小時內爆到 730 美元。


為什麼這件事現在才變嚴重,有兩個原因。


第一個是 API key 的性質變了。過去 credential 外洩,主要的風險是資料被看光。但 AI 服務的 key 不一樣,它能直接換算成計算資源,而計算資源有現成的買家。攻擊者不需要做任何資料竊取或權限提升,拿到 key、發一個 HTTP request 就開始燒你的錢。GitGuardian 的 2026 年報告指出,2025 年光是公開 GitHub repo 就新增了 2,865 萬筆寫死的 secrets,年增 34%;其中 AI 服務憑證是成長最快的類別,年增 81%。IBM X-Force 的 2026 威脅情報報告也提到,2025 年有超過 30 萬組 ChatGPT 帳密在暗網上被兜售。


第二個原因是這件事已經產業化了。資安公司 Pillar Security 在 2025 年 12 月到 2026 年 1 月之間,用蜜罐捕捉到一個叫 Operation Bizarre Bazaar 的行動,40 天內 35,000 次攻擊工作階段,平均一天 972 次。它背後是一條完整的供應鏈:掃描器在網路上找暴露的 AI 端點,驗證器測試這些端點能不能用,最後一個地下市集把存取權以 4 到 6 折轉賣出去,涵蓋 30 多家 LLM 供應商,收加密貨幣也收 PayPal。換句話說,攻擊 AI 基礎設施這件事,現在不需要任何技術能力,可以直接用買的。


而 AI 工具本身正在製造更多破口。GitGuardian 發現,AI 協助產生的 commit 洩漏 secrets 的比率是 3.2%,大約是一般情況的兩倍。原因不難理解:你請 Copilot 或 Cursor 幫你接一個 OpenAI 整合,它常常產出一段帶 `OPENAI_API_KEY = "sk-..."` 佔位符的範例碼,你填了真的 key 進去測試,忘了搬到環境變數,就推上去了。一個公開 commit 從推送到第一次被濫用,中位數時間不到四分鐘。


Google 還踩過一個設計上的雷。它的 API key 一直用 `AIza` 開頭,這種 key 最早是設計給 Google Maps 嵌入這類低風險用途的,當年大家就是直接寫進前端 JavaScript。後來 Google 把 Gemini 接到同一套 key 系統,那些早就公開在網頁原始碼裡好幾年的 key,無聲無息地多了呼叫昂貴 AI 端點的能力。


那該怎麼防?這裡有五個動作,每個用 AI API key 的人和團隊都該立刻檢查一遍。


一,API key 不要硬寫進程式碼,更不要 commit 進 repo。要清楚一件事:只要進過 git 歷史,就算你後來刪掉,那把 key 永遠都在歷史裡,任何 clone 過的人都拿得到,必須直接當作已經外洩來處理。


二,用 secret manager 集中管理憑證,並定期輪替。靜態的長期 key 是這整個問題的根源,能用短期 token 或 proxy 取代就取代。


三,在供應商端設定硬性上限,不要只設 alert。alert 是事後通知,hard limit 才是真正的保險絲。設了 200 美元上限,外洩的 key 最多燒掉 200 美元就停。


四,監控異常用量,特別注意非上班時間的推論 spike。費用突然跳高往往是 LLMjacking 最早、有時也是唯一的徵兆,而它該同時被資安和財務兩邊看到,不是只當成財務問題。


五,評估用 OpenAI 的 project-scoped key、Anthropic 的 workspace 範圍來縮小單把 key 的影響範圍。


這些動作沒有一個是難的,難的是在一切還沒出事、你正在趕進度的時候,願意停下來把它做完。過去我們把 API key 當成設定值,一個小麻煩;現在它的外洩成本,已經跟雲端儲存資料外洩同一個等級了。它值得被當成那個等級的東西來對待。


---

來源:

- [The $82,000 mistake: how to secure your AI API keys before it's too late — Jacopo Castellano](https://jacopocastellano.com/blog/ai-api-key-security/)

- [LLMjacking: From Emerging Threat to Black Market Reality — Sysdig](https://www.sysdig.com/blog/llmjacking-from-emerging-threat-to-black-market-reality)

- [Operation Bizarre Bazaar — Pillar Security](https://www.pillar.security/blog/operation-bizarre-bazaar-first-attributed-llmjacking-campaign-with-commercial-marketplace-monetization)

- [Why 28 million credentials leaked on GitHub in 2025 — Snyk / GitGuardian State of Secrets Sprawl 2026](https://snyk.io/articles/state-of-secrets/)

- [2026 X-Force Threat Intelligence Index — IBM](https://www.ibm.com/think/x-force/threat-intelligence-index-2026-securing-identities-ai-detection-risk-management)

- [LLMjacking: How Attackers Steal AI API Keys and Run Up Your Bill — Keyrua](https://keyrua.dev/blog/llmjacking-how-attackers-steal-ai-api-keys)