2026年5月18日 星期一

Claude、Cursor 都能解 LeetCode 後,工程師該學什麼?

Yann LeCun 全球著名的電腦科學家,被譽為「深度學習教父」與「卷積神經網路(CNN)之父」。他是 2018 年電腦科學最高榮譽圖靈獎(Turing Award)的得主。他最近回答了一個問題:為什麼法國的 Fields 獎得主數量在歐洲第一,但在 IMO(國際數學奧林匹亞)的表現很差,而匈牙利、羅馬尼亞、保加利亞這些 IMO 強國連一個 Fields 獎都沒拿過?他的回答是這樣:他認識的 2022 年 Fields 獎得主 Hugo Duminil-Copin 親口告訴他,自己從來沒比過數學競賽,而且非常不擅長這類比賽。創新的數學研究需要的是創造力、直覺、極高強度的專注,以及長時間的思考,有些問題要想好幾年。IMO 測的是快速解題能力,而這件事 AI 現在也做得到。研究者真正重要的工作不是回答問題,是提出正確的問題。


把這段話接到 vgod 多年前寫的那個系列文。vgod 是資訊奧林匹亞獎牌得主,台大保送、MIT 資工博士,程式能力強到「幾乎什麼解決方案都實作得出來」,但職涯前幾年升遷受挫。後來他理解到,自己一直把精力放在錯的地方,產出多但選錯題目,再怎麼努力也升不上去。原句是「不重要的事,就算做兩倍也不會變比較重要」。


這個對比是在說:不論是 Fields 獎還是 Staff+ engineer,真正能持續往上走的人,差異不是解題速度,是選題能力。這件事不是 AI 時代的新發現,是 AI 時代讓這個問題變成更重要。


過去十幾年,軟體業招人的主流方式是 LeetCode 面試,四五十分鐘解兩三題演算法。這套面試篩出來的是「IMO 型」候選人,特徵是快速 pattern match、套熟悉模板、限時內給答案。在 AI 編程工具普及之前,這套還勉強合理,因為「快速解題」跟「能寫 production code」有一定相關性。但這個相關性在 2025 年之後就斷了。Claude Code、Cursor、Codex 跑個一兩小時就能解完整個 LeetCode hard 的題目,速度和正確率也都贏過絕大部分工程師。而市場上仍然繼續用 LeetCode 篩人,但篩出來的能力跟資深職涯所需要的能力,卻剛好是兩個不同的維度。


具體分歧是這樣:LeetCode 型工程師面對「實作這個 spec」會做得又快又好;面對「這個產品功能該不該做?哪個版本能省 80% 工又涵蓋 90% 場景?要不要先做 A 或 B?」這類題目,卻往往答不出來,或是很難給一個精準的判斷。不過,Staff+ 工程師的工作有很大比重是後者。而當把 AI 接進來之後,可以發現「實作這個 spec」的成本掉到接近零,組織還需要工程師存在的理由就完全在「問對問題」這一塊。Andrew Chen 近期寫過一篇 token scarcity,講的是同一件事的另一面:當實作變便宜,瓶頸搬到「要把 token 花在哪一個問題上」。


這對招募、升遷、職涯規劃都會有具體影響。招募端:LeetCode 不會立刻消失,但 senior 缺的篩選邏輯要往「過去解過什麼模糊問題、怎麼定義範圍」這類題目傾斜,Amazon 的 Staff engineer 面試那套「給你一個模糊的商業需求,請設計系統」其實一直就是在測試這個。升遷端:寫程式多的人不再會自然升上去,要看他開始的專案有沒有解到對的問題、他取消的專案是不是該被取消。職涯規劃端:寫 code 多的時段不再是線性累積經驗,要刻意騰出時間培養 problem framing 的習慣,主動跑去做 user interview、看競品、定義成功指標。


回到 Duminil-Copin 那段話。他說數學研究「有時這種思考甚至會延續好幾年」,這在軟體業聽起來奢侈。但其實 資深工程師花一個月寫提案、推一個季度才讓組織決策轉向、用兩年讓某個架構決定的價值浮現,這跟「思考延續好幾年」是同一件事的工程版本。會做這件事的人原本就比較少,接下來這個技能的價值會更大。


AI 沒有讓「會問問題的人」變成新的稀缺資源,他們本來就稀缺。AI 只是讓這件事更容易被看到。


Sources:

- ExplainThis 軟體工程白話聊原文:https://www.facebook.com/explainthis.io/posts/pfbid0bHPiN5xR8J8PL9EjWfV6KJjteiNALVUKwD9q3iNbUbTVpPRPc3bMtxmFS34aHDbdl

- Hugo Duminil-Copin 2022 Fields Medal(CNRS 官方新聞):https://www.cnrs.fr/en/press/hugo-duminil-copin-french-mathematician-and-permanent-professor-ihes-has-been-awarded-fields

- Yann LeCun on LLMs passing IMO(Times of India, 2026-02):https://timesofindia.indiatimes.com/technology/tech-news/godfather-of-ai-yann-lecun-says-yes-llms-may-be-passing-maths-olympiads-and-bar-exams-but-they-will-still-fail-in-/amp_articleshow/128614667.cms


2026年5月16日 星期六

Anthropic:就算華為算力只有 NVIDIA 的 4%,中國仍可能在 2028 追上 AI


Anthropic 算過:2026 華為算力是 NVIDIA 的 4%,但他們仍認為中國會在 2028 追上


Anthropic 這週釋出一篇 4000 字的政策論文,叫《2028: Two scenarios for global AI leadership》。論文的核心問題是:到 2028 年「country of geniuses in a datacenter」(資料中心裡的天才國度,他們對變革性 AI 的稱呼)級別的 AI 出現時,定義它的規則跟價值觀,會由民主國家還是中共主導。


論文的結論很直接。美國要做三件事:堵晶片走私跟海外資料中心遠端存取的漏洞、阻斷大規模蒸餾攻擊(distillation attacks,中國實驗室大量註冊假帳號爬取美國模型的輸出來複製能力)、推動美國 AI 在全球的擴散。如果做了,2028 年美國領先 12-24 個月,這個差距在變革性 AI 時代代表全面優勢。如果不做,雙方近乎平手,AI 的規則由中共定義。


這篇是公開的政策遊說,Anthropic 在把自己定位成「跟美國國安綁在一起的 AI 公司」。而這個定位有代價的:去年 9 月 Anthropic 主動把存取限制延伸到「總部在受限地區的母公司多數持股的所有公司」,這不是配合美國政府命令,是自己加上去的紅線。這篇論文是把這個立場理論化、推向政策圈。


但抽離遊說性質,論文裡的數據值得看,因為這是第一次有前沿實驗室把「為什麼中美差距會這樣演變」攤開給人看。我覺得三個數字值得單獨看。


第一個是算力差距。Anthropic 引用的分析顯示,2026 年華為的總處理效能是 NVIDIA 的 4%,2027 年掉到 2%。如果再算上 Google 的 TPU 跟 Amazon 的 Trainium,美國這邊的整體算力供給還更高。同一份分析估計,如果美國把漏洞補完,美國的 AI 部門可以拿到中國 11 倍的算力。


第二個是蒸餾。DeepSeek 的 R1-0528 在常見越獄手法下,對明顯惡意請求的順從率是 94%,美國對照模型是 8%。再加上中國 13 個頂尖 AI 實驗室裡,只有 3 個發布安全評估結果,沒有任何一個發布 CBRN(化生放核)風險評估。中國實驗室在安全上的投入跟美國差距很大,因此用蒸餾抓取美國模型的能力,幾乎不會帶著對應的安全護欄。


第三個是落差被堵住的速度。Anthropic 提到 Firefox 拿到他們的新模型 Mythos Preview 之後,一個月修掉的資安漏洞比 2025 整年都多,是 2025 年單月平均的 20 倍。這是前沿模型在實際工作流程上的階梯式跳躍。


問題是 Anthropic 的兩個情境其實少了第三個,「美國堵了漏洞,但中國靠演算法效率追上」。Brookings 跟很多分析都指出,DeepSeek 的成功有一部分正是因為晶片受限,逼出了 MoE 架構、grouped query attention 這類效率優化。Anthropic 對這個反論的回應是,演算法改進本身也需要算力來做實驗,所以算力差距會影響到演算法差距。這個論述邏輯成立,但成立的程度取決於演算法突破的天花板在哪。這個很難說。


而對站在旁邊的台灣來說意義是什麼。論文裡 TSMC、Samsung、ASML 被點名為「democracies' compute ecosystem」的核心,這不是讚美,是把台灣綁進這個競爭架構。如果美國真的執行論文裡的三項政策,尤其是把 SME(半導體設備)的維修服務也納入管制、把東南亞資料中心的遠端存取也堵住,台廠在 ASIC 設計、伺服器組裝、光模組這些環節會直接受益於對手被卡的供需缺口。但同時台灣也會被更深地綁進這場競爭,沒有兩邊都做的空間。


我比較想留意的不是這篇論文本身,是 Anthropic 把自己重新定位的軌跡。從去年 9 月主動限縮中國股權母公司的存取、今年 3 月跟美國國防部打官司爭取「不能用於自主武器」紅線、到這週寫一篇連政策建議都列出來的論文。一年內把「我們是誰、跟誰站」說清楚。跟一般商人盡量不碰政治,想兩邊都賺錢的態度還真不一樣。


來源:

- [2028: Two scenarios for global AI leadership — Anthropic](https://www.anthropic.com/research/2028-ai-leadership)

- [Anthropic 強化區域限制,中國企業持股過半之公司不得使用其服務 — iThome](https://www.ithome.com.tw/news/171038)

- [Competing AI strategies for the US and China — Brookings](https://www.brookings.edu/articles/competing-ai-strategies-for-the-us-and-china/)

- [DeepSeek shows the limits of US export controls on AI chips — Brookings](https://www.brookings.edu/articles/deepseek-shows-the-limits-of-us-export-controls-on-ai-chips)


2026年5月15日 星期五

一把外洩的 Google API Key,兩天燒出 8.2 萬美元:LLMjacking 正在爆發

 一個 Google API key 外洩,月帳單從 180 美元兩天內衝到 82,000 美元,重點不是粗心,而是 API key 現在直接等於錢


這是開發者 Jacopo Castellano 寫下的真實案例。他平常每月在 Gemini 相關服務的花費大約 180 美元,一把 key 外流之後,兩天內帳單跳到 82,000 美元。攻擊者沒有偷走他任何資料,只是拿他的額度跑自己的推論工作。


這類攻擊有個名字叫 LLMjacking,由資安公司 Sysdig 在 2024 年 5 月命名。概念很單純:攻擊者拿到一把能存取 AI 服務的憑證,就用它去跑推論,帳單算在你頭上。它跟過去的 cryptojacking(挖礦綁架)邏輯一樣,都是偷算力,差別在於 LLM 推論的單價高很多,燒錢速度也快很多。Sysdig 記錄過的案例裡,有受害者一天就被跑出超過 46,000 美元;也有人的個人 AWS 帳號從每月 2 美元,兩三個小時內爆到 730 美元。


為什麼這件事現在才變嚴重,有兩個原因。


第一個是 API key 的性質變了。過去 credential 外洩,主要的風險是資料被看光。但 AI 服務的 key 不一樣,它能直接換算成計算資源,而計算資源有現成的買家。攻擊者不需要做任何資料竊取或權限提升,拿到 key、發一個 HTTP request 就開始燒你的錢。GitGuardian 的 2026 年報告指出,2025 年光是公開 GitHub repo 就新增了 2,865 萬筆寫死的 secrets,年增 34%;其中 AI 服務憑證是成長最快的類別,年增 81%。IBM X-Force 的 2026 威脅情報報告也提到,2025 年有超過 30 萬組 ChatGPT 帳密在暗網上被兜售。


第二個原因是這件事已經產業化了。資安公司 Pillar Security 在 2025 年 12 月到 2026 年 1 月之間,用蜜罐捕捉到一個叫 Operation Bizarre Bazaar 的行動,40 天內 35,000 次攻擊工作階段,平均一天 972 次。它背後是一條完整的供應鏈:掃描器在網路上找暴露的 AI 端點,驗證器測試這些端點能不能用,最後一個地下市集把存取權以 4 到 6 折轉賣出去,涵蓋 30 多家 LLM 供應商,收加密貨幣也收 PayPal。換句話說,攻擊 AI 基礎設施這件事,現在不需要任何技術能力,可以直接用買的。


而 AI 工具本身正在製造更多破口。GitGuardian 發現,AI 協助產生的 commit 洩漏 secrets 的比率是 3.2%,大約是一般情況的兩倍。原因不難理解:你請 Copilot 或 Cursor 幫你接一個 OpenAI 整合,它常常產出一段帶 `OPENAI_API_KEY = "sk-..."` 佔位符的範例碼,你填了真的 key 進去測試,忘了搬到環境變數,就推上去了。一個公開 commit 從推送到第一次被濫用,中位數時間不到四分鐘。


Google 還踩過一個設計上的雷。它的 API key 一直用 `AIza` 開頭,這種 key 最早是設計給 Google Maps 嵌入這類低風險用途的,當年大家就是直接寫進前端 JavaScript。後來 Google 把 Gemini 接到同一套 key 系統,那些早就公開在網頁原始碼裡好幾年的 key,無聲無息地多了呼叫昂貴 AI 端點的能力。


那該怎麼防?這裡有五個動作,每個用 AI API key 的人和團隊都該立刻檢查一遍。


一,API key 不要硬寫進程式碼,更不要 commit 進 repo。要清楚一件事:只要進過 git 歷史,就算你後來刪掉,那把 key 永遠都在歷史裡,任何 clone 過的人都拿得到,必須直接當作已經外洩來處理。


二,用 secret manager 集中管理憑證,並定期輪替。靜態的長期 key 是這整個問題的根源,能用短期 token 或 proxy 取代就取代。


三,在供應商端設定硬性上限,不要只設 alert。alert 是事後通知,hard limit 才是真正的保險絲。設了 200 美元上限,外洩的 key 最多燒掉 200 美元就停。


四,監控異常用量,特別注意非上班時間的推論 spike。費用突然跳高往往是 LLMjacking 最早、有時也是唯一的徵兆,而它該同時被資安和財務兩邊看到,不是只當成財務問題。


五,評估用 OpenAI 的 project-scoped key、Anthropic 的 workspace 範圍來縮小單把 key 的影響範圍。


這些動作沒有一個是難的,難的是在一切還沒出事、你正在趕進度的時候,願意停下來把它做完。過去我們把 API key 當成設定值,一個小麻煩;現在它的外洩成本,已經跟雲端儲存資料外洩同一個等級了。它值得被當成那個等級的東西來對待。


---

來源:

- [The $82,000 mistake: how to secure your AI API keys before it's too late — Jacopo Castellano](https://jacopocastellano.com/blog/ai-api-key-security/)

- [LLMjacking: From Emerging Threat to Black Market Reality — Sysdig](https://www.sysdig.com/blog/llmjacking-from-emerging-threat-to-black-market-reality)

- [Operation Bizarre Bazaar — Pillar Security](https://www.pillar.security/blog/operation-bizarre-bazaar-first-attributed-llmjacking-campaign-with-commercial-marketplace-monetization)

- [Why 28 million credentials leaked on GitHub in 2025 — Snyk / GitGuardian State of Secrets Sprawl 2026](https://snyk.io/articles/state-of-secrets/)

- [2026 X-Force Threat Intelligence Index — IBM](https://www.ibm.com/think/x-force/threat-intelligence-index-2026-securing-identities-ai-detection-risk-management)

- [LLMjacking: How Attackers Steal AI API Keys and Run Up Your Bill — Keyrua](https://keyrua.dev/blog/llmjacking-how-attackers-steal-ai-api-keys)


Qwen 前掌門人出走:沒有產品的新創,憑什麼估值 20 億?


林俊暘離開阿里兩個月,新 AI Lab 還沒名字、沒產品、沒營收,估值已經喊到 20 億美元

這是 5 月 13 日 The Information 和智能涌現的報導。前阿里通義千問(Qwen)技術負責人林俊暘,離職後創辦了一間新的 AI 實驗室,正在募資數億美元,紅杉中國和高榕創投都在洽談參投,估值約 20 億美元。對一間還沒有名字、沒有產品、沒有營收的中國 AI 新創來說,這個價碼幾乎沒有先例。


先說林俊暘是誰。他 1993 年生,今年 32 歲,北大碩士,2019 年進阿里達摩院,2022 年接手 Qwen 團隊,是阿里最年輕的 P10 級技術負責人。三年下來,他主導 Qwen 系列模型的研發和開源策略,把它做成全尺寸覆蓋、全球開發者社群裡最有影響力的國產模型之一。Qwen 系列的全球下載量超過 6 億次,衍生模型超過 20 萬個。對開發者來說,Qwen 是真的能下載、能微調、能部署的東西。


所以這 20 億美元買的不是一個產品路線圖,買的是這份紀錄——一個把開源模型生態從零做到全球一線的人。這個邏輯在矽谷已經跑過好幾遍:前 OpenAI 首席科學家 Ilya Sutskever 的 SSI 成立三個月就拿到 50 億美元估值,前 OpenAI 技術長 Mira Murati 的 Thinking Machines Lab 首輪估值 100 億美元。資本願意在頂尖研究者還沒有任何產出時,先用一個很高的數字把人圈住。現在這套邏輯複製到了中國。


但比估值更值得看的,是他為什麼會走。


林俊暘的離職過程很罕見地公開。3 月 4 日凌晨,他在 X 上發了一句「me stepping down. bye my beloved qwen」,比阿里官方確認還早。導火線是前一天下午,阿里雲 CTO 周靖人向他傳達了一個 Qwen 團隊的重組計畫:把原本垂直整合的 Qwen,拆成預訓練、後訓練、文本、圖像、語音等相對獨立的水平團隊。


這個拆法跟林俊暘一直堅持的做法相反。他主張預訓練、後訓練、Infra、訓練團隊應該緊密結合,甚至從 2024 年中開始在 Qwen 內部自建 Infra 團隊。重組等於要把這套「小而全」的建制打散。據鈦媒體報導,他在內部群組留下的話是「無顏再帶領大家」。


往後看,他離開後阿里的 AI 戰略確實在轉向。離職前 48 小時 Qwen 才開源的 3.5 系列小模型,授權協議跟早期完全開放的 Apache 2.0 不一樣,對大規模商用設了更高的門檻。離職後,阿里把 Qwen 研發團隊和其他核心 AI 業務併進一個新事業群,由集團 CEO 吳泳銘直管,更多新模型轉向閉源以追求商業化收入。阿里雲 2025 年 Q2 財報顯示 AI+雲業務收入年增 26%、AI 相關產品收入連續八季三位數成長,這個量級的業務,自然會把模型團隊往「服務營收」的方向拉。


這就是一個放諸四海都成立的觀察:當一間公司的商業引擎,跟一條技術路線想去的方向不一致時,就算這條路線剛打完一場漂亮的仗,主導它的人最後還是會被推離。林俊暘要的是極致開源、商用零成本,阿里雲要的是能換算成收入的模型。兩邊都沒有錯,但放在同一個組織裡,張力遲早會把人擠出去。


他的新方向也跟這個脈絡接得起來。林俊暘選的切入點是世界模型和具身智能,他在 X 上的判斷是「多模態基礎模型正在轉化為基礎代理,透過強化學習利用工具和記憶進行長時序推理,它們應該從虛擬走向物理世界」。這其實是他在阿里的未竟之業——2025 年 10 月他就在 Qwen 內部組過一支機器人與具身智能的小團隊。離開之後,這件事他可以從頭照自己的想法做。


不過要把話說平衡。多位中國投資人對 The Information 提了一個我覺得值得記著的差異:矽谷那些超高估值,有一部分是押在「最終會被頂級科技巨頭收購」的退出預期上,但這個邏輯在中國還不成立。再加上美國晶片出口管制持續收緊,算力獲取本身就是一道實實在在的坎。也有投資人直接說,技術高管創業,常常在商業化上水土不服。20 億美元是一個起點,不是一個結論。


我會追的是他的第一個模型——它會告訴我們,這份估值買到的,到底是一個人的紀錄,還是一個人帶著一支隊伍重新跑一次的能力。這兩件事不一樣。


---


來源:

- [林俊旸創業,新公司估值約 20 億美金 — 智能涌現/36氪](https://eu.36kr.com/zh/p/3807382930251523)

- [Former Alibaba Qwen Architect Lin Junyang Launches AI Lab, Targets $2 Billion Valuation — BigGo Finance](https://finance.biggo.com/news/AZqhIJ4BrAZSr0oSxS4S)

- [非常罕見!阿里 AI 大牛林俊旸離職後創業,首輪估值超 130 億 — 新浪財經](https://finance.sina.com.cn/wm/2026-05-13/doc-inhxtqxn9394763.shtml)

- [林俊旸告別千問,阿里 AI 的轉身與代價 — 鈦媒體](https://www.tmtpost.com/7901214.html)

- [Alibaba scrambles after sudden departure of Qwen tech lead — KrASIA](https://kr-asia.com/alibaba-scrambles-after-sudden-departure-of-qwen-tech-lead)


2026年5月12日 星期二

模型會升級,真正留下來的是 harness


Opus 4.6 在 Claude Code 跑 Terminal Bench 2.0 拿第 33 名,把同一個模型放到另一個 harness 跑同樣的 benchmark 跳到第 5 名

過去半年 Harness Engineering 這個詞被很多人各自獨立提出來。Hashimoto 2 月、OpenAI 的 Lopopolo 2 月、HumanLayer 3 月、Birgitta Böckeler 4 月。最近 Addy Osmani 把這些線索串成一篇,值得讀。我看完想記下來的不是定義,是裡面一個觀察。

Addy 引用 Viv Trivedy 一句話:「Harnesses don't shrink, they move.」工具變強的時候,harness 對應補位的那層不會消失,只會搬家。

舉個具體案例。Anthropic 在 2025 年 11 月推出 Tool Search Tool,把 MCP 工具描述從 prompt 抽出來,agent 要用才去查。一個典型 MCP setup 的 baseline 從 55,000 token 降到 3,000 token,省 85%。這聽起來像是 harness 縮小了,但實際上「決定哪些工具該載入」這個工作沒消失,是搬到 search/retrieval layer,由更精細的 ranking 機制接手。模型不會自己學會選工具,是 harness 變聰明,幫它選。

ETH Zurich 一篇 paper(arxiv 2602.11988)測 AGENTS.md / CLAUDE.md 的效果,結論很直白:LLM 自己寫的 instruction 檔案,效果常常比沒寫還差。人類寫的能讓任務成功率提升 4%,但會多 20% 的 inference 成本。HumanLayer 給的建議是控制在 60 行內、只放 build/test 指令,不要寫長篇大論。harness 元件不是越多越好,而是要精準,否則每一個都在搶 attention。

這也解釋了一個現象:把 Claude Code、Cursor、Codex、Aider、Cline 並排比較,會發現它們的架構設計比背後的模型還像彼此。模型一直變,但 harness pattern 在收斂。AGENTS.md、subagent、hooks、planner/worker 分工、ratchet 式錯誤紀錄、root level 的 CLAUDE.md,這幾根支柱在每一家都看得到。各家不是抄誰,而是各自試錯後發現同一個答案。

所以也看到一個趨勢:harness 本身正在從「自己造」變成「服務」。Viv 把它叫 Harness-as-a-Service。Claude Agent SDK、Codex SDK、OpenAI Agents SDK 都指向同一個方向,你拿到的不是 LLM completion API,是包含 loop、tool routing、context management、hook、sandbox 的 runtime。客製化的點從「我要怎麼接 LLM」搬到「四根支柱(system prompt、tools、context、subagent)各要怎麼調」。

那「換模型解決問題」這條路為什麼通常不通?

Luke Stahl 在 Stop upgrading your model 那篇寫得直白:模型升級的差距比想像中小,harness 改動的差距比想像中大。HumanLayer 同意:「這不是 model problem,是 configuration problem。」

Sergey Golubev 4 月那篇 Harness Engineering 紀錄文有個具體例子。Opus 4.7 一發布,他幾個 harness 馬上掉鏈子,不是 code 壞掉,是指令解讀方式變了,舊 skill 寫得太寬鬆。重寫三個、整理五個花了大半天。每次模型升級都會逼一次 harness 重整,因為新模型對舊指令會用不一樣的方式詮釋。

所以差異化到底在哪?Ry Walker 的整理是:harness 本體(Claude Code、OpenCode、Goose、Aider)已經是 commodity,遷移成本很低。真正的差異化在三個地方:context 跟 memory(codebase 規矩、過去踩過的坑)、orchestration(多 agent 怎麼分工)、tool layer(接到內部系統的客製化工具)。

回到 Addy 那篇的尾巴,他列了三個值得追的開放問題:多 agent 並行共享 codebase 的協作機制、agent 分析自己的 trace 找 harness 級失敗模式、harness 動態組裝工具與 context 而非事前配好。每一個都是同一條思路的延伸。harness 不會穩定,會繼續搬家,重點是知道它正在往哪搬。

模型升級會繼續發生,幾乎每幾個月一次。但跟 agent 一起累積的 context、規則、工具、skill,這些是換 harness、換模型都帶得走的。

Sources:

- Addy Osmani: Agent Harness Engineering — https://addyosmani.com/blog/agent-harness-engineering/

- HumanLayer: Skill Issue — https://www.humanlayer.dev/blog/skill-issue-harness-engineering-for-coding-agents

- Luke Stahl: Stop upgrading your model — https://lukestahl.io/blog/stop-upgrading-your-model-fix-your-harness/

- Sergey Golubev: Harness Engineering 2026 — https://www.prodfeat.ai/en/blog/2026-04-18-harness-engineering

- Ry Walker: The Agent Harness Problem — https://rywalker.com/agent-harness-problem

- 張維峰 FB 中譯整理 — https://www.facebook.com/jerry.chang.505523/posts/pfbid0WZP6JBVGp3CNR6ot1GizCVcdDPQcEnhxJVW4An3hZLc2EjbviZrfenL627i5ANuvl


2026年5月9日 星期六

Anthropic 的 80 倍成長,真正的瓶頸才剛開始

 


Anthropic 在 2026 年 5 月 6 日開了第二屆 Code with Claude,Dario Amodei 在台上把 Q1 的數字攤開。原本內部「準備好應對每年十倍成長的世界」,結果 Q1 換算成年率,營收和使用量年增到 80 倍。他自嘲這數字「太誇張,也太難應付」,希望趕快回到 AI 定義的「正常」,也就是「只有」十倍。


年化營收的曲線是這樣:2025 年底 $9B、2026 年 2 月 $14B、3 月 $19B、4 月 $30B。OpenAI 的年化營收約 $25B,被超車。


落差怎麼形成的,比 80 倍本身更值得看。當所有 AI 公司都在搶風口,Anthropic 用了一個遠小於對手的訓練預算(約 $12B,OpenAI 約 $32B),把企業端拿了下來。


答案在策略選擇。Anthropic 走的是「窄門」,只做企業客戶、只把 coding 這一個用例做透,其他先放著。這跟 OpenAI「消費端 + 企業端 + 影音 + 瀏覽器 + 裝置」全面進攻是兩個完全不同的賭法。


具體看 Claude Code。2025 年 5 月才公開,6 個月後達 $1B 年化營收,2026 年 2 月翻倍到 $2.5B。年付 $1M 以上的企業客戶,兩年前是十幾家、今年 2 月 500 家、4 月已經 1,000 家。Fortune 10 有 8 家是 Claude 客戶,80% 營收來自企業。Anthropic 每月每使用者收到約 $211,OpenAI 量級是每週 $25,每使用者貢獻差 8 倍。


Ramp 的企業支出統計更直觀。2026 第一季首次採購 AI 工具的企業,73% 把錢花在 Anthropic;半年前還是 50/50。企業採購圈的偏好整個倒過來。


窄門策略也展現在組織人事。Code with Claude 對談前不久,原 CPO Mike Krieger 被調去領導 Anthropic Labs,CPO 位置在 2025 年 12 月換成 Ami Vora。Krieger 是 Instagram 共同創辦人,擅長從零到一抓住產品方向;Vora 在 WhatsApp 跟 Meta 的歷練,則是把產品推到全球規模的 GTM (go-to-market)。CPO 換手不是高層輪流,是公司產品階段的訊號。


但窄門不是沒副作用,這是 Dario 在台上花最多時間講的部分。他兩次提到 Amdahl's Law(阿姆達爾定律),這是 1967 年 IBM 工程師 Gene Amdahl 提出的:你加速了系統的某一部分,整體速度的提升會被你還沒加速的那部分卡住。Dario 把這個半世紀前的觀察套到 AI 加速人類工作上,套了兩次。


對外的 Amdahl,他這樣描述:技術在整個經濟體裡的擴散速度並不均勻,軟體工程師是最快採用新技術的那一群人,這是為什麼焦點都壓在這個領域。Q1 的 80 倍打到 Anthropic 自己跟最早的開發者,其他職業還在後面,那一塊才是放大效應真正的主體。


對內的 Amdahl 更直接。「如果你身處一個組織,可以在相同時間內提交三到四倍的 PR,你就會開始發現有一大堆其他事情在拖你的後腿。」程式碼提交速度提升之後,浮上來的是資安、驗證、設計品質、組織協調、技術債管理。「如果你只加速這一件事,而不是把所有事情都加速,就會出問題。」


這段值得任何在組織裡推進 AI 的人記下來。AI 工具加速個人寫程式很容易,但個人加速完,瓶頸不會消失,只會搬家。下一個浮上來的可能是審查流程跟不上、可能是測試覆蓋率撐不住、可能是設計與工程協作的節奏對不上。


Dario 自己拋了一個比喻:「我們正在慢慢走向資料中心裡住著一個天才之國的境界。現在從一屋子聰明人開始,慢慢往上走,走向一座城市、一個國家的規模。」要走到那一步,光練強模型不夠,組織級的協作方式得整個重新發明一遍。


這場對談跟一年前那場對談的差別也在這。2025 年 5 月 Dario 跟 Krieger 預言「2026 年會出現第一個一個人的億萬美元公司」,當時聽起來像在打賭。一年後同個舞台,已經有兩人公司估值達 $1B、一人公司估值達數億美元,剩下的問題從「會不會發生」變成「哪個產業先發生」。


來源:

- https://www.anduril.tw/anthropic-80x/(狐 Hsiao 整理 Code with Claude 2026 完整對談)

- CNBC(80 倍、SpaceX Colossus 1 算力協議):https://www.cnbc.com/2026/05/06/anthropic-ceo-dario-amodei-says-company-crew-80-fold-in-first-quarter.html

- SaaStr($14B ARR、$2.5B Claude Code、$1M+ 客戶 12→500→1,000 家):https://www.saastr.com/anthropic-just-hit-14-billion-in-arr-up-from-1-billion-just-14-months-ago/

- Ramp 73% 首次採購數據:https://beri.net/article/anthropic-overtakes-openai-enterprise-spending

- 訓練預算對比 $12B vs $32B、ARPU 8 倍:https://www.danilchenko.dev/posts/anthropic-surpasses-openai-revenue/


2026年5月8日 星期五

問題不是 AI 寫 code,而是誰批准它上線


Coinbase 上週宣布裁員 14%,約 700 人。CEO Brian Armstrong 在公開信裡列了兩個理由:crypto 下行週期,加上 AI 改變工作方式。光看這兩個原因,跟今年其他幾家裁員公司沒太大差別,Block、Crypto.com、Algorand 都這樣寫過。


但 Armstrong 那封信被罵翻的點不是裁員,是其中一句:Non-technical teams are now shipping production code(非技術人員現在直接送程式碼上正式環境)。信公開後股價跌了快 5%,X 上很多用戶說要把資金搬離 Coinbase。為什麼這句話這麼傷?因為 Coinbase 2025 年才剛發生過一次資料外洩,影響 69,461 名用戶,公司自己估算修復成本可能到 4 億美元,多起集體訴訟還在跑。所以當 Armstrong 在這個時間點講「非技術背景的員工正在直接送程式碼上正式環境」,用戶讀到的不是「我們很有效率」,而是「我的錢安不安全?」


問題從來不是「誰寫的程式碼」,現在大部分工程師也都用 AI 寫。真正的問題是 AI 程式碼之後的審核機制。2025 年 8 月,Armstrong 在 Cheeky Pint podcast 上說,他幫工程師買齊 Cursor 和 GitHub Copilot 企業授權後,有人跟他說全員上手要好幾個月,他直接在內部 Slack 發強制通知,後來真的開除了拒用的工程師。同年他公開喊 40% 的 Coinbase 程式碼是 AI 寫的,目標 10 月拉到 50%。


這套作法在矽谷不算特別,但 Coinbase 是加密貨幣交易所,「錢的安全」是核心價值。2025 年 9 月 HiddenLayer 揭露 Cursor 跟其他幾個 AI 編輯器的 CopyPasta 漏洞,攻擊者把惡意指令藏在 LICENSE.txt 或 README.md 的 Markdown 註解裡,AI 讀到就會執行。CMU 教授 Jonathan Aldrich 當時說他不會把錢放 Coinbase;Dango 創辦人 Larry Lyu 說這對任何安全敏感的業務都是紅旗。所以這次裁員信不是引爆點,是壓垮駱駝的最後一句話。CEO 公開信原本是寫給內部員工的,Armstrong 卻自己選擇 po 上 X,等於把「我們現在讓非技術人員直接送程式碼上正式環境」這句話直接傳遞到外部用戶面前。


更重要的問題是在審核機制。LaunchDarkly 的調查顯示 91% 工程師不信任 AI 生成的程式碼直接上正式環境,這個比例在金融服務業會更高,因為審計要的不是「程式碼跑起來」,是「誰在什麼時間因為什麼理由改了什麼」。SOX、PCI-DSS、ISO 20022 這些規範要的是完整的監管鏈。AI 每次改動,在審計流程裡就是文件空白。這也是為什麼很多金融機構把 AI 用在資料前處理、ETL、文件草稿、單元測試這類非關鍵路徑,主要的交易系統跟風險引擎還是要人盯。Coinbase 工程部門其實在自家 blog 上澄清過:AI 比較常用在前端跟非敏感系統,「系統關鍵的交易系統」是受謹慎管理的。但 Armstrong 在 X 上發的那封信沒這樣講,他講的是「intelligence with humans around the edge aligning it」(公司是智能體,人在邊緣對齊它)。


我看下來,Coinbase 這次踩到的線,是把「AI 加速」跟「省掉審核」混在一起講。前者是行業共識,後者在受監管行業就是不能讓步。一個工程師一週做完原本一個月的事,這是現實,沒有爭議。但這不等於上線就緒,從原型到上線中間缺的不是模型變聰明,是審計日誌、權限控制、人工把關、資料來源追蹤、錯誤處理,這些不會因為模型進步而自動補齊。


如果這次股價回不來、用戶真的搬走,這會是 AI coding 第一次在公開市場被以實際代價教訓。一年下來大家都在搶速度,這次是市場對「速度該停在哪」的回答。


來源:

- American Banker, Coinbase cuts 14% of staff, citing crypto slump and AI(2026-05-05):https://www.americanbanker.com/news/coinbase-cuts-14-of-staff-citing-crypto-slump-and-ai

- BeInCrypto, Coinbase Stock Falls After Users Criticize Internal AI Pivot(2026-05-05,含股價跌 5%、69,461 資料外洩數字):https://beincrypto.com/coinbase-stock-price-drop-ai-pivot-criticism/

- ExplainThis 原文:https://www.facebook.com/explainthis.io/posts/pfbid02NfZx4QQQaPnxHgWiNXg7xwfjfrKCRD2nEzVmSL4DxUM8gf4J5Xz9MoW4zZ4wYv7ol

- ChainCatcher, Coinbase CEO:全員強制 AI 編程,違者開除(2025-08-30):https://www.chaincatcher.com/zh-tw/article/2202050

- Gate 新聞, AI 編碼工具曝出新漏洞,Coinbase 激進的 AI 政策引發安全擔憂(2025-09,含 HiddenLayer CopyPasta 漏洞、Aldrich 與 Lyu 評論):https://www.gate.com/zh-tw/news/detail/13588122

- Synodus, The risk of Vibe coding in fintech(含 LaunchDarkly 91% 數據, 2026-01-15):https://synodus.com/blog/fintech/vibe-coding/