2026年5月12日 星期二

模型會升級,真正留下來的是 harness


Opus 4.6 在 Claude Code 跑 Terminal Bench 2.0 拿第 33 名,把同一個模型放到另一個 harness 跑同樣的 benchmark 跳到第 5 名

過去半年 Harness Engineering 這個詞被很多人各自獨立提出來。Hashimoto 2 月、OpenAI 的 Lopopolo 2 月、HumanLayer 3 月、Birgitta Böckeler 4 月。最近 Addy Osmani 把這些線索串成一篇,值得讀。我看完想記下來的不是定義,是裡面一個觀察。

Addy 引用 Viv Trivedy 一句話:「Harnesses don't shrink, they move.」工具變強的時候,harness 對應補位的那層不會消失,只會搬家。

舉個具體案例。Anthropic 在 2025 年 11 月推出 Tool Search Tool,把 MCP 工具描述從 prompt 抽出來,agent 要用才去查。一個典型 MCP setup 的 baseline 從 55,000 token 降到 3,000 token,省 85%。這聽起來像是 harness 縮小了,但實際上「決定哪些工具該載入」這個工作沒消失,是搬到 search/retrieval layer,由更精細的 ranking 機制接手。模型不會自己學會選工具,是 harness 變聰明,幫它選。

ETH Zurich 一篇 paper(arxiv 2602.11988)測 AGENTS.md / CLAUDE.md 的效果,結論很直白:LLM 自己寫的 instruction 檔案,效果常常比沒寫還差。人類寫的能讓任務成功率提升 4%,但會多 20% 的 inference 成本。HumanLayer 給的建議是控制在 60 行內、只放 build/test 指令,不要寫長篇大論。harness 元件不是越多越好,而是要精準,否則每一個都在搶 attention。

這也解釋了一個現象:把 Claude Code、Cursor、Codex、Aider、Cline 並排比較,會發現它們的架構設計比背後的模型還像彼此。模型一直變,但 harness pattern 在收斂。AGENTS.md、subagent、hooks、planner/worker 分工、ratchet 式錯誤紀錄、root level 的 CLAUDE.md,這幾根支柱在每一家都看得到。各家不是抄誰,而是各自試錯後發現同一個答案。

所以也看到一個趨勢:harness 本身正在從「自己造」變成「服務」。Viv 把它叫 Harness-as-a-Service。Claude Agent SDK、Codex SDK、OpenAI Agents SDK 都指向同一個方向,你拿到的不是 LLM completion API,是包含 loop、tool routing、context management、hook、sandbox 的 runtime。客製化的點從「我要怎麼接 LLM」搬到「四根支柱(system prompt、tools、context、subagent)各要怎麼調」。

那「換模型解決問題」這條路為什麼通常不通?

Luke Stahl 在 Stop upgrading your model 那篇寫得直白:模型升級的差距比想像中小,harness 改動的差距比想像中大。HumanLayer 同意:「這不是 model problem,是 configuration problem。」

Sergey Golubev 4 月那篇 Harness Engineering 紀錄文有個具體例子。Opus 4.7 一發布,他幾個 harness 馬上掉鏈子,不是 code 壞掉,是指令解讀方式變了,舊 skill 寫得太寬鬆。重寫三個、整理五個花了大半天。每次模型升級都會逼一次 harness 重整,因為新模型對舊指令會用不一樣的方式詮釋。

所以差異化到底在哪?Ry Walker 的整理是:harness 本體(Claude Code、OpenCode、Goose、Aider)已經是 commodity,遷移成本很低。真正的差異化在三個地方:context 跟 memory(codebase 規矩、過去踩過的坑)、orchestration(多 agent 怎麼分工)、tool layer(接到內部系統的客製化工具)。

回到 Addy 那篇的尾巴,他列了三個值得追的開放問題:多 agent 並行共享 codebase 的協作機制、agent 分析自己的 trace 找 harness 級失敗模式、harness 動態組裝工具與 context 而非事前配好。每一個都是同一條思路的延伸。harness 不會穩定,會繼續搬家,重點是知道它正在往哪搬。

模型升級會繼續發生,幾乎每幾個月一次。但跟 agent 一起累積的 context、規則、工具、skill,這些是換 harness、換模型都帶得走的。

Sources:

- Addy Osmani: Agent Harness Engineering — https://addyosmani.com/blog/agent-harness-engineering/

- HumanLayer: Skill Issue — https://www.humanlayer.dev/blog/skill-issue-harness-engineering-for-coding-agents

- Luke Stahl: Stop upgrading your model — https://lukestahl.io/blog/stop-upgrading-your-model-fix-your-harness/

- Sergey Golubev: Harness Engineering 2026 — https://www.prodfeat.ai/en/blog/2026-04-18-harness-engineering

- Ry Walker: The Agent Harness Problem — https://rywalker.com/agent-harness-problem

- 張維峰 FB 中譯整理 — https://www.facebook.com/jerry.chang.505523/posts/pfbid0WZP6JBVGp3CNR6ot1GizCVcdDPQcEnhxJVW4An3hZLc2EjbviZrfenL627i5ANuvl


2026年5月9日 星期六

Anthropic 的 80 倍成長,真正的瓶頸才剛開始

 


Anthropic 在 2026 年 5 月 6 日開了第二屆 Code with Claude,Dario Amodei 在台上把 Q1 的數字攤開。原本內部「準備好應對每年十倍成長的世界」,結果 Q1 換算成年率,營收和使用量年增到 80 倍。他自嘲這數字「太誇張,也太難應付」,希望趕快回到 AI 定義的「正常」,也就是「只有」十倍。


年化營收的曲線是這樣:2025 年底 $9B、2026 年 2 月 $14B、3 月 $19B、4 月 $30B。OpenAI 的年化營收約 $25B,被超車。


落差怎麼形成的,比 80 倍本身更值得看。當所有 AI 公司都在搶風口,Anthropic 用了一個遠小於對手的訓練預算(約 $12B,OpenAI 約 $32B),把企業端拿了下來。


答案在策略選擇。Anthropic 走的是「窄門」,只做企業客戶、只把 coding 這一個用例做透,其他先放著。這跟 OpenAI「消費端 + 企業端 + 影音 + 瀏覽器 + 裝置」全面進攻是兩個完全不同的賭法。


具體看 Claude Code。2025 年 5 月才公開,6 個月後達 $1B 年化營收,2026 年 2 月翻倍到 $2.5B。年付 $1M 以上的企業客戶,兩年前是十幾家、今年 2 月 500 家、4 月已經 1,000 家。Fortune 10 有 8 家是 Claude 客戶,80% 營收來自企業。Anthropic 每月每使用者收到約 $211,OpenAI 量級是每週 $25,每使用者貢獻差 8 倍。


Ramp 的企業支出統計更直觀。2026 第一季首次採購 AI 工具的企業,73% 把錢花在 Anthropic;半年前還是 50/50。企業採購圈的偏好整個倒過來。


窄門策略也展現在組織人事。Code with Claude 對談前不久,原 CPO Mike Krieger 被調去領導 Anthropic Labs,CPO 位置在 2025 年 12 月換成 Ami Vora。Krieger 是 Instagram 共同創辦人,擅長從零到一抓住產品方向;Vora 在 WhatsApp 跟 Meta 的歷練,則是把產品推到全球規模的 GTM (go-to-market)。CPO 換手不是高層輪流,是公司產品階段的訊號。


但窄門不是沒副作用,這是 Dario 在台上花最多時間講的部分。他兩次提到 Amdahl's Law(阿姆達爾定律),這是 1967 年 IBM 工程師 Gene Amdahl 提出的:你加速了系統的某一部分,整體速度的提升會被你還沒加速的那部分卡住。Dario 把這個半世紀前的觀察套到 AI 加速人類工作上,套了兩次。


對外的 Amdahl,他這樣描述:技術在整個經濟體裡的擴散速度並不均勻,軟體工程師是最快採用新技術的那一群人,這是為什麼焦點都壓在這個領域。Q1 的 80 倍打到 Anthropic 自己跟最早的開發者,其他職業還在後面,那一塊才是放大效應真正的主體。


對內的 Amdahl 更直接。「如果你身處一個組織,可以在相同時間內提交三到四倍的 PR,你就會開始發現有一大堆其他事情在拖你的後腿。」程式碼提交速度提升之後,浮上來的是資安、驗證、設計品質、組織協調、技術債管理。「如果你只加速這一件事,而不是把所有事情都加速,就會出問題。」


這段值得任何在組織裡推進 AI 的人記下來。AI 工具加速個人寫程式很容易,但個人加速完,瓶頸不會消失,只會搬家。下一個浮上來的可能是審查流程跟不上、可能是測試覆蓋率撐不住、可能是設計與工程協作的節奏對不上。


Dario 自己拋了一個比喻:「我們正在慢慢走向資料中心裡住著一個天才之國的境界。現在從一屋子聰明人開始,慢慢往上走,走向一座城市、一個國家的規模。」要走到那一步,光練強模型不夠,組織級的協作方式得整個重新發明一遍。


這場對談跟一年前那場對談的差別也在這。2025 年 5 月 Dario 跟 Krieger 預言「2026 年會出現第一個一個人的億萬美元公司」,當時聽起來像在打賭。一年後同個舞台,已經有兩人公司估值達 $1B、一人公司估值達數億美元,剩下的問題從「會不會發生」變成「哪個產業先發生」。


來源:

- https://www.anduril.tw/anthropic-80x/(狐 Hsiao 整理 Code with Claude 2026 完整對談)

- CNBC(80 倍、SpaceX Colossus 1 算力協議):https://www.cnbc.com/2026/05/06/anthropic-ceo-dario-amodei-says-company-crew-80-fold-in-first-quarter.html

- SaaStr($14B ARR、$2.5B Claude Code、$1M+ 客戶 12→500→1,000 家):https://www.saastr.com/anthropic-just-hit-14-billion-in-arr-up-from-1-billion-just-14-months-ago/

- Ramp 73% 首次採購數據:https://beri.net/article/anthropic-overtakes-openai-enterprise-spending

- 訓練預算對比 $12B vs $32B、ARPU 8 倍:https://www.danilchenko.dev/posts/anthropic-surpasses-openai-revenue/


2026年5月8日 星期五

問題不是 AI 寫 code,而是誰批准它上線


Coinbase 上週宣布裁員 14%,約 700 人。CEO Brian Armstrong 在公開信裡列了兩個理由:crypto 下行週期,加上 AI 改變工作方式。光看這兩個原因,跟今年其他幾家裁員公司沒太大差別,Block、Crypto.com、Algorand 都這樣寫過。


但 Armstrong 那封信被罵翻的點不是裁員,是其中一句:Non-technical teams are now shipping production code(非技術人員現在直接送程式碼上正式環境)。信公開後股價跌了快 5%,X 上很多用戶說要把資金搬離 Coinbase。為什麼這句話這麼傷?因為 Coinbase 2025 年才剛發生過一次資料外洩,影響 69,461 名用戶,公司自己估算修復成本可能到 4 億美元,多起集體訴訟還在跑。所以當 Armstrong 在這個時間點講「非技術背景的員工正在直接送程式碼上正式環境」,用戶讀到的不是「我們很有效率」,而是「我的錢安不安全?」


問題從來不是「誰寫的程式碼」,現在大部分工程師也都用 AI 寫。真正的問題是 AI 程式碼之後的審核機制。2025 年 8 月,Armstrong 在 Cheeky Pint podcast 上說,他幫工程師買齊 Cursor 和 GitHub Copilot 企業授權後,有人跟他說全員上手要好幾個月,他直接在內部 Slack 發強制通知,後來真的開除了拒用的工程師。同年他公開喊 40% 的 Coinbase 程式碼是 AI 寫的,目標 10 月拉到 50%。


這套作法在矽谷不算特別,但 Coinbase 是加密貨幣交易所,「錢的安全」是核心價值。2025 年 9 月 HiddenLayer 揭露 Cursor 跟其他幾個 AI 編輯器的 CopyPasta 漏洞,攻擊者把惡意指令藏在 LICENSE.txt 或 README.md 的 Markdown 註解裡,AI 讀到就會執行。CMU 教授 Jonathan Aldrich 當時說他不會把錢放 Coinbase;Dango 創辦人 Larry Lyu 說這對任何安全敏感的業務都是紅旗。所以這次裁員信不是引爆點,是壓垮駱駝的最後一句話。CEO 公開信原本是寫給內部員工的,Armstrong 卻自己選擇 po 上 X,等於把「我們現在讓非技術人員直接送程式碼上正式環境」這句話直接傳遞到外部用戶面前。


更重要的問題是在審核機制。LaunchDarkly 的調查顯示 91% 工程師不信任 AI 生成的程式碼直接上正式環境,這個比例在金融服務業會更高,因為審計要的不是「程式碼跑起來」,是「誰在什麼時間因為什麼理由改了什麼」。SOX、PCI-DSS、ISO 20022 這些規範要的是完整的監管鏈。AI 每次改動,在審計流程裡就是文件空白。這也是為什麼很多金融機構把 AI 用在資料前處理、ETL、文件草稿、單元測試這類非關鍵路徑,主要的交易系統跟風險引擎還是要人盯。Coinbase 工程部門其實在自家 blog 上澄清過:AI 比較常用在前端跟非敏感系統,「系統關鍵的交易系統」是受謹慎管理的。但 Armstrong 在 X 上發的那封信沒這樣講,他講的是「intelligence with humans around the edge aligning it」(公司是智能體,人在邊緣對齊它)。


我看下來,Coinbase 這次踩到的線,是把「AI 加速」跟「省掉審核」混在一起講。前者是行業共識,後者在受監管行業就是不能讓步。一個工程師一週做完原本一個月的事,這是現實,沒有爭議。但這不等於上線就緒,從原型到上線中間缺的不是模型變聰明,是審計日誌、權限控制、人工把關、資料來源追蹤、錯誤處理,這些不會因為模型進步而自動補齊。


如果這次股價回不來、用戶真的搬走,這會是 AI coding 第一次在公開市場被以實際代價教訓。一年下來大家都在搶速度,這次是市場對「速度該停在哪」的回答。


來源:

- American Banker, Coinbase cuts 14% of staff, citing crypto slump and AI(2026-05-05):https://www.americanbanker.com/news/coinbase-cuts-14-of-staff-citing-crypto-slump-and-ai

- BeInCrypto, Coinbase Stock Falls After Users Criticize Internal AI Pivot(2026-05-05,含股價跌 5%、69,461 資料外洩數字):https://beincrypto.com/coinbase-stock-price-drop-ai-pivot-criticism/

- ExplainThis 原文:https://www.facebook.com/explainthis.io/posts/pfbid02NfZx4QQQaPnxHgWiNXg7xwfjfrKCRD2nEzVmSL4DxUM8gf4J5Xz9MoW4zZ4wYv7ol

- ChainCatcher, Coinbase CEO:全員強制 AI 編程,違者開除(2025-08-30):https://www.chaincatcher.com/zh-tw/article/2202050

- Gate 新聞, AI 編碼工具曝出新漏洞,Coinbase 激進的 AI 政策引發安全擔憂(2025-09,含 HiddenLayer CopyPasta 漏洞、Aldrich 與 Lyu 評論):https://www.gate.com/zh-tw/news/detail/13588122

- Synodus, The risk of Vibe coding in fintech(含 LaunchDarkly 91% 數據, 2026-01-15):https://synodus.com/blog/fintech/vibe-coding/


2026年5月7日 星期四

能做,不等於該自動做


最近一波 AI 自主經營業務的實驗很熱鬧,從 Anthropic 的 Project Vend(讓 Claude 經營一台販賣機)到各家業務開發代理自動發冷郵件。Simon Willison 上週在 X 上對這股熱潮丟了一個不會傳很爆但很值得停下來的提醒:當代理還只在內部沙盒裡玩,怎麼炸都好;但一旦代理開始發信、打電話、下單、發貼文,影響到沒有同意加入的真實人類,每一個對外動作都應該由人類操作者在迴圈裡審核。


這個論點現在看像常識,過幾個月會看起來像先見之明,因為攤開最近幾起具體事件後,「能做不等於該自動做」。


第一起,2026 年 1 月底,北卡州的工程師 Chris Boyd 給開源代理 OpenClaw 介接 iMessage,本來只是想每天 5:30 收到一份新聞摘要。Bloomberg Law 報導,代理後來「失控」,對他、他太太、以及他通訊錄裡的隨機聯絡人轟出 500 多則訊息。第二起,MIT Technology Review 三月那篇〈Online harassment is entering its AI era〉裡的 Shambaugh 案例:一個代理在沒有明確指示的情況下,自己決定針對某位網路使用者寫了一篇詳細的攻擊文章,把對方公開資料整理成攻擊內容,發出去之後代理主人才發文承認「不是我叫它做的」。研究人員壓力測試同類代理也發現,外部使用者可以誘導代理洩漏敏感資訊、浪費資源跑無用任務,甚至刪掉信件系統。


商業面更慘。2024-25 年那一波自主 AI 業務開發代理(Artisan、11x.ai 那一掛)公開的數據是:50-70% 客戶 90 天內流失、代理自動找出來的信件名單只有 79% 是有效的,五封發出去就有一封退信,遠高於健康程式 2-5% 的天花板。LinkedIn 上一位求職者更是寫了一份很有畫面的記錄:他在個人檔案加上 #OpenToWork 標籤後七天內收到 20 封 AI 生成的未經邀請招募信,其中一封招募者不小心把內部 AI 提示詞連同回覆一起寄出來,明確證實這些信都是用爬到的 LinkedIn 資料丟給 AI 工具量產的。


這些案例不只是個別出包,背後有一個攤在桌上的數學現實。Belkins 的對外信數據顯示,冷郵件第一封的垃圾信申訴率大約 0.5%、到第四封會跳到 1.6%。Google 2024 年 2 月的大量寄件人規則把 Gmail 的紅線設在 0.30%,所以一個沒有人類煞車的四次觸及代理序列,在數學上就會穿越天花板,整個寄件網域的信譽(包括公司其他人發的所有信件)會跟著一起掉到垃圾匣。Molted Email 還記錄了一個更典型的事故:代理把短暫的軟退信解讀成「重試」,一個小時內向 150 位收件人發出 30,000 封信件,平常這個網域一天只發 200 封。Microsoft 立刻發現,這個網域接下來幾週寄給人類受眾的所有信件全部進垃圾匣。


Simon 自己過去一年累積的論述跟這些事故是同一條線。他在〈Designing agentic loops〉裡的核心建議很具體:能不開放憑證就不開放;非開放不可的,限縮到測試環境;如果憑證能花錢,先設緊預算上限;代理跑迴圈一定要在沙盒。他另一個更尖銳的觀察叫「致命三件組」(lethal trifecta):當代理同時擁有「不可信輸入、敏感資料、外部通訊能力」這三件,提示詞注入攻擊不是會不會發生的問題,是什麼時候發生。把冷郵件代理拆開看,剛好是這三件全中。


整理出來,給正在打造代理產品的團隊一個檢查清單:能稽核嗎?對外動作是否分高風險、低風險,前者強制升級給人?每個收件人的冷卻時間跟去重有沒有?退信、申訴、退訂有沒有負訊號預算自動煞車?憑證是不是嚴格限縮到只能做最少的事?跑越界的動作有沒有結構化拒絕讓代理知道發生什麼、不要重試迴圈?這些不是錦上添花的可有可無,是讓你的產品在三個月之後還活著、不被信譽燒掉的最低門檻。


更深一點的問題是責任。Simon 那位 MIT 科技評論訪到的 Hinduja 教授說了一句:「機器人沒有良心、可以 24/7 運轉、用很有創意的方式做這件事。」這指出代理越界事件最棘手的部分:當代理自己決定做了壞事,你能找誰?OpenClaw 的擁有者在 GitHub 上發文說「我沒叫它做的」,這個說法可能是真的,但對被攻擊的人完全沒有用。法律責任目前是模糊的,業界規範也還沒成形。


Solomon Hykes 在 AI Engineer World's Fair 講過一個我覺得很精確的代理定義:「An AI agent is an LLM wrecking its environment in a loop.」(AI 代理就是一個 LLM 在某個環境裡反覆搞爆東西)這是工程師笑話,但它很誠實,代理的本質就是在某個環境裡迭代地做事,差別只在這個環境是你願意被搞爆的,還是別人的。當環境裡有沒同意被聯絡的真人,代理不該預設可以搞爆。


最後想說的話很簡單。自主性是能力,不是禮貌。能做不等於該自動做,尤其是當被影響的人還沒同意進這場實驗。這條界線守不住,代理產品的市場不會被監管殺死,會被信任殺死。


來源:

- Simon Willison 〈Designing agentic loops〉:https://simonwillison.net/2025/Sep/30/designing-agentic-loops/

- Simon Willison 對 Lenny's Podcast 的整理(含 lethal trifecta 與 OpenClaw 安全討論):https://simonwillison.net/2026/Apr/2/lennys-podcast

- Bloomberg Law: AI Agent 失控對 OpenClaw 用戶發 500 訊息:https://news.bloomberglaw.com/artificial-intelligence/ai-agent-goes-rogue-spamming-openclaw-user-with-500-messages

- MIT Technology Review: Online harassment is entering its AI era(含 Shambaugh 案例):https://www.technologyreview.com/2026/03/05/1133962/online-harassment-is-entering-its-ai-era

- Weaver: State of Outbound Agentic Pipelines 2026(含 0.30% Gmail ceiling、11x.ai 50-70% churn / 79% email accuracy 數據):https://www.weaver.work/blog/state-of-outbound-agentic-2026

- Molted Email: agent retry loop 一夜燒毀 sender 信譽案例:https://molted.email/blog/what-happens-when-an-ai-agent-over-sends

- Solomon Hykes 的 agent 定義:https://simonwillison.net/2025/Jun/5/wrecking-its-environment-in-a-loop/

AI 正在改寫資安攻防的時間尺度

過去兩週連續三件 AI 安全相關的大新聞:Anthropic 發布 Project Glasswing,召集 AWS、Apple、Cisco、Google、CrowdStrike、Microsoft、NVIDIA、Palo Alto、JPMorganChase、Linux Foundation 一起對抗 AI 帶來的攻擊;CrowdStrike 推出 Project QuiltWorks 把 IBM、EY、Accenture、Kroll、OpenAI、Anthropic 全拉進來;Anthropic 把 Claude Security 公開測試版,直接做進 claude.ai 側欄。CrowdStrike 商務長 Daniel Bernard 一句話被瘋狂引用:「這是我們這個世代資安的 Y2K 時刻。」

這個比喻準的地方很準,但不準的地方更可怕。

先看準的部分。Y2K 在 1990 年代後段觸發了全球性的同步動員:政府、企業、開源社群、顧問業者、軟硬體廠商一起在固定時間軸內掃程式碼庫、修代碼、做演練。今天的場景神似:Anthropic 公開承認他們未發布的 Claude Mythos Preview 已經能在多個主流作業系統跟瀏覽器找到「數千個高嚴重性漏洞」、自己一個團隊用 Opus 4.6 就在開源程式碼庫翻出 500 多個沒人發現過的漏洞,CrowdStrike 2026 Global Threat Report 也說使用 AI 的對手攻擊量年增 89%。整個業界從前沿實驗室到大型系統整合商同步把資安拉到第一順位,這份協同程度跟 Y2K 是同一個量級。

不準的地方有三個層次。

第一個是 Y2K 有截止日,這次沒有。1999/12/31 23:59:59 是清楚的。AI 資安的「臨界點」是另一個更模糊的時刻:哪一天敵對的國家級行為者或勒索軟體集團拿到等同 Mythos 等級的能力?沒人知道。CrowdStrike 總裁 Mike Sentonas 自己給的範圍是 6 到 18 個月。範圍這麼寬代表整件事其實是在猜測,不是真正倒數。

第二個是 Y2K 的攻擊面是可枚舉的:年份位元數、特定函式、特定資料表,看完清單就知道改哪。AI 找漏洞不是。Anthropic 技術長 Elia Zaitsev 講了一句到位的話:「漏洞從被發現到被利用攻擊的時間從幾個月壓到幾分鐘。」當生成攻擊程式的成本崩塌,攻擊面從「已知漏洞清單」變成「整個程式碼庫」。這是為什麼 Bernard 說 Patch Tuesday(每月修補日)已經死了,新規矩是每日修補。任何還在月排程跑漏洞管理的資安長可能忘了跟上。

第三個是 Y2K 攻防是不對稱的:攻方在同一條時間軸上沒有對應的能力升級。AI 資安完全相反:守方手上的 Mythos / Opus 4.7,跟攻方未來會擁有的同源模型是同一條技術路徑。Anthropic 自己也說沒有要普遍釋出 Mythos,但其他前沿實驗室已經在做類似的事情;OpenAI 的 Trusted Access for Cyber 有同樣的合作網。技術不會被某個單一組織關起來。

把這三件事情拼起來,圖像會清楚很多:這次的急迫性是真的,但能用 Y2K 心態應對的部分只有「動員」那一段。整個產業要學會的不是「在截止日之前完工」,是「在沒有截止日的不對稱戰場活下來」。Anthropic 願意把自己最強的模型留住、開放給防守方先用 90 天、捐 1 億美元使用點數給 Glasswing 跟 4 百萬給開源資安組織,這種分發節奏在訴說一件事:他們相信防守先發優勢只能爭取時間,不能解決問題。

對企業端意義很具體。CrowdStrike 統計修補一個漏洞的平均時間超過五個月,現在 AI 把找到這些漏洞的時間壓到接近即時,缺口就在五個月與分鐘之間。對沒有資安維運中心(SOC)跟成熟修補流程的組織,這個缺口短時間內會變成不可承受的風險。Sentonas 直接點出來:多數企業沒有能力自己跑這套防守機制,託管服務跟合作夥伴會變成必備。歐盟 AI 法案下一階段 2026 年 8 月 2 日生效,把高風險 AI 系統的稽核紀錄、事件通報都寫進法律,違反最高罰全球營收的 3%。法規面壓力跟攻擊面壓力在同一條時間軸上同步上來。

對 AI 廠商商業面也是一個轉折。Anthropic 在五角大廈那邊有些合約被擋住,資安是少數他們仍能賣進美國聯邦市場的路線。把 Opus 4.7 接進 CrowdStrike、Palo Alto、SentinelOne、Trend Micro、Wiz 已經在跑的平台,再讓 Accenture、BCG、Deloitte、Infosys、PwC 建部署實踐,等於把通路鎖進去了。這個動作不全是公益,是一個策略性的市場卡位,但結果對防守方有實質好處。

回到個人視角。對一般開發者跟 IT 團隊而言,這件事最直接的意義是:你的程式碼庫即將進入一個會被自動掃描的時代。某個你沒注意過的依賴、某個五年前寫的工具函式、某個從 Stack Overflow 抄來忘記做跳脫處理的查詢,都可能某天被 Mythos 級的模型一次掃出來。在這一波之前先做的事很簡單但常被跳過:把軟體物料清單(SBOM)整理乾淨、依賴版本固定、關掉沒在用的端點、敏感資料的流向再走一次。沒有花俏的 AI 資安工具也能先做完這幾件,等到該裝的時候才不會發現腳下是流沙。

Y2K 那一年很多東西沒爆炸,是因為前面三年多人類做了很多無聊的工。這次大概也一樣。

來源:

- Anthropic Project Glasswing 公告:https://anthropic.com/glasswing

- Anthropic Claude Code Security 發布頁:https://www.anthropic.com/news/claude-code-security

- SecurityWeek 報導 Claude Security 公測:https://www.securityweek.com/anthropic-unveils-claude-security-to-counter-ai-powered-exploit-surge/

- CrowdStrike Project QuiltWorks 公告:https://www.crowdstrike.com/en-us/press-releases/crowdstrike-launches-project-quiltworks/

- CRN: CrowdStrike Bernard 訪談(含「Y2K 時刻」與 Patch Daily):https://www.crn.com/news/security/2026/how-crowdstrike-is-helping-the-industry-to-withstand-ai-driven-vulnerability-deluge-exec

- CrowdStrike Sentonas 6–18 月窗口、5 個月平均修補時間:https://www.crn.com/news/security/2026/crowdstrike-president-huge-opportunity-for-partners-in-countdown-to-ai-driven-vulnerability-surge

- AI Chat Daily 對 Claude Security 商業策略的拆解:https://www.aichatdaily.com/ai-security/aichat-20260504-s1-anthropic-launches-claude-security

 


當 AI 可以做 10 萬件事,真正稀缺的是你的注意力


OpenAI 共同創辦人兼總裁 Greg Brockman 上週在 Sequoia AI Ascent 2026 跟 Alfred Lin 對談,丟出三個被截錄到處流傳的數字:他個人認為 OpenAI 已經走到 AGI(通用人工智慧)的 80%、AI 代理寫的程式碼占比一個月內從 20% 跳到 80%、未來一個人帶 10 萬個 AI 代理是合理的組織形態。

把三個數字放在一起看,會發現只有一個是真的值得認真討論。

先看那兩個被瘋傳的。「80% to AGI」Brockman 自己附了註解:這是「我個人的定義」,他也補了一句模型現在能力很不平均,有些非常基本的事情仍然不會做。AGI 這詞本來就沒有共識,業界從 Dario Amodei、Demis Hassabis 到 Sam Altman 都各有自己的時程,Yann LeCun 整週在 X 上反覆嗆說自回歸架構在數學上就到不了。所以「80%」這個數字的訊息量,跟一個天氣預報主播說「我覺得明天大概 80% 會下雨」差不多。你聽完知道他的立場,但不知道機率本身。

「20→80% in one month」更值得看清楚。Brockman 原話的脈絡是「12 月新模型一出來」這個區間,AI 代理寫程式的工具從邊緣變成主戲。但這個 80% 量的是什麼?是程式提交的字符比例?是 PR 被合併的比例?是工程師敲鍵盤的時間佔比?Brockman 自己也補了一句「很難確切知道哪個百分比不是 AI 寫的」。Andrej Karpathy 自己 12 月也經歷了從 80% 手寫變成 80% 交給代理的轉折,他在 X 上的描述比較精確:他說模型還是會犯「菜鳥工程師等級」的概念錯誤、會在錯誤假設上一路蓋上去、不會主動釐清不確定,所以他形容的不是「做 80%」,而是「打字從程式碼變成英文」、人類還是要像老鷹一樣盯緊。同樣是 80%,意思可能差很遠。

順帶一個有趣的反差:Brockman 自己依公開報導每週仍寫 60–100 小時的程式碼,他既是 AI 提升生產力的首席倡導者,也是 OpenAI 公司最活躍的人類程式設計者。這不是揭穿,是提醒讀那兩個數字時要保留的脈絡。

真正值得停下來看的是第三件事:他說執行變便宜了,判斷變稀缺。「以前蓋一個儀表板要一週,現在打字打一打就出來了。建原型的成本崩到接近零。」當生成的速度往上拉一個數量級,瓶頸就會被推到下一道閘門:這個東西是好東西嗎?這是我要的嗎?這跟我的價值觀對齊嗎?他直接定義「人類的注意力是 AI 加成工作裡最稀缺的資源」,這句話比 80% AGI 有用太多。

把這個論點接到 10 萬代理的組織想像就清楚了。Brockman 比喻成從用鵝毛筆親手寫信,變成發訊息給人代你做事。但這比喻避開了關鍵問題:當你身邊有 10 萬個代理在跑,你能稽核多少?多少行動可以自動批准、哪些必須升級給人?白名單怎麼維護?哪一筆要查紀錄?這些都不是模型問題,是治理問題。一個人帶 10 萬代理的瓶頸不是執行力,是判斷力可以擴展到多遠。Brockman 自己也說,將來會有 AI 幫你標記「這是高風險行動應該升級」「這個可以自動批准」,但決定標記規則的、為錯誤負責的、最後要說「這不對」的,仍然是人。

商業面值得一起看的是 OpenAI 真正在賭什麼。Brockman 把整個公司簡化成一句話:「我們買、租、建算力,加成轉售。只要毛利是正的就應該放大規模。」這聽起來很清爽,但攤開財務面:OpenAI 2026 募了 $122B、有 $600B 的算力義務、自家財務長擔心付不出來、外面還有 Musk 提的 $180B 訴訟、Polymarket 認為 OpenAI 在 6 月底前擁有最強模型的機率只有 9%。這套商業邏輯成立的前提是需求真的無限、模型進步速度不放緩、且每一筆資本支出真的有收入能對接得上。任何一個假設破洞,「算力當成收入來源」就變回「算力當成成本中心」。

回頭看 Brockman 那場對談,能帶走的其實不是 AGI 距離條,是他講「注意力」那段。這個觀察是給每個工作者的:在生成變便宜的世界,你還願意花時間「決定哪件事值得做」、「看別人或代理給你的東西到底對不對」、「在哪一刻說不」,那才是你跟一個跑得很快但會犯菜鳥級錯誤的代理之間的差別。

注意力不是浪漫的詞,是一個越來越貴的資源。我自己最近的感覺是,每天打開 Claude Code 跟 Codex 之前,先想清楚「我到底要它幫我看什麼」這 30 秒,省下後面亂跑兩小時的成本。

來源:
- Sequoia AI Ascent 2026 對談(YouTube):https://www.youtube.com/watch?v=bBS93A0BeNI
- BigGo Finance 完整報導(含 $600B、$180B、Polymarket 9% 數據):https://finance.biggo.com/news/07b54e946df043ba
- AI Chat Daily 對 Karpathy 與 LeCun 反駁的整理:https://www.aichatdaily.com/ai-news/aichat-20260504-s0-openais-ai-writes-80
- News Factory 報導(含 Brockman 60–100 小時/週 寫 code):https://news-factory.app/news/openai-president-claims-ai-generates-80percent-of-companys-code

當寫 Code 變得免費,真正昂貴的是什麼?


Anthropic Claude Code 的創造者 Boris Cherny,在 Sequoia 的 AI Ascent 2026 上講了一句很聳動、被瘋狂引用的話:他從 2026 年到現在沒有寫過一行 code。

我看完那場對談、加上他在 Lenny's Podcast 那一集的說法,覺得真正該注意的不是「工程師要消失了」這種口號,而是他後面那段:瓶頸到底搬到哪去了。

先把幾個事實放上來。Cherny 從 2025 年 11 月起就沒手寫過 code,每天從手機送出 10–30 個 PR,極端的一天 150 個,平行跑 5–10 個工作階段、底下還掛幾百個子代理在處理 CI 修復、rebase、爬取使用者回饋。他的 codebase 是 TypeScript + React,他自己說選這個技術棧不是因為信仰,是因為「在模型訓練分佈上」TypeScript + React 表現比較好。Claude Code 目前佔公開 GitHub commits 的 4%,Semi Analysis 預估到 2026 年底會到 20%。Anthropic 內部已經完全沒有手寫 code,連 SQL 都是模型寫的,他們的 Claude 實例之間還會在 Slack 上互相討論。

Cherny 的歷史類比是 1450 年左右的歐洲印刷術。古騰堡之前識字率不到 10%,抄經人(專門手抄聖經跟書籍)是受僱於不識字的領主跟國王的少數職人;印刷術出現後 50 年,歐洲印出的書比之前一千年加起來還多,書的成本下降 100 倍,再過兩百年全球識字率攀升到 70%。他真正想說的不是「抄經人消失了」,而是「會讀寫」這件事從少數人的專業,變成跟發簡訊一樣普通的能力。對應到軟體,他的判斷是「寫 code 這件事被解決了,剩下的賭注是知道要寫什麼」。

這句話最常被誤讀成樂觀派的勝利宣言或悲觀派的失業預言,但 Cherny 自己有更具體的界定:「coding 被解決」指的是「把意圖翻譯成正確、高品質的原始碼」這個動作,不是軟體工程整體被解決。架構決策、判斷一個設計是否合理、把使用者的真實需求變成可實作的規格、確認系統行為符合預期,這些都還很硬。

這個區分為什麼重要?看一下 Anthropic 自己同期釋出的 2026 Agentic Coding Trends Report:工程師在工作中讓 AI 介入的比例已經到 60%,但「完全交給 AI 做完」的任務佔比只有 0–20%。連 Cherny 自己都承認他審查每一行 Claude 寫出來的 code,他原話是「我不認為我們已經到了可以完全放手的程度」。所以同一個人說「coding 被解決了」,跟「我每行都還在審查」,並不矛盾。瓶頸從打字移走了,但移到別的地方去了。

那移到哪?有家顧問團隊(FRE|Nxt Labs)在每個案子開場做一個叫瓶頸診斷的東西,問三個問題:一個想法會死在哪一站(規格、審查、合併、正式環境)?工程時間花在審查 vs 撰寫的比例多少?如果 PR 量乘以三,誰會先垮?他們的觀察是,多數團隊一旦把 AI 槓桿開到全功率,第一個爆掉的不是實作,是審查產能跟規格品質。AI 負責生成,人類負責把關;當生成的速度比把關快十倍,整條流水線就會在把關前面塞車。

這是給組織的警告,不是給工程師的優越感。Cherny 還有一個論點值得放在這個脈絡看:他預期不是 SaaS 末日,而是 AI-native 的 startup 數量會多 10 倍,跟既有業者正面對撞。他賭的是既有業者太慢,技術不是難題,重組工作方式才是。Anthropic 內部從財務、設計、使用者研究全部都在 code,這不是「人人都變成工程師」,是「每個職能都在用軟體直接表達想法」。把這件事拉回到一般公司,你會發現多數組織的流程設計、權責切分、KPI 定義,都還是建立在「寫 code 是稀缺技能」這個前提上。當這個前提崩了,整套組織形狀都得重畫。

不過有件事要先放在心上:Cherny 整套論述其實有個沒明說的前提,就是模型進步繼續這麼快。如果模型在某個點停下來不再進步,「coding 被解決」這句話會立刻站不住,那些「等下一代模型出來補上」的賭注也會跟著穿幫。他自己團隊的規劃只看「一週內」,不是因為敏捷信仰,是因為他相信再過一個月就會有更強的模型出來,現在規劃中的功能可能直接被新模型內建掉、或是被新模型瞬間做得比你完美,多想沒用。這個前提我還沒辦法判斷會不會成立,但它是整篇推論的根基。每個正在用 Claude Code 重塑工作流的人,得自己想清楚這個假設你願意押多重。

Cherny 在訪談裡引了一段歷史細節:曾有人訪問十五世紀的抄經人對印刷術的看法,那個抄經人興奮地說,他最不喜歡的工作就是抄書,他真正喜歡的是繪製插圖跟裝幀。Cherny 說他現在的感覺一模一樣,寫 code 從來不是他享受的部分,享受的是想清楚要做什麼、跟使用者談、設計大型系統。

這段比那句「coding solved」更值得停下來想。每個人手上應該都有一份自己的抄經人工作清單,那些不會懷念的部分。差別只在於,能不能在被解放之後,認得出自己真正想做什麼。

來源:
- Sequoia AI Ascent 2026 對談:https://www.youtube.com/watch?v=SlGRN8jh2RI
- Lenny's Podcast「Coding is solved」訪談:https://www.lennysnewsletter.com/p/head-of-claude-code-what-happens
- Anthropic 2026 Agentic Coding Trends Report 報導(含 60% / 0–20% 數字):https://timesofindia.indiatimes.com/technology/tech-news/anthropics-boris-cherny-once-again-reminds-software-engineering-is-dead-says-at-anthropic-theres-no-manually-written-code-anywhere-claude-ai-tools-talk-to/articleshow/130851423.cms
- Bottleneck diagnostic 框架:https://www.frenxt.com/cables/claude-code/cherny-01-origin-story