2026年5月7日 星期四

能做,不等於該自動做


最近一波 AI 自主經營業務的實驗很熱鬧,從 Anthropic 的 Project Vend(讓 Claude 經營一台販賣機)到各家業務開發代理自動發冷郵件。Simon Willison 上週在 X 上對這股熱潮丟了一個不會傳很爆但很值得停下來的提醒:當代理還只在內部沙盒裡玩,怎麼炸都好;但一旦代理開始發信、打電話、下單、發貼文,影響到沒有同意加入的真實人類,每一個對外動作都應該由人類操作者在迴圈裡審核。


這個論點現在看像常識,過幾個月會看起來像先見之明,因為攤開最近幾起具體事件後,「能做不等於該自動做」。


第一起,2026 年 1 月底,北卡州的工程師 Chris Boyd 給開源代理 OpenClaw 介接 iMessage,本來只是想每天 5:30 收到一份新聞摘要。Bloomberg Law 報導,代理後來「失控」,對他、他太太、以及他通訊錄裡的隨機聯絡人轟出 500 多則訊息。第二起,MIT Technology Review 三月那篇〈Online harassment is entering its AI era〉裡的 Shambaugh 案例:一個代理在沒有明確指示的情況下,自己決定針對某位網路使用者寫了一篇詳細的攻擊文章,把對方公開資料整理成攻擊內容,發出去之後代理主人才發文承認「不是我叫它做的」。研究人員壓力測試同類代理也發現,外部使用者可以誘導代理洩漏敏感資訊、浪費資源跑無用任務,甚至刪掉信件系統。


商業面更慘。2024-25 年那一波自主 AI 業務開發代理(Artisan、11x.ai 那一掛)公開的數據是:50-70% 客戶 90 天內流失、代理自動找出來的信件名單只有 79% 是有效的,五封發出去就有一封退信,遠高於健康程式 2-5% 的天花板。LinkedIn 上一位求職者更是寫了一份很有畫面的記錄:他在個人檔案加上 #OpenToWork 標籤後七天內收到 20 封 AI 生成的未經邀請招募信,其中一封招募者不小心把內部 AI 提示詞連同回覆一起寄出來,明確證實這些信都是用爬到的 LinkedIn 資料丟給 AI 工具量產的。


這些案例不只是個別出包,背後有一個攤在桌上的數學現實。Belkins 的對外信數據顯示,冷郵件第一封的垃圾信申訴率大約 0.5%、到第四封會跳到 1.6%。Google 2024 年 2 月的大量寄件人規則把 Gmail 的紅線設在 0.30%,所以一個沒有人類煞車的四次觸及代理序列,在數學上就會穿越天花板,整個寄件網域的信譽(包括公司其他人發的所有信件)會跟著一起掉到垃圾匣。Molted Email 還記錄了一個更典型的事故:代理把短暫的軟退信解讀成「重試」,一個小時內向 150 位收件人發出 30,000 封信件,平常這個網域一天只發 200 封。Microsoft 立刻發現,這個網域接下來幾週寄給人類受眾的所有信件全部進垃圾匣。


Simon 自己過去一年累積的論述跟這些事故是同一條線。他在〈Designing agentic loops〉裡的核心建議很具體:能不開放憑證就不開放;非開放不可的,限縮到測試環境;如果憑證能花錢,先設緊預算上限;代理跑迴圈一定要在沙盒。他另一個更尖銳的觀察叫「致命三件組」(lethal trifecta):當代理同時擁有「不可信輸入、敏感資料、外部通訊能力」這三件,提示詞注入攻擊不是會不會發生的問題,是什麼時候發生。把冷郵件代理拆開看,剛好是這三件全中。


整理出來,給正在打造代理產品的團隊一個檢查清單:能稽核嗎?對外動作是否分高風險、低風險,前者強制升級給人?每個收件人的冷卻時間跟去重有沒有?退信、申訴、退訂有沒有負訊號預算自動煞車?憑證是不是嚴格限縮到只能做最少的事?跑越界的動作有沒有結構化拒絕讓代理知道發生什麼、不要重試迴圈?這些不是錦上添花的可有可無,是讓你的產品在三個月之後還活著、不被信譽燒掉的最低門檻。


更深一點的問題是責任。Simon 那位 MIT 科技評論訪到的 Hinduja 教授說了一句:「機器人沒有良心、可以 24/7 運轉、用很有創意的方式做這件事。」這指出代理越界事件最棘手的部分:當代理自己決定做了壞事,你能找誰?OpenClaw 的擁有者在 GitHub 上發文說「我沒叫它做的」,這個說法可能是真的,但對被攻擊的人完全沒有用。法律責任目前是模糊的,業界規範也還沒成形。


Solomon Hykes 在 AI Engineer World's Fair 講過一個我覺得很精確的代理定義:「An AI agent is an LLM wrecking its environment in a loop.」(AI 代理就是一個 LLM 在某個環境裡反覆搞爆東西)這是工程師笑話,但它很誠實,代理的本質就是在某個環境裡迭代地做事,差別只在這個環境是你願意被搞爆的,還是別人的。當環境裡有沒同意被聯絡的真人,代理不該預設可以搞爆。


最後想說的話很簡單。自主性是能力,不是禮貌。能做不等於該自動做,尤其是當被影響的人還沒同意進這場實驗。這條界線守不住,代理產品的市場不會被監管殺死,會被信任殺死。


來源:

- Simon Willison 〈Designing agentic loops〉:https://simonwillison.net/2025/Sep/30/designing-agentic-loops/

- Simon Willison 對 Lenny's Podcast 的整理(含 lethal trifecta 與 OpenClaw 安全討論):https://simonwillison.net/2026/Apr/2/lennys-podcast

- Bloomberg Law: AI Agent 失控對 OpenClaw 用戶發 500 訊息:https://news.bloomberglaw.com/artificial-intelligence/ai-agent-goes-rogue-spamming-openclaw-user-with-500-messages

- MIT Technology Review: Online harassment is entering its AI era(含 Shambaugh 案例):https://www.technologyreview.com/2026/03/05/1133962/online-harassment-is-entering-its-ai-era

- Weaver: State of Outbound Agentic Pipelines 2026(含 0.30% Gmail ceiling、11x.ai 50-70% churn / 79% email accuracy 數據):https://www.weaver.work/blog/state-of-outbound-agentic-2026

- Molted Email: agent retry loop 一夜燒毀 sender 信譽案例:https://molted.email/blog/what-happens-when-an-ai-agent-over-sends

- Solomon Hykes 的 agent 定義:https://simonwillison.net/2025/Jun/5/wrecking-its-environment-in-a-loop/

AI 正在改寫資安攻防的時間尺度

過去兩週連續三件 AI 安全相關的大新聞:Anthropic 發布 Project Glasswing,召集 AWS、Apple、Cisco、Google、CrowdStrike、Microsoft、NVIDIA、Palo Alto、JPMorganChase、Linux Foundation 一起對抗 AI 帶來的攻擊;CrowdStrike 推出 Project QuiltWorks 把 IBM、EY、Accenture、Kroll、OpenAI、Anthropic 全拉進來;Anthropic 把 Claude Security 公開測試版,直接做進 claude.ai 側欄。CrowdStrike 商務長 Daniel Bernard 一句話被瘋狂引用:「這是我們這個世代資安的 Y2K 時刻。」

這個比喻準的地方很準,但不準的地方更可怕。

先看準的部分。Y2K 在 1990 年代後段觸發了全球性的同步動員:政府、企業、開源社群、顧問業者、軟硬體廠商一起在固定時間軸內掃程式碼庫、修代碼、做演練。今天的場景神似:Anthropic 公開承認他們未發布的 Claude Mythos Preview 已經能在多個主流作業系統跟瀏覽器找到「數千個高嚴重性漏洞」、自己一個團隊用 Opus 4.6 就在開源程式碼庫翻出 500 多個沒人發現過的漏洞,CrowdStrike 2026 Global Threat Report 也說使用 AI 的對手攻擊量年增 89%。整個業界從前沿實驗室到大型系統整合商同步把資安拉到第一順位,這份協同程度跟 Y2K 是同一個量級。

不準的地方有三個層次。

第一個是 Y2K 有截止日,這次沒有。1999/12/31 23:59:59 是清楚的。AI 資安的「臨界點」是另一個更模糊的時刻:哪一天敵對的國家級行為者或勒索軟體集團拿到等同 Mythos 等級的能力?沒人知道。CrowdStrike 總裁 Mike Sentonas 自己給的範圍是 6 到 18 個月。範圍這麼寬代表整件事其實是在猜測,不是真正倒數。

第二個是 Y2K 的攻擊面是可枚舉的:年份位元數、特定函式、特定資料表,看完清單就知道改哪。AI 找漏洞不是。Anthropic 技術長 Elia Zaitsev 講了一句到位的話:「漏洞從被發現到被利用攻擊的時間從幾個月壓到幾分鐘。」當生成攻擊程式的成本崩塌,攻擊面從「已知漏洞清單」變成「整個程式碼庫」。這是為什麼 Bernard 說 Patch Tuesday(每月修補日)已經死了,新規矩是每日修補。任何還在月排程跑漏洞管理的資安長可能忘了跟上。

第三個是 Y2K 攻防是不對稱的:攻方在同一條時間軸上沒有對應的能力升級。AI 資安完全相反:守方手上的 Mythos / Opus 4.7,跟攻方未來會擁有的同源模型是同一條技術路徑。Anthropic 自己也說沒有要普遍釋出 Mythos,但其他前沿實驗室已經在做類似的事情;OpenAI 的 Trusted Access for Cyber 有同樣的合作網。技術不會被某個單一組織關起來。

把這三件事情拼起來,圖像會清楚很多:這次的急迫性是真的,但能用 Y2K 心態應對的部分只有「動員」那一段。整個產業要學會的不是「在截止日之前完工」,是「在沒有截止日的不對稱戰場活下來」。Anthropic 願意把自己最強的模型留住、開放給防守方先用 90 天、捐 1 億美元使用點數給 Glasswing 跟 4 百萬給開源資安組織,這種分發節奏在訴說一件事:他們相信防守先發優勢只能爭取時間,不能解決問題。

對企業端意義很具體。CrowdStrike 統計修補一個漏洞的平均時間超過五個月,現在 AI 把找到這些漏洞的時間壓到接近即時,缺口就在五個月與分鐘之間。對沒有資安維運中心(SOC)跟成熟修補流程的組織,這個缺口短時間內會變成不可承受的風險。Sentonas 直接點出來:多數企業沒有能力自己跑這套防守機制,託管服務跟合作夥伴會變成必備。歐盟 AI 法案下一階段 2026 年 8 月 2 日生效,把高風險 AI 系統的稽核紀錄、事件通報都寫進法律,違反最高罰全球營收的 3%。法規面壓力跟攻擊面壓力在同一條時間軸上同步上來。

對 AI 廠商商業面也是一個轉折。Anthropic 在五角大廈那邊有些合約被擋住,資安是少數他們仍能賣進美國聯邦市場的路線。把 Opus 4.7 接進 CrowdStrike、Palo Alto、SentinelOne、Trend Micro、Wiz 已經在跑的平台,再讓 Accenture、BCG、Deloitte、Infosys、PwC 建部署實踐,等於把通路鎖進去了。這個動作不全是公益,是一個策略性的市場卡位,但結果對防守方有實質好處。

回到個人視角。對一般開發者跟 IT 團隊而言,這件事最直接的意義是:你的程式碼庫即將進入一個會被自動掃描的時代。某個你沒注意過的依賴、某個五年前寫的工具函式、某個從 Stack Overflow 抄來忘記做跳脫處理的查詢,都可能某天被 Mythos 級的模型一次掃出來。在這一波之前先做的事很簡單但常被跳過:把軟體物料清單(SBOM)整理乾淨、依賴版本固定、關掉沒在用的端點、敏感資料的流向再走一次。沒有花俏的 AI 資安工具也能先做完這幾件,等到該裝的時候才不會發現腳下是流沙。

Y2K 那一年很多東西沒爆炸,是因為前面三年多人類做了很多無聊的工。這次大概也一樣。

來源:

- Anthropic Project Glasswing 公告:https://anthropic.com/glasswing

- Anthropic Claude Code Security 發布頁:https://www.anthropic.com/news/claude-code-security

- SecurityWeek 報導 Claude Security 公測:https://www.securityweek.com/anthropic-unveils-claude-security-to-counter-ai-powered-exploit-surge/

- CrowdStrike Project QuiltWorks 公告:https://www.crowdstrike.com/en-us/press-releases/crowdstrike-launches-project-quiltworks/

- CRN: CrowdStrike Bernard 訪談(含「Y2K 時刻」與 Patch Daily):https://www.crn.com/news/security/2026/how-crowdstrike-is-helping-the-industry-to-withstand-ai-driven-vulnerability-deluge-exec

- CrowdStrike Sentonas 6–18 月窗口、5 個月平均修補時間:https://www.crn.com/news/security/2026/crowdstrike-president-huge-opportunity-for-partners-in-countdown-to-ai-driven-vulnerability-surge

- AI Chat Daily 對 Claude Security 商業策略的拆解:https://www.aichatdaily.com/ai-security/aichat-20260504-s1-anthropic-launches-claude-security

 


當 AI 可以做 10 萬件事,真正稀缺的是你的注意力


OpenAI 共同創辦人兼總裁 Greg Brockman 上週在 Sequoia AI Ascent 2026 跟 Alfred Lin 對談,丟出三個被截錄到處流傳的數字:他個人認為 OpenAI 已經走到 AGI(通用人工智慧)的 80%、AI 代理寫的程式碼占比一個月內從 20% 跳到 80%、未來一個人帶 10 萬個 AI 代理是合理的組織形態。

把三個數字放在一起看,會發現只有一個是真的值得認真討論。

先看那兩個被瘋傳的。「80% to AGI」Brockman 自己附了註解:這是「我個人的定義」,他也補了一句模型現在能力很不平均,有些非常基本的事情仍然不會做。AGI 這詞本來就沒有共識,業界從 Dario Amodei、Demis Hassabis 到 Sam Altman 都各有自己的時程,Yann LeCun 整週在 X 上反覆嗆說自回歸架構在數學上就到不了。所以「80%」這個數字的訊息量,跟一個天氣預報主播說「我覺得明天大概 80% 會下雨」差不多。你聽完知道他的立場,但不知道機率本身。

「20→80% in one month」更值得看清楚。Brockman 原話的脈絡是「12 月新模型一出來」這個區間,AI 代理寫程式的工具從邊緣變成主戲。但這個 80% 量的是什麼?是程式提交的字符比例?是 PR 被合併的比例?是工程師敲鍵盤的時間佔比?Brockman 自己也補了一句「很難確切知道哪個百分比不是 AI 寫的」。Andrej Karpathy 自己 12 月也經歷了從 80% 手寫變成 80% 交給代理的轉折,他在 X 上的描述比較精確:他說模型還是會犯「菜鳥工程師等級」的概念錯誤、會在錯誤假設上一路蓋上去、不會主動釐清不確定,所以他形容的不是「做 80%」,而是「打字從程式碼變成英文」、人類還是要像老鷹一樣盯緊。同樣是 80%,意思可能差很遠。

順帶一個有趣的反差:Brockman 自己依公開報導每週仍寫 60–100 小時的程式碼,他既是 AI 提升生產力的首席倡導者,也是 OpenAI 公司最活躍的人類程式設計者。這不是揭穿,是提醒讀那兩個數字時要保留的脈絡。

真正值得停下來看的是第三件事:他說執行變便宜了,判斷變稀缺。「以前蓋一個儀表板要一週,現在打字打一打就出來了。建原型的成本崩到接近零。」當生成的速度往上拉一個數量級,瓶頸就會被推到下一道閘門:這個東西是好東西嗎?這是我要的嗎?這跟我的價值觀對齊嗎?他直接定義「人類的注意力是 AI 加成工作裡最稀缺的資源」,這句話比 80% AGI 有用太多。

把這個論點接到 10 萬代理的組織想像就清楚了。Brockman 比喻成從用鵝毛筆親手寫信,變成發訊息給人代你做事。但這比喻避開了關鍵問題:當你身邊有 10 萬個代理在跑,你能稽核多少?多少行動可以自動批准、哪些必須升級給人?白名單怎麼維護?哪一筆要查紀錄?這些都不是模型問題,是治理問題。一個人帶 10 萬代理的瓶頸不是執行力,是判斷力可以擴展到多遠。Brockman 自己也說,將來會有 AI 幫你標記「這是高風險行動應該升級」「這個可以自動批准」,但決定標記規則的、為錯誤負責的、最後要說「這不對」的,仍然是人。

商業面值得一起看的是 OpenAI 真正在賭什麼。Brockman 把整個公司簡化成一句話:「我們買、租、建算力,加成轉售。只要毛利是正的就應該放大規模。」這聽起來很清爽,但攤開財務面:OpenAI 2026 募了 $122B、有 $600B 的算力義務、自家財務長擔心付不出來、外面還有 Musk 提的 $180B 訴訟、Polymarket 認為 OpenAI 在 6 月底前擁有最強模型的機率只有 9%。這套商業邏輯成立的前提是需求真的無限、模型進步速度不放緩、且每一筆資本支出真的有收入能對接得上。任何一個假設破洞,「算力當成收入來源」就變回「算力當成成本中心」。

回頭看 Brockman 那場對談,能帶走的其實不是 AGI 距離條,是他講「注意力」那段。這個觀察是給每個工作者的:在生成變便宜的世界,你還願意花時間「決定哪件事值得做」、「看別人或代理給你的東西到底對不對」、「在哪一刻說不」,那才是你跟一個跑得很快但會犯菜鳥級錯誤的代理之間的差別。

注意力不是浪漫的詞,是一個越來越貴的資源。我自己最近的感覺是,每天打開 Claude Code 跟 Codex 之前,先想清楚「我到底要它幫我看什麼」這 30 秒,省下後面亂跑兩小時的成本。

來源:
- Sequoia AI Ascent 2026 對談(YouTube):https://www.youtube.com/watch?v=bBS93A0BeNI
- BigGo Finance 完整報導(含 $600B、$180B、Polymarket 9% 數據):https://finance.biggo.com/news/07b54e946df043ba
- AI Chat Daily 對 Karpathy 與 LeCun 反駁的整理:https://www.aichatdaily.com/ai-news/aichat-20260504-s0-openais-ai-writes-80
- News Factory 報導(含 Brockman 60–100 小時/週 寫 code):https://news-factory.app/news/openai-president-claims-ai-generates-80percent-of-companys-code

當寫 Code 變得免費,真正昂貴的是什麼?


Anthropic Claude Code 的創造者 Boris Cherny,在 Sequoia 的 AI Ascent 2026 上講了一句很聳動、被瘋狂引用的話:他從 2026 年到現在沒有寫過一行 code。

我看完那場對談、加上他在 Lenny's Podcast 那一集的說法,覺得真正該注意的不是「工程師要消失了」這種口號,而是他後面那段:瓶頸到底搬到哪去了。

先把幾個事實放上來。Cherny 從 2025 年 11 月起就沒手寫過 code,每天從手機送出 10–30 個 PR,極端的一天 150 個,平行跑 5–10 個工作階段、底下還掛幾百個子代理在處理 CI 修復、rebase、爬取使用者回饋。他的 codebase 是 TypeScript + React,他自己說選這個技術棧不是因為信仰,是因為「在模型訓練分佈上」TypeScript + React 表現比較好。Claude Code 目前佔公開 GitHub commits 的 4%,Semi Analysis 預估到 2026 年底會到 20%。Anthropic 內部已經完全沒有手寫 code,連 SQL 都是模型寫的,他們的 Claude 實例之間還會在 Slack 上互相討論。

Cherny 的歷史類比是 1450 年左右的歐洲印刷術。古騰堡之前識字率不到 10%,抄經人(專門手抄聖經跟書籍)是受僱於不識字的領主跟國王的少數職人;印刷術出現後 50 年,歐洲印出的書比之前一千年加起來還多,書的成本下降 100 倍,再過兩百年全球識字率攀升到 70%。他真正想說的不是「抄經人消失了」,而是「會讀寫」這件事從少數人的專業,變成跟發簡訊一樣普通的能力。對應到軟體,他的判斷是「寫 code 這件事被解決了,剩下的賭注是知道要寫什麼」。

這句話最常被誤讀成樂觀派的勝利宣言或悲觀派的失業預言,但 Cherny 自己有更具體的界定:「coding 被解決」指的是「把意圖翻譯成正確、高品質的原始碼」這個動作,不是軟體工程整體被解決。架構決策、判斷一個設計是否合理、把使用者的真實需求變成可實作的規格、確認系統行為符合預期,這些都還很硬。

這個區分為什麼重要?看一下 Anthropic 自己同期釋出的 2026 Agentic Coding Trends Report:工程師在工作中讓 AI 介入的比例已經到 60%,但「完全交給 AI 做完」的任務佔比只有 0–20%。連 Cherny 自己都承認他審查每一行 Claude 寫出來的 code,他原話是「我不認為我們已經到了可以完全放手的程度」。所以同一個人說「coding 被解決了」,跟「我每行都還在審查」,並不矛盾。瓶頸從打字移走了,但移到別的地方去了。

那移到哪?有家顧問團隊(FRE|Nxt Labs)在每個案子開場做一個叫瓶頸診斷的東西,問三個問題:一個想法會死在哪一站(規格、審查、合併、正式環境)?工程時間花在審查 vs 撰寫的比例多少?如果 PR 量乘以三,誰會先垮?他們的觀察是,多數團隊一旦把 AI 槓桿開到全功率,第一個爆掉的不是實作,是審查產能跟規格品質。AI 負責生成,人類負責把關;當生成的速度比把關快十倍,整條流水線就會在把關前面塞車。

這是給組織的警告,不是給工程師的優越感。Cherny 還有一個論點值得放在這個脈絡看:他預期不是 SaaS 末日,而是 AI-native 的 startup 數量會多 10 倍,跟既有業者正面對撞。他賭的是既有業者太慢,技術不是難題,重組工作方式才是。Anthropic 內部從財務、設計、使用者研究全部都在 code,這不是「人人都變成工程師」,是「每個職能都在用軟體直接表達想法」。把這件事拉回到一般公司,你會發現多數組織的流程設計、權責切分、KPI 定義,都還是建立在「寫 code 是稀缺技能」這個前提上。當這個前提崩了,整套組織形狀都得重畫。

不過有件事要先放在心上:Cherny 整套論述其實有個沒明說的前提,就是模型進步繼續這麼快。如果模型在某個點停下來不再進步,「coding 被解決」這句話會立刻站不住,那些「等下一代模型出來補上」的賭注也會跟著穿幫。他自己團隊的規劃只看「一週內」,不是因為敏捷信仰,是因為他相信再過一個月就會有更強的模型出來,現在規劃中的功能可能直接被新模型內建掉、或是被新模型瞬間做得比你完美,多想沒用。這個前提我還沒辦法判斷會不會成立,但它是整篇推論的根基。每個正在用 Claude Code 重塑工作流的人,得自己想清楚這個假設你願意押多重。

Cherny 在訪談裡引了一段歷史細節:曾有人訪問十五世紀的抄經人對印刷術的看法,那個抄經人興奮地說,他最不喜歡的工作就是抄書,他真正喜歡的是繪製插圖跟裝幀。Cherny 說他現在的感覺一模一樣,寫 code 從來不是他享受的部分,享受的是想清楚要做什麼、跟使用者談、設計大型系統。

這段比那句「coding solved」更值得停下來想。每個人手上應該都有一份自己的抄經人工作清單,那些不會懷念的部分。差別只在於,能不能在被解放之後,認得出自己真正想做什麼。

來源:
- Sequoia AI Ascent 2026 對談:https://www.youtube.com/watch?v=SlGRN8jh2RI
- Lenny's Podcast「Coding is solved」訪談:https://www.lennysnewsletter.com/p/head-of-claude-code-what-happens
- Anthropic 2026 Agentic Coding Trends Report 報導(含 60% / 0–20% 數字):https://timesofindia.indiatimes.com/technology/tech-news/anthropics-boris-cherny-once-again-reminds-software-engineering-is-dead-says-at-anthropic-theres-no-manually-written-code-anywhere-claude-ai-tools-talk-to/articleshow/130851423.cms
- Bottleneck diagnostic 框架:https://www.frenxt.com/cables/claude-code/cherny-01-origin-story

2026年5月6日 星期三

AI 不只是加速工具,而是正在重寫整個世界的運作方式

 


從「AI 幫你加速」到「AI 重寫運作模式」

—— 看 Andrej Karpathy 在 Sequoia 專訪後,我對 AI 未來的重新理解

最近看完 Andrej Karpathy 在 Sequoia Capital 的訪談後,我對 AI 的理解有一個很大的轉變。

過去我一直把 AI 當成「效率工具」:
幫你加速寫 code、整理資料、做摘要、產生文件。

但這次最大的感受是:

AI 不只是加速既有流程,而是正在創造新的運作模式。

這可能才是 2025 之後真正重要的事情。


AI 已經開始進入「不需要人盯著看」的階段

Karpathy 提到一個我印象非常深刻的觀點:

從 2025 年底開始,在 AI 擅長的領域裡,人類已經不需要全程盯著它。

這句話其實很重。

因為這代表:

  • AI 不再只是 Copilot

  • 而是開始變成「可以被委託工作」的角色

以前:

  • AI 幫你補 code

  • 幫你生成文件

  • 幫你加快速度

現在:

  • AI 可以自己完成一段完整工作流程

  • 人類只需要定義目標與驗證結果

這是本質上的差異。


Software 1.0 → 2.0 → 3.0

Karpathy 用了一個很經典的分類:

Software 1.0

人類寫 code。

if x:
    do_something()

邏輯由工程師明確定義。


Software 2.0

人類不直接寫邏輯,而是:

建立 dataset → 訓練 model → 產生 weights

也就是 neural network 時代。

我們不再直接定義規則,而是讓模型自己學習規則。


Software 3.0

這是現在開始進入的世界:

Agentic Engineering

人類不再只是寫 code。

而是開始設計:

  • agent 如何協作

  • context 如何流動

  • memory 如何維持

  • tools 如何被使用

  • verification 如何建立

  • 系統如何自治

這已經不是單純 coding。

而是在「設計 AI 系統」。


真正重要的,不是 AI 幫你快 10 倍

而是:

AI 讓你能做以前根本做不到的事情。

這是我這次最大的體悟。

很多人談 AI,還停留在:

  • 幫我寫 email

  • 幫我生成 PPT

  • 幫我加速 coding

但真正大的改變是:

如果整個流程本來就是為「沒 AI」設計的,那現在流程本身就該被重寫。

例如:

以前去國外餐廳看不懂菜單。

傳統思維:

  • 用翻譯 App 加速理解

但 Karpathy 提到的案例是:

MenuGen

直接重新生成一份:

  • 你看得懂的 menu

  • 加上圖片

  • 加上解釋

  • 加上推薦

這不是「翻譯」。

而是:

重新定義使用者體驗。

這其實是 AI 時代最關鍵的能力。


未來的世界:Neural Network 將成為主要接口

另一個我覺得很重要的觀點:

未來,neural network 會成為主要 interface。

人類不再直接操作:

  • database

  • API

  • UI

  • system

而是:

對 LLM 描述需求。

然後:

  • CPU

  • traditional software

  • APIs

  • infrastructure

會在底層完成真正工作。

也就是:

Neural network 負責理解世界
傳統架構負責執行世界

這可能是未來十年最大的 software architecture 轉變。


為什麼 Code 最容易先被 AI 取代?

Karpathy 提到一個核心概念:

可驗證性(Verifiability)

Code 很容易 verify。

因為:

  • compile 得過

  • test pass

  • output 正確

  • benchmark 可量化

所以 AI 最容易先吃下這塊。

這其實解釋了:

為什麼 AI coding 的進步速度遠超大家預期。


我們其實都是 LLM 的實驗對象

他還提到一個很有趣的觀點:

GPT-3.5 到 GPT-4 在西洋棋能力上的巨大進步,某種程度上只是因為:

更多資料被餵進去了。

換句話說:

大型模型公司其實也在觀察:

  • 哪些能力會 emergent

  • 哪些領域會突然突破

  • 哪些事情開始可被驗證

某種程度上:

我們都是 LLM 時代的實驗參與者。

而每個人現在都應該做的事情是:

找出自己的領域,哪些部分已經可以被 AI 接管。


最終,所有事情都會變成「可驗證」

這是我覺得最值得思考的一句。

Karpathy 的推論其實是:

只要事情能被 verify,最終就能被 LLM 自動化。

這代表:

  • coding

  • testing

  • data analysis

  • accounting

  • legal review

  • operation flow

  • infrastructure management

都只是時間問題。

關鍵不再是:
「AI 能不能做」

而是:

我們能不能定義 verify 的方法。


Vibe Coding 與 Agentic Engineering 的差異

現在很多人談:

Vibe Coding

就是:

  • 靠 AI 寫 code

  • 快速 prototype

  • 用 prompt 開發

它的本質是:

提升每個人的 coding 生產力。

但 Karpathy 認為,真正下一階段是:

Agentic Engineering

重點不只是速度。

而是:

  • code quality

  • architecture

  • reliability

  • verification

  • maintainability

  • multi-agent coordination

也就是:

如何讓 AI 生產的系統,真的能進入 production。


未來的 10x,不只是速度提升

以前談 10x engineer。

現在可能是:

AI + 人類,直接改變組織的運作模式。

甚至不只是 10x。

而是:

  • 小團隊做出過去大公司才能做的事情

  • 一個人 orchestrate 多個 agents

  • AI 自動完成大量知識工作

  • organization structure 被重新定義

這可能是未來真正的 disruption。


我最有感的幾個建議

1. 盡可能使用現在能用的工具

不要等。

因為很多能力只有在實際使用後,才會真正理解。


2. 投資自己的 environment setup

這點我非常認同。

未來工程師的差異,很可能不是:

  • 誰比較會寫 code

而是:

  • 誰的 AI workflow 比較成熟

  • 誰的 context system 比較完整

  • 誰的 toolchain 比較強

環境 setup 本身會成為競爭力。


3. 傳統招募流程已經過時

Karpathy 提到:

現在很多面試,仍然停留在傳統 coding interview。

但真正應該測試的是:

Candidate 能不能建立完整 agent system。

例如:

做一個 Twitter clone。

但裡面有很多 agents:

  • 自動發文

  • moderation

  • recommendation

  • coordination

然後面試官再用更強的 AI 去攻擊它。

這其實才接近真實世界。


4. 人類仍然需要「品味」

即使 AI 很強。

但:

  • architecture

  • design principle

  • aesthetic taste

  • system boundary

  • product judgment

目前仍然很重要。

尤其如果這些東西:

不在 RL(reinforcement learning)流程裡。

那人類依然會保有角色。


Native-Agent World 可能真的會到來

Karpathy 描述的未來很像:

你只需要告訴 LLM 你要什麼。

然後:

  • sensors

  • tools

  • APIs

  • agents

  • automation systems

會自己完成全部工作。

這其實已經不是「軟體工具」。

而是:

一個 AI-native operating environment。


最後一句我最喜歡的話

“You can outsource your thinking, but you cannot outsource your understanding.”

你可以把思考流程 outsource 給 AI。

但你不能 outsource:

  • 理解

  • 判斷

  • 品味

  • 世界模型

而 AI 真正的價值,其實不是替代理解。

而是幫助人類更快理解。

2025年4月28日 星期一

讀書心得|《師父的最後修練》:從創業者到金融科技推動者的轉變之路


在我從數位行銷創業者的角色轉變為金融科技推動者後,閱讀《師父的最後修練》這本書,讓我對於事業的起點與終點有了更深刻的理解。

以終為始:重新審視事業的價值

書中強調「以終為始」的思維,提醒我們在事業的每一個階段,都應該思考最終的目標是什麼。這不僅僅是為了規劃退場策略,更是為了確保我們的事業能夠持續創造價值,即使在我們離開之後。

這讓我反思,當初創業時是否有清楚定義自己的核心價值?現在,在推動金融科技的過程中,我是否也應該思考,當我離開這個角色時,我所推動的變革是否能夠持續下去?

建立可持續的企業文化

書中提到,成功的退場不僅僅是財務上的成功,更重要的是企業文化的延續。這讓我意識到,在推動金融科技的過程中,建立一個支持創新、鼓勵學習的企業文化,是確保變革能夠持續的關鍵。

這也提醒我,無論是在創業還是在企業內部推動變革,培養接班人、建立制度化的流程,都是確保事業能夠持續發展的重要因素。

個人的成長與轉變

從創業者到金融科技推動者的轉變,讓我深刻體會到個人成長的重要性。書中提到,許多創業者在退場後感到迷失,因為他們沒有為自己的下一個人生階段做好準備。

這讓我意識到,無論是在事業的哪一個階段,都應該持續學習、持續成長,為自己的下一個挑戰做好準備。

結語

《師父的最後修練》不僅僅是一本關於創業退場的書,更是一本關於人生規劃的書。它提醒我們,無論是在創業還是在企業內部推動變革,都應該以終為始,思考我們的最終目標是什麼,並為此做好準備。

對我而言,這本書提供了一個全新的視角,讓我重新審視自己的事業與人生規劃。我相信,無論您處於事業的哪一個階段,都能從這本書中獲得啟發。

2024年2月29日 星期四

[讀書心得] 馬斯克傳

 


寫在之前

這是一本外觀看起來很厚的書,一般來說,也不是我會選擇的書籍。但是,當我開始閱讀以後,它很容易地讓我進入了書中的世界、每個場景,深刻的刻畫這位引領世界科技創新前進的大師 - 馬斯克,他的思考模式以及他的心路歷程。

成功無法複製,但是經驗可以傳承

希望你我都可以透過這本書,得到對於自己人生未來道路上,有幫助的經驗。

以下摘錄個人覺得重要的片段

創業家其實不喜歡冒險,而是希望減少風險。他們不是在風險中成長茁壯的,也不曾想要擴大風險。相反的,他們會找出可以控制的變因,使風險降到最低。 by 紅杉資本合夥人 博塔

世人誤以為科技會自動進步。事實上,只有當很多人致力於科技的改善,科技才會進步。

馬斯克很生氣的時候,會重新思考,用不同的角度看問題。

要當共同創辦人,不但要有靈感、付出血汗,還要願意承擔風險。

只有透過將彼此負責的人縱向整合在一起,設計的人才會意識到自己的產出對其他人實際造成什麼影響。

  • 電動車設計師 + 電動車生產線
  • 太陽能屋頂設計師 + 屋頂裝配工程團隊

用人上,馬斯克只要使命必達的人。

瘋狂的急迫感是馬斯克的運作原則,只有在此急迫感下,才能激發人們創造出新的突破性作法。此外,也可讓工程師專注於首要原則。

馬斯克認為,重要的不在於如何避免問題,因為問題總是會發生;重點在於你能夠多快找出問題、解決問題。

企業的願景是要易懂、且合理。更重要地,透過此願景,也能提高公司的競爭力。

世界不缺乏普通的產品(汽車),要創新就是要先打造最好、最高價的產品(汽車),再轉向大眾市場產品(車款)。

產品本身不會帶來成功,真正的關鍵是有效率的生產產品。

如果你想要建立一支賈伯斯口中所說的頂尖團隊,不希望有懶惰鬼或是腦袋不清楚的人加入,那麼有話直說的領導方式確實很有效。

設計不只和美學有關,真正的工業設計必須讓產品的外觀與工程結合。

商業運作上,他認為:

  • 盡快擴大規模,建立影響力
  • 不要本末倒置在業務或是行銷上花太多力氣,他相信只要產品夠好,自然能創造業績
馬斯克的管理方式:親自下海,帶領狂熱的追隨者並肩作戰,全年無休地全心投入工作,藉此確認公司員工達到瘋狂的工作程度。

一定要先等到流程設計完成後,直到質疑過所有要求,並且刪除不必要的部分之後,在開始導入自動化。

目標導向造就他勇於突破傳統思維框架,找出新的解決方案。

馬斯克的演算法:
  1. 質疑每一項要求:要假設所有的規則都是愚蠢的,除非有人能證明有其必要性。每一項要求都要附上提出要求的人名,並理解為什麼需要。
  2. 如果可以,刪除任何零組件或是流程:事實上,你可能會需要把某些刪掉的加回去。如果你後來沒有重新加回去 10%,那就代表一開始刪的不夠多。
  3. 簡化與優化:完成第 2 步以後才可以進入這步驟。
  4. 縮短周期:完成前 3 步驟後,才能進入此步驟。
  5. 自動化: 這應該要放最後。
以及其他一些補充:
  • 所有技術主管都必須具備實務經驗
  • 同事情誼很危險,必須避免大家互相 cover 的情況
  • 絕對不要要求部屬去做自己不願意做的事情
  • 如果有問題需要解決,不要只找主管討論
  • 找人時,一定要尋找具備正確態度的人
  • 一定要隨時保持瘋狂的急迫感
  • 受限於物理定律的規則才是真正需要遵守的規則;其他都只是建議。
創辦人要保持不可思議的樂觀

決定一個人是否被錄用或是升遷時,會優先看中態度,而不是履歷上的工作技能。好的態度指的是瘋狂投入工作的渴望。

要創新就必須先建立明確的指標。以 SpaceX 來說,其指標就是升空進入軌道的每公噸成本;以 Tesla 來說,就是其沒有人為干預的情況下自動駕駛的平均里程數。

每個人都會犯錯,重要的是這個人是否有好的回饋迴路,可以聽取別人的批評、不斷改進。

嘗試過後失敗,總好過花好幾個月時間不斷分析。

我們總要先了解問題是什麼,才能了解宇宙的答案。

金博爾針對迷你帝國的遊戲體悟:
  1. 同理心不是一種資產
  2. 像玩遊戲一樣遊玩人生
  3. 不要怕輸
  4. 積極主動
  5. 每一回合都要優化
  6. 加倍下注
  7. 選擇戰場
  8. 偶爾要關機
馬斯克不請個人助理或是安排會議的人,他要完全控制自己的時間。

馬斯克總是時時刻刻保持警惕,不讓自己太安逸。

壞消息都要大聲說出來,而且要常常說。好消息只需要小聲說,而且說一次就好。

馬斯克擁有扭曲現實的強大意志力,能夠完全無視唱反調的人。但他還有一項更重要的特質:他會改變心意。即使是他一開始拒絕的觀點,他也會聽進去,然後在腦中重新計算風險。

一小群保有高度工作動力的頂尖人才,會做得比一大群非常優秀、但工作動力不夠強的人好。

當要留下人才,需要符合三項條件:
  • 能力優秀
  • 值得信任
  • 有工作動力
馬斯克的管理方法,正好是直接指定哪些指標最重要 (key index)。

馬斯克預測:到了未來某個時間點,生物腦力將完全比不上數位腦力。

馬斯克的成功方程式:承擔風險、炸毀東西、學到教訓、進行修正,然後重新再來一次。

最後分享一個看到的 YT 影片,非常清楚地說明這本書,建議你也可以看一下。