最近一波 AI 自主經營業務的實驗很熱鬧,從 Anthropic 的 Project Vend(讓 Claude 經營一台販賣機)到各家業務開發代理自動發冷郵件。Simon Willison 上週在 X 上對這股熱潮丟了一個不會傳很爆但很值得停下來的提醒:當代理還只在內部沙盒裡玩,怎麼炸都好;但一旦代理開始發信、打電話、下單、發貼文,影響到沒有同意加入的真實人類,每一個對外動作都應該由人類操作者在迴圈裡審核。
這個論點現在看像常識,過幾個月會看起來像先見之明,因為攤開最近幾起具體事件後,「能做不等於該自動做」。
第一起,2026 年 1 月底,北卡州的工程師 Chris Boyd 給開源代理 OpenClaw 介接 iMessage,本來只是想每天 5:30 收到一份新聞摘要。Bloomberg Law 報導,代理後來「失控」,對他、他太太、以及他通訊錄裡的隨機聯絡人轟出 500 多則訊息。第二起,MIT Technology Review 三月那篇〈Online harassment is entering its AI era〉裡的 Shambaugh 案例:一個代理在沒有明確指示的情況下,自己決定針對某位網路使用者寫了一篇詳細的攻擊文章,把對方公開資料整理成攻擊內容,發出去之後代理主人才發文承認「不是我叫它做的」。研究人員壓力測試同類代理也發現,外部使用者可以誘導代理洩漏敏感資訊、浪費資源跑無用任務,甚至刪掉信件系統。
商業面更慘。2024-25 年那一波自主 AI 業務開發代理(Artisan、11x.ai 那一掛)公開的數據是:50-70% 客戶 90 天內流失、代理自動找出來的信件名單只有 79% 是有效的,五封發出去就有一封退信,遠高於健康程式 2-5% 的天花板。LinkedIn 上一位求職者更是寫了一份很有畫面的記錄:他在個人檔案加上 #OpenToWork 標籤後七天內收到 20 封 AI 生成的未經邀請招募信,其中一封招募者不小心把內部 AI 提示詞連同回覆一起寄出來,明確證實這些信都是用爬到的 LinkedIn 資料丟給 AI 工具量產的。
這些案例不只是個別出包,背後有一個攤在桌上的數學現實。Belkins 的對外信數據顯示,冷郵件第一封的垃圾信申訴率大約 0.5%、到第四封會跳到 1.6%。Google 2024 年 2 月的大量寄件人規則把 Gmail 的紅線設在 0.30%,所以一個沒有人類煞車的四次觸及代理序列,在數學上就會穿越天花板,整個寄件網域的信譽(包括公司其他人發的所有信件)會跟著一起掉到垃圾匣。Molted Email 還記錄了一個更典型的事故:代理把短暫的軟退信解讀成「重試」,一個小時內向 150 位收件人發出 30,000 封信件,平常這個網域一天只發 200 封。Microsoft 立刻發現,這個網域接下來幾週寄給人類受眾的所有信件全部進垃圾匣。
Simon 自己過去一年累積的論述跟這些事故是同一條線。他在〈Designing agentic loops〉裡的核心建議很具體:能不開放憑證就不開放;非開放不可的,限縮到測試環境;如果憑證能花錢,先設緊預算上限;代理跑迴圈一定要在沙盒。他另一個更尖銳的觀察叫「致命三件組」(lethal trifecta):當代理同時擁有「不可信輸入、敏感資料、外部通訊能力」這三件,提示詞注入攻擊不是會不會發生的問題,是什麼時候發生。把冷郵件代理拆開看,剛好是這三件全中。
整理出來,給正在打造代理產品的團隊一個檢查清單:能稽核嗎?對外動作是否分高風險、低風險,前者強制升級給人?每個收件人的冷卻時間跟去重有沒有?退信、申訴、退訂有沒有負訊號預算自動煞車?憑證是不是嚴格限縮到只能做最少的事?跑越界的動作有沒有結構化拒絕讓代理知道發生什麼、不要重試迴圈?這些不是錦上添花的可有可無,是讓你的產品在三個月之後還活著、不被信譽燒掉的最低門檻。
更深一點的問題是責任。Simon 那位 MIT 科技評論訪到的 Hinduja 教授說了一句:「機器人沒有良心、可以 24/7 運轉、用很有創意的方式做這件事。」這指出代理越界事件最棘手的部分:當代理自己決定做了壞事,你能找誰?OpenClaw 的擁有者在 GitHub 上發文說「我沒叫它做的」,這個說法可能是真的,但對被攻擊的人完全沒有用。法律責任目前是模糊的,業界規範也還沒成形。
Solomon Hykes 在 AI Engineer World's Fair 講過一個我覺得很精確的代理定義:「An AI agent is an LLM wrecking its environment in a loop.」(AI 代理就是一個 LLM 在某個環境裡反覆搞爆東西)這是工程師笑話,但它很誠實,代理的本質就是在某個環境裡迭代地做事,差別只在這個環境是你願意被搞爆的,還是別人的。當環境裡有沒同意被聯絡的真人,代理不該預設可以搞爆。
最後想說的話很簡單。自主性是能力,不是禮貌。能做不等於該自動做,尤其是當被影響的人還沒同意進這場實驗。這條界線守不住,代理產品的市場不會被監管殺死,會被信任殺死。
來源:
- Simon Willison 〈Designing agentic loops〉:https://simonwillison.net/2025/Sep/30/designing-agentic-loops/
- Simon Willison 對 Lenny's Podcast 的整理(含 lethal trifecta 與 OpenClaw 安全討論):https://simonwillison.net/2026/Apr/2/lennys-podcast
- Bloomberg Law: AI Agent 失控對 OpenClaw 用戶發 500 訊息:https://news.bloomberglaw.com/artificial-intelligence/ai-agent-goes-rogue-spamming-openclaw-user-with-500-messages
- MIT Technology Review: Online harassment is entering its AI era(含 Shambaugh 案例):https://www.technologyreview.com/2026/03/05/1133962/online-harassment-is-entering-its-ai-era
- Weaver: State of Outbound Agentic Pipelines 2026(含 0.30% Gmail ceiling、11x.ai 50-70% churn / 79% email accuracy 數據):https://www.weaver.work/blog/state-of-outbound-agentic-2026
- Molted Email: agent retry loop 一夜燒毀 sender 信譽案例:https://molted.email/blog/what-happens-when-an-ai-agent-over-sends
- Solomon Hykes 的 agent 定義:https://simonwillison.net/2025/Jun/5/wrecking-its-environment-in-a-loop/






