Opus 4.6 在 Claude Code 跑 Terminal Bench 2.0 拿第 33 名,把同一個模型放到另一個 harness 跑同樣的 benchmark 跳到第 5 名
過去半年 Harness Engineering 這個詞被很多人各自獨立提出來。Hashimoto 2 月、OpenAI 的 Lopopolo 2 月、HumanLayer 3 月、Birgitta Böckeler 4 月。最近 Addy Osmani 把這些線索串成一篇,值得讀。我看完想記下來的不是定義,是裡面一個觀察。
Addy 引用 Viv Trivedy 一句話:「Harnesses don't shrink, they move.」工具變強的時候,harness 對應補位的那層不會消失,只會搬家。
舉個具體案例。Anthropic 在 2025 年 11 月推出 Tool Search Tool,把 MCP 工具描述從 prompt 抽出來,agent 要用才去查。一個典型 MCP setup 的 baseline 從 55,000 token 降到 3,000 token,省 85%。這聽起來像是 harness 縮小了,但實際上「決定哪些工具該載入」這個工作沒消失,是搬到 search/retrieval layer,由更精細的 ranking 機制接手。模型不會自己學會選工具,是 harness 變聰明,幫它選。
ETH Zurich 一篇 paper(arxiv 2602.11988)測 AGENTS.md / CLAUDE.md 的效果,結論很直白:LLM 自己寫的 instruction 檔案,效果常常比沒寫還差。人類寫的能讓任務成功率提升 4%,但會多 20% 的 inference 成本。HumanLayer 給的建議是控制在 60 行內、只放 build/test 指令,不要寫長篇大論。harness 元件不是越多越好,而是要精準,否則每一個都在搶 attention。
這也解釋了一個現象:把 Claude Code、Cursor、Codex、Aider、Cline 並排比較,會發現它們的架構設計比背後的模型還像彼此。模型一直變,但 harness pattern 在收斂。AGENTS.md、subagent、hooks、planner/worker 分工、ratchet 式錯誤紀錄、root level 的 CLAUDE.md,這幾根支柱在每一家都看得到。各家不是抄誰,而是各自試錯後發現同一個答案。
所以也看到一個趨勢:harness 本身正在從「自己造」變成「服務」。Viv 把它叫 Harness-as-a-Service。Claude Agent SDK、Codex SDK、OpenAI Agents SDK 都指向同一個方向,你拿到的不是 LLM completion API,是包含 loop、tool routing、context management、hook、sandbox 的 runtime。客製化的點從「我要怎麼接 LLM」搬到「四根支柱(system prompt、tools、context、subagent)各要怎麼調」。
那「換模型解決問題」這條路為什麼通常不通?
Luke Stahl 在 Stop upgrading your model 那篇寫得直白:模型升級的差距比想像中小,harness 改動的差距比想像中大。HumanLayer 同意:「這不是 model problem,是 configuration problem。」
Sergey Golubev 4 月那篇 Harness Engineering 紀錄文有個具體例子。Opus 4.7 一發布,他幾個 harness 馬上掉鏈子,不是 code 壞掉,是指令解讀方式變了,舊 skill 寫得太寬鬆。重寫三個、整理五個花了大半天。每次模型升級都會逼一次 harness 重整,因為新模型對舊指令會用不一樣的方式詮釋。
所以差異化到底在哪?Ry Walker 的整理是:harness 本體(Claude Code、OpenCode、Goose、Aider)已經是 commodity,遷移成本很低。真正的差異化在三個地方:context 跟 memory(codebase 規矩、過去踩過的坑)、orchestration(多 agent 怎麼分工)、tool layer(接到內部系統的客製化工具)。
回到 Addy 那篇的尾巴,他列了三個值得追的開放問題:多 agent 並行共享 codebase 的協作機制、agent 分析自己的 trace 找 harness 級失敗模式、harness 動態組裝工具與 context 而非事前配好。每一個都是同一條思路的延伸。harness 不會穩定,會繼續搬家,重點是知道它正在往哪搬。
模型升級會繼續發生,幾乎每幾個月一次。但跟 agent 一起累積的 context、規則、工具、skill,這些是換 harness、換模型都帶得走的。
Sources:
- Addy Osmani: Agent Harness Engineering — https://addyosmani.com/blog/agent-harness-engineering/
- HumanLayer: Skill Issue — https://www.humanlayer.dev/blog/skill-issue-harness-engineering-for-coding-agents
- Luke Stahl: Stop upgrading your model — https://lukestahl.io/blog/stop-upgrading-your-model-fix-your-harness/
- Sergey Golubev: Harness Engineering 2026 — https://www.prodfeat.ai/en/blog/2026-04-18-harness-engineering
- Ry Walker: The Agent Harness Problem — https://rywalker.com/agent-harness-problem
- 張維峰 FB 中譯整理 — https://www.facebook.com/jerry.chang.505523/posts/pfbid0WZP6JBVGp3CNR6ot1GizCVcdDPQcEnhxJVW4An3hZLc2EjbviZrfenL627i5ANuvl






