a16z

Avoiding Death on the Yellow Brick Road

Joe Schmidt · Andreessen Horowitz · 2026.5.27 · 阅读原文 →

背景

a16z 合伙人 Joe Schmidt 撰文回应一个广泛存在的焦虑：AI 应用层还有没有创业空间？OpenAI 和 Anthropic 会不会吃掉一切？

文章提出"黄砖路 vs 奥兹国其他地方"的框架：黄砖路是 labs 正在走的路——通用 AI coworker、代码生成、写作、图像创作，这些问题随模型原始能力提升而自然改善；奥兹国其他地方则是复杂、垂直化的问题，价值主要来自围绕模型的"脚手架"，而非模型本身。

论证核心：OpenAI 和 Anthropic 的前沿部署联合项目（JV）本身就是一种信号——如果下一个模型发布就能解决一切，他们不会投入数十亿美元去做定制化配置。这恰恰说明 labs 自己也承认无法用通用产品覆盖所有问题。

关键引述

The labs have to be everywhere, for everyone, which is how they built the Yellow Brick Road in the first place. The same trade-off keeps them out of the rest of Oz — you can be everywhere at once, or you can be great at one thing. Not both.

—— 这是全文的核心命题：通用 vs 专注是不可兼得的 trade-off

The model is fungible underneath; the system of work is not.

—— 模型终将商品化，但"工作系统"（数据捕获、治理、workflow）不会

The workflow you ship on day one is not the moat. The loop that production usage creates over time is.

—— 来自 FurtherAI CEO Aman Gour：每生产使用一次，escalation 变成 signal，exception 变成 feedback，human correction 补全了 runbook

Roughly half of any real workflow that is non-agentic carries no lab advantage. They are no better than you are at writing the deterministic software underneath the model layer.

—— 11x CEO Prabhav Jain：真实 workflow 中约一半是非 agentic 的确定性软件，labs 在这方面没有优势

Your customer doesn't care that your model scored well on SWE-Bench or MMLU — they care whether your agent closed the deal, redlined the contract correctly, or bound the right policy.

—— Rest of Oz 公司的绩效不应以 benchmark 衡量，而应以客户 P&L 衡量

Rest of Oz 的四种防御机制

文章提出 Rest of Oz 公司可以通过以下方式抵御 labs 的扩张：

数据与学习飞轮 — 行业默契、不成文标准、从业者脑中知识不在公开训练集里。跨客户模式识别 + 客户内决策逻辑，都在生产使用中积累。水平工具无法触及这类知识，因为 UX 决定了它们无法为特定 workflow 设计捕获知识的界面。
管理模型可变性 — Rest of Oz 公司从全市场选模型（跨供应商），而 labs 只推自家模型。每次新模型发布时，Rest of Oz 公司帮客户做迁移和回测，labs 只管卖新模型。
成本优化 — 每次查询都用最强模型是负毛利捷径。Rest of Oz 公司子任务级路由（前沿→中端→微调小模型），实现 workflow 所需智能的最低成本。
治理（Governance） — 成为客户在特定垂直领域运行 AI 的控制平面：权限、审计、agent 行为边界、合规。水平玩家无法同时成为 100 个垂直领域的合规伙伴。

三个自测问题

如何判断自己是在黄砖路还是 Rest of Oz？

工具与步骤测试 — 工作有多少步骤？工具多复杂？跨 Google Drive 一步搜索 vs 跨三年判例数十步的合同审查，完全不是一类问题。
系统 vs 工具测试 — 客户是通过你的系统运行工作，还是你的工具只是叠加在已有系统上的智能层？系统拥有端到端的 workflow、数据捕获和治理。
对冲基金/P&L 测试 — 客户关心 benchmark 分数还是业务结果（关单、审阅合同、绑定保单）？如果按 P&L 来付费，你在 Rest of Oz。

与上下文 Lab 的关系

文章讨论的"系统 of work"——工作执行表面、数据捕获、治理——与上下文 Lab 关注的 Context Layer 方向有结构性关联。Agent 在复杂、多步骤、跨系统的 workflow 中需要保持上下文一致性和决策链路可追溯性，这本质上是 context 架构问题。

具体而言，文章提到的"workflow 中的智能分散在 SOP、经理审查、承保哲学、多年运维经验中"与 Context Layer 试图解决的问题（隐式上下文的显式化、结构化、可编程化）直接相关。FurtherAI 的"每次 escalation 都是信号、每次修正都是反馈"的循环描述了一个 context 累积过程，这与上下文 Lab 关注的 Context Graph 持久化方向有交集。

阅读原文 →