Primitives AI · Inference

The AI Agent Infrastructure Stack: Who's Building the Picks & Shovels

2026.3.6 · 阅读原文 →

背景

这篇来自 Primitives AI 旗下研究通讯 Inference 的文章，发布于 2026 年 3 月。它绘制了一张完整的 AI Agent 基础设施栈地图——从编排到安全——并分析了每层的竞争格局、护城河深度、以及模型公司向上挤压的趋势。

文章的起点是一个精准的观察：

A chatbot that hallucinates is annoying. An agent that hallucinates, then calls your Stripe API, then emails a customer, is a liability.

—— Agent 改变了失败模式，从"烦人"变成了"责任事故"

这个 gap——"LLM demo"和"生产级自治系统"之间的鸿沟——就是 $260B+ 市场正在诞生的地方。文章估计 Agent 基础设施层（编排、记忆、评测、部署、安全）通常占平台转型支出的 15-25%，到 2030 年是一个 $10-15B 的市场。

文章还指出 2025-2026 是关键拐点：模型函数调用可靠性突破 85-90%+、上下文窗口达到 100K-200K、Fortune 500 开始从"AI pilot"向"AI agent"预算科目转移。

六层基础设施栈

Commodity Layer 1: 编排与工作流

编排层是开发者注意力最集中的地方，也是 commodity 化最快的。LangGraph、CrewAI、AutoGen 和 OpenAI Agents SDK（2025.3 发布）在快速趋同。文章特别指出 OpenAI SDK 是"the wildcard"——它比 LangGraph 更简单、原生集成 OpenAI 生态，如果你基于 GPT-4o 构建，它可能就足够了。这对纯编排供应商形成挤压。

例外是 Temporal（a16z 领投 $300M Series D，2026.2，估值 $5B）——它不是 AI 公司，而是一个持久化执行平台，恰好成为长时间运行 Agent 的正确基础设施层。

Orchestration is becoming a commodity. The exception is Temporal, which is solving a genuinely hard distributed systems problem — not just a framework ergonomics problem.

—— 编排层的核心判断

Moat Layer 2: 记忆 & 上下文

这一层区分"带工具的聊天机器人"和"真正能学习的 Agent"。文章把问题一分为二：会话内上下文管理（within-session context）基本被长上下文模型解决了；跨会话学习（cross-session learning、用户偏好保持、事实性知识持久化）仍然极其困难，尚未完全解决。

文章还点明了向量数据库的局限：Pinecone、Weaviate、Chroma 不是记忆系统——它们存储和检索，但不会综合、更新或维护时间连贯性。文章预期这里会有整合压力。

What makes memory valuable as a business: it's deeply sticky data. An agent's memory graph — who their user is, what they've done, what they prefer — becomes increasingly impossible to migrate.

—— 记忆的商业价值在于切换成本

Mem0 的 $24M Series A（2025.10）、Arize $70M Series C（2025.2）、Braintrust $80M Series B（2026.2）表明成熟买家正在这里布局。

Moat Layer 3: 工具调用 & MCP

MCP（Model Context Protocol，Anthropic 2024.11 发布，2025 年快速标准化）被文章称为 Agent 基础设施中"the most important protocol development"。它是一个标准 JSON-RPC 协议，让模型可以发现和调用外部工具。微软、Google、OpenAI 均已接入。

文章的关键分析在权力转移上：MCP 将权力转移给掌握工具集成的人。构建单一 MCP 连接器没有护城河——护城河在经过安全审查的企业级 MCP 市场或特定垂直领域的专用连接器。目前尚无明确赢家，这是一个真正的空白机会。

MCP + computer use (Anthropic's Vercept acquisition) represents the most dangerous layer for enterprise software incumbents — agents that can operate any software interface without a custom integration.

—— 对企业软件最危险的组合

Moat Layer 4: 评测 & 可观测性

"不性感但正在印钱"的类别。Braintrust $80M Series B（2026.2）是一个强信号。核心命题：评测不是附加功能——它是 AI 产品的控制平面。随着 AI 系统越来越自主，检测回归、度量质量、运行系统实验的能力，决定了哪些团队能快速交付、哪些会翻车。

A year of eval runs, golden datasets, regression baselines. These don't transfer easily.

—— 评测数据是真正的护城河

Commodity Layer 5: 部署 & 托管

部署 Agent 和部署 API 不同：需要隔离的执行环境、长时运行、状态持久化、安全代码执行。AWS Bedrock Agents、GCP Agent Builder、Azure AI Studio 都在布局，问题是创业公司能否在云巨头面前跑得更久。

E2B（2025.7 Series A）是最有趣的纯玩家——"为 AI Agent 设计的云"：隔离沙箱环境，Agent 可以在其中执行代码、浏览网页、管理文件，不会逃逸到宿主基础设施。客户包括 Cursor、Vercel 和未具名财富 100 强。核心差异是 shared-nothing 架构、微秒级启动、自动隔离。

Moat Layer 6: 安全

大多数 Agent 构建者低估安全，直到被"烫到"。Prompt injection——Agent 读取的数据中的恶意内容劫持其指令——是最紧迫的威胁。此外还有权限提升、数据泄露、未授权操作。

这个类别非常早期，还没有公司能完整解决四件套：输入清洗、输出验证、行为约束、审计追踪。文章特别指出：随着 Agent 被授权执行真实世界操作（发送邮件、处理支付、修改数据库），没有防护栏的 Agent 行为风险将变得不可容忍。GDPR 和 SOC2 合规正在成为新需求。预期 2026-2027 该类别将获得大量融资。

Security is the layer that most agent builders underestimate until they get burned.

—— 安全的经典定性

什么在 Commodity 化 vs 什么有护城河

文章对每层做了清晰的判断：

编排框架 — 正快速 commodity 化。LangGraph / CrewAI / AutoGen / OpenAI SDK 已趋同，框架选择越来越是偏好问题而非战略决策。
向量数据库 — Pinecone / Weaviate / Chroma / Qdrant / pgvector 都够用，市场容不下五家溢价的向量数据库公司。
模型路由/缓存 — Portkey / LiteLLM 等，重要但不太可能独立成为大生意。
✅ 记忆层 — 切换成本高，Agent 的行为历史一旦写入难以迁移。
✅ 评测数据集 — 一年的 eval 运行、golden 数据集、回归基线——不易转移。
✅ Temporal — 深度集成到应用逻辑，高切换成本。
✅ 安全 — Lakera 的威胁模型随着每次攻击改进，这是数据护城河。

AI Agent 基础设施市场正如 2009 年的云计算基础设施：这个品类是真实的，需求正在加速，但地图仍在绘制之中。当前的大多数工具将被吸收——被模型公司、被云厂商、或被彼此。

持久的赢家将是那些：（1）拥有具有真正切换成本的层级（记忆图谱、评估数据集、合规审计追踪）的公司，（2）解决了模型公司主动不想拥有的问题（安全、专项部署、垂直合规）的公司，或（3）控制了协议级抽象（如 Temporal 的持久执行或 MCP 的工具接口）的公司。

模型公司向上挤压

文章指出 Anthropic 和 OpenAI 正在从模型层向上建栈：

Anthropic — 收购 Vercept（computer-use/agent task automation），发布 MCP，推 Claude computer use。构建垂直栈的意图最明显。
OpenAI — 发布 Agents SDK（2025.3）、Responses API、Operator（消费级 Agent 产品）。

核心判断：模型公司正在为自己的模型构建默认运行时。如果你只做编排框架，你是在和"免费"且共同优化的第一方工具竞争。生存策略要么是去做模型无关、在编排之外加值，要么是找到模型公司不想竞争的那层。

与上下文 Lab 的关系

这篇文章为上下文 Lab 的研究提供了基础设施层级的定位坐标：

Context Layer 在栈中的位置 — 文章没有明确命名为"Context Layer"，但它的分析覆盖了相关能力：记忆层负责跨会话上下文保持；MCP 层负责工具上下文的标准化接入；编排层负责决策时上下文的选择。这三个层的交集正是 Context Layer。

值得关注的方向

文章在结尾提出了一些开放问题，也是上下文 Lab 可以探索的：

Agent-to-Agent 的信任与通信 — MCP 处理模型到工具的通信，但多 Agent 系统尚无可信的通信协议。Google 的 A2A 协议是开端，但远未定论。
跨 Agent 记忆与共享上下文 — 多 Agent 系统中，Agent A 学到的知识如何传递给 Agent B？共享记忆层的精细权限控制尚未解决。
Agent 合规与审计基础设施 — 企业无法部署会执行有后果操作的 Agent，而没有审计追踪、审批流程、合规报告。这需要合规级产品，不仅是基础 trace。

阅读原文 →