参考列表
Primitives AI · Inference

The AI Agent Infrastructure Stack: Who's Building the Picks & Shovels

2026.3.6 · 阅读原文 →
背景

这篇来自 Primitives AI 旗下研究通讯 Inference 的文章,发布于 2026 年 3 月。它绘制了一张完整的 AI Agent 基础设施栈地图——从编排到安全——并分析了每层的竞争格局、护城河深度、以及模型公司向上挤压的趋势。

文章的起点是一个精准的观察:

A chatbot that hallucinates is annoying. An agent that hallucinates, then calls your Stripe API, then emails a customer, is a liability.
—— Agent 改变了失败模式,从"烦人"变成了"责任事故"

这个 gap——"LLM demo"和"生产级自治系统"之间的鸿沟——就是 $260B+ 市场正在诞生的地方。文章估计 Agent 基础设施层(编排、记忆、评测、部署、安全)通常占平台转型支出的 15-25%,到 2030 年是一个 $10-15B 的市场。

文章还指出 2025-2026 是关键拐点:模型函数调用可靠性突破 85-90%+、上下文窗口达到 100K-200K、Fortune 500 开始从"AI pilot"向"AI agent"预算科目转移。


六层基础设施栈

Layer 1: 编排与工作流

编排层是开发者注意力最集中的地方,也是 commodity 化最快的。LangGraph、CrewAI、AutoGen 和 OpenAI Agents SDK(2025.3 发布)在快速趋同。文章特别指出 OpenAI SDK 是"the wildcard"——它比 LangGraph 更简单、原生集成 OpenAI 生态,如果你基于 GPT-4o 构建,它可能就足够了。这对纯编排供应商形成挤压。

例外是 Temporal(a16z 领投 $300M Series D,2026.2,估值 $5B)——它不是 AI 公司,而是一个持久化执行平台,恰好成为长时间运行 Agent 的正确基础设施层。

Orchestration is becoming a commodity. The exception is Temporal, which is solving a genuinely hard distributed systems problem — not just a framework ergonomics problem.
—— 编排层的核心判断

Layer 2: 记忆 & 上下文

这一层区分"带工具的聊天机器人"和"真正能学习的 Agent"。文章把问题一分为二:会话内上下文管理(within-session context)基本被长上下文模型解决了;跨会话学习(cross-session learning、用户偏好保持、事实性知识持久化)仍然极其困难,尚未完全解决。

文章还点明了向量数据库的局限:Pinecone、Weaviate、Chroma 不是记忆系统——它们存储和检索,但不会综合、更新或维护时间连贯性。文章预期这里会有整合压力。

What makes memory valuable as a business: it's deeply sticky data. An agent's memory graph — who their user is, what they've done, what they prefer — becomes increasingly impossible to migrate.
—— 记忆的商业价值在于切换成本

Mem0 的 $24M Series A(2025.10)、Arize $70M Series C(2025.2)、Braintrust $80M Series B(2026.2)表明成熟买家正在这里布局。

Layer 3: 工具调用 & MCP

MCP(Model Context Protocol,Anthropic 2024.11 发布,2025 年快速标准化)被文章称为 Agent 基础设施中"the most important protocol development"。它是一个标准 JSON-RPC 协议,让模型可以发现和调用外部工具。微软、Google、OpenAI 均已接入。

文章的关键分析在权力转移上:MCP 将权力转移给掌握工具集成的人。构建单一 MCP 连接器没有护城河——护城河在经过安全审查的企业级 MCP 市场特定垂直领域的专用连接器。目前尚无明确赢家,这是一个真正的空白机会。

MCP + computer use (Anthropic's Vercept acquisition) represents the most dangerous layer for enterprise software incumbents — agents that can operate any software interface without a custom integration.
—— 对企业软件最危险的组合

Layer 4: 评测 & 可观测性

"不性感但正在印钱"的类别。Braintrust $80M Series B(2026.2)是一个强信号。核心命题:评测不是附加功能——它是 AI 产品的控制平面。随着 AI 系统越来越自主,检测回归、度量质量、运行系统实验的能力,决定了哪些团队能快速交付、哪些会翻车。

A year of eval runs, golden datasets, regression baselines. These don't transfer easily.
—— 评测数据是真正的护城河

Layer 5: 部署 & 托管

部署 Agent 和部署 API 不同:需要隔离的执行环境、长时运行、状态持久化、安全代码执行。AWS Bedrock Agents、GCP Agent Builder、Azure AI Studio 都在布局,问题是创业公司能否在云巨头面前跑得更久。

E2B(2025.7 Series A)是最有趣的纯玩家——"为 AI Agent 设计的云":隔离沙箱环境,Agent 可以在其中执行代码、浏览网页、管理文件,不会逃逸到宿主基础设施。客户包括 Cursor、Vercel 和未具名财富 100 强。核心差异是 shared-nothing 架构、微秒级启动、自动隔离。

Layer 6: 安全

大多数 Agent 构建者低估安全,直到被"烫到"。Prompt injection——Agent 读取的数据中的恶意内容劫持其指令——是最紧迫的威胁。此外还有权限提升、数据泄露、未授权操作。

这个类别非常早期,还没有公司能完整解决四件套:输入清洗、输出验证、行为约束、审计追踪。文章特别指出:随着 Agent 被授权执行真实世界操作(发送邮件、处理支付、修改数据库),没有防护栏的 Agent 行为风险将变得不可容忍。GDPR 和 SOC2 合规正在成为新需求。预期 2026-2027 该类别将获得大量融资。

Security is the layer that most agent builders underestimate until they get burned.
—— 安全的经典定性

什么在 Commodity 化 vs 什么有护城河

文章对每层做了清晰的判断:

AI Agent 基础设施市场正如 2009 年的云计算基础设施:这个品类是真实的,需求正在加速,但地图仍在绘制之中。当前的大多数工具将被吸收——被模型公司、被云厂商、或被彼此。

持久的赢家将是那些:(1)拥有具有真正切换成本的层级(记忆图谱、评估数据集、合规审计追踪)的公司,(2)解决了模型公司主动不想拥有的问题(安全、专项部署、垂直合规)的公司,或(3)控制了协议级抽象(如 Temporal 的持久执行或 MCP 的工具接口)的公司。


模型公司向上挤压

文章指出 Anthropic 和 OpenAI 正在从模型层向上建栈:

核心判断:模型公司正在为自己的模型构建默认运行时。如果你只做编排框架,你是在和"免费"且共同优化的第一方工具竞争。生存策略要么是去做模型无关、在编排之外加值,要么是找到模型公司不想竞争的那层。


与上下文 Lab 的关系

这篇文章为上下文 Lab 的研究提供了基础设施层级的定位坐标


值得关注的方向

文章在结尾提出了一些开放问题,也是上下文 Lab 可以探索的:


阅读原文 →