参考列表

Your Data Agents Need Context

Jason Cui, Jennifer Li · Andreessen Horowitz · 2026.3.10 · 阅读原文 →
背景

这篇文章发表在 2026 年 3 月,被 a16z 归类为 Infra 赛道的研究。两位作者 Jason Cui 和 Jennifer Li 分别是 a16z 在基础设施和 AI 领域的投资人。

文章用一个三阶段叙事梳理了市场演进的脉络:

本文的核心贡献在于:它不是把 Agent 失败归咎于模型能力不足(SQL codegen、推理能力),而是指出问题根源在于缺乏上下文层

文章还提到了这个领域的多种叫法——context OS、context engine、contextual data layer、ontology——说明这个品类仍在早期,但底层概念是一致的。


核心问题:一个"简单"问题的三座大山

文章中段用一个精心设计的例子,逐层展示了数据 Agent 在面对一个看似简单的问题时暴露的深层缺陷。

"What was revenue growth last quarter?"
—— 一个人类瞟一眼仪表盘就能回答的问题

这个 Query 触发三层失败链:

文章的核心判断是:这三层问题都无法靠更好的模型解决。即使 GPT-5 的 SQL 能力再强一倍,它还是不知道 revenue 的定义、不知道该查哪个表、不知道产品线之间的排除规则。这不是代码生成问题,是业务语义问题

值得注意的是,这个问题恰好对应上下文 Lab 受控实验中的不同 Context Level——从裸 Schema(无上下文,准确率 30.8%)到注入规则(准确定义和数据源指引,65.4%),再到 Schema Graph(结构化的上下文关系,76.9%)。文章用叙事论证的,实验用数据验证了。


关键引述与解读
data and analytics agents are essentially useless without the right context
—— 全文基石:上下文不是锦上添花,是必要条件

这句话是整篇最核心的判断:没有上下文的 Agent 不仅是不准确,而是 "useless"。这个定性把 Context Layer 从"可选的优化手段"提升到了"必要的基础设施"的层面。

we've quickly learned that the problem extends beyond just text to SQL
—— 认知转变:模型能力不是瓶颈

早期大家认为 Agent 做不好数据分析是因为模型 SQL 能力不够(Spider 2.0 / Bird Bench 基准也确实显示模型落后)。但实际问题是:即使用最好的模型,Agent 也无法理解"revenue"在不同部门的定义差异、无法知道哪个表才是正确的数据源。这是业务语义问题,不是代码生成问题

Tie together all of an enterprise's messy data, add a contextual layer on top that helps agents understand business logic, and package it such that the context can be supplied to agents.
—— Context Layer 的精确定义

这段话定义了 Context Layer 的三层职责:连接(整合散乱数据)- 翻译(注入业务逻辑)- 供给(标准化接口输出)。后文指出这可以通过 API 或 MCP 暴露。

A modern data context layer should essentially become a superset of what a semantic layer would traditionally cover.
—— Context Layer ≠ Semantic Layer

文章明确指出传统语义层(LookML、dbt 指标定义)的局限性:它们通常绑定在特定 BI 工具上、需要手写 YAML、会过时。而 Context Layer 的覆盖范围更广:包括规范实体(canonical entities)、身份解析(identity resolution)、部落知识拆解、治理规则

the key to effective data agents is actually building the relevant context layer
—— 市场共识的形成

这句话标志着投资机构的判断:经过一年多的市场验证,做 Agent 的公司发现瓶颈不在模型、不在数据接入,而在上下文构建。正在催生新的公司品类。

a new category of company has emerged that is building context layers from the ground up
—— 新品类诞生
It's a blend of technical challenges related to data infrastructure and engineering with human operational challenges related to tribal knowledge collection.
—— 技术 + 组织的双重挑战
the context layer becomes a living and constantly evolving corpus
—— Context Layer 不是静态产物,需要持续维护

架构蓝图:5 步构建 Context Layer

文章基于与客户的交流,提出了现代 Context Layer + Agentic Data System 的完整架构:

这个架构设计的精妙之处在于:它把 Context Layer 的构建从"一次性工程"变成了持续运营——自动构建降低初始成本,人工校准保证质量,API 暴露实现复用,持续维护防止退化。


市场格局:三类玩家的竞争态势

文章分析了当前市场的三类参与者:

文章认为这是一个正在形成的全新品类,而非已有功能的简单升级。市场仍在早期,很多开放问题尚未定论。


与上下文 Lab 的关系

这篇文章不是学术论文,而是风投发出的市场信号。它在说:整个行业都意识到 Context Layer 是 AI Agent 基础设施的关键拼图,这个方向正在成为主流。

上下文 Lab 的数据受控实验(5 个 Context Level × 26 条查询)恰好从量化验证的角度回答了文章提出的核心命题:

某种意义上,这篇文章是上下文 Lab 的「为什么」,而数据实验是「怎么证明」


后续值得关注的方向

文章在结尾提出了几个开放问题,也是上下文 Lab 可以持续探索的:


阅读原文 →