arxiv-scan

每日 arXiv 全类别论文趋势分析引擎。三个阶段的自动化流水线——批量读摘要、结构化提取、生成大白话趋势报告。

arxiv-scan 是上下文 Lab 进行日常研究使用的一款基础 SKill。

Research ArXiv Automation v3.2.0

arxiv-scan 不是论文列表生成器,而是一个用朴素语言回答「今天这个领域都在做什么、各有多少人在做」的趋势分析引擎。它从每日数千篇 arXiv 论文中精选最具价值的研究,提取关键信息,最终生成一份有理有据、让读者能快速建立全局认知的领域叙事报告。每个观点必须标注来源,每篇论文都要说清「它到底证明了什么」。

三阶段工作流

01
第一阶段

批量摘要筛选

按 arXiv 父类分组,每批 30 篇,用 LLM 逐一评判论文价值。不是堆数量——每篇候选论文都经过筛选原则的严格把关,同一方向最多选 2 篇,避免扎堆。

02
第二阶段

结构化提取

对每篇精选论文提取四个核心信息:研究什么问题、怎么做的、核心贡献是什么、佐证了哪个方向。95% 情况下摘要信息足够——只有当摘要无法回答「这篇论文具体解决了什么问题」时才下载 PDF 补充。

03
第三阶段

趋势叙事生成

将结构化数据转化为大白话趋势报告。每个类别开头用一段话覆盖全部精选论文(一篇不漏),再按方向分组展开。最后生成跨领域综合洞察——从不同领域中提炼关联,揭示今天的研究图景。

筛选原则

论文类型分类

每篇论文先判断类型,再选用对应的过滤维度:

解决方案类
提出方法/模型/算法来解决某个问题。用六维过滤器评判:创新性、方法论、性能、严谨性、实用性、可扩展性。
问题发现类
揭示现象/定义基准/提出挑战。用五维过滤器评判:破除性、北极星、宿命感、普适性、建设性。

通用严格标准

拒绝做加法的缝合论文 · 拒绝在小数据集上精挑细选出来的 SOTA · 拒绝生造伪需求的论文 · 同一方向最多选 2 篇(避免扎堆)

解决方案类 · 六维过滤器

每篇候选论文经过以下六个维度评判,每个维度三态:高价值 / 低价值 / 不明确
Innovation · 创新性 是正交创新(开辟新赛道)还是缝合怪(A+B+C=D)? 高:范式转移级 | 低:做了加法换微小提升
Methodology · 方法论 是否大道至简?核心代码不超过 50 行还是用复杂 Trick 掩盖? 高:优雅简洁 | 低:极其复杂且依赖花哨 Trick
Performance · 性能 是碾压级 SOTA 还是过拟合 SOTA? 高:在公认最难的 Benchmark 上显著突破 | 低:在自选小数据集上超越 0.1%
Rigor · 严谨性 是极致消融实验还是报喜不报忧? 高:全面消融、开源自洽 | 低:选择性展示、不可复现
Utility · 实用性 是强泛化底层工具还是窄领域个案? 高:能被研究者直接复用 | 低:仅针对特定任务有效
Scalability · 可扩展性 具备随算力/数据扩展的潜力吗? 高:验证了 Scaling Law | 低:增加资源收益递减
四个核心拷问
  1. ① 它是用优雅简单的直觉解决问题,还是在盲目堆砌复杂度?
  2. ② 它是开辟了新赛道,还是在旧赛道上卷那 0.1%?
  3. ③ 它的方法具备随算力/数据扩展的潜力吗?
  4. ④ 它的成果能不能直接被研究者作为底层工具复用?

问题发现类 · 五维过滤器

每篇论文经过以下五个维度评判,每个维度三态:高价值 / 低价值 / 不明确
Shatter · 破除性 是粉碎共识还是挑小毛病? 高:揭示系统性缺陷 | 低:发现边缘个例
Benchmark · 北极星 是定义新赛道还是生造数据? 高:把 SOTA 从 90% 打回 1% | 低:拼凑无意义的新任务
Wall · 宿命感 是撞上物理定律的南墙还是无病呻吟? 高:用严谨数据推演必然的瓶颈 | 低:泛泛而谈「未来可能不够」
Universality · 普适性 是普遍诅咒还是特定个例? 高:证明某类架构的通病 | 低:特定模型在特定场景有问题
Constructive · 建设性 是清晰勾勒解题空间还是纯粹抱怨? 高:把模糊痛点形式化、画出排雷地图 | 低:双手一摊
四个核心拷问
  1. ① 它是否颠覆了我的常识?(是否揭示了「我们一直在自欺欺人」的事实?)
  2. ② 它的痛点是否足够底层?(针对整个时代的底层架构,还是针对某家公司?)
  3. ③ 它能否成为试金石?(能否把有能力的模型和刷榜的模型一眼区分?)
  4. ④ 它是否给出了清晰的「死胡同地图」?(不仅说没路,还说为什么没路)

筛选优先级

当论文众多时,按以下优先级取舍:

  1. 创新性/破除性 — 正交创新 > 增量改进;粉碎共识 > 挑小毛病
  2. 影响力 — 是否可能对领域产生范式级推动
  3. 实用性/建设性 — 能否作为底层工具复用,或为后人画了排雷地图
  4. 技术深度 — 是否大道至简;论证是否严谨
  5. 时效性 — 是否符合 Scaling 趋势

三个铁律

1

大白话优先

能用「怎么让 AI 更听话」说清楚的,绝不写「基于 RLHF 的指令遵循优化」。方法名、模型名、参数名一律不许出现在大白话描述中。

2

有观点必标来源

每个分析结论后面用括号注明支撑论文。不是泛泛而谈,而是每句话都有据可查。报告不是文学创作,是论据驱动的领域叙事。

3

每篇论文一句话说明「它证明了什么」

不罗列论文标题、不堆砌技术细节、不写「本文提出了一种基于 XXX 的方法在 YYY 数据集上达到 SOTA」。核心问题只有一个:这篇论文的出现,改变了我们对什么的认知?

技术特性

📊

全类别覆盖

不限于 CS,覆盖 cs、math、physics、quant-ph、cond-mat、hep-*、eess、stat、astro-ph、gr-qc、econ、q-bio 等全部 arXiv 大类,每日处理数百至上千篇论文。

严格筛选标准

拒绝做加法的缝合论文、拒绝在小数据集上精挑细选出来的 SOTA、拒绝生造伪需求的论文。只选真正推动领域进步的成果。

🔄

断点续传

每次 LLM 调用后立即写盘 + os.sync(),支持超时中断后从断点继续。最多 3 次重试 + 指数退避,处理上千篇论文不掉数据。

🌐

多 Provider 容灾

支持 MiniMax M2.7 和 DeepSeek V4 双 provider 自动切换。遇到限流自动降级,Model 选择基于速度实测数据持续优化。

📝

自动发布到 Wiki.js

报告生成后自动清理 Unicode、验证 Markdown 格式,通过 GraphQL API 发布到 Wiki.js。已累计发布数十期 arXiv 趋势日报。

🤖

AI Agent 原生

作为 Hermes Agent 的内置 Skill 运行,由 AI Agent 全程自主调度——确定日期、读取数据、调用 LLM 批次处理、生成报告、发布上线,无需人类干预。