arxiv-scan
每日 arXiv 全类别论文趋势分析引擎。三个阶段的自动化流水线——批量读摘要、结构化提取、生成大白话趋势报告。
arxiv-scan 是上下文 Lab 进行日常研究使用的一款基础 SKill。
Research
ArXiv
Automation
v3.2.0
arxiv-scan 不是论文列表生成器,而是一个用朴素语言回答「今天这个领域都在做什么、各有多少人在做」的趋势分析引擎。它从每日数千篇 arXiv 论文中精选最具价值的研究,提取关键信息,最终生成一份有理有据、让读者能快速建立全局认知的领域叙事报告。每个观点必须标注来源,每篇论文都要说清「它到底证明了什么」。
📋 每日 arXiv 趋势报告
浏览 arxiv-scan 自动生成的每日论文趋势分析报告,覆盖 AI、CS、物理、数学、统计等全类别。
进入 Wiki.js →
三阶段工作流
01
第一阶段
批量摘要筛选
按 arXiv 父类分组,每批 30 篇,用 LLM 逐一评判论文价值。不是堆数量——每篇候选论文都经过筛选原则的严格把关,同一方向最多选 2 篇,避免扎堆。
02
第二阶段
结构化提取
对每篇精选论文提取四个核心信息:研究什么问题、怎么做的、核心贡献是什么、佐证了哪个方向。95% 情况下摘要信息足够——只有当摘要无法回答「这篇论文具体解决了什么问题」时才下载 PDF 补充。
03
第三阶段
趋势叙事生成
将结构化数据转化为大白话趋势报告。每个类别开头用一段话覆盖全部精选论文(一篇不漏),再按方向分组展开。最后生成跨领域综合洞察——从不同领域中提炼关联,揭示今天的研究图景。
筛选原则
论文类型分类
每篇论文先判断类型,再选用对应的过滤维度:
解决方案类
提出方法/模型/算法来解决某个问题。用六维过滤器评判:创新性、方法论、性能、严谨性、实用性、可扩展性。
问题发现类
揭示现象/定义基准/提出挑战。用五维过滤器评判:破除性、北极星、宿命感、普适性、建设性。
通用严格标准
拒绝做加法的缝合论文 · 拒绝在小数据集上精挑细选出来的 SOTA · 拒绝生造伪需求的论文 · 同一方向最多选 2 篇(避免扎堆)
解决方案类 · 六维过滤器
每篇候选论文经过以下六个维度评判,每个维度三态:高价值 / 低价值 / 不明确
Innovation · 创新性
是正交创新(开辟新赛道)还是缝合怪(A+B+C=D)?
高:范式转移级 | 低:做了加法换微小提升
Methodology · 方法论
是否大道至简?核心代码不超过 50 行还是用复杂 Trick 掩盖?
高:优雅简洁 | 低:极其复杂且依赖花哨 Trick
Performance · 性能
是碾压级 SOTA 还是过拟合 SOTA?
高:在公认最难的 Benchmark 上显著突破 | 低:在自选小数据集上超越 0.1%
Rigor · 严谨性
是极致消融实验还是报喜不报忧?
高:全面消融、开源自洽 | 低:选择性展示、不可复现
Utility · 实用性
是强泛化底层工具还是窄领域个案?
高:能被研究者直接复用 | 低:仅针对特定任务有效
Scalability · 可扩展性
具备随算力/数据扩展的潜力吗?
高:验证了 Scaling Law | 低:增加资源收益递减
四个核心拷问
- ① 它是用优雅简单的直觉解决问题,还是在盲目堆砌复杂度?
- ② 它是开辟了新赛道,还是在旧赛道上卷那 0.1%?
- ③ 它的方法具备随算力/数据扩展的潜力吗?
- ④ 它的成果能不能直接被研究者作为底层工具复用?
问题发现类 · 五维过滤器
每篇论文经过以下五个维度评判,每个维度三态:高价值 / 低价值 / 不明确
Shatter · 破除性
是粉碎共识还是挑小毛病?
高:揭示系统性缺陷 | 低:发现边缘个例
Benchmark · 北极星
是定义新赛道还是生造数据?
高:把 SOTA 从 90% 打回 1% | 低:拼凑无意义的新任务
Wall · 宿命感
是撞上物理定律的南墙还是无病呻吟?
高:用严谨数据推演必然的瓶颈 | 低:泛泛而谈「未来可能不够」
Universality · 普适性
是普遍诅咒还是特定个例?
高:证明某类架构的通病 | 低:特定模型在特定场景有问题
Constructive · 建设性
是清晰勾勒解题空间还是纯粹抱怨?
高:把模糊痛点形式化、画出排雷地图 | 低:双手一摊
四个核心拷问
- ① 它是否颠覆了我的常识?(是否揭示了「我们一直在自欺欺人」的事实?)
- ② 它的痛点是否足够底层?(针对整个时代的底层架构,还是针对某家公司?)
- ③ 它能否成为试金石?(能否把有能力的模型和刷榜的模型一眼区分?)
- ④ 它是否给出了清晰的「死胡同地图」?(不仅说没路,还说为什么没路)
筛选优先级
当论文众多时,按以下优先级取舍:
- 创新性/破除性 — 正交创新 > 增量改进;粉碎共识 > 挑小毛病
- 影响力 — 是否可能对领域产生范式级推动
- 实用性/建设性 — 能否作为底层工具复用,或为后人画了排雷地图
- 技术深度 — 是否大道至简;论证是否严谨
- 时效性 — 是否符合 Scaling 趋势
三个铁律
1
大白话优先
能用「怎么让 AI 更听话」说清楚的,绝不写「基于 RLHF 的指令遵循优化」。方法名、模型名、参数名一律不许出现在大白话描述中。
2
有观点必标来源
每个分析结论后面用括号注明支撑论文。不是泛泛而谈,而是每句话都有据可查。报告不是文学创作,是论据驱动的领域叙事。
3
每篇论文一句话说明「它证明了什么」
不罗列论文标题、不堆砌技术细节、不写「本文提出了一种基于 XXX 的方法在 YYY 数据集上达到 SOTA」。核心问题只有一个:这篇论文的出现,改变了我们对什么的认知?
技术特性
📊
全类别覆盖
不限于 CS,覆盖 cs、math、physics、quant-ph、cond-mat、hep-*、eess、stat、astro-ph、gr-qc、econ、q-bio 等全部 arXiv 大类,每日处理数百至上千篇论文。
⚡
严格筛选标准
拒绝做加法的缝合论文、拒绝在小数据集上精挑细选出来的 SOTA、拒绝生造伪需求的论文。只选真正推动领域进步的成果。
🔄
断点续传
每次 LLM 调用后立即写盘 + os.sync(),支持超时中断后从断点继续。最多 3 次重试 + 指数退避,处理上千篇论文不掉数据。
🌐
多 Provider 容灾
支持 MiniMax M2.7 和 DeepSeek V4 双 provider 自动切换。遇到限流自动降级,Model 选择基于速度实测数据持续优化。
📝
自动发布到 Wiki.js
报告生成后自动清理 Unicode、验证 Markdown 格式,通过 GraphQL API 发布到 Wiki.js。已累计发布数十期 arXiv 趋势日报。
🤖
AI Agent 原生
作为 Hermes Agent 的内置 Skill 运行,由 AI Agent 全程自主调度——确定日期、读取数据、调用 LLM 批次处理、生成报告、发布上线,无需人类干预。