arxiv-scan

每日 arXiv 全类别论文趋势分析引擎。三个阶段的自动化流水线——批量读摘要、结构化提取、生成大白话趋势报告。

arxiv-scan 是上下文 Lab 进行日常研究使用的一款基础 SKill。

Research ArXiv Automation v3.2.0

arxiv-scan 不是论文列表生成器，而是一个用朴素语言回答「今天这个领域都在做什么、各有多少人在做」的趋势分析引擎。它从每日数千篇 arXiv 论文中精选最具价值的研究，提取关键信息，最终生成一份有理有据、让读者能快速建立全局认知的领域叙事报告。每个观点必须标注来源，每篇论文都要说清「它到底证明了什么」。

📋 每日 arXiv 趋势报告

浏览 arxiv-scan 自动生成的每日论文趋势分析报告，覆盖 AI、CS、物理、数学、统计等全类别。

进入 Wiki.js →

三阶段工作流

第一阶段

批量摘要筛选

按 arXiv 父类分组，每批 30 篇，用 LLM 逐一评判论文价值。不是堆数量——每篇候选论文都经过筛选原则的严格把关，同一方向最多选 2 篇，避免扎堆。

第二阶段

结构化提取

对每篇精选论文提取四个核心信息：研究什么问题、怎么做的、核心贡献是什么、佐证了哪个方向。95% 情况下摘要信息足够——只有当摘要无法回答「这篇论文具体解决了什么问题」时才下载 PDF 补充。

第三阶段

趋势叙事生成

将结构化数据转化为大白话趋势报告。每个类别开头用一段话覆盖全部精选论文（一篇不漏），再按方向分组展开。最后生成跨领域综合洞察——从不同领域中提炼关联，揭示今天的研究图景。

筛选原则

三个铁律

大白话优先

能用「怎么让 AI 更听话」说清楚的，绝不写「基于 RLHF 的指令遵循优化」。方法名、模型名、参数名一律不许出现在大白话描述中。

有观点必标来源

每个分析结论后面用括号注明支撑论文。不是泛泛而谈，而是每句话都有据可查。报告不是文学创作，是论据驱动的领域叙事。

每篇论文一句话说明「它证明了什么」

不罗列论文标题、不堆砌技术细节、不写「本文提出了一种基于 XXX 的方法在 YYY 数据集上达到 SOTA」。核心问题只有一个：这篇论文的出现，改变了我们对什么的认知？

技术特性

📊

全类别覆盖

不限于 CS，覆盖 cs、math、physics、quant-ph、cond-mat、hep-*、eess、stat、astro-ph、gr-qc、econ、q-bio 等全部 arXiv 大类，每日处理数百至上千篇论文。

⚡

严格筛选标准

拒绝做加法的缝合论文、拒绝在小数据集上精挑细选出来的 SOTA、拒绝生造伪需求的论文。只选真正推动领域进步的成果。

🔄

断点续传

每次 LLM 调用后立即写盘 + os.sync()，支持超时中断后从断点继续。最多 3 次重试 + 指数退避，处理上千篇论文不掉数据。

🌐

多 Provider 容灾

支持 MiniMax M2.7 和 DeepSeek V4 双 provider 自动切换。遇到限流自动降级，Model 选择基于速度实测数据持续优化。

📝

自动发布到 Wiki.js

报告生成后自动清理 Unicode、验证 Markdown 格式，通过 GraphQL API 发布到 Wiki.js。已累计发布数十期 arXiv 趋势日报。

🤖

AI Agent 原生

作为 Hermes Agent 的内置 Skill 运行，由 AI Agent 全程自主调度——确定日期、读取数据、调用 LLM 批次处理、生成报告、发布上线，无需人类干预。