日报 — 2026-03-07
今日概览
- 做了什么: 以单日完成两个核心工程任务:gadget Research Scout 从零构建到生产就绪(初版→两阶段Pipeline→可配置参数→会议搜索→语言控制→去重),以及 CalendarPro 意图分类系统根因分析与跨项目架构规格设计(引入 OpenClaw context window 管理模式);同时批量补齐三天积压日报
- 怎么做的: Research Scout 采用 Plan→Implement→Iterate 三轮推进,Claude Code 多 Agent 协作,Read/Grep 精确定位隐式约束;CalendarPro 通过完整根因分析+跨项目借鉴设计 A-D 四阶段规格框架,将 intent 修复与 context 管理合并为单次改动
- 有什么用: Research Scout 支持 arXiv 多源→两阶段 LLM 筛选→研究方向建议完整 pipeline,首次运行产出3条可执行研究方向;CalendarPro 获得经跨项目验证的架构规格避免代码返工;三天积压日报全部补齐
TzJsDesktop
- 做了什么: 完成 Research Scout 全部核心实现(约2650行)及多项功能改进,修复 error-recovery-benchmark 项目配置,编写 TUTORIAL.md 与 CLAUDE.md,批量补齐三天积压日报;同时完成 CalendarPro 意图分类系统根因分析与架构规格设计
- 怎么做的: Claude Code 多 Agent 协作,基于 summarize/ 现有模式复用工具函数,conda AI 环境分步验证;CalendarPro 通过引入 OpenClaw 四层 context window 管理模式进行跨项目设计迁移
- 有什么用: Research Scout 从零到完整功能验证在单日内完成;CalendarPro 获得经跨项目验证的架构规格;积压日报全部补齐
DCC
- 做了什么: 无直接活动(03-05 的 MIHD RM-IDEAL benchmark 工作在今日积压日报合并中记录)
- 怎么做的: N/A
- 有什么用: N/A
tianhe
- 做了什么: 无直接活动(03-04 的 BC-RNN 调查和训练指南工作在今日积压日报合并中记录)
- 怎么做的: N/A
- 有什么用: N/A
单日完成 gadget Research Scout 论文管理系统全生命周期构建并首次验证产出3条研究方向,同时推进 CalendarPro 意图分类系统根因分析与跨项目架构规格设计(引入 OpenClaw context window 管理模式),并批量补齐三天积压日报。
今日任务
架构与策略
- ✅ Research Scout 两阶段论文评估 Pipeline 完整实现 — 将论文评估重构为两阶段:Stage 1(轻量筛选全部论文)提取 screening_relevance/paper_type/motivation/innovation_point;Stage 2(深度分析高相关论文,上限20篇)产出3个亮点(point/why/value_to_us/our_direction)+ 三维评分 + composite_score。evaluate_papers_for_project() 返回含 high_relevance/low_relevance/screening_stats 的 dict,低相关论文以 折叠段展示。
- ✅ CalendarPro 意图分类系统根因分析与跨项目架构规格设计 — 完成 CalendarPro 意图分类系统完整根因分析,设计 A-D 四阶段规格框架;引入 OpenClaw 四层 context window 管理模式作为跨项目参考,将 intent 修复与 context 管理合并为单次改动,避免分阶段实施的代码返工。
- ✅ Research Scout 初版实现(6命令系统) — 创建 gadget/research/ 模块完整初版:init/list/search/report/deploy/config 六个 CLI 子命令、project.json+overview.md 项目模板、arXiv 搜索(arxiv 包,SubmittedDate 降序)、单阶段 LLM 评估(三后端:anthropic/openai/claude_cli)、报告生成(Markdown+JSON)、Hugo 部署,约750行。
- ✅ 修复 error-recovery-benchmark 项目接入配置 — 发现并修复三个隐藏问题:project.json 的 id 与目录名不匹配导致 Stage 2 找不到 overview.md;overview.md 章节标题含编号前缀不符合 pipeline 硬编码 regex;缺少 auto-append marker。补充关键词和 open_questions 后项目可直接运行。
- ✅ 可配置参数体系(_resolve_param 四层优先级) — 将 lookback_days/max_results 等关键参数从硬编码改为可配置。实现 _resolve_param() 四层优先级:CLI flag > project.json > config.json > hardcoded default。config.json 新增 default_max_results/default_top_papers_in_report/max_high_relevance;config –init 添加对应交互式提示。
- ✅ 会议/期刊论文专项搜索(–conference 标志) — 新增 search/report –conference “CVPR 2025” 功能:以会议名作 arXiv all: 全文查询,再按 comment 字段后过滤,提取 venue 字段。验证 CVPR 2025/ICLR 2026 均成功找到,venue 字段正确提取。
- ✅ Research Scout 首次完整验证运行(研究方向建议生成) — 为 Robot Manipulation 项目首次完整运行,产出3条研究方向建议:生成式数字孪生错误恢复场景基准(RoboTwin)、从人类视频提取恢复原语(VidBot)、文档引导电器操作+不确定性驱动恢复基准(CheckManual),验证完整 pipeline 可用性。
- ✅ LLM 语言配置、init –from-overview、搜索去重等生产级改进 — 三项生产级完善:①为三个 prompt 添加 {language_instruction} 实现多语言控制(默认中文,三层优先级);②新增 init –from-overview(LLM 从已有 overview.md 自动提取项目信息);③实现 _load_known_paper_ids() + 连续5篇阈值搜索去重,会议搜索不受影响。
实现与修复
- ✅ 文档完善(TUTORIAL.md + research/CLAUDE.md 重写) — 编写中文 TUTORIAL.md(10节,涵盖配置、项目创建、两阶段评估详解、会议搜索、参数调优);重写 research/CLAUDE.md(函数级代码导航+参数配置表+关键实现细节,删除冗余 schema 列表);全文替换「周报」为「日报」。
- ✅ 批量补齐积压日报(02-17/03-04/03-05) — 运行 gadget summarize 管线补齐三天:02-17(02-13~02-16四天跨设备元日报)、03-04(天河 BC-RNN 调查+训练指南)、03-05(DCC MIHD benchmark + MacBook月度总结 + Claude Code使用指南)。
问题与解决方案
关键问题
1. 初版单阶段对全量论文(50篇)深度评估,token 浪费严重且低相关论文占用大量分析资源
解决方案: 用户提出两阶段阅读方法论后,重构为 Stage 1(轻量筛选全部)→ Stage 2(深度分析高相关,上限20篇)流水线
关键洞察: 两阶段信息处理(粗筛+精评)比单阶段全量处理在 token 效率和分析深度上均更优,来自真实研究者阅读习惯,可推广到其他 LLM 信息处理任务
2. project.json 的 id 字段与目录名不一致,且 overview.md 章节标题含编号前缀,导致 Stage 2 找不到 overview.md、current_methods 字段为空
解决方案: 将 project.json 的 id 改为与目录名完全一致;将章节标题改为 OVERVIEW_TEMPLATE 标准格式(删除编号前缀),补全 auto-append marker
关键洞察: pipeline 用 project[‘id’] 而非目录名定位文件;overview.md 解析依赖硬编码 regex 而非语义匹配——这是不读代码很难发现的隐式约束,从已有项目接入时最易出现
3. arXiv API 不提供 venue/conference 过滤,无法直接按会议名搜索特定会议论文
解决方案: 利用 arXiv 全文搜索 all:“CVPR 2025” + comment 字段后过滤:作者通常在 comment 写录用信息,这是事实上的非正式约定
关键洞察: arXiv comment 字段是事实上的会议录用公告区,虽非官方标准,但绝大多数作者遵循,可作为会议论文搜索的可靠过滤依据
4. lookback_days/max_results 等关键参数硬编码,不同项目无法差异化配置,随项目增多维护困难
解决方案: 设计 _resolve_param() 四层优先级(CLI > project.json > config.json > default),同时支持全局配置和 per-project 覆盖
关键洞察: 配置分层是随项目增多的必要架构决策,应在设计初期考虑;JSON 配置延续 summarize/ 一致性优于其他方案
一般问题
5. LLM 输出语言混杂,英文字段与中文方向建议混合,无法统一控制
解决方案: 在三个 prompt 末尾注入动态 {language_instruction},通过三层优先级控制,默认中文
关键洞察: LLM 语言遵从性依赖 prompt 中的明确指令,仅部分 prompt 有语言指令会导致输出不一致,统一注入是最简洁的修复方式
人类思路 vs AI 思路
战略层面
论文两阶段阅读方法论设计
| 角色 | 思路 |
|---|---|
| 人类 | 提出完整的两阶段阅读框架:快速筛选(30秒,关注问题相关性/新颖性/来源权威性)和深度理解(关注动机/核心insight/对比baseline/实验设计/局限性),明确指出评分应聚焦三个维度 |
| AI | 将用户方法论映射为技术实现:Stage 1 返回 screening_relevance/paper_type/motivation/innovation_point,Stage 2 返回3个亮点+三维评分 |
差异分析: 核心方法论由用户完全主导(来自有实操经验的研究者视角),AI 负责技术映射和实现;两阶段思路 AI 未主动提出
CalendarPro 意图分类系统架构设计与跨项目借鉴
| 角色 | 思路 |
|---|---|
| 人类 | 完成完整根因分析,设计 A-D 四阶段规格框架;主动引入 OpenClaw 四层 context window 管理作为参考,提出将 intent 修复与 context 管理合并为单次改动,避免分阶段实施的代码返工 |
| AI | 实现了 Plan 中的所有修复,主动识别并解决测试中的 Mock 作用域和压缩边界断言问题;但初步方案零散,未主动提出参照已有成熟系统进行跨项目设计迁移 |
差异分析: 架构创新和关键设计决策完全来自人类,AI 是高效实施者;人类对系统根因的诊断和跨项目借鉴思维是 AI 所缺乏的主动能力
会议论文搜索与已有项目接入问题诊断
| 角色 | 思路 |
|---|---|
| 人类 | 提出会议论文专项搜索具体场景需求(CVPR 2025 等顶会跟踪);询问「如何接入已有项目」但未意识到存在格式对齐问题 |
| AI | 发现利用 comment 字段非正式约定的可行技术路径;主动读取文件,发现3个隐藏问题(ID不匹配、标题regex不匹配、缺少marker)并一次性修复 |
差异分析: 需求由用户提出,AI 找到实现方案;项目接入时 AI 做了比用户预期更深入的诊断,但首次回答只给出通用指导,需追问才进入具体修复
配置参数分层设计与搜索去重策略
| 角色 | 思路 |
|---|---|
| 人类 | 主动要求参数可配置化;提出「遇到已缓存文章就停止」的简单去重思路 |
| AI | 设计四层优先级 _resolve_param();考虑 arXiv 按日期降序的特性,设计「连续5篇」阈值策略(而非遇第一篇就停)并将会议搜索排除在外 |
差异分析: 用户关注用户体验,AI 关注与现有体系一致性和鲁棒性;去重策略 AI 设计了比用户初始想法更健壮的方案
AI 局限性
重要局限
- 系统设计缺乏跨项目借鉴主动性:CalendarPro 架构设计中未能主动识别 OpenClaw 等已有成熟系统的模式并建议迁移;Research Scout 初版在 token 效率和两阶段设计上也未能主动对标人类研究者阅读习惯,均需用户提出后才优化
一般局限
- 工具设计时对用户实际工作流的预见性不足:Research Scout 初版未主动考虑参数可配置化、会议论文专项搜索等真实研究场景,均需用户明确提出后添加
- 面对「如何接入已有项目」的询问,首次回答只给出通用指导,未主动检查用户是否已有文件,导致需要用户追问才进入具体修复流程
今日收获
核心收获
- 论文快速筛选的三个核心维度:问题相关性(问题层面的交集而非关键词匹配)、新颖性(新任务定义/方法/数据集/发现而非调参)、来源权威性(顶会+知名实验室作为质量过滤器而非迷信权威)
- 深度论文阅读的核心是找到让文章效果更好的关键 insight(其余都是工程细节),并批判性审视作者选择的 baseline 和指标——作者会选对自己有利的比较对象
- 两阶段信息处理(粗筛+精评)比单阶段全量处理在 token 效率和分析深度上均更优,来自真实研究者阅读习惯,可推广到其他 LLM 信息处理任务
- pipeline 对 overview.md 的解析是硬编码 regex(而非语义匹配),文档格式必须严格遵循 OVERVIEW_TEMPLATE 章节名——这是不读代码很难发现的隐式约束,从已有项目接入时最易出现
- 将相关修复合并为单次改动(如 CalendarPro 的 intent 修复与 context 管理)而非分阶段实施,可避免代码返工;这种合并决策需要对系统全局有深入理解,也需要跨项目借鉴成熟模式的主动意识
- arXiv 没有官方 venue 字段,但 comment 字段是事实上的会议录用公告区,通过全文搜索会议名+过滤 comment 字段可实现会议论文专项搜索
- research_scout 搜索阶段完全不涉及 LLM(只是 arXiv API + 关键词匹配),LLM 仅在 Stage 1 筛选和 Stage 2 深度分析时调用;搜索缓存 key 含当天日期和关键词 hash,跨天去重需单独的 _load_known_paper_ids() 机制,两种机制互补
会话摘要
Life Copilot / CalendarPro
✅ CalendarPro 意图分类系统根因分析与跨项目架构规格设计 claude_code 完成 CalendarPro 意图分类系统根因分析,设计 A-D 四阶段规格框架;引入 OpenClaw 四层 context window 管理模式作为跨项目参考,将 intent 修复与 context 管理合并为单次改动,避免分阶段代码返工。AI 实现了 Plan 中所有修复并识别了 Mock 作用域和压缩边界断言问题,但架构创新和跨项目借鉴思维来自人类主导。
Gadget / Research Scout
✅ Research Scout 从零构建到首次完整验证(架构设计→初版→两阶段Pipeline→可配置参数→会议搜索→首次运行) 21:05:37.706 | claude_code 以单日完成 Research Scout 全部核心实现:init/list/search/report/deploy/config 六命令初版(~750行);重构为两阶段评估 Pipeline(Stage 1 轻量筛选 + Stage 2 深度分析3亮点+三维评分);实现 _resolve_param() 四层参数配置优先级;新增 –conference 会议论文专项搜索(comment字段过滤+venue提取);编写中文 TUTORIAL.md(10节)。最终为 Robot Manipulation 项目首次完整运行,产出3条研究方向建议(RoboTwin/VidBot/CheckManual),验证完整 pipeline 可用性。
✅ Research Scout 生产级改进(文档重写、项目接入修复、语言配置、init –from-overview、搜索去重) 23:28:12.216 | claude_code 持续完善 research_scout.py:重写 research/CLAUDE.md(函数级导航+参数配置表+关键实现细节);修复 error-recovery-benchmark 三个隐藏配置问题(ID不匹配、标题regex不匹配、缺少marker);为三个 prompt 添加 {language_instruction} 实现多语言控制(默认中文);新增 init –from-overview(LLM自动提取项目信息);实现连续5篇阈值搜索去重;全文替换「周报」为「日报」。
Gadget
✅ 批量补齐三天积压日报(02-13~02-17、03-04、03-05) 13:30:29.889 | claude_code 使用 gadget summarize 两阶段管线补齐三天积压日报:02-13~02-17(DCC/tianhe/MacBook/TzJsDesktop 四台设备,含 ErrorRecovery GPU smoke test、MIHD benchmark、CalendarPro P0/P1功能、rclone同步改进等);03-04(天河 BC-RNN obs key 根因排查 + Self-Reflection 六阶段训练指南);03-05(DCC MIHD 双向benchmark + MacBook Feb月度总结 + Claude Code使用指南676行)。
Token 用量
总览
| 指标 | 数值 |
|---|---|
| 总 Token | 108,126,887 |
| 输入 Token | 136,749 |
| 输出 Token | 347,384 |
| Cache 创建 | 12,220,123 |
| Cache 读取 | 95,422,631 |
| Cache 命中率 | 88.6% |
| 总费用 (USD) | $91.9923 |
模型明细
| 模型 | 输入 | 输出 | Cache 创建 | Cache 读取 | 费用 | 占比 |
|---|---|---|---|---|---|---|
| claude-opus-4-6 | 49,420 | 191,436 | 3,300,188 | 69,852,886 | $60.5856 | 65.9% |
| claude-haiku-4-5-20251001 | 86,845 | 140,317 | 2,466,416 | 22,861,640 | $6.1576 | 6.7% |
| claude-sonnet-4-6 | 484 | 15,631 | 6,453,519 | 2,708,105 | $25.2490 | 27.4% |
各设备用量
| 设备 | 总 Token | 输入 | 输出 | 费用 |
|---|---|---|---|---|
| DCC | 5,350,655 | 7,443 | 31,812 | $4.4773 |
| tianhe | 74,726,290 | 115,519 | 222,113 | $46.7876 |
| TzJsDesktop | 28,049,942 | 13,787 | 93,459 | $40.7274 |