日报 — 2026-03-07

今日概览

  • 做了什么: 以单日完成两个核心工程任务:gadget Research Scout 从零构建到生产就绪(初版→两阶段Pipeline→可配置参数→会议搜索→语言控制→去重),以及 CalendarPro 意图分类系统根因分析与跨项目架构规格设计(引入 OpenClaw context window 管理模式);同时批量补齐三天积压日报
  • 怎么做的: Research Scout 采用 Plan→Implement→Iterate 三轮推进,Claude Code 多 Agent 协作,Read/Grep 精确定位隐式约束;CalendarPro 通过完整根因分析+跨项目借鉴设计 A-D 四阶段规格框架,将 intent 修复与 context 管理合并为单次改动
  • 有什么用: Research Scout 支持 arXiv 多源→两阶段 LLM 筛选→研究方向建议完整 pipeline,首次运行产出3条可执行研究方向;CalendarPro 获得经跨项目验证的架构规格避免代码返工;三天积压日报全部补齐

TzJsDesktop

  • 做了什么: 完成 Research Scout 全部核心实现(约2650行)及多项功能改进,修复 error-recovery-benchmark 项目配置,编写 TUTORIAL.md 与 CLAUDE.md,批量补齐三天积压日报;同时完成 CalendarPro 意图分类系统根因分析与架构规格设计
  • 怎么做的: Claude Code 多 Agent 协作,基于 summarize/ 现有模式复用工具函数,conda AI 环境分步验证;CalendarPro 通过引入 OpenClaw 四层 context window 管理模式进行跨项目设计迁移
  • 有什么用: Research Scout 从零到完整功能验证在单日内完成;CalendarPro 获得经跨项目验证的架构规格;积压日报全部补齐

DCC

  • 做了什么: 无直接活动(03-05 的 MIHD RM-IDEAL benchmark 工作在今日积压日报合并中记录)
  • 怎么做的: N/A
  • 有什么用: N/A

tianhe

  • 做了什么: 无直接活动(03-04 的 BC-RNN 调查和训练指南工作在今日积压日报合并中记录)
  • 怎么做的: N/A
  • 有什么用: N/A

单日完成 gadget Research Scout 论文管理系统全生命周期构建并首次验证产出3条研究方向,同时推进 CalendarPro 意图分类系统根因分析与跨项目架构规格设计(引入 OpenClaw context window 管理模式),并批量补齐三天积压日报。

今日任务

架构与策略

  • Research Scout 两阶段论文评估 Pipeline 完整实现 — 将论文评估重构为两阶段:Stage 1(轻量筛选全部论文)提取 screening_relevance/paper_type/motivation/innovation_point;Stage 2(深度分析高相关论文,上限20篇)产出3个亮点(point/why/value_to_us/our_direction)+ 三维评分 + composite_score。evaluate_papers_for_project() 返回含 high_relevance/low_relevance/screening_stats 的 dict,低相关论文以
    折叠段展示。
  • CalendarPro 意图分类系统根因分析与跨项目架构规格设计 — 完成 CalendarPro 意图分类系统完整根因分析,设计 A-D 四阶段规格框架;引入 OpenClaw 四层 context window 管理模式作为跨项目参考,将 intent 修复与 context 管理合并为单次改动,避免分阶段实施的代码返工。
  • Research Scout 初版实现(6命令系统) — 创建 gadget/research/ 模块完整初版:init/list/search/report/deploy/config 六个 CLI 子命令、project.json+overview.md 项目模板、arXiv 搜索(arxiv 包,SubmittedDate 降序)、单阶段 LLM 评估(三后端:anthropic/openai/claude_cli)、报告生成(Markdown+JSON)、Hugo 部署,约750行。
  • 修复 error-recovery-benchmark 项目接入配置 — 发现并修复三个隐藏问题:project.json 的 id 与目录名不匹配导致 Stage 2 找不到 overview.md;overview.md 章节标题含编号前缀不符合 pipeline 硬编码 regex;缺少 auto-append marker。补充关键词和 open_questions 后项目可直接运行。
  • 可配置参数体系(_resolve_param 四层优先级) — 将 lookback_days/max_results 等关键参数从硬编码改为可配置。实现 _resolve_param() 四层优先级:CLI flag > project.json > config.json > hardcoded default。config.json 新增 default_max_results/default_top_papers_in_report/max_high_relevance;config –init 添加对应交互式提示。
  • 会议/期刊论文专项搜索(–conference 标志) — 新增 search/report –conference “CVPR 2025” 功能:以会议名作 arXiv all: 全文查询,再按 comment 字段后过滤,提取 venue 字段。验证 CVPR 2025/ICLR 2026 均成功找到,venue 字段正确提取。
  • Research Scout 首次完整验证运行(研究方向建议生成) — 为 Robot Manipulation 项目首次完整运行,产出3条研究方向建议:生成式数字孪生错误恢复场景基准(RoboTwin)、从人类视频提取恢复原语(VidBot)、文档引导电器操作+不确定性驱动恢复基准(CheckManual),验证完整 pipeline 可用性。
  • LLM 语言配置、init –from-overview、搜索去重等生产级改进 — 三项生产级完善:①为三个 prompt 添加 {language_instruction} 实现多语言控制(默认中文,三层优先级);②新增 init –from-overview(LLM 从已有 overview.md 自动提取项目信息);③实现 _load_known_paper_ids() + 连续5篇阈值搜索去重,会议搜索不受影响。

实现与修复

  • 文档完善(TUTORIAL.md + research/CLAUDE.md 重写) — 编写中文 TUTORIAL.md(10节,涵盖配置、项目创建、两阶段评估详解、会议搜索、参数调优);重写 research/CLAUDE.md(函数级代码导航+参数配置表+关键实现细节,删除冗余 schema 列表);全文替换「周报」为「日报」。
  • 批量补齐积压日报(02-17/03-04/03-05) — 运行 gadget summarize 管线补齐三天:02-17(02-13~02-16四天跨设备元日报)、03-04(天河 BC-RNN 调查+训练指南)、03-05(DCC MIHD benchmark + MacBook月度总结 + Claude Code使用指南)。

问题与解决方案

关键问题

1. 初版单阶段对全量论文(50篇)深度评估,token 浪费严重且低相关论文占用大量分析资源

解决方案: 用户提出两阶段阅读方法论后,重构为 Stage 1(轻量筛选全部)→ Stage 2(深度分析高相关,上限20篇)流水线

关键洞察: 两阶段信息处理(粗筛+精评)比单阶段全量处理在 token 效率和分析深度上均更优,来自真实研究者阅读习惯,可推广到其他 LLM 信息处理任务

2. project.json 的 id 字段与目录名不一致,且 overview.md 章节标题含编号前缀,导致 Stage 2 找不到 overview.md、current_methods 字段为空

解决方案: 将 project.json 的 id 改为与目录名完全一致;将章节标题改为 OVERVIEW_TEMPLATE 标准格式(删除编号前缀),补全 auto-append marker

关键洞察: pipeline 用 project[‘id’] 而非目录名定位文件;overview.md 解析依赖硬编码 regex 而非语义匹配——这是不读代码很难发现的隐式约束,从已有项目接入时最易出现

3. arXiv API 不提供 venue/conference 过滤,无法直接按会议名搜索特定会议论文

解决方案: 利用 arXiv 全文搜索 all:“CVPR 2025” + comment 字段后过滤:作者通常在 comment 写录用信息,这是事实上的非正式约定

关键洞察: arXiv comment 字段是事实上的会议录用公告区,虽非官方标准,但绝大多数作者遵循,可作为会议论文搜索的可靠过滤依据

4. lookback_days/max_results 等关键参数硬编码,不同项目无法差异化配置,随项目增多维护困难

解决方案: 设计 _resolve_param() 四层优先级(CLI > project.json > config.json > default),同时支持全局配置和 per-project 覆盖

关键洞察: 配置分层是随项目增多的必要架构决策,应在设计初期考虑;JSON 配置延续 summarize/ 一致性优于其他方案

一般问题

5. LLM 输出语言混杂,英文字段与中文方向建议混合,无法统一控制

解决方案: 在三个 prompt 末尾注入动态 {language_instruction},通过三层优先级控制,默认中文

关键洞察: LLM 语言遵从性依赖 prompt 中的明确指令,仅部分 prompt 有语言指令会导致输出不一致,统一注入是最简洁的修复方式

人类思路 vs AI 思路

战略层面

论文两阶段阅读方法论设计

角色 思路
人类 提出完整的两阶段阅读框架:快速筛选(30秒,关注问题相关性/新颖性/来源权威性)和深度理解(关注动机/核心insight/对比baseline/实验设计/局限性),明确指出评分应聚焦三个维度
AI 将用户方法论映射为技术实现:Stage 1 返回 screening_relevance/paper_type/motivation/innovation_point,Stage 2 返回3个亮点+三维评分

差异分析: 核心方法论由用户完全主导(来自有实操经验的研究者视角),AI 负责技术映射和实现;两阶段思路 AI 未主动提出

CalendarPro 意图分类系统架构设计与跨项目借鉴

角色 思路
人类 完成完整根因分析,设计 A-D 四阶段规格框架;主动引入 OpenClaw 四层 context window 管理作为参考,提出将 intent 修复与 context 管理合并为单次改动,避免分阶段实施的代码返工
AI 实现了 Plan 中的所有修复,主动识别并解决测试中的 Mock 作用域和压缩边界断言问题;但初步方案零散,未主动提出参照已有成熟系统进行跨项目设计迁移

差异分析: 架构创新和关键设计决策完全来自人类,AI 是高效实施者;人类对系统根因的诊断和跨项目借鉴思维是 AI 所缺乏的主动能力

会议论文搜索与已有项目接入问题诊断

角色 思路
人类 提出会议论文专项搜索具体场景需求(CVPR 2025 等顶会跟踪);询问「如何接入已有项目」但未意识到存在格式对齐问题
AI 发现利用 comment 字段非正式约定的可行技术路径;主动读取文件,发现3个隐藏问题(ID不匹配、标题regex不匹配、缺少marker)并一次性修复

差异分析: 需求由用户提出,AI 找到实现方案;项目接入时 AI 做了比用户预期更深入的诊断,但首次回答只给出通用指导,需追问才进入具体修复

配置参数分层设计与搜索去重策略

角色 思路
人类 主动要求参数可配置化;提出「遇到已缓存文章就停止」的简单去重思路
AI 设计四层优先级 _resolve_param();考虑 arXiv 按日期降序的特性,设计「连续5篇」阈值策略(而非遇第一篇就停)并将会议搜索排除在外

差异分析: 用户关注用户体验,AI 关注与现有体系一致性和鲁棒性;去重策略 AI 设计了比用户初始想法更健壮的方案

AI 局限性

重要局限

  • 系统设计缺乏跨项目借鉴主动性:CalendarPro 架构设计中未能主动识别 OpenClaw 等已有成熟系统的模式并建议迁移;Research Scout 初版在 token 效率和两阶段设计上也未能主动对标人类研究者阅读习惯,均需用户提出后才优化

一般局限

  • 工具设计时对用户实际工作流的预见性不足:Research Scout 初版未主动考虑参数可配置化、会议论文专项搜索等真实研究场景,均需用户明确提出后添加
  • 面对「如何接入已有项目」的询问,首次回答只给出通用指导,未主动检查用户是否已有文件,导致需要用户追问才进入具体修复流程

今日收获

核心收获

  • 论文快速筛选的三个核心维度:问题相关性(问题层面的交集而非关键词匹配)、新颖性(新任务定义/方法/数据集/发现而非调参)、来源权威性(顶会+知名实验室作为质量过滤器而非迷信权威)
  • 深度论文阅读的核心是找到让文章效果更好的关键 insight(其余都是工程细节),并批判性审视作者选择的 baseline 和指标——作者会选对自己有利的比较对象
  • 两阶段信息处理(粗筛+精评)比单阶段全量处理在 token 效率和分析深度上均更优,来自真实研究者阅读习惯,可推广到其他 LLM 信息处理任务
  • pipeline 对 overview.md 的解析是硬编码 regex(而非语义匹配),文档格式必须严格遵循 OVERVIEW_TEMPLATE 章节名——这是不读代码很难发现的隐式约束,从已有项目接入时最易出现
  • 将相关修复合并为单次改动(如 CalendarPro 的 intent 修复与 context 管理)而非分阶段实施,可避免代码返工;这种合并决策需要对系统全局有深入理解,也需要跨项目借鉴成熟模式的主动意识
  • arXiv 没有官方 venue 字段,但 comment 字段是事实上的会议录用公告区,通过全文搜索会议名+过滤 comment 字段可实现会议论文专项搜索
  • research_scout 搜索阶段完全不涉及 LLM(只是 arXiv API + 关键词匹配),LLM 仅在 Stage 1 筛选和 Stage 2 深度分析时调用;搜索缓存 key 含当天日期和关键词 hash,跨天去重需单独的 _load_known_paper_ids() 机制,两种机制互补

会话摘要

Life Copilot / CalendarPro

✅ CalendarPro 意图分类系统根因分析与跨项目架构规格设计 claude_code 完成 CalendarPro 意图分类系统根因分析,设计 A-D 四阶段规格框架;引入 OpenClaw 四层 context window 管理模式作为跨项目参考,将 intent 修复与 context 管理合并为单次改动,避免分阶段代码返工。AI 实现了 Plan 中所有修复并识别了 Mock 作用域和压缩边界断言问题,但架构创新和跨项目借鉴思维来自人类主导。

Gadget / Research Scout

✅ Research Scout 从零构建到首次完整验证(架构设计→初版→两阶段Pipeline→可配置参数→会议搜索→首次运行) 21:05:37.706 | claude_code 以单日完成 Research Scout 全部核心实现:init/list/search/report/deploy/config 六命令初版(~750行);重构为两阶段评估 Pipeline(Stage 1 轻量筛选 + Stage 2 深度分析3亮点+三维评分);实现 _resolve_param() 四层参数配置优先级;新增 –conference 会议论文专项搜索(comment字段过滤+venue提取);编写中文 TUTORIAL.md(10节)。最终为 Robot Manipulation 项目首次完整运行,产出3条研究方向建议(RoboTwin/VidBot/CheckManual),验证完整 pipeline 可用性。

✅ Research Scout 生产级改进(文档重写、项目接入修复、语言配置、init –from-overview、搜索去重) 23:28:12.216 | claude_code 持续完善 research_scout.py:重写 research/CLAUDE.md(函数级导航+参数配置表+关键实现细节);修复 error-recovery-benchmark 三个隐藏配置问题(ID不匹配、标题regex不匹配、缺少marker);为三个 prompt 添加 {language_instruction} 实现多语言控制(默认中文);新增 init –from-overview(LLM自动提取项目信息);实现连续5篇阈值搜索去重;全文替换「周报」为「日报」。

Gadget

✅ 批量补齐三天积压日报(02-13~02-17、03-04、03-05) 13:30:29.889 | claude_code 使用 gadget summarize 两阶段管线补齐三天积压日报:02-13~02-17(DCC/tianhe/MacBook/TzJsDesktop 四台设备,含 ErrorRecovery GPU smoke test、MIHD benchmark、CalendarPro P0/P1功能、rclone同步改进等);03-04(天河 BC-RNN obs key 根因排查 + Self-Reflection 六阶段训练指南);03-05(DCC MIHD 双向benchmark + MacBook Feb月度总结 + Claude Code使用指南676行)。

Token 用量

总览

指标 数值
总 Token 108,126,887
输入 Token 136,749
输出 Token 347,384
Cache 创建 12,220,123
Cache 读取 95,422,631
Cache 命中率 88.6%
总费用 (USD) $91.9923

模型明细

模型 输入 输出 Cache 创建 Cache 读取 费用 占比
claude-opus-4-6 49,420 191,436 3,300,188 69,852,886 $60.5856 65.9%
claude-haiku-4-5-20251001 86,845 140,317 2,466,416 22,861,640 $6.1576 6.7%
claude-sonnet-4-6 484 15,631 6,453,519 2,708,105 $25.2490 27.4%

各设备用量

设备 总 Token 输入 输出 费用
DCC 5,350,655 7,443 31,812 $4.4773
tianhe 74,726,290 115,519 222,113 $46.7876
TzJsDesktop 28,049,942 13,787 93,459 $40.7274