日报 — 2026-03-15
今日概览
- 做了什么: 六条主线并行推进:①MIHD跨样本embedding方法论诊断 ②ErrorRecoveryBenchmark v5修复与规模化(13技能/29子类型) ③VLA进度预测全链路修复 ④UniVLA评测容器适配 ⑤CalendarPro七阶段全面重构 ⑥gadget工具链架构升级(common/包+outputs/统一+research profiler+CLI整合)
- 怎么做的: 各线均采用计划驱动开发:预制详细方案后并行实施;GPU节点SSH远程执行仿真pipeline;迭代调试(运行→报错→定位→最小修改)贯穿所有项目;多并行Agent子代理加速代码分析与实施
- 有什么用: benchmark从11技能扩展至13技能/29子类型;消除per-section独立embedding的方法论缺陷;pi05进度预测全链路就绪;CalendarPro 230测试全通过;gadget消除约500行重复代码并建立统一输出目录;research profiler学生发现能力从0突破,完成7+位具身AI学者深度画像
DCC
- 做了什么: 在MIHD项目中实现PCA与raw_shared两种embedding诊断基线,追踪并验证跨样本embedding双重不可比性根因(per-section独立HVG选择+独立PCA拟合)
- 怎么做的: 添加–embedding_source参数;通过import链追踪发现per-section独立处理缺陷;修复adata_hvg缓存基因名bug后从原始HDF5取HVG交集(1137基因)的raw_shared方案
- 有什么用: 否定’PCA优于STAIG=输入特征弱’的误判,定位共享HVG交集为正确验证基线;揭示STAIG在边界层(Layer_1/Layer_5)SL@50=0.94-1.0、中间层全部失败的层特异性现象
TzJsDesktop
- 做了什么: 完成CalendarPro七阶段优化(230测试通过);gadget完成common/包提取重构、outputs/目录统一化、research profiler主页学生发现与Hugo research栏目新建、7位具身AI学者批量深度画像、以及research工具链CLI整合(引用图+三后端LLM)
- 怎么做的: CalendarPro通过并行子Agent实施七Phase并pytest回归验证;gadget通过创建common/包消除sys.path hack和三份重复LLM实现,通过paths.py统一6个路径常量,通过homepage_discovery.py新模块实现主页优先学生发现,通过research_scout.py新增profile/citations子命令整合CLI
- 有什么用: CalendarPro 4个误分类场景修复,Prompt token消耗减少40-60%;gadget消除约500行重复代码,.gitignore精简为单行outputs/,research profiler实现学生发现突破,7位学者画像完成并可部署Hugo
tianhe
- 做了什么: ErrorRecoveryBenchmark:修复5个失败错误技能、v4归档、E2语义拆分(13技能/29子类型)、Stack全11个demo视频、v5.1架构规划、首轮D0场景生成(207个)及失败根因诊断;VLA进度预测训练pipeline全链路修复验证(step 100 loss正常);UniVLA CALVIN评测脚本容器兼容性修复
- 怎么做的: 通过mujoco.mj_step()绕过OSC控制器干扰;修复gripper步数、phase标签缺失、target_object传递链;import链追踪完成v4归档;按恢复策略语义拆分E2;SSH连接an53节点8xA800执行pipeline;VLA调试采用迭代循环
- 有什么用: benchmark修复后生成231个场景+231个MP4;首轮D0生成207场景暴露5个系统性缺陷;pi05 step 100 action_loss=0.37、aux_loss=0.22,曲线正常下降;UniVLA –single_gpu模式解除容器网络依赖
全天跨三台设备并行推进六条主线:DCC诊断MIHD跨样本embedding双重不可比性根因;tianhe完成ErrorRecoveryBenchmark v5五项失败技能修复、E2语义拆分(13技能/29子类型)、v4归档、D0场景生成及v5.1规划,同时修复VLA进度预测训练pipeline全链路并调试UniVLA容器兼容性;TzJsDesktop完成CalendarPro七阶段全面优化(230测试通过)、gadget common/包与outputs/统一化重构、research profiler主页学生发现与Hugo部署、以及research工具链CLI整合(引用图+三后端LLM支持)。
今日任务
架构与策略
- ✅ gadget: Hugo research栏目新建与research工具链CLI整合(引用图+三后端LLM) — Hugo新增research菜单项和content/research/_index.md,在output.py实现deploy_to_hugo();以research_scout.py为统一CLI入口,删除New feature/重复目录,在semantic_scholar.py添加3个引用图API函数,新增profile/citations子命令,llm.py支持claude_cli/anthropic/openai三后端,三阶段报告自动对top-5论文运行引用分析
- ✅ CalendarPro: 7阶段全面优化实施(230测试通过) — Phase 1-7:①语义路由置信度阈值(per-route 0.40-0.60)②混合路由(Dense 0.70+Keyword 0.30)③Prompt精简(530行→base+11个fragment)+中文token修正(×1.5/字符)④Provider指数退避重试 ⑤调度评分可配置权重+deadline紧迫度 ⑥自动阈值调优闭环 ⑦ThoughtStore内存缓存。4个真实误分类场景均已修复,230个测试全部通过
- 🔄 MIHD: PCA与raw_shared embedding诊断基线实现 — 在benchmark_rm_ideal.py中添加–embedding_source {fusion,pca,raw_shared}三模式支持。PCA结果14个组合SL@50全为0;发现per-section独立处理导致比较无效;修复adata_hvg缓存基因名整数化bug后改用原始HDF5取HVG交集(1137基因)的raw_shared方案,诊断仍在运行中
- ✅ ErrorRecoveryBenchmark: 修复5个失败错误技能 — 修复grasp_misalignment(gripper_close_steps 10→30,settle_steps 5→15)、drop三技能(添加mujoco.mj_step()物理预步进15步绕过OSC控制器)、trajectory_regression(在pipeline中添加–label_phases)、wrong_object(修复target_object传递链,env_wrapper新增get_target_object(),trajectory_context添加target_object字段)。105个单元测试全部通过
- ✅ ErrorRecoveryBenchmark: E2 Drop技能语义拆分(13技能/29子类型) — 按掉落位置和物体交互情况拆分为drop_in_transit(途中远离目标)、drop_at_wrong_place(近目标大偏移无交互)、drop_with_interaction(近目标微偏移有物体接触)三个独立技能;D0/D2区分改为基于后验四元数姿态变化量判断。创建3个新技能文件,删除旧e02_drop.py,重命名9个文件,全量更新taxonomy、config、4个测试文件及文档。13技能/29子类型,105单元测试全部通过
- ✅ ErrorRecoveryBenchmark: Stack体名bug修复与全11个demo视频生成 — 修复stack.yaml中body_name字段(cubeA→cubeA_main),在env_wrapper._sim_body_name2id中添加_main/_body0后缀回退逻辑并加入WARNING;将demo视频脚本从action replay改为set_sim_state()状态恢复避免open-loop误差累积;为Stack任务全11个error skill各生成一个MP4 demo视频
- ✅ ErrorRecoveryBenchmark: v5.1架构规划(移除VLA context replay+速度限制+人类示例采集pipeline) — 根据用户三点需求完成技术规划文档,明确Mar 16-31分阶段实施计划及4月1日前开始recovery训练的里程碑。将ContextReplayEngine重构为InjectionEngine(直接恢复注入帧sim state),添加运动速度限制,设计键盘遥操作人类示例采集pipeline(仅用MimicGen demo数据)
- ✅ VLA-RoboTwin: pi05进度预测训练pipeline全链路修复与验证 — 修复HDF5→LeRobot格式转换脚本(新增manip_progress_time/distance_left/right/target_endpose/target_joint字段);修复pi05 CheckpointWeightLoader结构不匹配(添加可配置missing_regex=’.lora.|.progress.’);修正pi0.py中aux_targets shape处理逻辑(还原[:, None],通过实际训练日志确认LeRobot会squeeze(1,)→标量);添加action_loss/aux_loss独立日志记录(has_aux=True)。验证到step 100 loss曲线正常下降
- ✅ gadget: common/共享包提取与重构 — 新建6个common/模块(io/cache/json_utils/llm/hugo/init),将summarize/llm_backends.py从516行精简为25行re-export shim,消除research_scout.py的sys.path hack,迁移research/下4个文件及mcp_server.py,消除约400行重复LLM调用和JSON解析代码
- ✅ gadget: outputs/统一输出目录重构 — 创建common/paths.py定义6个路径常量(GADGET_ROOT/OUTPUTS_DIR/REPORTS_DIR/LOGS_DIR/CACHE_DIR/DATA_DIR/SITE_OUTPUTS_DIR),批量修改daily_summary.py(12处路径替换)、monthly_summary.py、research_scout.py(5个模块级常量)、research profiler 4个子模块、benchmark 3个文件,更新.gitignore为单行outputs/,更新4个CLAUDE.md
- ✅ gadget: Homepage-Based学生发现实现 — 实现homepage_discovery.py新模块(~200行),修改9个现有文件,重构discover_students为4阶段(homepage-first + co-authorship补充);多策略URL发现(S2 homepage字段+LLM建议+–homepage参数);HTMLParser子类做文本提取;2MB读取限制、50K字符截断、7天缓存TTL
- ✅ ErrorRecoveryBenchmark: v4代码归档至archive/v4/ — 将19个v4框架模块(detectors/injectors/validators/classifiers等)、15个pipeline脚本、5个配置文件、6个测试文件、v4 outputs及文档全部移至archive/v4/;修复policy_adapter.py对已归档collector.py的交叉依赖(内联BasePolicy/PolicyResult);更新__init__.py、Makefile、CLAUDE.md、README.md,所有94个v5单元测试通过
- ✅ ErrorRecoveryBenchmark: Bug修复三项(咖啡机碰撞穿透、注入视频跳帧、输出路径清理) — ①coffee_body/lid/base.xml添加margin=0.002,solimp改为0.95,solref改为0.002 ②在base_skill.inject()、env_wrapper三个运动方法、context_replay.execute()及13个error skill的inject()中透传render_fn回调(共17个文件) ③将6任务的旧备份目录和根目录脚本移至archive/v5_old_20260316/。105单元测试全部通过
- 🔄 ErrorRecoveryBenchmark: 首轮D0场景生成(6任务,207个)及失败根因诊断 — 在an53 GPU上扫描机会、执行注入,实际生成207个场景(目标600);诊断5个系统性失败根因:grasp_misalignment(夹爪步数不足)、3个drop(OSC控制器补偿抵消直接qpos操作)、trajectory_regression(phase_labels管道未激活)、wrong_object(target_object上下文缺失)
- ✅ gadget: 7位具身AI学者批量深度画像 — 通过researcher profiler分析Mingyu Ding、Ruoshi Liu、Xiaolong Wang、Shuran Song、Yunzhu Li、Yuke Zhu、Chelsea Finn及Sergey Levine/Pieter Abbeel;识别出完整导师关系网络;部分学者(Xiaolong Wang、Shuran Song)遭遇S2严重同名歧义;识别VIN、TrajOpt、DDPM、MineDojo等标志性获奖工作
- 🔄 ErrorRecoveryBenchmark: 调查咖啡机部件散架问题 — 用户通过截图发现coffee machine的lid悬浮、base/cup偏离主体,AI启动3个并行Explore子代理调查XML文件结构、Python组装代码和CompositeBodyObject架构,kinematic tree组装逻辑诊断尚未完成
- ✅ CalendarPro: 开源生态调研与7阶段优化计划设计 — 联网搜索FluidCalendar/CoPaw/Khoj/OpenDAN等相近开源项目,识别出能量感知调度+三层架构+双重意图验证+一体化生活管理为CalendarPro独特功能组合(开源生态确实存在空白),将调研结论转化为7阶段优化计划
实现与修复
- ✅ ErrorRecoveryBenchmark: v5 GPU流水线全量运行并渲染231个场景与视频 — 在an53节点(8x A800 80GB)运行全量D0 pipeline,42分钟生成231个场景和231个MP4视频,较修复前207个提升约11.6%
- 🔄 UniVLA: CALVIN评测脚本容器单卡兼容性修复 — 添加–single_gpu模式绕过torchrun/Accelerator/DDP初始化;补充GenerateConfig.window_size字段(默认12);修复MAPBloc拼写错误;安装braceexpand缺失依赖;修复evaluate_policy硬编码他人绝对路径;将GIF帧率从60调至120fps。脚本已能启动,仍在迭代调试阶段
问题与解决方案
关键问题
1. MIHD跨样本embedding方法论根本缺陷:AI从’PCA比STAIG差’得出’输入特征本身弱’的错误结论,未主动质疑实验设计有效性
解决方案: 用户质疑cosine similarity有效性后,通过import链追踪发现PCA与STAIG同样存在per-section独立HVG选择+独立PCA拟合的双重不可比性,两者比较均无效;改用共享HVG交集(1137基因)的raw_shared方案作为正确基线
关键洞察: 跨样本embedding比较的有效性前提是特征空间共享;per-section独立拟合的embedding无论使用什么模型,跨section余弦相似度在数学上都没有意义
2. Drop技能物体不实际掉落:直接设置qpos打开夹爪后,env.step()的OSC控制器重新施加夹持力将物体’拽回'
解决方案: 打开夹爪+设置物体初始速度后,先调用mujoco.mj_step()运行15个物理步(完全绕过OSC控制器),让物体完成初始分离后再进入标准控制循环
关键洞察: sim.forward()只更新运动学状态,不推进动力学;只有mujoco.mj_step()才真正步进MuJoCo物理引擎,从而绕过所有高层控制器。直接状态操作与反馈控制器之间存在根本冲突,仿真注入设计必须明确选择一种路径
3. Stack任务体名解析静默失败:stack.yaml使用cubeA/cubeB,MuJoCo实际名为cubeA_main/cubeB_main,_sim_body_name2id返回-1,Python负索引body_xpos[-1]读取最后一个body,任务阶段检测全部误判为pre_reach
解决方案: 修复stack.yaml的body_name字段,在env_wrapper._sim_body_name2id中添加_main/_body0后缀回退逻辑,查找失败时输出WARNING而非静默返回-1
关键洞察: body_xpos[-1]负索引在两个cube始终返回同一位置,这种静默错误极难发现;任何解析失败都应立即报警而非返回哨兵值
4. VLA context replay架构假设错误:AI设计了完整N-1帧回放机制,认为这是为VLA提供正确观测历史的必要步骤;同时设计了多种数据源(demo+VLA rollout+BC rollout),忽视各来源可控性差异
解决方案: 用户指出大多数VLA没有context window,context replay是无用开销;将ContextReplayEngine重构为InjectionEngine,直接恢复注入帧sim state;数据源限定为MimicGen demo数据(可控性更高)
关键洞察: 通用benchmark应对无context的模型(BC-RNN、ACT等)也高效适用,不能只针对少数支持历史输入的VLA过度工程化;用户对实际模型范围的了解优于AI的理论推断
5. CalendarPro意图误分类:语义路由无置信度阈值(0.52也当作有效分类);含时间表达式的句子因关键词匹配错误路由;短确认词’ok’无上下文理解;系统prompt过长(530行)全量发送,中文token估算偏差3倍
解决方案: 添加per-route阈值(0.40-0.60),低于阈值交给LLM;引入关键词评分器(时间正则boost schedule)与embedding以70/30混合;将SYSTEM_PROMPT拆分为BASE(~50行)+11个intent-specific fragment按需注入;中文token估算改为chinese_chars×1.5+other_chars/4
关键洞察: Embedding最近邻路由缺乏’我不确定’表达能力;关键词评分恰好弥补embedding对时间/数字表达式的盲区,两者互补;中文字符token占用约为英文字符6倍,不修正会系统性低估context长度
6. S2共作者分析对Levine/Abbeel/Finn等顶级大佬完全失效(depth-2全部为空),且存在严重同名歧义(Xiaolong Wang匹配兽医/地质研究者,Shuran Song仅2篇2025年论文)
解决方案: 重构为homepage-first策略:优先从研究者主页/实验室页面提取学生列表,co-authorship仅作补充;多策略URL发现(S2 homepage字段+LLM建议+–homepage参数);对同名歧义标注警告并建议使用S2 authorId精确查询
关键洞察: 学术主页显式列出学生,比从合著关系推断可靠性高一个数量级;顶级大佬发表500+篇论文,first-author信号被大量合作者稀释,共作者分析方法论存在根本适用边界问题
7. research工具链分散:paper scout和researcher profiler功能重叠、命令分散,New feature/目录存在完全重复代码;引用关系维度在工具链中缺失
解决方案: 以research_scout.py为统一CLI入口,将modular profiler作为库通过懒加载import引入,新增profile/citations子命令,删除New feature/目录,添加Semantic Scholar引用图API,三阶段报告自动对top-5论文运行引用分析
关键洞察: 保留原有CLI入口点通过懒加载整合新模块,而非全量重写,兼顾向后兼容性;引用关系(前向引用+后向参考)是研究工具链中被低估的核心特性
8. Demo视频脚本使用action replay导致open-loop误差累积,后期帧phase检测全部错误
解决方案: 改用set_sim_state()直接恢复每帧MuJoCo状态向量,绕过open-loop累积误差
关键洞察: 存储的clean trajectory包含完整sim state向量,直接恢复状态比回放action精确得多;action replay适合实时控制,状态恢复适合离线分析
9. trajectory_regression无法找到任何注入机会:can_inject()要求prev_phases长度≥10,但pipeline从未调用replay_and_label_phases(),phase_labels始终为None
解决方案: 在run_v5_all_tasks.py的Step 0中默认传递–label_phases标志
关键洞察: 隐式依赖(特定技能需要pipeline某步骤显式激活)只有在该技能运行失败时才能暴露;端到端集成测试比单元测试更能发现此类pipeline级缺陷
10. pi05训练报错:CheckpointWeightLoader结构不匹配,新增progress层(progress_mlp_in/out/cond_proj)不在checkpoint中且不匹配硬编码的’.lora.‘正则
解决方案: 给CheckpointWeightLoader添加可配置missing_regex字段(默认’.lora.‘保持向后兼容),4个progress实验config改用’.lora.|.progress.’
关键洞察: 加载预训练权重时新增实验模块是高频场景,missing_regex应设计为可配置参数;这与LoRA微调的同类需求完全一致,是迁移学习的通用设计模式
11. pi0.py中aux_targets shape假设错误:AI推断LeRobot加载shape=(1,)特征后保持(b,1)形状并据此修改代码,实际LeRobot会squeeze为标量(b,),导致训练时shape不匹配
解决方案: 通过实际运行训练并观察日志(‘aux_targets[…]: (32,)@float32’)确认真实shape,还原原始[:, None]和jnp.stack操作
关键洞察: LeRobot对shape=(1,)的标量特征在DataLoader时会自动squeeze,这是框架级行为。对第三方框架的内部行为假设必须通过实际运行验证,不能纯粹推断
一般问题
12. adata_hvg缓存bug:section 151673的HVG AnnData var_names被重置为整数索引(‘0’,‘1’,‘2’…),导致基因名交集为0
解决方案: 放弃依赖adata_hvg缓存,直接从原始HDF5数据加载(via load_dlpfc_data),手动执行归一化和HVG选择
关键洞察: 缓存数据的关键字段在写入时可能发生无声变换,使用前应做健全性检查(如var_names是否为基因符号而非整数)
13. LLM生成中文长格式JSON时,中文引号("")混入JSON字符串值导致解析失败,在Chelsea Finn、Yuke Zhu、Mingyu Ding等多位研究者画像中重复出现
解决方案: 将格式错误的JSON重新提交给Claude要求仅返回修复后纯JSON,通过repair_json_with_llm机制自动化处理;计划在prompt中明确要求使用英文引号作为长期修复
关键洞察: 生成富含中文内容的JSON应在prompt中明确要求英文引号,或生成后立即做格式验证并将JSON修复作为pipeline固定步骤,比依赖生成质量更可靠
人类思路 vs AI 思路
战略层面
跨样本cosine similarity有效性的方法论质疑(MIHD)
| 角色 | 思路 |
|---|---|
| 人类 | 在AI给出’PCA更差→输入特征本身弱’的结论后,人类直觉性追问’会不会是这个cross sample embedding的cos similarity有问题’,直指方法论缺陷而非数值结果 |
| AI | AI倾向于从实验数值直接归因,未主动质疑实验设计本身的有效性前提(特征空间是否可比) |
差异分析: 人类具备先验的方法论怀疑能力,能在看到异常结果时追问’实验是否设计正确’;AI更擅长在给定假设下分析数据,对假设本身的反思需要外部触发
VLA context window必要性与error scene数据来源设计
| 角色 | 思路 |
|---|---|
| 人类 | 用户主动指出大部分VLA没有context window,context replay是无用开销;同时明确要求只使用MimicGen demo数据,禁止VLA/BC-RNN rollout数据(随机性不可控) |
| AI | AI设计了完整N-1帧回放机制认为是必要步骤,且规划保留多种数据源认为多样性有益,均缺乏对实际模型范围和数据可控性的理解 |
差异分析: 用户从实际使用的模型特性和数据可控性出发识别过度工程化;AI从理论正确性出发,需要用户实践经验纠正
E2 drop的语义拆分与CalendarPro优化计划设计
| 角色 | 思路 |
|---|---|
| 人类 | 用户主动按恢复策略语义差异将E2拆分为三个独立skill(三种drop需要截然不同的恢复动作);同样在CalendarPro中独立完成问题诊断(4条真实误分类根因分析)和7阶段技术规格,将完整方案作为输入 |
| AI | AI在benchmark中通过参数化处理同一injector的不同情况,没有主动提出语义层面细分;在CalendarPro中主要承担实施和验证角色 |
差异分析: 最高价值的设计工作(语义分类、方案设计)均由人类完成;AI在并行执行和边界情况处理上贡献价值。用户的领域经验不可替代,AI的并行执行能力显著加速落地
引用关系作为研究工具链核心特性
| 角色 | 思路 |
|---|---|
| 人类 | 用户主动提出论文之间的引用链接非常重要,高引用代表热门方向,需要分析’为何流行’及’后续工作做了什么’;同时明确引用数适合排序但不应影响相关性评分 |
| AI | AI最初整合方案专注于两个工具的功能合并(CLI统一),将引用功能视为可选扩展,未主动将引用图作为核心特性;对评分解耦需要等待用户决策 |
差异分析: 用户具有更清晰的研究方法论视角——引用关系是理解研究影响力演进的核心工具而非元数据;‘相关性’和’流行程度’是不同维度,人类更清楚两者在研究工作流中的不同用途
学生发现策略:调试S2共作者逻辑 vs 改用教授主页
| 角色 | 思路 |
|---|---|
| 人类 | 用户直接提出:不调试现有共作者分析逻辑,而是从教授个人主页直接抓取学生列表,因为主页信息更直接权威 |
| AI | AI在depth-2失败后开始深入调试student_discovery.py的评分逻辑和threshold设置,试图在现有框架内修复 |
差异分析: AI倾向在已有方案内寻找bug或调参;用户更快识别方法论适用边界并提出更高效的替代路径,绕过了S2数据质量的根本限制
咖啡机部件散架问题的识别
| 角色 | 思路 |
|---|---|
| 人类 | 通过视觉观察截图识别出lid悬浮、base偏离的具体现象,直接提出关节定义缺失、坐标偏移、加载逻辑错误三个诊断方向 |
| AI | AI只关注了接触参数层面的修复(margin/solimp),没有主动检查模型kinematic tree是否正确组装 |
差异分析: 人类凭视觉直觉识别了AI未主动发现的新问题,且给出更高层次的结构性诊断框架;AI的修复只解决了’接触太软’,没有解决’零件没有连接在一起’
VLA训练调试的委托模式
| 角色 | 思路 |
|---|---|
| 人类 | 采用目标驱动委托策略:‘自行执行训练命令,修复所有报错,一直到没报错了再停止’,给出清晰终止条件而不干预具体步骤 |
| AI | AI按科学方法迭代:运行→观察报错→读源码定位→最小修改→重新运行。但在LeRobot shape假设上出错,需要实际运行日志纠正 |
差异分析: 人类的委托模式允许AI独立调试,错误的shape假设通过运行自然暴露;人类选择不介入具体决策是正确的——纠错机制内建于迭代循环中
AI 局限性
重要局限
- 实验结论反思能力不足:在MIHD PCA诊断实验后直接从表面数值得出错误结论,未主动检查实验设计的有效性前提(per-section独立PCA的可比性问题),需要用户外部触发才能修正
- 静默失败模式导致严重bug长期潜伏:stack.yaml体名解析失败时静默返回-1,未设计任何警告或断言,导致Python负索引bug完全不可见;同类问题(adata_hvg缓存var_names整数化)也因缺乏健全性检查而未被主动发现
- 过度工程化与架构假设错误:v5 context replay基于’所有VLA需要context window’的错误假设过度设计;对第三方框架(LeRobot)内部行为(shape=(1,)特征会被squeeze)做出错误假设并据此修改代码,均需要用户纠正或实际运行验证
- 方法论适用边界主动质疑能力不足:S2学生发现对顶级大佬完全失效时,AI继续深入调试代码逻辑(读取student_discovery.py、分析threshold),而未主动质疑方法论本身的适用边界,需要用户点拨才转向主页方案
- Semantic Scholar实体消歧能力不足:对Xiaolong Wang、Shuran Song、Ming Yu等常见中文英译名几乎总匹配到错误研究者,LLM分析也无法自动识别’这不是同一个人’,只能事后标注警告,缺乏主动entity disambiguation能力
一般局限
- LLM生成中文长格式JSON格式不稳定:包含大量中文引号("")的输出即使经过haiku→sonnet→opus三轮修复仍然失败,在同一pipeline中对三位研究者重复出现,repair_json_with_llm对此特定模式处理能力不足
- 容器网络约束判断不准确:UniVLA调试中最初给出MASTER_ADDR方案认为可绕过DNS解析,实际无法解决Kubernetes Pod的IPv6问题,需要用户反馈失败才触发正确的–single_gpu方案
- 近期学术会议获奖记录知识覆盖不完整:对CoRL/ICLR spotlight等非顶级奖项及2023-2025年近期论文获奖情况存在系统性盲区,对机器人类会议(CoRL/RSS/ICRA)掌握明显弱于通用AI顶会(NeurIPS/ICML),容易产生漏报
今日收获
核心收获
- 跨样本embedding比较的必要前提:特征空间必须共享。per-section独立HVG选择+独立PCA拟合=双重不可比性;有效的跨样本基线必须使用共享HVG交集+联合PCA,或使用固定预训练权重的foundation model
- MuJoCo中绕过高层控制器的标准方法:需直接调用mujoco.mj_step()(推进动力学)而非sim.forward()(仅更新运动学),才能在OSC控制器介入前完成物理状态变更。直接状态操作与反馈控制器之间存在根本冲突,仿真注入设计必须明确选择一种路径
- MuJoCo CompositeBodyObject生成的复合对象,body名通常带_main后缀(如cubeA_main而非cubeA)。env_wrapper的body名解析函数需要加入多个候选名的回退逻辑({name}→{name}_main→{name}_body0),查找失败时输出WARNING而非静默返回-1
- Error类型的语义拆分应基于’恢复策略是否相同’而非’注入机制是否相同’:drop_in_transit/drop_at_wrong_place/drop_with_interaction的检测条件和恢复逻辑截然不同,即使注入动作相同也必须分开建模,这对训练阶段的课程设计更有意义
- 语义路由器(Semantic Router)的架构缺陷:embedding最近邻总会产生一个结果,无法表达’我不确定’。置信度阈值+备选LLM+关键词评分器混合是最实用的修复模式,可推广到所有基于向量检索的分类系统(RAG路由、工具选择等)
- 对于发表500+篇论文的顶级学者,S2共作者频率分析无法可靠识别学生——first-author信号被大量合作者稀释。教授主页显式列出学生,比从合著关系推断可靠性高一个数量级,是大佬学生发现的正确方法
- 引用图(前向引用+后向参考)是研究工具链中被低估的核心特性:通过分析’谁引用了这篇论文’可以理解研究影响力演进和热门追随方向;在评分系统中’相关性’和’引用数/流行程度’应解耦处理——citation count用于排序而非评分,防止高引用低相关论文干扰项目方向筛选
- 具身AI学者导师谱系:Mingyu Ding←Jitendra Malik(Berkeley),Ruoshi Liu←Carl Vondrick(Columbia),Xiaolong Wang←Abhinav Gupta(CMU),Shuran Song←Thomas Funkhouser(Princeton),Yunzhu Li←Antonio Torralba(MIT),Yuke Zhu←Li Fei-Fei(Stanford)——呈现出顶级感知/机器人导师群体向具身AI的系统性学生输出模式
- 离线trajectory分析中,直接用set_sim_state()恢复每帧完整状态向量远比action replay精确可靠,完全避免open-loop误差累积。存储clean trajectory时同时保存states是正确的设计决策
- LeRobot数据集框架对shape=(1,)的单标量特征在DataLoader时会自动squeeze为(batch_size,)。模型代码中需用[:, None]显式升维,数据存储时应用np.float32(scalar)而非np.array([scalar])。这是框架级行为,必须通过实际日志验证而非推断
- Prompt工程中的按需注入策略:将系统prompt拆分为base(始终包含)+intent-specific fragment(按分类结果动态注入),可减少40-60% token消耗。中文字符token密度约为英文字符6倍(1.5 token/字 vs 0.25 token/字符),不修正会系统性低估context长度
- sys.path.insert hack是脆弱的跨模块依赖方式:任何函数改名都会导致运行时ImportError。正确做法是common/包+pip install -e .;Python re-export shim模式(模块只包含from x import y; all=[…])是保持向后兼容的优雅迁移方式
- 多工具共存项目中,输出目录按’文件类型优先’而非’工具名称优先’组织(outputs/reports/summarize/而非summarize/reports/)可将.gitignore从多条分散规则精简为单行outputs/,对CI/CD和磁盘配额管理更友好
- 以小批量(100 total)验证仿真pipeline可行性是正确的迭代策略:207个场景暴露了5个系统性缺陷,若直接冲2900个会浪费大量GPU时间在注定失败的注入上。端到端集成测试比单元测试更能发现pipeline级隐式依赖缺陷
- 流匹配(Flow Matching)正成为机器人VLA的主流动作解码架构:π₀等工作收敛到’预训练VLM主干+流匹配动作头’组合,在连续高维动作空间的多模态建模上优于扩散模型。Shuran Song的Im2Flow2Act和UMI是2024年机器人数据效率领域的两大重要突破
会话摘要
MIHD
🔄 MIHD跨样本embedding可比性诊断:PCA基线实现、per-section双重不可比性根因定位、raw_shared方案设计 19:33:45.000 | claude_code 从项目状态确认(当前最佳ARI=0.546,PCA+UNI2+STAIG)出发,实现–embedding_source三模式支持。PCA诊断显示14个组合SL@50全为0,AI初步错误结论被用户质疑后,通过import链追踪发现PCA与STAIG同样存在per-section独立处理缺陷(双重不可比性)。发现adata_hvg缓存存在基因名整数化bug,最终改为从原始HDF5加载取HVG交集(1137基因)的raw_shared方案,诊断运行中。同时揭示STAIG在Layer_1/Layer_5 SL@50=0.94-1.0、中间层全部失败的层特异性现象。
ErrorRecoveryBenchmark
✅ v4归档、E2语义拆分、v5.1架构规划、5项技能修复、D0场景生成、Bug修复三项、Stack demo视频、失败根因诊断 20:20:54.000 | claude_code 全天多会话完成benchmark框架重大进展:①v4代码全量归档至archive/v4/(19个框架模块,修复policy_adapter交叉依赖),94个v5测试通过 ②E2 drop按语义拆分为drop_in_transit/drop_at_wrong_place/drop_with_interaction(13技能/29子类型,105测试通过)③v5.1技术规划完成(移除context replay、速度限制、人类示例采集,4月1日前训练目标明确)④修复5个失败错误技能(mujoco.mj_step()绕过OSC控制器/gripper步数/phase标签/target_object传递链),在an53生成231个场景和231个MP4 ⑤Bug修复三项(coffee接触参数/render_fn透传17个文件/输出路径清理),并生成coffee demo视频验证效果 ⑥首轮D0生成207个场景暴露5个系统性失败根因 ⑦Stack体名bug修复+11个demo视频生成(action replay改为state restore)
VLA-RoboTwin
✅ pi05进度预测实验训练pipeline全链路调试与验证 01:40:13.000 | claude_code 从前序session接续,完成HDF5→LeRobot格式转换脚本中五个进度字段的shape适配。修复三个独立问题:CheckpointWeightLoader的missing_regex不支持progress层(添加可配置字段),pi0.py中aux_targets shape处理错误(通过实际日志发现LeRobot会squeeze(1,)→标量,还原[:, None]),以及action_loss/aux_loss日志不可见(has_aux=True+logging.info)。验证到step 100 action_loss=0.37、aux_loss=0.22,loss曲线正常下降,四个实验配置均就绪。
UniVLA
🔄 CALVIN数据格式调研与评测脚本容器单卡兼容性修复 12:34:04.000 | claude_code 厘清训练脚本(DiskCalvinDataset直接读取CALVIN npz格式)与评测脚本(通过calvin_env在线rollout,仅用validation/初始化场景)的数据使用差异。修复run_calvin_eval_ddp.py多个问题:新增–single_gpu模式绕过Kubernetes容器IPv6 DNS解析问题,修复GenerateConfig缺失window_size字段、MAPBloc拼写错误、braceexpand缺失依赖、evaluate_policy硬编码他人绝对路径,调整GIF帧率至120fps。脚本已能启动,调试持续中。
CalendarPro
✅ 开源生态调研+7阶段优化计划设计+全面实施(230测试通过) 21:29:45.000 | claude_code 三阶段工作:①CLAUDE.md审查结论为准确全面无需修改 ②联网搜索发现开源生态缺乏能量感知调度+一体化生活管理的完整实现,以4条真实误分类记录为根因证据设计7阶段全面优化计划 ③通过并行子Agent全面实施Phase 1-7(语义路由置信度阈值+混合路由、Prompt精简+中文token修正、Provider重试、调度评分配置化、自动阈值调优、ThoughtStore缓存),4个误分类场景均已修复,230个测试全部通过。
gadget/研究工具链架构
✅ common/包提取重构、outputs/统一化、CLAUDE.md/README.md/TUTORIAL.md全面更新、MCP server bug修复 21:11:57.000 | claude_code 两项重大架构重构:①实现common/包(6个模块),将summarize/llm_backends.py从516行精简为25行re-export shim,消除research_scout.py的sys.path hack,约400行重复LLM/IO代码统一提取 ②将各工具散落输出目录整合到outputs/{reports,logs,cache,data}/,创建common/paths.py,修改10+个文件,.gitignore精简为单行outputs/ ③修复MCP server旧函数名_load_known_arxiv_ids→_load_known_paper_ids ④多轮更新CLAUDE.md、README.md、TUTORIAL.md(从10章扩展至13章中文完整文档)
gadget/Research Profiler
✅ 主页学生发现实现、Hugo research栏目新建、CLI整合(引用图+三后端LLM)、7位具身AI学者批量深度画像 20:53:14.000 | claude_code 四项核心工作:①实现homepage_discovery.py新模块,重构discover_students为homepage-first四阶段策略,修改9个文件,解决S2共作者分析对顶级大佬完全失效问题 ②Hugo新增research栏目,将学者画像从bugJournal独立分离,实现deploy_to_hugo(),添加–deploy参数 ③以research_scout.py为统一CLI入口,删除New feature/重复目录,添加semantic_scholar引用图API(get_paper_by_id/citations/references),新增profile/citations子命令,llm.py支持三后端,三阶段报告自动运行top-5论文引用分析 ④批量分析Mingyu Ding/Ruoshi Liu/Xiaolong Wang/Shuran Song/Yunzhu Li/Yuke Zhu/Chelsea Finn/Sergey Levine/Pieter Abbeel等,识别完整导师关系网络,完成VIN/TrajOpt/MineDojo等获奖识别;对S2同名歧义(Xiaolong Wang等)标注警告并给出去重建议
Token 用量
总览
| 指标 | 数值 |
|---|---|
| 总 Token | 135,295,142 |
| 输入 Token | 103,531 |
| 输出 Token | 406,349 |
| Cache 创建 | 9,686,371 |
| Cache 读取 | 125,098,891 |
| Cache 命中率 | 92.8% |
| 总费用 (USD) | $100.6978 |
模型明细
| 模型 | 输入 | 输出 | Cache 创建 | Cache 读取 | 费用 | 占比 |
|---|---|---|---|---|---|---|
| claude-opus-4-6 | 58,259 | 235,273 | 5,485,227 | 97,079,253 | $88.9954 | 88.4% |
| claude-haiku-4-5-20251001 | 45,076 | 170,341 | 3,204,784 | 26,770,930 | $7.5799 | 7.5% |
| claude-sonnet-4-6 | 196 | 735 | 996,360 | 1,248,708 | $4.1226 | 4.1% |
各设备用量
| 设备 | 总 Token | 输入 | 输出 | 费用 |
|---|---|---|---|---|
| DCC | 16,204,814 | 35,329 | 53,093 | $12.8258 |
| tianhe | 43,863,063 | 37,017 | 130,536 | $30.4748 |
| TzJsDesktop | 75,227,265 | 31,185 | 222,720 | $57.3972 |