日报 — 2026-03-15

今日概览

做了什么： 六条主线并行推进：①MIHD跨样本embedding方法论诊断 ②ErrorRecoveryBenchmark v5修复与规模化（13技能/29子类型） ③VLA进度预测全链路修复 ④UniVLA评测容器适配 ⑤CalendarPro七阶段全面重构 ⑥gadget工具链架构升级（common/包+outputs/统一+research profiler+CLI整合）
怎么做的： 各线均采用计划驱动开发：预制详细方案后并行实施；GPU节点SSH远程执行仿真pipeline；迭代调试（运行→报错→定位→最小修改）贯穿所有项目；多并行Agent子代理加速代码分析与实施
有什么用： benchmark从11技能扩展至13技能/29子类型；消除per-section独立embedding的方法论缺陷；pi05进度预测全链路就绪；CalendarPro 230测试全通过；gadget消除约500行重复代码并建立统一输出目录；research profiler学生发现能力从0突破，完成7+位具身AI学者深度画像

DCC

做了什么： 在MIHD项目中实现PCA与raw_shared两种embedding诊断基线，追踪并验证跨样本embedding双重不可比性根因（per-section独立HVG选择+独立PCA拟合）
怎么做的： 添加–embedding_source参数；通过import链追踪发现per-section独立处理缺陷；修复adata_hvg缓存基因名bug后从原始HDF5取HVG交集（1137基因）的raw_shared方案
有什么用： 否定’PCA优于STAIG=输入特征弱’的误判，定位共享HVG交集为正确验证基线；揭示STAIG在边界层（Layer_1/Layer_5）SL@50=0.94-1.0、中间层全部失败的层特异性现象

TzJsDesktop

做了什么： 完成CalendarPro七阶段优化（230测试通过）；gadget完成common/包提取重构、outputs/目录统一化、research profiler主页学生发现与Hugo research栏目新建、7位具身AI学者批量深度画像、以及research工具链CLI整合（引用图+三后端LLM）
怎么做的： CalendarPro通过并行子Agent实施七Phase并pytest回归验证；gadget通过创建common/包消除sys.path hack和三份重复LLM实现，通过paths.py统一6个路径常量，通过homepage_discovery.py新模块实现主页优先学生发现，通过research_scout.py新增profile/citations子命令整合CLI
有什么用： CalendarPro 4个误分类场景修复，Prompt token消耗减少40-60%；gadget消除约500行重复代码，.gitignore精简为单行outputs/，research profiler实现学生发现突破，7位学者画像完成并可部署Hugo

tianhe

做了什么： ErrorRecoveryBenchmark：修复5个失败错误技能、v4归档、E2语义拆分（13技能/29子类型）、Stack全11个demo视频、v5.1架构规划、首轮D0场景生成（207个）及失败根因诊断；VLA进度预测训练pipeline全链路修复验证（step 100 loss正常）；UniVLA CALVIN评测脚本容器兼容性修复
怎么做的： 通过mujoco.mj_step()绕过OSC控制器干扰；修复gripper步数、phase标签缺失、target_object传递链；import链追踪完成v4归档；按恢复策略语义拆分E2；SSH连接an53节点8xA800执行pipeline；VLA调试采用迭代循环
有什么用： benchmark修复后生成231个场景+231个MP4；首轮D0生成207场景暴露5个系统性缺陷；pi05 step 100 action_loss=0.37、aux_loss=0.22，曲线正常下降；UniVLA –single_gpu模式解除容器网络依赖

全天跨三台设备并行推进六条主线：DCC诊断MIHD跨样本embedding双重不可比性根因；tianhe完成ErrorRecoveryBenchmark v5五项失败技能修复、E2语义拆分（13技能/29子类型）、v4归档、D0场景生成及v5.1规划，同时修复VLA进度预测训练pipeline全链路并调试UniVLA容器兼容性；TzJsDesktop完成CalendarPro七阶段全面优化（230测试通过）、gadget common/包与outputs/统一化重构、research profiler主页学生发现与Hugo部署、以及research工具链CLI整合（引用图+三后端LLM支持）。

今日任务

架构与策略

✅ gadget: Hugo research栏目新建与research工具链CLI整合（引用图+三后端LLM） — Hugo新增research菜单项和content/research/_index.md，在output.py实现deploy_to_hugo()；以research_scout.py为统一CLI入口，删除New feature/重复目录，在semantic_scholar.py添加3个引用图API函数，新增profile/citations子命令，llm.py支持claude_cli/anthropic/openai三后端，三阶段报告自动对top-5论文运行引用分析
✅ CalendarPro: 7阶段全面优化实施（230测试通过） — Phase 1-7：①语义路由置信度阈值（per-route 0.40-0.60）②混合路由（Dense 0.70+Keyword 0.30）③Prompt精简（530行→base+11个fragment）+中文token修正（×1.5/字符）④Provider指数退避重试 ⑤调度评分可配置权重+deadline紧迫度 ⑥自动阈值调优闭环 ⑦ThoughtStore内存缓存。4个真实误分类场景均已修复，230个测试全部通过
🔄 MIHD: PCA与raw_shared embedding诊断基线实现 — 在benchmark_rm_ideal.py中添加–embedding_source {fusion,pca,raw_shared}三模式支持。PCA结果14个组合SL@50全为0；发现per-section独立处理导致比较无效；修复adata_hvg缓存基因名整数化bug后改用原始HDF5取HVG交集（1137基因）的raw_shared方案，诊断仍在运行中
✅ ErrorRecoveryBenchmark: 修复5个失败错误技能 — 修复grasp_misalignment（gripper_close_steps 10→30，settle_steps 5→15）、drop三技能（添加mujoco.mj_step()物理预步进15步绕过OSC控制器）、trajectory_regression（在pipeline中添加–label_phases）、wrong_object（修复target_object传递链，env_wrapper新增get_target_object()，trajectory_context添加target_object字段）。105个单元测试全部通过
✅ ErrorRecoveryBenchmark: E2 Drop技能语义拆分（13技能/29子类型） — 按掉落位置和物体交互情况拆分为drop_in_transit（途中远离目标）、drop_at_wrong_place（近目标大偏移无交互）、drop_with_interaction（近目标微偏移有物体接触）三个独立技能；D0/D2区分改为基于后验四元数姿态变化量判断。创建3个新技能文件，删除旧e02_drop.py，重命名9个文件，全量更新taxonomy、config、4个测试文件及文档。13技能/29子类型，105单元测试全部通过
✅ ErrorRecoveryBenchmark: Stack体名bug修复与全11个demo视频生成 — 修复stack.yaml中body_name字段（cubeA→cubeA_main），在env_wrapper._sim_body_name2id中添加_main/_body0后缀回退逻辑并加入WARNING；将demo视频脚本从action replay改为set_sim_state()状态恢复避免open-loop误差累积；为Stack任务全11个error skill各生成一个MP4 demo视频
✅ ErrorRecoveryBenchmark: v5.1架构规划（移除VLA context replay+速度限制+人类示例采集pipeline） — 根据用户三点需求完成技术规划文档，明确Mar 16-31分阶段实施计划及4月1日前开始recovery训练的里程碑。将ContextReplayEngine重构为InjectionEngine（直接恢复注入帧sim state），添加运动速度限制，设计键盘遥操作人类示例采集pipeline（仅用MimicGen demo数据）
✅ VLA-RoboTwin: pi05进度预测训练pipeline全链路修复与验证 — 修复HDF5→LeRobot格式转换脚本（新增manip_progress_time/distance_left/right/target_endpose/target_joint字段）；修复pi05 CheckpointWeightLoader结构不匹配（添加可配置missing_regex=’.lora.|.progress.’）；修正pi0.py中aux_targets shape处理逻辑（还原[:, None]，通过实际训练日志确认LeRobot会squeeze(1,)→标量）；添加action_loss/aux_loss独立日志记录（has_aux=True）。验证到step 100 loss曲线正常下降
✅ gadget: common/共享包提取与重构 — 新建6个common/模块（io/cache/json_utils/llm/hugo/init），将summarize/llm_backends.py从516行精简为25行re-export shim，消除research_scout.py的sys.path hack，迁移research/下4个文件及mcp_server.py，消除约400行重复LLM调用和JSON解析代码
✅ gadget: outputs/统一输出目录重构 — 创建common/paths.py定义6个路径常量（GADGET_ROOT/OUTPUTS_DIR/REPORTS_DIR/LOGS_DIR/CACHE_DIR/DATA_DIR/SITE_OUTPUTS_DIR），批量修改daily_summary.py（12处路径替换）、monthly_summary.py、research_scout.py（5个模块级常量）、research profiler 4个子模块、benchmark 3个文件，更新.gitignore为单行outputs/，更新4个CLAUDE.md
✅ gadget: Homepage-Based学生发现实现 — 实现homepage_discovery.py新模块（~200行），修改9个现有文件，重构discover_students为4阶段（homepage-first + co-authorship补充）；多策略URL发现（S2 homepage字段+LLM建议+–homepage参数）；HTMLParser子类做文本提取；2MB读取限制、50K字符截断、7天缓存TTL
✅ ErrorRecoveryBenchmark: v4代码归档至archive/v4/ — 将19个v4框架模块（detectors/injectors/validators/classifiers等）、15个pipeline脚本、5个配置文件、6个测试文件、v4 outputs及文档全部移至archive/v4/；修复policy_adapter.py对已归档collector.py的交叉依赖（内联BasePolicy/PolicyResult）；更新__init__.py、Makefile、CLAUDE.md、README.md，所有94个v5单元测试通过
✅ ErrorRecoveryBenchmark: Bug修复三项（咖啡机碰撞穿透、注入视频跳帧、输出路径清理） — ①coffee_body/lid/base.xml添加margin=0.002，solimp改为0.95，solref改为0.002 ②在base_skill.inject()、env_wrapper三个运动方法、context_replay.execute()及13个error skill的inject()中透传render_fn回调（共17个文件） ③将6任务的旧备份目录和根目录脚本移至archive/v5_old_20260316/。105单元测试全部通过
🔄 ErrorRecoveryBenchmark: 首轮D0场景生成（6任务，207个）及失败根因诊断 — 在an53 GPU上扫描机会、执行注入，实际生成207个场景（目标600）；诊断5个系统性失败根因：grasp_misalignment（夹爪步数不足）、3个drop（OSC控制器补偿抵消直接qpos操作）、trajectory_regression（phase_labels管道未激活）、wrong_object（target_object上下文缺失）
✅ gadget: 7位具身AI学者批量深度画像 — 通过researcher profiler分析Mingyu Ding、Ruoshi Liu、Xiaolong Wang、Shuran Song、Yunzhu Li、Yuke Zhu、Chelsea Finn及Sergey Levine/Pieter Abbeel；识别出完整导师关系网络；部分学者（Xiaolong Wang、Shuran Song）遭遇S2严重同名歧义；识别VIN、TrajOpt、DDPM、MineDojo等标志性获奖工作
🔄 ErrorRecoveryBenchmark: 调查咖啡机部件散架问题 — 用户通过截图发现coffee machine的lid悬浮、base/cup偏离主体，AI启动3个并行Explore子代理调查XML文件结构、Python组装代码和CompositeBodyObject架构，kinematic tree组装逻辑诊断尚未完成
✅ CalendarPro: 开源生态调研与7阶段优化计划设计 — 联网搜索FluidCalendar/CoPaw/Khoj/OpenDAN等相近开源项目，识别出能量感知调度+三层架构+双重意图验证+一体化生活管理为CalendarPro独特功能组合（开源生态确实存在空白），将调研结论转化为7阶段优化计划

实现与修复

✅ ErrorRecoveryBenchmark: v5 GPU流水线全量运行并渲染231个场景与视频 — 在an53节点（8x A800 80GB）运行全量D0 pipeline，42分钟生成231个场景和231个MP4视频，较修复前207个提升约11.6%
🔄 UniVLA: CALVIN评测脚本容器单卡兼容性修复 — 添加–single_gpu模式绕过torchrun/Accelerator/DDP初始化；补充GenerateConfig.window_size字段（默认12）；修复MAPBloc拼写错误；安装braceexpand缺失依赖；修复evaluate_policy硬编码他人绝对路径；将GIF帧率从60调至120fps。脚本已能启动，仍在迭代调试阶段

问题与解决方案

关键问题

1. MIHD跨样本embedding方法论根本缺陷：AI从’PCA比STAIG差’得出’输入特征本身弱’的错误结论，未主动质疑实验设计有效性

解决方案: 用户质疑cosine similarity有效性后，通过import链追踪发现PCA与STAIG同样存在per-section独立HVG选择+独立PCA拟合的双重不可比性，两者比较均无效；改用共享HVG交集（1137基因）的raw_shared方案作为正确基线

关键洞察: 跨样本embedding比较的有效性前提是特征空间共享；per-section独立拟合的embedding无论使用什么模型，跨section余弦相似度在数学上都没有意义

2. Drop技能物体不实际掉落：直接设置qpos打开夹爪后，env.step()的OSC控制器重新施加夹持力将物体’拽回'

解决方案: 打开夹爪+设置物体初始速度后，先调用mujoco.mj_step()运行15个物理步（完全绕过OSC控制器），让物体完成初始分离后再进入标准控制循环

关键洞察: sim.forward()只更新运动学状态，不推进动力学；只有mujoco.mj_step()才真正步进MuJoCo物理引擎，从而绕过所有高层控制器。直接状态操作与反馈控制器之间存在根本冲突，仿真注入设计必须明确选择一种路径

3. Stack任务体名解析静默失败：stack.yaml使用cubeA/cubeB，MuJoCo实际名为cubeA_main/cubeB_main，_sim_body_name2id返回-1，Python负索引body_xpos[-1]读取最后一个body，任务阶段检测全部误判为pre_reach

解决方案: 修复stack.yaml的body_name字段，在env_wrapper._sim_body_name2id中添加_main/_body0后缀回退逻辑，查找失败时输出WARNING而非静默返回-1

关键洞察: body_xpos[-1]负索引在两个cube始终返回同一位置，这种静默错误极难发现；任何解析失败都应立即报警而非返回哨兵值

4. VLA context replay架构假设错误：AI设计了完整N-1帧回放机制，认为这是为VLA提供正确观测历史的必要步骤；同时设计了多种数据源（demo+VLA rollout+BC rollout），忽视各来源可控性差异

解决方案: 用户指出大多数VLA没有context window，context replay是无用开销；将ContextReplayEngine重构为InjectionEngine，直接恢复注入帧sim state；数据源限定为MimicGen demo数据（可控性更高）

关键洞察: 通用benchmark应对无context的模型（BC-RNN、ACT等）也高效适用，不能只针对少数支持历史输入的VLA过度工程化；用户对实际模型范围的了解优于AI的理论推断

5. CalendarPro意图误分类：语义路由无置信度阈值（0.52也当作有效分类）；含时间表达式的句子因关键词匹配错误路由；短确认词’ok’无上下文理解；系统prompt过长（530行）全量发送，中文token估算偏差3倍

解决方案: 添加per-route阈值（0.40-0.60），低于阈值交给LLM；引入关键词评分器（时间正则boost schedule）与embedding以70/30混合；将SYSTEM_PROMPT拆分为BASE（~50行）+11个intent-specific fragment按需注入；中文token估算改为chinese_chars×1.5+other_chars/4

关键洞察: Embedding最近邻路由缺乏’我不确定’表达能力；关键词评分恰好弥补embedding对时间/数字表达式的盲区，两者互补；中文字符token占用约为英文字符6倍，不修正会系统性低估context长度

6. S2共作者分析对Levine/Abbeel/Finn等顶级大佬完全失效（depth-2全部为空），且存在严重同名歧义（Xiaolong Wang匹配兽医/地质研究者，Shuran Song仅2篇2025年论文）

解决方案: 重构为homepage-first策略：优先从研究者主页/实验室页面提取学生列表，co-authorship仅作补充；多策略URL发现（S2 homepage字段+LLM建议+–homepage参数）；对同名歧义标注警告并建议使用S2 authorId精确查询

关键洞察: 学术主页显式列出学生，比从合著关系推断可靠性高一个数量级；顶级大佬发表500+篇论文，first-author信号被大量合作者稀释，共作者分析方法论存在根本适用边界问题

7. research工具链分散：paper scout和researcher profiler功能重叠、命令分散，New feature/目录存在完全重复代码；引用关系维度在工具链中缺失

解决方案: 以research_scout.py为统一CLI入口，将modular profiler作为库通过懒加载import引入，新增profile/citations子命令，删除New feature/目录，添加Semantic Scholar引用图API，三阶段报告自动对top-5论文运行引用分析

关键洞察: 保留原有CLI入口点通过懒加载整合新模块，而非全量重写，兼顾向后兼容性；引用关系（前向引用+后向参考）是研究工具链中被低估的核心特性

8. Demo视频脚本使用action replay导致open-loop误差累积，后期帧phase检测全部错误

解决方案: 改用set_sim_state()直接恢复每帧MuJoCo状态向量，绕过open-loop累积误差

关键洞察: 存储的clean trajectory包含完整sim state向量，直接恢复状态比回放action精确得多；action replay适合实时控制，状态恢复适合离线分析

9. trajectory_regression无法找到任何注入机会：can_inject()要求prev_phases长度≥10，但pipeline从未调用replay_and_label_phases()，phase_labels始终为None

解决方案: 在run_v5_all_tasks.py的Step 0中默认传递–label_phases标志

关键洞察: 隐式依赖（特定技能需要pipeline某步骤显式激活）只有在该技能运行失败时才能暴露；端到端集成测试比单元测试更能发现此类pipeline级缺陷

10. pi05训练报错：CheckpointWeightLoader结构不匹配，新增progress层（progress_mlp_in/out/cond_proj）不在checkpoint中且不匹配硬编码的’.lora.‘正则

解决方案: 给CheckpointWeightLoader添加可配置missing_regex字段（默认’.lora.‘保持向后兼容），4个progress实验config改用’.lora.|.progress.’

关键洞察: 加载预训练权重时新增实验模块是高频场景，missing_regex应设计为可配置参数；这与LoRA微调的同类需求完全一致，是迁移学习的通用设计模式

11. pi0.py中aux_targets shape假设错误：AI推断LeRobot加载shape=(1,)特征后保持(b,1)形状并据此修改代码，实际LeRobot会squeeze为标量(b,)，导致训练时shape不匹配

解决方案: 通过实际运行训练并观察日志（‘aux_targets[…]: (32,)@float32’）确认真实shape，还原原始[:, None]和jnp.stack操作

关键洞察: LeRobot对shape=(1,)的标量特征在DataLoader时会自动squeeze，这是框架级行为。对第三方框架的内部行为假设必须通过实际运行验证，不能纯粹推断

一般问题

12. adata_hvg缓存bug：section 151673的HVG AnnData var_names被重置为整数索引（‘0’,‘1’,‘2’…），导致基因名交集为0

解决方案: 放弃依赖adata_hvg缓存，直接从原始HDF5数据加载（via load_dlpfc_data），手动执行归一化和HVG选择

关键洞察: 缓存数据的关键字段在写入时可能发生无声变换，使用前应做健全性检查（如var_names是否为基因符号而非整数）

13. LLM生成中文长格式JSON时，中文引号（""）混入JSON字符串值导致解析失败，在Chelsea Finn、Yuke Zhu、Mingyu Ding等多位研究者画像中重复出现

解决方案: 将格式错误的JSON重新提交给Claude要求仅返回修复后纯JSON，通过repair_json_with_llm机制自动化处理；计划在prompt中明确要求使用英文引号作为长期修复

关键洞察: 生成富含中文内容的JSON应在prompt中明确要求英文引号，或生成后立即做格式验证并将JSON修复作为pipeline固定步骤，比依赖生成质量更可靠

人类思路 vs AI 思路

战略层面

跨样本cosine similarity有效性的方法论质疑（MIHD）

角色	思路
人类	在AI给出’PCA更差→输入特征本身弱’的结论后，人类直觉性追问’会不会是这个cross sample embedding的cos similarity有问题’，直指方法论缺陷而非数值结果
AI	AI倾向于从实验数值直接归因，未主动质疑实验设计本身的有效性前提（特征空间是否可比）

差异分析: 人类具备先验的方法论怀疑能力，能在看到异常结果时追问’实验是否设计正确’；AI更擅长在给定假设下分析数据，对假设本身的反思需要外部触发

VLA context window必要性与error scene数据来源设计

角色	思路
人类	用户主动指出大部分VLA没有context window，context replay是无用开销；同时明确要求只使用MimicGen demo数据，禁止VLA/BC-RNN rollout数据（随机性不可控）
AI	AI设计了完整N-1帧回放机制认为是必要步骤，且规划保留多种数据源认为多样性有益，均缺乏对实际模型范围和数据可控性的理解

差异分析: 用户从实际使用的模型特性和数据可控性出发识别过度工程化；AI从理论正确性出发，需要用户实践经验纠正

E2 drop的语义拆分与CalendarPro优化计划设计

角色	思路
人类	用户主动按恢复策略语义差异将E2拆分为三个独立skill（三种drop需要截然不同的恢复动作）；同样在CalendarPro中独立完成问题诊断（4条真实误分类根因分析）和7阶段技术规格，将完整方案作为输入
AI	AI在benchmark中通过参数化处理同一injector的不同情况，没有主动提出语义层面细分；在CalendarPro中主要承担实施和验证角色

差异分析: 最高价值的设计工作（语义分类、方案设计）均由人类完成；AI在并行执行和边界情况处理上贡献价值。用户的领域经验不可替代，AI的并行执行能力显著加速落地

引用关系作为研究工具链核心特性

角色	思路
人类	用户主动提出论文之间的引用链接非常重要，高引用代表热门方向，需要分析’为何流行’及’后续工作做了什么’；同时明确引用数适合排序但不应影响相关性评分
AI	AI最初整合方案专注于两个工具的功能合并（CLI统一），将引用功能视为可选扩展，未主动将引用图作为核心特性；对评分解耦需要等待用户决策

差异分析: 用户具有更清晰的研究方法论视角——引用关系是理解研究影响力演进的核心工具而非元数据；‘相关性’和’流行程度’是不同维度，人类更清楚两者在研究工作流中的不同用途

学生发现策略：调试S2共作者逻辑 vs 改用教授主页

角色	思路
人类	用户直接提出：不调试现有共作者分析逻辑，而是从教授个人主页直接抓取学生列表，因为主页信息更直接权威
AI	AI在depth-2失败后开始深入调试student_discovery.py的评分逻辑和threshold设置，试图在现有框架内修复

差异分析: AI倾向在已有方案内寻找bug或调参；用户更快识别方法论适用边界并提出更高效的替代路径，绕过了S2数据质量的根本限制

咖啡机部件散架问题的识别

角色	思路
人类	通过视觉观察截图识别出lid悬浮、base偏离的具体现象，直接提出关节定义缺失、坐标偏移、加载逻辑错误三个诊断方向
AI	AI只关注了接触参数层面的修复（margin/solimp），没有主动检查模型kinematic tree是否正确组装

差异分析: 人类凭视觉直觉识别了AI未主动发现的新问题，且给出更高层次的结构性诊断框架；AI的修复只解决了’接触太软’，没有解决’零件没有连接在一起’

VLA训练调试的委托模式

角色	思路
人类	采用目标驱动委托策略：‘自行执行训练命令，修复所有报错，一直到没报错了再停止’，给出清晰终止条件而不干预具体步骤
AI	AI按科学方法迭代：运行→观察报错→读源码定位→最小修改→重新运行。但在LeRobot shape假设上出错，需要实际运行日志纠正

差异分析: 人类的委托模式允许AI独立调试，错误的shape假设通过运行自然暴露；人类选择不介入具体决策是正确的——纠错机制内建于迭代循环中

AI 局限性

重要局限

实验结论反思能力不足：在MIHD PCA诊断实验后直接从表面数值得出错误结论，未主动检查实验设计的有效性前提（per-section独立PCA的可比性问题），需要用户外部触发才能修正
静默失败模式导致严重bug长期潜伏：stack.yaml体名解析失败时静默返回-1，未设计任何警告或断言，导致Python负索引bug完全不可见；同类问题（adata_hvg缓存var_names整数化）也因缺乏健全性检查而未被主动发现
过度工程化与架构假设错误：v5 context replay基于’所有VLA需要context window’的错误假设过度设计；对第三方框架（LeRobot）内部行为（shape=(1,)特征会被squeeze）做出错误假设并据此修改代码，均需要用户纠正或实际运行验证
方法论适用边界主动质疑能力不足：S2学生发现对顶级大佬完全失效时，AI继续深入调试代码逻辑（读取student_discovery.py、分析threshold），而未主动质疑方法论本身的适用边界，需要用户点拨才转向主页方案
Semantic Scholar实体消歧能力不足：对Xiaolong Wang、Shuran Song、Ming Yu等常见中文英译名几乎总匹配到错误研究者，LLM分析也无法自动识别’这不是同一个人’，只能事后标注警告，缺乏主动entity disambiguation能力

一般局限

LLM生成中文长格式JSON格式不稳定：包含大量中文引号（""）的输出即使经过haiku→sonnet→opus三轮修复仍然失败，在同一pipeline中对三位研究者重复出现，repair_json_with_llm对此特定模式处理能力不足
容器网络约束判断不准确：UniVLA调试中最初给出MASTER_ADDR方案认为可绕过DNS解析，实际无法解决Kubernetes Pod的IPv6问题，需要用户反馈失败才触发正确的–single_gpu方案
近期学术会议获奖记录知识覆盖不完整：对CoRL/ICLR spotlight等非顶级奖项及2023-2025年近期论文获奖情况存在系统性盲区，对机器人类会议（CoRL/RSS/ICRA）掌握明显弱于通用AI顶会（NeurIPS/ICML），容易产生漏报

今日收获

核心收获

跨样本embedding比较的必要前提：特征空间必须共享。per-section独立HVG选择+独立PCA拟合=双重不可比性；有效的跨样本基线必须使用共享HVG交集+联合PCA，或使用固定预训练权重的foundation model
MuJoCo中绕过高层控制器的标准方法：需直接调用mujoco.mj_step()（推进动力学）而非sim.forward()（仅更新运动学），才能在OSC控制器介入前完成物理状态变更。直接状态操作与反馈控制器之间存在根本冲突，仿真注入设计必须明确选择一种路径
MuJoCo CompositeBodyObject生成的复合对象，body名通常带_main后缀（如cubeA_main而非cubeA）。env_wrapper的body名解析函数需要加入多个候选名的回退逻辑（{name}→{name}_main→{name}_body0），查找失败时输出WARNING而非静默返回-1
Error类型的语义拆分应基于’恢复策略是否相同’而非’注入机制是否相同’：drop_in_transit/drop_at_wrong_place/drop_with_interaction的检测条件和恢复逻辑截然不同，即使注入动作相同也必须分开建模，这对训练阶段的课程设计更有意义
语义路由器（Semantic Router）的架构缺陷：embedding最近邻总会产生一个结果，无法表达’我不确定’。置信度阈值+备选LLM+关键词评分器混合是最实用的修复模式，可推广到所有基于向量检索的分类系统（RAG路由、工具选择等）
对于发表500+篇论文的顶级学者，S2共作者频率分析无法可靠识别学生——first-author信号被大量合作者稀释。教授主页显式列出学生，比从合著关系推断可靠性高一个数量级，是大佬学生发现的正确方法
引用图（前向引用+后向参考）是研究工具链中被低估的核心特性：通过分析’谁引用了这篇论文’可以理解研究影响力演进和热门追随方向；在评分系统中’相关性’和’引用数/流行程度’应解耦处理——citation count用于排序而非评分，防止高引用低相关论文干扰项目方向筛选
具身AI学者导师谱系：Mingyu Ding←Jitendra Malik(Berkeley)，Ruoshi Liu←Carl Vondrick(Columbia)，Xiaolong Wang←Abhinav Gupta(CMU)，Shuran Song←Thomas Funkhouser(Princeton)，Yunzhu Li←Antonio Torralba(MIT)，Yuke Zhu←Li Fei-Fei(Stanford)——呈现出顶级感知/机器人导师群体向具身AI的系统性学生输出模式
离线trajectory分析中，直接用set_sim_state()恢复每帧完整状态向量远比action replay精确可靠，完全避免open-loop误差累积。存储clean trajectory时同时保存states是正确的设计决策
LeRobot数据集框架对shape=(1,)的单标量特征在DataLoader时会自动squeeze为(batch_size,)。模型代码中需用[:, None]显式升维，数据存储时应用np.float32(scalar)而非np.array([scalar])。这是框架级行为，必须通过实际日志验证而非推断
Prompt工程中的按需注入策略：将系统prompt拆分为base（始终包含）+intent-specific fragment（按分类结果动态注入），可减少40-60% token消耗。中文字符token密度约为英文字符6倍（1.5 token/字 vs 0.25 token/字符），不修正会系统性低估context长度
sys.path.insert hack是脆弱的跨模块依赖方式：任何函数改名都会导致运行时ImportError。正确做法是common/包+pip install -e .；Python re-export shim模式（模块只包含from x import y; all=[…]）是保持向后兼容的优雅迁移方式
多工具共存项目中，输出目录按’文件类型优先’而非’工具名称优先’组织（outputs/reports/summarize/而非summarize/reports/）可将.gitignore从多条分散规则精简为单行outputs/，对CI/CD和磁盘配额管理更友好
以小批量（100 total）验证仿真pipeline可行性是正确的迭代策略：207个场景暴露了5个系统性缺陷，若直接冲2900个会浪费大量GPU时间在注定失败的注入上。端到端集成测试比单元测试更能发现pipeline级隐式依赖缺陷
流匹配（Flow Matching）正成为机器人VLA的主流动作解码架构：π₀等工作收敛到’预训练VLM主干+流匹配动作头’组合，在连续高维动作空间的多模态建模上优于扩散模型。Shuran Song的Im2Flow2Act和UMI是2024年机器人数据效率领域的两大重要突破

会话摘要

MIHD

🔄 MIHD跨样本embedding可比性诊断：PCA基线实现、per-section双重不可比性根因定位、raw_shared方案设计 19:33:45.000 | claude_code 从项目状态确认（当前最佳ARI=0.546，PCA+UNI2+STAIG）出发，实现–embedding_source三模式支持。PCA诊断显示14个组合SL@50全为0，AI初步错误结论被用户质疑后，通过import链追踪发现PCA与STAIG同样存在per-section独立处理缺陷（双重不可比性）。发现adata_hvg缓存存在基因名整数化bug，最终改为从原始HDF5加载取HVG交集（1137基因）的raw_shared方案，诊断运行中。同时揭示STAIG在Layer_1/Layer_5 SL@50=0.94-1.0、中间层全部失败的层特异性现象。

ErrorRecoveryBenchmark

✅ v4归档、E2语义拆分、v5.1架构规划、5项技能修复、D0场景生成、Bug修复三项、Stack demo视频、失败根因诊断 20:20:54.000 | claude_code 全天多会话完成benchmark框架重大进展：①v4代码全量归档至archive/v4/（19个框架模块，修复policy_adapter交叉依赖），94个v5测试通过 ②E2 drop按语义拆分为drop_in_transit/drop_at_wrong_place/drop_with_interaction（13技能/29子类型，105测试通过）③v5.1技术规划完成（移除context replay、速度限制、人类示例采集，4月1日前训练目标明确）④修复5个失败错误技能（mujoco.mj_step()绕过OSC控制器/gripper步数/phase标签/target_object传递链），在an53生成231个场景和231个MP4 ⑤Bug修复三项（coffee接触参数/render_fn透传17个文件/输出路径清理），并生成coffee demo视频验证效果 ⑥首轮D0生成207个场景暴露5个系统性失败根因 ⑦Stack体名bug修复+11个demo视频生成（action replay改为state restore）

VLA-RoboTwin

✅ pi05进度预测实验训练pipeline全链路调试与验证 01:40:13.000 | claude_code 从前序session接续，完成HDF5→LeRobot格式转换脚本中五个进度字段的shape适配。修复三个独立问题：CheckpointWeightLoader的missing_regex不支持progress层（添加可配置字段），pi0.py中aux_targets shape处理错误（通过实际日志发现LeRobot会squeeze(1,)→标量，还原[:, None]），以及action_loss/aux_loss日志不可见（has_aux=True+logging.info）。验证到step 100 action_loss=0.37、aux_loss=0.22，loss曲线正常下降，四个实验配置均就绪。

UniVLA

🔄 CALVIN数据格式调研与评测脚本容器单卡兼容性修复 12:34:04.000 | claude_code 厘清训练脚本（DiskCalvinDataset直接读取CALVIN npz格式）与评测脚本（通过calvin_env在线rollout，仅用validation/初始化场景）的数据使用差异。修复run_calvin_eval_ddp.py多个问题：新增–single_gpu模式绕过Kubernetes容器IPv6 DNS解析问题，修复GenerateConfig缺失window_size字段、MAPBloc拼写错误、braceexpand缺失依赖、evaluate_policy硬编码他人绝对路径，调整GIF帧率至120fps。脚本已能启动，调试持续中。

CalendarPro

✅ 开源生态调研+7阶段优化计划设计+全面实施（230测试通过） 21:29:45.000 | claude_code 三阶段工作：①CLAUDE.md审查结论为准确全面无需修改 ②联网搜索发现开源生态缺乏能量感知调度+一体化生活管理的完整实现，以4条真实误分类记录为根因证据设计7阶段全面优化计划 ③通过并行子Agent全面实施Phase 1-7（语义路由置信度阈值+混合路由、Prompt精简+中文token修正、Provider重试、调度评分配置化、自动阈值调优、ThoughtStore缓存），4个误分类场景均已修复，230个测试全部通过。

gadget/研究工具链架构

✅ common/包提取重构、outputs/统一化、CLAUDE.md/README.md/TUTORIAL.md全面更新、MCP server bug修复 21:11:57.000 | claude_code 两项重大架构重构：①实现common/包（6个模块），将summarize/llm_backends.py从516行精简为25行re-export shim，消除research_scout.py的sys.path hack，约400行重复LLM/IO代码统一提取 ②将各工具散落输出目录整合到outputs/{reports,logs,cache,data}/，创建common/paths.py，修改10+个文件，.gitignore精简为单行outputs/ ③修复MCP server旧函数名_load_known_arxiv_ids→_load_known_paper_ids ④多轮更新CLAUDE.md、README.md、TUTORIAL.md（从10章扩展至13章中文完整文档）

gadget/Research Profiler

✅ 主页学生发现实现、Hugo research栏目新建、CLI整合（引用图+三后端LLM）、7位具身AI学者批量深度画像 20:53:14.000 | claude_code 四项核心工作：①实现homepage_discovery.py新模块，重构discover_students为homepage-first四阶段策略，修改9个文件，解决S2共作者分析对顶级大佬完全失效问题 ②Hugo新增research栏目，将学者画像从bugJournal独立分离，实现deploy_to_hugo()，添加–deploy参数 ③以research_scout.py为统一CLI入口，删除New feature/重复目录，添加semantic_scholar引用图API（get_paper_by_id/citations/references），新增profile/citations子命令，llm.py支持三后端，三阶段报告自动运行top-5论文引用分析 ④批量分析Mingyu Ding/Ruoshi Liu/Xiaolong Wang/Shuran Song/Yunzhu Li/Yuke Zhu/Chelsea Finn/Sergey Levine/Pieter Abbeel等，识别完整导师关系网络，完成VIN/TrajOpt/MineDojo等获奖识别；对S2同名歧义（Xiaolong Wang等）标注警告并给出去重建议

Token 用量

总览

指标	数值
总 Token	135,295,142
输入 Token	103,531
输出 Token	406,349
Cache 创建	9,686,371
Cache 读取	125,098,891
Cache 命中率	92.8%
总费用 (USD)	$100.6978

模型明细

模型	输入	输出	Cache 创建	Cache 读取	费用	占比
claude-opus-4-6	58,259	235,273	5,485,227	97,079,253	$88.9954	88.4%
claude-haiku-4-5-20251001	45,076	170,341	3,204,784	26,770,930	$7.5799	7.5%
claude-sonnet-4-6	196	735	996,360	1,248,708	$4.1226	4.1%

各设备用量

设备	总 Token	输入	输出	费用
DCC	16,204,814	35,329	53,093	$12.8258
tianhe	43,863,063	37,017	130,536	$30.4748
TzJsDesktop	75,227,265	31,185	222,720	$57.3972

日报 — 2026-03-15#

今日概览#

DCC#

TzJsDesktop#

tianhe#

今日任务#

架构与策略#

实现与修复#

问题与解决方案#

关键问题#

1. MIHD跨样本embedding方法论根本缺陷：AI从’PCA比STAIG差’得出’输入特征本身弱’的错误结论，未主动质疑实验设计有效性#

2. Drop技能物体不实际掉落：直接设置qpos打开夹爪后，env.step()的OSC控制器重新施加夹持力将物体’拽回'#

3. Stack任务体名解析静默失败：stack.yaml使用cubeA/cubeB，MuJoCo实际名为cubeA_main/cubeB_main，_sim_body_name2id返回-1，Python负索引body_xpos[-1]读取最后一个body，任务阶段检测全部误判为pre_reach#

4. VLA context replay架构假设错误：AI设计了完整N-1帧回放机制，认为这是为VLA提供正确观测历史的必要步骤；同时设计了多种数据源（demo+VLA rollout+BC rollout），忽视各来源可控性差异#

5. CalendarPro意图误分类：语义路由无置信度阈值（0.52也当作有效分类）；含时间表达式的句子因关键词匹配错误路由；短确认词’ok’无上下文理解；系统prompt过长（530行）全量发送，中文token估算偏差3倍#

6. S2共作者分析对Levine/Abbeel/Finn等顶级大佬完全失效（depth-2全部为空），且存在严重同名歧义（Xiaolong Wang匹配兽医/地质研究者，Shuran Song仅2篇2025年论文）#

7. research工具链分散：paper scout和researcher profiler功能重叠、命令分散，New feature/目录存在完全重复代码；引用关系维度在工具链中缺失#

8. Demo视频脚本使用action replay导致open-loop误差累积，后期帧phase检测全部错误#

9. trajectory_regression无法找到任何注入机会：can_inject()要求prev_phases长度≥10，但pipeline从未调用replay_and_label_phases()，phase_labels始终为None#

10. pi05训练报错：CheckpointWeightLoader结构不匹配，新增progress层（progress_mlp_in/out/cond_proj）不在checkpoint中且不匹配硬编码的’.lora.‘正则#

11. pi0.py中aux_targets shape假设错误：AI推断LeRobot加载shape=(1,)特征后保持(b,1)形状并据此修改代码，实际LeRobot会squeeze为标量(b,)，导致训练时shape不匹配#

一般问题#

12. adata_hvg缓存bug：section 151673的HVG AnnData var_names被重置为整数索引（‘0’,‘1’,‘2’…），导致基因名交集为0#

13. LLM生成中文长格式JSON时，中文引号（""）混入JSON字符串值导致解析失败，在Chelsea Finn、Yuke Zhu、Mingyu Ding等多位研究者画像中重复出现#

人类思路 vs AI 思路#

战略层面#

跨样本cosine similarity有效性的方法论质疑（MIHD）#

VLA context window必要性与error scene数据来源设计#

E2 drop的语义拆分与CalendarPro优化计划设计#

引用关系作为研究工具链核心特性#

学生发现策略：调试S2共作者逻辑 vs 改用教授主页#

咖啡机部件散架问题的识别#

VLA训练调试的委托模式#

AI 局限性#

重要局限#

一般局限#

今日收获#

核心收获#

会话摘要#

MIHD#

ErrorRecoveryBenchmark#

VLA-RoboTwin#

UniVLA#

CalendarPro#

gadget/研究工具链架构#

gadget/Research Profiler#

Token 用量#

总览#

模型明细#

各设备用量#