周报 — 2026-W11 (2026-03-09 ~ 2026-03-15)

本周在DCC、tianhe、TzJsDesktop三台设备上并行推进六条主线：①MIHD空间转录组学发现跨样本embedding方法论根本缺陷（per-section独立处理导致特征空间不可比）并启动修复；②ErrorRecoveryBenchmark从Bug修复到13技能/29子类型全面规模化，攻克Drop技能物体不掉落难题，暴露在线配额架构局限后确立离线注入新方向；③VLA-RoboTwin/pi05从环境搭建、训练性能优化（JAX版本对齐+33%提速）到新数据变量收集、辅助任务实验全链路贯通；④gadget工具链完成MCP Server+common/共享包+统一输出目录的架构升级，research profiler突破学者主页优先学生发现；⑤CalendarPro完成7阶段全面优化，230测试全通过，token消耗降低40-60%；⑥gadget研究工具链整合引用图分析并完成7位具身AI学者深度画像。

本周概览

指标	数值
日期范围	2026-03-09 ~ 2026-03-15
活跃天数	6 / 7
总对话数	29
涉及项目	19
完成任务	36
进行中任务	10
总 Token	309,110,118
总费用	$227.47
日均费用	$32.50

项目进展

VLA-RoboTwin/pi05 (6 天活跃) — 🔄 active

完成项:

RoboTwin 50条episode成功转换LeRobot格式（11459帧）
诊断pi05 vs openpi训练时长33%差异，升级JAX 0.5.0→0.5.3等6个关键依赖，训练预期从20h压缩至15h
完成eval.sh运行环境全链路修复：torchvision升级0.22.1+设置conda CUDA_HOME从源码重编译curobo解决ABI不兼容
为Place Dual Shoes实现5个新数据变量（manip_progress_time/distance_left/right、target_endpose、target_joint），采用move()后回溯patch pickle的后处理架构解决未来状态依赖
跨6个文件设计实现四组操作进度预测辅助实验（last_token vs special_token × time vs distance），添加stop_gradient隔离策略和ProgressConfig配置开关
修复CheckpointWeightLoader missing_regex可配置化、pi0.py LeRobot shape squeeze问题，训练step 100 action_loss/aux_loss曲线正常下降

阻塞项:

⚠️ 四组辅助实验因LeRobot数据集未包含新字段而阻塞，需重新转换数据集
⚠️ eval.sh默认checkpoint_id=5000路径不存在，需修正为可用值（15000/25000/29999）

ErrorRecoveryBenchmark (4 天活跃) — 🔄 active

完成项:

修复monitor.update()返回值丢弃和taxonomy标签映射两个关键Bug，重标注1029条历史场景
攻克Drop技能物体不掉落问题：调用mujoco.mj_step()运行15个物理步绕过OSC控制器干扰
修复5个系统性失败技能（drop三技能+grasp_misalignment+trajectory_regression+wrong_object），105单元测试全通过
E2 Drop按恢复策略语义拆分为3个独立技能（drop_in_transit/drop_at_wrong_place/drop_with_interaction），基准扩展至13技能/29子类型
修复Stack体名解析静默失败Bug，为11个demo技能生成MP4演示视频，完成v4代码归档
完成v5.1架构规划（InjectionEngine重构+速度限制+人类示例采集pipeline），确定4月1日前开始recovery训练里程碑
v5全量运行生成231个场景和MP4；首轮D0生成207个场景

阻塞项:

⚠️ D0场景生成距目标600条仍有缺口，5个已修复根因需重新验证
⚠️ 咖啡机部件散架（lid悬浮、base偏离）kinematic tree结构问题诊断未完成
⚠️ v5.1离线注入架构实施工作尚未开始

MIHD（空间转录组学） (3 天活跃) — 🔄 active

完成项:

完成151673↔151508跨样本RM-IDEAL benchmark，Layer_1/5正相关（r≤0.66），Layer_3负相关揭示融合嵌入层特异性
实现CrossModalEnhancer模块（空间邻居构建KV序列+对称InfoNCE），CPU端三模式测试通过
绕过RTX 2080 Ti cuBLAS大张量Bug（先投影到hidden_dim再聚合邻居+mini-batch对比损失）
scGPT文献综述证实zero-shot不如PCA/scVI，为gene encoder选择提供战略性证据
完成MIHD输出目录大重构（14+文件路径引用全部更新）
发现跨样本embedding方法论根本缺陷并启动raw_shared共享HVG交集（1137基因）基线修复

阻塞项:

⚠️ 151676 STAIG embedding全零（模型坍塌），GPU重训因PyTorch 2.9.0+PyG CUDA冲突失败，跨切片可视化阻塞
⚠️ raw_shared embedding诊断仍在运行中，CrossModalEnhancer完整GPU pipeline评估未完成

gadget工具链 (2 天活跃) — 🔄 active

完成项:

用FastMCP+capture_stdout+asyncio.to_thread封装9个MCP工具，重构为内容返回模式（save参数控制写入）
增强research_scout日志系统（RotatingFileHandler双输出），零新依赖接入bioRxiv/PubMed多源
新建6个common/模块消除约500行重复代码，paths.py统一6个路径常量，.gitignore精简为单行outputs/
实现Homepage-Based学生发现（4阶段策略：主页优先+co-authorship补充），7位具身AI学者完成深度画像
整合research_scout.py为统一CLI入口（profile/citations子命令），集成Semantic Scholar引用图API，新增Hugo research栏目

阻塞项:

⚠️ 7位学者画像Hugo部署尚未完成
⚠️ LLM生成中文长格式JSON引号污染问题未根治

CalendarPro (2 天活跃) — ✅ completed

完成项:

实现gadget集成层（ResearchScoutTool+DailySummaryTool+conda run跨环境），每日8AM/11PM自动触发，13单元测试通过
完成7阶段全面优化（置信度阈值、混合路由、Prompt精简+中文token修正、指数退避、可配置调度权重、自动阈值调优、ThoughtStore缓存）
修复4个真实误分类场景，Prompt token消耗减少40-60%，230测试全通过

UniVLA/CALVIN评测 (2 天活跃) — 🔄 active

完成项:

完成CALVIN依赖链分析（4处问题定位），发现评估为纯在线仿真，提取eval-only文件（1.3GB→600KB）
添加–single_gpu模式绕过torchrun/DDP，修复多处硬编码路径，安装braceexpand依赖

阻塞项:

⚠️ 评测脚本完整流程未验证，仍在迭代调试阶段

关键任务

✅ CalendarPro 7阶段全面优化 (2026-03-15) — 实施语义路由置信度阈值、混合路由（Dense 70%+Keyword 30%）、Prompt精简（530行→base+11个fragment）+中文token修正（×1.5/字）、指数退避重试、可配置调度权重、自动阈值调优闭环、ThoughtStore内存缓存，修复4个真实误分类场景，token消耗降低40-60%，230测试全通过
✅ gadget research工具链CLI整合+引用图+7位学者深度画像 (2026-03-15) — 以research_scout.py为统一CLI整合paper scout和researcher profiler，新增Semantic Scholar引用图API（三阶段报告自动对top-5论文运行引用分析），完成Mingyu Ding/Ruoshi Liu/Xiaolong Wang/Shuran Song/Yunzhu Li/Yuke Zhu/Chelsea Finn 7位学者深度画像，识别完整导师关系网络
🔄 ErrorRecoveryBenchmark v5全面修复与13技能/29子类型规模化 (2026-03-15) — 修复5个系统性失败技能，E2拆分为3个语义独立技能，完成v4归档，v5全量运行生成231个场景，首轮D0生成207个场景（目标600），完成v5.1架构规划（InjectionEngine+速度限制+人类示例采集，4月1日前开始recovery训练）
✅ gadget common/共享包提取+outputs/统一目录重构 (2026-03-15) — 新建6个common/模块（io/cache/json_utils/llm/hugo），消除约500行重复LLM调用和JSON解析代码，paths.py统一6个路径常量，.gitignore精简为单行outputs/，更新4个CLAUDE.md
✅ gadget MCP Server设计实现与工具内容返回重构 (2026-03-09) — 用FastMCP+capture_stdout+asyncio.to_thread封装9个MCP工具，从’写文件返回路径’重构为’返回完整内容+save参数可选写入’，确定pip install -e.+console entry point分发方案，全部工具验证通过
🔄 MIHD跨样本embedding方法论诊断与修复 (2026-03-15) — 发现per-section独立HVG选择+独立PCA拟合的双重不可比性，否定’PCA优于STAIG=输入特征弱’的误判，启动共享HVG交集（1137基因）的raw_shared基线方案，发现STAIG在Layer_1/5（SL@50=0.94-1.0）vs中间层全失败的层特异性现象
✅ pi05训练性能优化：JAX版本对齐+依赖冲突修复 (2026-03-11) — 通过并行子代理对比pyproject.toml/uv.lock/wandb日志定位JAX版本差异（0.5.0 vs 0.5.3）为训练慢33%主因，对齐6个关键依赖，用uv override-dependencies解决lerobot torch<2.7冲突，成功完成uv lock（305个包）
🔄 pi05四组操作进度预测辅助实验设计与实现 (2026-03-14) — 在JAX/Flax NNX框架下跨6个文件实现manip_progress辅助预测头（last_token vs special_token × time vs distance），添加stop_gradient隔离策略和ProgressConfig配置开关，修复CheckpointWeightLoader和LeRobot shape问题，训练step 100 loss曲线正常下降
✅ ErrorRecoveryBenchmark v5.1架构规划 (2026-03-15) — 将ContextReplayEngine重构为InjectionEngine（直接恢复注入帧sim state，绕过无context window的VLA假设），添加运动速度限制，设计键盘遥操作人类示例采集pipeline，数据源限定为MimicGen demo，明确Mar 16-31分阶段实施计划
✅ RoboTwin新数据变量后处理收集架构实现 (2026-03-13) — 采用move()完成后回溯patch pickle的后处理方案实现5个新变量，解决target_endpose/target_joint对未来状态的依赖问题，修复manip_progress_distance负值（np.clip到[0,1]），pkl2hdf5.py通用递归设计无需修改
🔄 VLA eval.sh运行环境全链路修复 (2026-03-12) — 升级torchvision 0.22.1+cu126修复nms算子不匹配，设置CUDA_HOME指向conda targets目录从源码重编译curobo解决ABI不兼容，剩余checkpoint_id=5000路径不存在问题待修正
✅ gadget Homepage-Based学生发现策略实现 (2026-03-15) — 实现homepage_discovery.py模块（~200行），4阶段发现策略（主页优先+co-authorship补充），多策略URL发现（S2 homepage字段+LLM建议+–homepage参数），HTMLParser文本提取，2MB限制+7天缓存TTL，解决S2共作者分析对顶级大佬完全失效的根本问题

问题与解决方案

1. Drop技能：OSC控制器在env.step()中主动维持EEF位置（impedance control），夹爪打开后物体被手指托住无法自由落体 [ErrorRecoveryBenchmark] (2026-03-15)

解决方案: 绕过控制器直接设置MuJoCo qpos/qvel后，调用mujoco.mj_step()运行15个物理步完成初始分离，再进入标准控制循环

2. MIHD跨样本embedding比较无效：per-section独立HVG选择+独立PCA拟合导致特征空间不可比，‘PCA优于STAIG’结论为方法论错误 [MIHD] (2026-03-15)

解决方案: 改用共享HVG交集（1137基因）+统一处理的raw_shared方案作为正确基线，直接从原始HDF5加载而非依赖per-section缓存（存在var_names整数化bug）

3. Stack体名解析静默失败：stack.yaml用cubeA/cubeB，MuJoCo实际名为cubeA_main，_sim_body_name2id返回-1，Python负索引导致任务阶段检测全部误判为pre_reach [ErrorRecoveryBenchmark] (2026-03-15)

解决方案: 修复体名字段，在_sim_body_name2id中添加_main/_body0后缀回退逻辑，查找失败输出WARNING而非静默返回-1

4. pi05训练比openpi慢33%（20h vs 15h），直觉指向硬件差异，根因不明 [VLA-RoboTwin/pi05] (2026-03-11)

解决方案: 通过并行子代理对比软件层面（pyproject.toml/uv.lock/wandb日志），定位JAX版本差异（0.5.0 vs 0.5.3）为主因，XLA编译器优化积累；用uv override-dependencies解决lerobot torch版本上界约束冲突

5. curobo预编译.so与torch 2.7.1 ABI不兼容（undefined symbol），JIT重编译因conda CUDA头文件路径非标准而失败 [VLA-RoboTwin] (2026-03-12)

解决方案: 设置CUDA_HOME=conda环境根目录，CPATH指向targets/x86_64-linux/include/，pip install -e.从源码重编译

6. 在线配额生成严重不均衡：premature_release自然捕获7233条，7种类型完全为0，策略行为分布不均无法控制 [ErrorRecoveryBenchmark] (2026-03-09)

解决方案: 确立离线注入架构：先完整rollout收集轨迹，离线检测可注入点建索引，再按配额选择性注入；已满类型跳过

7. CalendarPro意图误分类：无置信度阈值（0.52也当有效分类）、时间表达式被关键词路由误判、短确认词无上下文理解、中文token估算偏差3倍 [CalendarPro] (2026-03-15)

解决方案: 添加per-route置信度阈值（0.40-0.60），引入关键词评分器与embedding 70/30混合路由，系统prompt拆分为base+11个fragment按需注入，中文token改为×1.5估算

8. S2共作者分析对顶级大佬（Levine/Abbeel/Finn等）完全失效（depth-2全空），Xiaolong Wang/Shuran Song存在严重同名歧义 [gadget] (2026-03-15)

解决方案: 重构为homepage-first策略：优先从教授个人主页抓取学生列表，co-authorship仅作补充；多策略URL发现；同名歧义标注WARNING建议使用S2 authorId精确查询

9. VLA context replay架构假设错误：设计了完整N-1帧回放机制，但大多数VLA没有context window，该开销为无用设计 [ErrorRecoveryBenchmark] (2026-03-15)

解决方案: 将ContextReplayEngine重构为InjectionEngine，直接恢复注入帧sim state；数据源限定为可控性更高的MimicGen demo数据

10. RTX 2080 Ti + PyTorch 2.9.0对N>3500高维张量触发cuBLAS CUBLAS_STATUS_EXECUTION_FAILED [MIHD] (2026-03-09)

解决方案: 先用Linear投影到hidden_dim(128)再索引邻居（避免高维大张量进入cuBLAS），InfoNCE改为mini-batch对比损失（batch_size=512）

11. MCP Server工具写文件返回路径，AI无法直接消费内容 [gadget] (2026-03-09)

解决方案: 重构工具绕过cmd_*包装器直接调用底层函数返回完整内容（markdown/JSON），通过save参数控制文件写入

12. pi0.py对LeRobot内部行为假设错误：推断shape=(1,)特征保持(b,1)形状并修改代码，实际LeRobot DataLoader会squeeze为(b,)导致训练时shape不匹配 [VLA-RoboTwin/pi05] (2026-03-15)

解决方案: 通过实际运行训练并观察日志（‘aux_targets[…]: (32,)@float32’）确认真实shape，还原原始[:, None]和jnp.stack操作

学习收获

架构 (architecture)

跨样本embedding比较的必要前提是特征空间共享：per-section独立HVG选择+独立PCA拟合=双重不可比性。有效基线必须使用共享HVG交集+联合处理，或固定预训练权重的foundation model
MuJoCo中直接状态操作与反馈控制器（OSC）存在根本冲突：sim.forward()仅更新运动学，mujoco.mj_step()才推进动力学并绕过控制器。仿真注入设计必须明确选择一条路径
Error类型语义拆分应基于’恢复策略是否相同’而非’注入机制是否相同’：drop_in_transit/drop_at_wrong_place/drop_with_interaction的检测条件和恢复逻辑截然不同，即使注入动作相同也必须分开建模
语义路由器架构缺陷：embedding最近邻总产生结果，无法表达’不确定’。置信度阈值+备选LLM+关键词评分器混合是最实用修复模式，可推广至所有基于向量检索的分类系统（RAG路由、工具选择等）
MCP工具应以AI消费为首要目标：返回完整内容，文件写入为可选副作用。通用benchmark不应假设模型有context window，InjectionEngine直接恢复sim state比context replay更通用
对顶级学者（500+篇论文），S2共作者频率分析无法识别学生——first-author信号被大量合作者稀释。教授主页显式列出学生，可靠性高一个数量级。引用图（前向+后向）是研究工具链核心特性，‘相关性’与’引用数/流行程度’应解耦处理
离线注入架构比在线配额系统更适合构建均衡错误场景数据集：将’探索可注入性’与’执行注入’解耦，可精确控制每种错误类型数量；在线自然捕获受策略行为分布影响极大，无法控制类型均衡

调试 (debugging)

JAX小版本升级（0.5.0→0.5.3）可带来约33%训练提速，XLA编译器优化积累效应不可忽视。uv override-dependencies可强制忽略transitive dependency版本约束，是解决第三方库版本冲突的有效工具
conda环境中编译CUDA扩展：CUDA_HOME=conda环境根目录，CPATH=envs//targets/x86_64-linux/include/（非/usr/local/cuda/include/）；torch大版本升级后所有依赖torch C++ ABI的.so文件都需重编
对第三方框架内部行为假设必须通过实际运行验证：LeRobot对shape=(1,)单标量特征在DataLoader时会自动squeeze为(batch_size,)，代码推断不可靠。训练配置实际生效值需从wandb日志验证，代码默认值可能被CLI参数覆盖
K8s容器内GPU监控：扫描/proc//fd/下/dev/nvidia*设备链接+优先读取CUDA_VISIBLE_DEVICES，可绕过PID命名空间隔离；打开全部GPU设备但不占显存的进程通常是监控工具，可据此过滤
静默失败是最危险的bug模式：body_xpos[-1]负索引在两个cube始终返回同一位置；缓存var_names整数化导致基因名交集为0。任何解析失败都应立即WARNING而非返回哨兵值，缓存数据使用前应做健全性检查

领域知识 (domain)

scGPT独立benchmark（Genome Biology 2025）证实zero-shot不如PCA/scVI；scGPT-spatial只与弱baseline比较（ARI≈0.30-0.40），SOTA（GraphST，ARI≈0.55-0.63）未纳入，无独立第三方验证。评估新方法必须验证其baseline是否为当前SOTA
CALVIN评估是纯在线仿真，完全不读episode数据，只需validation/.hydra/merged_config.yaml，1.3GB数据集可压缩为600KB eval-only版本
具身AI学者导师谱系：Mingyu Ding←Jitendra Malik，Ruoshi Liu←Carl Vondrick，Xiaolong Wang←Abhinav Gupta，Shuran Song←Thomas Funkhouser，Yunzhu Li←Antonio Torralba，Yuke Zhu←Li Fei-Fei——呈现顶级感知/机器人导师群体向具身AI的系统性学生输出
流匹配正成为VLA主流动作解码架构。Pi0时间约定：t=1纯噪声→t=0目标动作。Pi0.5用adaRMS注入时间条件优于简单拼接。VLA辅助任务中stop_gradient隔离主任务梯度是安全起点

工具 (tools)

Prompt工程按需注入策略：系统prompt拆分为base（~50行）+intent-specific fragment（按分类动态注入），可减少40-60% token消耗。中文字符token密度约为英文字符6倍（1.5 token/字 vs 0.25 token/字符），不修正会系统性低估context长度
多工具共存项目的输出目录应按’文件类型优先’组织（outputs/reports/summarize/ 而非 summarize/reports/），可将.gitignore精简为单行outputs/；Python re-export shim模式（仅包含from x import y; all=[…]）是向后兼容的优雅迁移方式
PubMed esearch→efetch两步E-utilities API可免费索引Nature/Cell/Science等订阅期刊元数据；bioRxiv API同样开放，均无需新依赖（urllib.request）；小批量验证pipeline可行性优于直接冲满量

AI 使用备注

有效模式:

✓ 并行子代理加速多维度代码分析：依赖版本差异诊断、代码库探索中同时启动3+子代理覆盖不同文件集，显著压缩分析时间
✓ 目标驱动委托+迭代调试循环：用户给出清晰终止条件（‘修复到没报错’），AI独立迭代运行→报错→最小修改，内建纠错机制
✓ 深度代码库探索识别架构级挑战：CrossModalEnhancer中主动识别单spot KV退化问题（每spot只有一个向量），提出空间邻居构建KV序列方案
✓ sys.path hack → common/包的渐进式重构：re-export shim模式保持向后兼容同时消除重复代码
✓ 小批量验证pipeline可行性（207个场景暴露5个系统性缺陷）优于直接冲满量，端到端集成测试比单元测试更能发现pipeline级隐式依赖

局限性:

✗ 实验结论反思能力不足：从数值结果直接归因，未主动质疑实验设计有效性前提（MIHD embedding方法论缺陷需用户外部触发才修正）
✗ 静默失败模式未被主动发现：Stack体名解析返回-1+Python负索引、缓存var_names整数化，均因缺乏健全性检查而需用户发现
✗ 过度工程化与架构假设错误：VLA context replay基于’所有VLA需要context window’的错误假设；对LeRobot shape行为做错误推断并修改代码，均需用户纠正或运行验证
✗ 方法论适用边界主动质疑能力不足：S2学生发现失效时继续调试代码逻辑，未主动质疑方法论本身边界，需用户点拨才转向主页方案
✗ Semantic Scholar同名歧义处理能力弱：对常见中文英译名缺乏主动entity disambiguation，LLM分析也无法自动识别歧义研究者
✗ API使用前未验证签名：FastMCP version参数、conda –no-banner均在运行失败后才发现不兼容

下周展望

下周（2026-W12）重点：①ErrorRecoveryBenchmark v5.1实施——完成5个已修复技能的D0场景重新生成（目标600+条），推进InjectionEngine重构、运动速度限制、键盘遥操作人类示例采集pipeline，里程碑：4月1日前开始recovery策略训练；②VLA-RoboTwin/pi05——重新转换LeRobot数据集（含manip_progress等5个新字段），启动四组辅助实验训练并对比分析，修正eval.sh checkpoint_id后进行正式策略评估；③MIHD——完成raw_shared基线诊断并得出方法论修复结论，解决151676 GPU重训问题（固定PyTorch版本），评估CrossModalEnhancer完整GPU pipeline效果；④gadget/research——将7位学者画像部署至Hugo research栏目，在prompt中明确要求英文引号根治LLM生成中文JSON污染问题；⑤UniVLA——完成CALVIN评测完整流程验证（–single_gpu模式）。

Token 用量统计

每日费用趋势

日期	Token (百万)	费用 ($)
2026-03-09	46.9	32.17
2026-03-11	30.5	20.75
2026-03-12	2.0	2.22
2026-03-13	3.0	2.23
2026-03-14	19.0	13.13
2026-03-15	135.3	100.70
unknown	72.5	56.27

峰值日: 2026-03-15 — $100.70 / 135.3M tokens

Claude Code

指标	数值
总 Token	309,110,118
输入 Token	315,228
输出 Token	1,023,671
Cache 创建	22,299,827
Cache 读取	285,471,392
总费用	$227.47

模型使用分布

模型	费用 ($)	输入 Token	输出 Token
claude-opus-4-6	203.57	170,917	554,482
claude-haiku-4-5-20251001	19.77	144,115	468,454
claude-sonnet-4-6	4.12	196	735

周报 — 2026-W11 (2026-03-09 ~ 2026-03-15)#

本周概览#

项目进展#

VLA-RoboTwin/pi05 (6 天活跃) — 🔄 active#

ErrorRecoveryBenchmark (4 天活跃) — 🔄 active#

MIHD（空间转录组学） (3 天活跃) — 🔄 active#

gadget工具链 (2 天活跃) — 🔄 active#

CalendarPro (2 天活跃) — ✅ completed#

UniVLA/CALVIN评测 (2 天活跃) — 🔄 active#

关键任务#

问题与解决方案#

1. Drop技能：OSC控制器在env.step()中主动维持EEF位置（impedance control），夹爪打开后物体被手指托住无法自由落体 [ErrorRecoveryBenchmark] (2026-03-15)#

2. MIHD跨样本embedding比较无效：per-section独立HVG选择+独立PCA拟合导致特征空间不可比，‘PCA优于STAIG’结论为方法论错误 [MIHD] (2026-03-15)#

3. Stack体名解析静默失败：stack.yaml用cubeA/cubeB，MuJoCo实际名为cubeA_main，_sim_body_name2id返回-1，Python负索引导致任务阶段检测全部误判为pre_reach [ErrorRecoveryBenchmark] (2026-03-15)#

4. pi05训练比openpi慢33%（20h vs 15h），直觉指向硬件差异，根因不明 [VLA-RoboTwin/pi05] (2026-03-11)#

5. curobo预编译.so与torch 2.7.1 ABI不兼容（undefined symbol），JIT重编译因conda CUDA头文件路径非标准而失败 [VLA-RoboTwin] (2026-03-12)#

6. 在线配额生成严重不均衡：premature_release自然捕获7233条，7种类型完全为0，策略行为分布不均无法控制 [ErrorRecoveryBenchmark] (2026-03-09)#

7. CalendarPro意图误分类：无置信度阈值（0.52也当有效分类）、时间表达式被关键词路由误判、短确认词无上下文理解、中文token估算偏差3倍 [CalendarPro] (2026-03-15)#

8. S2共作者分析对顶级大佬（Levine/Abbeel/Finn等）完全失效（depth-2全空），Xiaolong Wang/Shuran Song存在严重同名歧义 [gadget] (2026-03-15)#

9. VLA context replay架构假设错误：设计了完整N-1帧回放机制，但大多数VLA没有context window，该开销为无用设计 [ErrorRecoveryBenchmark] (2026-03-15)#

10. RTX 2080 Ti + PyTorch 2.9.0对N>3500高维张量触发cuBLAS CUBLAS_STATUS_EXECUTION_FAILED [MIHD] (2026-03-09)#

11. MCP Server工具写文件返回路径，AI无法直接消费内容 [gadget] (2026-03-09)#

12. pi0.py对LeRobot内部行为假设错误：推断shape=(1,)特征保持(b,1)形状并修改代码，实际LeRobot DataLoader会squeeze为(b,)导致训练时shape不匹配 [VLA-RoboTwin/pi05] (2026-03-15)#

学习收获#

架构 (architecture)#

调试 (debugging)#

领域知识 (domain)#

工具 (tools)#

AI 使用备注#

下周展望#

Token 用量统计#

每日费用趋势#

Claude Code#

模型使用分布#

周报 — 2026-W11 (2026-03-09 ~ 2026-03-15)

本周概览

项目进展

VLA-RoboTwin/pi05 (6 天活跃) — 🔄 active

ErrorRecoveryBenchmark (4 天活跃) — 🔄 active

MIHD（空间转录组学） (3 天活跃) — 🔄 active

gadget工具链 (2 天活跃) — 🔄 active

CalendarPro (2 天活跃) — ✅ completed

UniVLA/CALVIN评测 (2 天活跃) — 🔄 active

关键任务

问题与解决方案

1. Drop技能：OSC控制器在env.step()中主动维持EEF位置（impedance control），夹爪打开后物体被手指托住无法自由落体 [ErrorRecoveryBenchmark] (2026-03-15)

2. MIHD跨样本embedding比较无效：per-section独立HVG选择+独立PCA拟合导致特征空间不可比，‘PCA优于STAIG’结论为方法论错误 [MIHD] (2026-03-15)

3. Stack体名解析静默失败：stack.yaml用cubeA/cubeB，MuJoCo实际名为cubeA_main，_sim_body_name2id返回-1，Python负索引导致任务阶段检测全部误判为pre_reach [ErrorRecoveryBenchmark] (2026-03-15)

4. pi05训练比openpi慢33%（20h vs 15h），直觉指向硬件差异，根因不明 [VLA-RoboTwin/pi05] (2026-03-11)

5. curobo预编译.so与torch 2.7.1 ABI不兼容（undefined symbol），JIT重编译因conda CUDA头文件路径非标准而失败 [VLA-RoboTwin] (2026-03-12)

6. 在线配额生成严重不均衡：premature_release自然捕获7233条，7种类型完全为0，策略行为分布不均无法控制 [ErrorRecoveryBenchmark] (2026-03-09)

7. CalendarPro意图误分类：无置信度阈值（0.52也当有效分类）、时间表达式被关键词路由误判、短确认词无上下文理解、中文token估算偏差3倍 [CalendarPro] (2026-03-15)

8. S2共作者分析对顶级大佬（Levine/Abbeel/Finn等）完全失效（depth-2全空），Xiaolong Wang/Shuran Song存在严重同名歧义 [gadget] (2026-03-15)

9. VLA context replay架构假设错误：设计了完整N-1帧回放机制，但大多数VLA没有context window，该开销为无用设计 [ErrorRecoveryBenchmark] (2026-03-15)

10. RTX 2080 Ti + PyTorch 2.9.0对N>3500高维张量触发cuBLAS CUBLAS_STATUS_EXECUTION_FAILED [MIHD] (2026-03-09)

11. MCP Server工具写文件返回路径，AI无法直接消费内容 [gadget] (2026-03-09)

12. pi0.py对LeRobot内部行为假设错误：推断shape=(1,)特征保持(b,1)形状并修改代码，实际LeRobot DataLoader会squeeze为(b,)导致训练时shape不匹配 [VLA-RoboTwin/pi05] (2026-03-15)

学习收获

架构 (architecture)

调试 (debugging)

领域知识 (domain)

工具 (tools)

AI 使用备注

下周展望

Token 用量统计

每日费用趋势

Claude Code

模型使用分布