周报 — 2026-W12 (2026-03-16 ~ 2026-03-22)

本周横跨DCC、tianhe、TzJsDesktop三台设备，在机器人操作与空间转录组两大研究方向全面深度推进。Error Recovery Benchmark完成从采集方案设计（RBG分组329条demo预算）到架构级轨迹分段重构（InteractionSegmenter），training scenes最终达1627个（148 subtypes覆盖，+35%）；MIHD空间转录组完成跨切片Embedding对齐全链路落地并确立scGPT零样本优势（100%命中率 vs UNI2 71%）；π₀.₅完成任务完成检测头全链路训练上线（loss≈0.253）并设计Exp5-9五种conditioning策略；gadget工具链完成Research Profiler消歧架构重构、网站统一deploy staging架构建设、ECC全员升级至opus+max thinking。全周核心突破集中在「找到并解决架构级根因」：per-section PCA坐标系不可比、多物体target_object歧义、Flax NNX继承vs组合三个系统性问题均在本周得到根本性修复。

本周概览

指标	数值
日期范围	2026-03-16 ~ 2026-03-22
活跃天数	6 / 7
总对话数	32
涉及项目	25
完成任务	55
进行中任务	5
总 Token	491,120,167
总费用	$388.14
Claude Code Token	459,397,404
Claude Code 费用	$370.34
Codex Token	31,722,763
Codex 费用	$17.80
日均费用	$55.45

项目进展

Error Recovery Benchmark (5 天活跃) — 🔄 active

完成项:

设计5个RBG分组体系将人类演示需求从1740条压缩至329条（节省81%）
实现完整8文件Pipeline（recovery_types/recovery_segmenter/采集增广转换脚本），139单元测试全通过
修复CompositeBodyObject坐标变换bug（lid位置从0.211m恢复0.1045m）
诊断修复drop_in_transit假阳性（min_hold_height 0.85→0.93，成功率10%→50%）
将串行场景生成改造为32 worker并行（4 GPU round-robin），速度提升约10倍（973 scenes/41分钟）
系统性代码审查发现5类bug根因，修复error skill参数24处（Fix A-G）
架构级重构：新增InteractionSegmenter按物体交互分段轨迹，彻底绕过phase detection缺陷
修复Panda夹爪action极性反转、wrong_object过滤、drop_with_interaction注入策略三项核心bug
最终生成1627个training scenes，覆盖148个subtypes
系统归因48个ungenerable cases为物理约束而非pipeline故障

阻塞项:

⚠️ three_piece_assembly扫描从23退化至4 subtypes（get_target_object和InteractionSegmenter均误选base fixture），代码修复因bwrap沙箱限制未在本周落地
⚠️ Pi0.5-base LoRA训练因Slurm interactive job到期中断，需重新sbatch提交
⚠️ pick_place数据生成184/2000条时因Slurm到期中断

MIHD空间转录组 (4 天活跃) — 🔄 active

完成项:

完成跨切片嵌入诊断实验（5种方法×14组合），确认scGPT 100%命中率远超UNI2（71%）和PCA/STAIG（0-14%）
批量生成可视化PDF（5套完整版+35个per-layer子PDF），产出英中双语诊断报告
用sklearn纯Python重写批次效应评估指标（ASW_batch/batch_entropy/batch_kl/graph_connectivity），无R包依赖
实现HarmonyAligner与JointSTAIGAligner，修复all_aligned模式alignment参数未注入evaluate阶段的关键bug
端到端验证：Harmony使batch_entropy 0.33→0.52，batch_kl 0.39→0.25
/simplify三路并行代码审查修复9处问题（cdist→KDTree防OOM、NEEDS_COORDS_FUSIONS集中常量等）
修复STAIG超参数扫描公平对比问题（实验名与实际实现不一致），建立PCA+UNI/UNI2公平基准（ARI均值0.47）
完成151676样本10x Visium scanpy分析脚本与6张可视化图

阻塞项:

⚠️ Harmony对PCA嵌入的批次效应改善有限（per-section PCA特征空间本身不一致无法通过后处理根本解决）

π₀.₅ / robobrain_pi (4 天活跃) — 🔄 active

完成项:

修复vla_infer.py 5个bug（任务完成后无限循环、None检查顺序崩溃、idle状态未广播等）
实现action_loss与task_loss分离监控（JAX has_aux机制，wandb三曲线独立追踪）
完成π₀.₅任务完成检测头全链路：CompletionHead/Pi0WithCompletionHead（继承方式）/train_completion_head.py，训练正常启动（loss≈0.253）
定位并修复RobotwinOutputs.__call__静默丢弃manip_progress字段的根本原因，建立progress评估基础
设计实现Exp5-9五种conditioning策略（from_hidden/sinusoidal/detach各变体）
修复LIBERO libero_object_com注册缺失及多项评估环境阻塞
完成5任务HDF5→LeRoBot数据转换和norm stats计算（coffee/stack等共8000+条）

阻塞项:

⚠️ Pi0.5-base LoRA训练因Slurm interactive job到期被强制终止，需重新以sbatch提交
⚠️ LIBERO评估环境K8s GPU隔离配置需每次手动检查

gadget工具链（Research Profiler + summarize + website） (4 天活跃) — 🔄 active

完成项:

批量分析20+位研究者学术画像，识别5+个严重同名污染案例
两轮代码重构：三级解析链（精确ID→论文反查→名字搜索）、量化指标主导消歧权重、新增–author-id CLI参数
修复S2限速时递归重试死循环（改为指数退避最多5次）
修复gadget _finalized死循环根因（3个source log首次export当天finalized=False导致merge永不收敛）
修复npx子进程在capture_output=True模式下永久挂起bug（添加–yes参数）
ECC全员升级至opus + effortLevel: max
monthly_summary.py新增Codex用量独立聚合支持
完成Hugo站点bugJournal导航下拉菜单（自定义header.html partial覆盖主题）
建立统一deploy staging架构（outputs/site → website/sync_staging.py → Hugo构建 → 部署）
修复PaperMod主题损坏（macOS._pack文件）并更新至支持Hugo v0.157.0的最新版
批量生成W05-W12历史周报8份

阻塞项:

⚠️ 会议奖项识别ROI极低（约80%批次返回空，专业细分领域近乎无效），未完成替换为外部数据源方案

CalendarPro (2 天活跃) — 🔄 active

完成项:

实现BATCH_UPDATE意图全链路（语义路由+关键词计数规则+LLM分类器+handler），修复批量任务状态汇报的核心缺陷
关键词计数规则（2+完成动词→+0.30 boost）弥补嵌入相似度对多任务消息的盲区
修复GENERAL fallback使实质性LLM回复不被丢弃
21个新测试+72个相关测试全部通过

阻塞项:

⚠️ 全量pytest套件因HuggingFace语义路由模型下载挂起，marker隔离方案未完成

VLA评估辅助工具 / CALVIN格式转换 (2 天活跃) — ⏸️ paused

完成项:

实现评估视频实时叠加manip_progress预测值（cv2.putText白色带黑描边）
修复CALVIN RLDS→LeRoBot转换脚本（数据集名称、观测键名、目录覆盖逻辑）
确认RoboCasa MimicGen预训练数据下载失败为上游未发布问题，无需代码修复

关键任务

✅ InteractionSegmenter轨迹分段架构重构（Contract全链路对齐） (2026-03-21) — 识别detector→injector→validator→generator整链路contract不一致为系统性根因；新增InteractionSegmenter按物体交互分段轨迹，每段明确target_object/phase/other_objects，彻底绕过单物体phase detection缺陷；修复13个skill的objects[0]语义歧义，全链路透传target_object和target_pos；139单元测试全通过
✅ Error Recovery Pipeline全链路实现（8文件，139测试） (2026-03-16) — 实现recovery_types.py/recovery_segmenter.py/采集增广转换脚本等8个新文件，新增34个单元测试；完成VLA错误恢复数据采集方案（5个RBG分组，6任务×3 tier，329条人类demo总预算）
✅ π₀.₅任务完成检测头设计与实现（训练上线） (2026-03-18) — 全链路完成：prefix_output mean pooling特征来源、继承方式保持checkpoint路径兼容、CompletionHead/Pi0WithCompletionHead/train_completion_head.py；修复RepackTransform键名映射，训练正常启动（loss≈0.253，参数冻结验证正确）
✅ MIHD跨切片Embedding对齐实现与bug修复 (2026-03-18) — 新建pipeline/alignment.py（HarmonyAligner+JointSTAIGAligner），修复all_aligned模式下alignment参数未注入evaluate阶段的3行关键bug；端到端验证：Harmony使batch_entropy 0.33→0.52
✅ CalendarPro BATCH_UPDATE意图实现 (2026-03-18) — 修改8个文件新增BATCH_UPDATE枚举、语义路由（21个utterance）、关键词计数规则（2+完成动词→+0.30 boost）、LLM handler；修复GENERAL fallback；21个新测试+72个相关测试全通过
✅ Error Recovery Benchmark三项核心bug修复 (2026-03-22) — 修复Panda夹爪action极性反转（基于机械臂类型动态检测）、wrong_object过滤逻辑（限定grasp_geoms非空）、drop_with_interaction注入策略（主动搬运到non-target正上方再释放）；training scenes 1209→1627
✅ gadget npx挂起bug修复 + ECC全员opus升级 (2026-03-21) — 修复npx在capture_output=True模式下等待安装确认而永久挂起的bug；将27个agent从sonnet/haiku升级至opus，settings.json effortLevel改为max
✅ 统一deploy staging架构建设 (2026-03-22) — 新建common/site_staging.py统一输出接口，所有工具Hugo发布路径切换到outputs/site；新建website/sync_staging.py（link优先/copy回退/首次bootstrap迁移）；benchmark添加完整发布层；update.sh集成staging同步
✅ robobrain_pi任务状态汇报bug修复 (2026-03-17) — 修复vla_infer.py 5个问题：任务完成后未清空current_prompt导致无限循环、None检查顺序错误潜在崩溃、idle状态未广播、调试日志阈值不一致
✅ gadget _finalized死循环根因诊断与修复 (2026-03-19) — 诊断sync-all每次重处理所有历史日期的根因：部分设备source log _finalized=False（首次export当天），merge时all_sources_finalized=False导致report永远不finalized。精确定位3个问题source log，确定手动重新export修复方案
✅ drop_in_transit假阳性诊断与修复 (2026-03-20) — 诊断min_hold_height=0.85导致物体在桌面（z≈0.88）被误判为空中持有（80%假阳性），将阈值提升至0.93（桌面+物体高+余量），D0成功率10%→50%
✅ 训练场景并行批量生成（串行→32 worker） (2026-03-20) — 将串行脚本改造为ThreadPoolExecutor（32 worker，4 GPU round-robin），41分钟完成973 scenes（约10倍提速）；后续多轮生成最终达1627 scenes
✅ π₀.₅ manip_progress推理日志修复 (2026-03-18) — 定位并修复根本原因：RobotwinOutputs.__call__只返回{actions}字段静默丢弃manip_progress，导致上游预测结果外部完全不可见；修改output transform后数据流重新打通
✅ MIHD批次效应评估指标纯Python实现 (2026-03-18) — 用sklearn.neighbors.NearestNeighbors完全替代R包nabor，纯Python重写ASW_batch/batch_entropy/batch_kl/graph_connectivity四个跨切片批次效应量化指标
✅ STAIG超参数扫描公平对比修复 (2026-03-20) — 发现实验名称误导性（‘pca_uni2_staig_fusion’实际使用UNI）且使用raw HVG而非PCA输入；修改脚本添加–gene_encoder/–vision_variant参数，建立PCA+UNI/UNI2公平基准（ARI均值0.47）
🔄 Pi0.5-base LoRA合并数据集微调流水线数据准备 (2026-03-20) — 完成5任务HDF5→LeRoBot数据转换（共约8000条）和norm stats计算，启动coffee/stack训练后因Slurm interactive job到期中断，需重新sbatch提交；pick_place数据生成184/2000条时亦中断
🔄 three_piece_assembly退化根因分析 (2026-03-22) — 确认Fix1-3已落地，定位两处未修根因：get_target_object()和InteractionSegmenter均在all_objects中以最近距离选目标，base fixture因z≈0.80永不满足lift_height=0.84阈值，导致887个opportunity中879个被过滤；修复方案已明确，代码实施待下周
✅ Research Profiler消歧架构两轮重构 (2026-03-16) — 实现三级解析链（精确ID→论文反查→名字搜索）、量化指标主导消歧权重重校准（h-index/论文数权重大幅提升）、s2_author_id字段、–author-id CLI参数、S2限速指数退避重试；修复Pieter Abbeel等著名教授h-index误识别问题
✅ π₀.₅ Exp5-9实验配置设计与实现 (2026-03-18) — 在pi0_config.py添加cond_mode字段，实现Exp5-9：from_hidden+last/special_token、sinusoidal+last/special_token、detach_cond+last_token五种conditioning策略，系统覆盖端到端梯度/中间层/detached三个实验方向
✅ action_loss与task_loss分离监控 (2026-03-17) — 修改model.py抽象方法返回(loss_array, aux_dict)，train.py使用JAX has_aux=True解包辅助指标，wandb和进度条中新增action_loss/task_loss独立曲线
✅ VLA错误恢复数据采集方案设计（5 RBG分组） (2026-03-16) — 调研MimicGen/IntervenGen等文献，将29种error subtype按motor primitive聚类为5个RBG组（Re-grasp/Retrieve/Retract/Redirect/Realign），制定329条demo总预算，节省1740条朴素需求的81%
✅ gpumon重复进程bug修复 (2026-03-17) — 双重过滤：要求同时有/dev/nvidia* FD打开才认定为GPU进程（消除CUDA_VISIBLE_DEVICES环境变量误报），并添加父进程链去重（折叠DDP worker子进程）；进程数从35降至8；新增键盘交互导航
✅ 训练场景生成失败根因分析文档 (2026-03-20) — 通过parallel_logs日志、opportunity map、meta.json交叉分析，识别5大根因（gripper_closed_norm异常P0级、drop碰撞检测不足等），写入training_scene_failure_analysis.md
✅ Hugo站点bugJournal导航下拉菜单实现 (2026-03-22) — 自定义header.html partial覆盖PaperMod默认模板，添加has-submenu/submenu class渲染逻辑，通过bugjournal-menu.css实现hover下拉效果；list.html过滤使根页面只展示三个子section入口

问题与解决方案

1. per-section PCA/STAIG产生不可比嵌入空间，跨切片检索14组合中10组SL@50=0，normalize无法修复 [MIHD空间转录组] (2026-03-16)

解决方案: 改用预训练Foundation Model（scGPT）：所有切片共享同一套模型权重，输出天然处于同一坐标系；SL@50从0.013提升到0.416，命中率100%。根因是坐标系不一致（数学上normalize不可解），而非基因特征信息不足

2. CompositeBodyObject在env.reset()时散架（lid悬浮、base偏移），但HDF5回放时正常（set_sim_state_flat覆盖body位置掩盖了问题） [Error Recovery Benchmark] (2026-03-16)

解决方案: 在generated_objects.py的__init__中添加locations_relative_to_corner实例属性存储，恢复角点到中心的坐标变换逻辑（对齐commit 398af01b）；139单元测试全通过

3. Semantic Scholar将多位同名研究者论文错误合并，Pieter Abbeel等著名教授被匹配到h=4的同名人，h-index统计严重失真 [Research Profiler] (2026-03-16)

解决方案: 重构消歧权重（量化指标压倒字符串相似度）+新增三级解析链（精确ID→论文反查→名字搜索）+–author-id CLI参数；限速时通过WebSearch查找正确authorId并直接指定

4. vla_infer.py任务完成后未清空current_prompt，下一循环chunk_count仍≥5且模型分数仍高，立即再次触发done消息，无限循环汇报完成 [robobrain_pi] (2026-03-17)

解决方案: 在任务完成处理块末尾添加current_prompt=‘‘和_publish_state(‘idle’)；状态机完成必须同时重置触发条件和广播状态变更

5. π₀.₅ Pi0WithCompletionHead用组合方式导致所有父模块参数路径多了pi0/前缀，pytree merge抛出'2 children vs 1 child’ ValueError，checkpoint完全无法加载 [π₀.₅] (2026-03-18)

解决方案: 改为继承方式（class Pi0WithCompletionHead(Pi0)），Pi0参数直接在顶层与checkpoint路径对齐；Flax NNX中继承是保持checkpoint路径兼容的唯一方案

6. RobotwinOutputs.call只返回{actions}字段，静默丢弃manip_progress，模型即使正确预测progress字段，外部也永远无法获取，eval txt文件始终为空 [π₀.₅] (2026-03-18)

解决方案: 修改output transform的return dict包含manip_progress字段，数据流重新打通；排查此类bug应从数据流终点向上游追踪

7. CalendarPro用户批量汇报任务状态时系统返回’我不太确定’而非处理请求 [CalendarPro] (2026-03-18)

解决方案: 分析完整根因链：嵌入相似度低→LLM分类器无该意图→GENERAL handler丢弃AI回复；在路由/分类/处理三层全链路添加BATCH_UPDATE支持，关键词计数规则弥补嵌入盲区

8. MIHD all_aligned模式下–alignment参数未注入evaluate阶段，EvaluationJob.alignment始终为None，Harmony对齐结果被完全忽略，对齐功能实际失效 [MIHD空间转录组] (2026-03-18)

解决方案: 在run_pipeline.py evaluate阶段前加3行代码：当phase==‘all_aligned’且args.alignment有值时将alignment注入每个experiment的extra_config

9. drop_in_transit_D0仅生成极少有效场景，min_hold_height=0.85过低，物体在桌面（z≈0.88）被误判为空中持有，80%机会为假阳性 [Error Recovery Benchmark] (2026-03-20)

解决方案: 将阈值提升至0.93（桌面高0.80+Milk物体高0.08+余量0.05），假阳性消除，D0成功率从10%提升至50%

10. python summarize/daily_summary.py永久卡在@ccusage/codex步骤，无输出无报错 [gadget] (2026-03-21)

解决方案: subprocess.run(capture_output=True)将stdin重定向到DEVNULL，npx首次安装确认提示无限等待；在所有3处npx调用添加–yes参数跳过交互确认

11. threading/pick_place等多物体任务中phase detection系统性失效，threading全部帧标记为pre_reach，导致12/13个skill无法找到opportunity [Error Recovery Benchmark] (2026-03-21)

解决方案: 新增InteractionSegmenter按物体交互分段轨迹（EEF接近度+夹爪状态+共运动检测），每段明确target_object和phase；彻底绕过单物体phase detection，不修补而是绕过缺陷抽象；threading subtypes 3→25

12. Panda机械臂夹爪action极性与代码假设相反：Panda需要action=+1闭合，硬编码-1实际在打开夹爪，导致coffee/stack等所有注入失败 [Error Recovery Benchmark] (2026-03-22)

解决方案: 在EnvWrapper.__init__中通过机械臂类型检测极性，PandaGripper设close_action=+1.0，RethinkGripper设-1.0；添加helper并替换全部硬编码action[-1]

13. drop_with_interaction在全部任务生成0 scenes：原实现只施加1-3cm偏移后放手，物体间距10-20cm根本不会碰到邻居 [Error Recovery Benchmark] (2026-03-22)

解决方案: 重写inject逻辑：将物体主动搬运到non-target正上方（+0.15m），再松开夹爪让物体自由落体，全程追踪settle过程中的object-object contact

学习收获

架构 (architecture)

Pipeline contract对齐必须追踪完整数据流：不仅修改处理逻辑，还必须确保数据在存储层被持久化（如segment_interactions()结果写入NPZ）；output transform是推理链的隐式过滤器，任何不在return dict中的字段都被静默丢弃；多阶段pipeline中CLI参数必须显式传递给每个下游阶段，不能依赖隐式共享。「单元测试通过 ≠ E2E正确」
多物体机器人操作任务中target_object必须作为一等公民在detector/injector/validator三阶段全程透传；objects[0]是字典插入序第一个物体，在多物体场景语义完全错误且不会报错，导致所有基于物体状态的判断系统性误判。graspable物体与fixture必须通过grasp_geoms字段区分，不能用纯距离/位置选择target
per-section独立处理（PCA/训练）产生不可比嵌入空间，这是架构级根本限制，无法通过归一化或后处理修复。唯一正确的zero-shot解决方案是预训练Foundation Model（共享权重）。Gene FM（scGPT 100%）显著优于Vision FM（UNI2 71%），因H&E图像存在跨样本batch effect而基因表达具有更强跨样本一致性
Flax NNX扩展已训练模型：继承（class Child(Parent)）是保持checkpoint路径兼容的唯一方案；组合（self.pi0 = Pi0(…)）会在所有父模块参数路径前加一层前缀，导致pytree merge完全失败。现有框架的冻结机制（freeze_filter+nnx.DiffState）通常已考虑扩展性，优先复用而非新建
面对架构层面的设计缺陷，「绕过」比「修补」更根本：phase detection的单物体假设是无法通过调参修复的设计缺陷，InteractionSegmenter直接绕过它而非打补丁，是更优雅的解法。不修补而是绕过错误的抽象层次

调试 (debugging)

状态机设计原则：完成事件必须同时做两件事——重置触发条件（清空current_prompt）和广播状态变更（_publish_state(‘idle’)）。只做其中一件会留下无限循环或上游感知失效的隐性bug。None检查必须先于任何属性访问（防御性编程）
诊断未知第三方库行为时，编写最小化实测脚本比静态代码分析更可靠高效（robosuite夹爪极性案例）；日志Counter统计比逐条阅读更有效定位系统性bug（1698次’gripper not closed’直接指向target_object歧义）；排查隐式过滤类bug应从数据流终点向上游追踪
实验命名约定必须严格对应实际实现；「pca_uni2_staig_fusion」实际使用UNI的命名不一致会导致长期理解错误，必须通过读取日志而非仅看实验名来确认实际配置。benchmark数据质量问题（分布不均衡、phase标注全为pre_reach）应在pipeline设计阶段就加入监控机制

工具 (tools)

subprocess.run(capture_output=True)会将stdin重定向到DEVNULL，调用可能有交互提示的CLI工具（npx等）必须传入–yes/-y，否则会无限挂起而非超时。capture_output=True是高隐蔽性挂起根因
Slurm HPC集群的pam_slurm_adopt策略在job结束时强制kill所有相关进程，SSH nohup无法绕过；长时间训练任务必须用sbatch提交正式job。MuJoCo物理仿真（enable_camera=False）是纯CPU任务，MUJOCO_GL=disabled可完全绕过OpenGL，workers数应精确匹配–cpus-per-task
JAX has_aux机制：nnx.value_and_grad支持has_aux=True，compute_loss返回(loss_array, aux_dict)后梯度只对loss_array计算，aux_dict透明携带监控指标；stop_gradient将aux loss严格限制于MLP参数，action/aux loss数值比例悬殊不代表训练失衡
Hugo最佳实践：.Title是识别特定section最稳定的字段（.Section和.RelPermalink大小写跨平台不一致）；静态目录名与content页面基础名相同会产生路径冲突；自动生成frontmatter不应使用系统当前时间作为date；可通过项目级layouts/partials/安全覆盖主题partial，无需fork主题
空间数据近邻查询：大规模点云（>10K点）应优先KD树（O(N log N)预处理），而非cdist（O(N²)内存）；在HD空间转录组（17K+细胞）场景差异可达OOM vs正常运行。单一真相来源（SSOT）原则：需要跨多文件引用的常量集合必须从唯一定义处import

领域知识 (domain)

Recovery Behavior Group（RBG）分组策略：将29个error subtype按motor primitive聚类为5组，同组内demo可交叉增广，MimicGen从10条源demo生成1000+条；将1740条朴素需求压缩至329条（节省81%）。这是可广泛应用于机器人recovery数据工程的范式
π₀.₅计算图特性：推理天然两步（VLM prefix forward→action expert denoising），训练时Exp1-4可用teacher forcing合并为一次联合forward；from_hidden模式因conditioning依赖模型输出引入循环依赖，必须额外一次prefix-only forward。prefix_output的mean pooling比action expert的suffix_output更适合分类任务（编码全局状态理解）
LLM对学术轨迹分析的深度理解能力超预期：能自发识别’基础设施思维型研究者’、‘范式转变的技术前提’等高阶特征；why_not_before字段（从数据/算力/insight三维归因每项突破的历史前提）是研究者画像中价值最高的字段。会议奖项识别在当前LLM能力下ROI极低，应替换为外部数据源方案（精确标题匹配JSON库）

AI 使用备注

有效模式:

✓ 并行多agent代码审查（复用/质量/效率三维独立分析同一diff）：三个维度发现完全不重叠的问题集，并行执行节省时间
✓ 系统性代码追踪定位根因：从数据流终点向上游追踪，成功定位output transform静默丢弃bug、S2限速递归死循环等
✓ 主动超出任务边界的质量检查：在研究者画像分析中主动识别同名混淆（h-index与论文量比值异常、领域不可能跨度等），未在prompt中显式要求
✓ 学术轨迹分析达到学术评论级别：自发识别’基础设施思维型研究者’等高阶特征，why_not_before字段价值超预期
✓ 日志聚合统计定位系统性bug：Counter统计1698次’gripper not closed’直接指向target_object歧义根因，比逐条分析高效

局限性:

✗ 面对复杂系统问题时倾向定位孤立bug，缺乏从数据流全链路视角分析contract不一致的能力，需人类从架构层面指引
✗ 完成局部修复计划后缺乏主动的全局数据流验证，单元测试通过给了错误的「完成感」，多处遗漏（e05/e06/e09、target_pos传递、collect脚本未集成）需人类系统性审查发现
✗ 环境配置未预验证导致批量任务多轮全量失败（Agent子代理无Bash权限、conda激活失败、PYTHONPATH缺失、API密钥类型），应先单个任务验证再批量扩展
✗ 未能主动识别效率瓶颈：串行场景生成缓慢时仅设定等待而未提并行化；nohup SSH启动时未考虑Slurm job到期的资源隔离
✗ 对框架特定行为预判不足：未预见Flax NNX继承vs组合对checkpoint路径的影响；未预见JAX/NNX TrainConfig机制可直接复用
✗ 不了解工具最新功能（effortLevel: max被告知才知道），对快速迭代的AI工具生态存在知识滞后

下周展望

下周核心优先级：(1) Error Recovery Benchmark收尾——修复three_piece_assembly（get_target_object和InteractionSegmenter均改为_get_graspable_objects()优先+回退全部对象），目标将该任务subtypes从4恢复到20+；补全collect脚本调用segment_interactions()使分段数据持久化到NPZ；(2) π₀.₅训练重启——以sbatch提交Pi0.5-base LoRA六任务合并微调训练，补全pick_place数据生成（2000条D0），监控Exp1-4与Exp5-9的action_loss/task_loss曲线对比；(3) MIHD研究推进——基于本周确立的scGPT零样本优势启动跨切片分析论文写作，整合Harmony对齐结果（batch_entropy 0.52）作为baseline；(4) Research Profiler第三版——实现论文标题搜索支持（本周已规划但未落地），替换会议奖项识别为外部Best Paper JSON数据库方案；(5) 基础设施稳定化——将已完成的统一staging架构推广至research/summarize/benchmark所有工具，验证sync.py全类别同步正常

Token 用量统计

每日费用趋势

日期	Token (百万)	费用 ($)
2026-03-16	49.5	38.47
2026-03-17	19.3	14.89
2026-03-18	78.1	51.97
2026-03-20	91.3	61.62
2026-03-21	49.6	32.48
2026-03-22	86.3	58.70
unknown	117.1	130.01

峰值日: unknown — $130.01 / 117.1M tokens

Claude Code

指标	数值
总 Token	459,397,404
输入 Token	441,822
输出 Token	1,189,117
Cache 创建	44,180,748
Cache 读取	413,585,717
总费用	$370.34

模型使用分布

模型	费用 ($)	输入 Token	输出 Token
claude-opus-4-6	264.59	197,835	588,231
claude-sonnet-4-6	83.51	17,991	147,871
claude-haiku-4-5-20251001	22.24	225,996	453,015

Codex

指标	数值
总 Token	31,722,763
输入 Token	31,481,309
输出 Token	241,454
推理 Token	107,479
Cache 读取	28,673,408
总费用	$17.80

模型使用分布

模型	费用 ($)	输入 Token	输出 Token	推理 Token
gpt-5.4	17.81	31,481,309	241,454	107,479

周报 — 2026-W12 (2026-03-16 ~ 2026-03-22)#

本周概览#

项目进展#

Error Recovery Benchmark (5 天活跃) — 🔄 active#

MIHD空间转录组 (4 天活跃) — 🔄 active#

π₀.₅ / robobrain_pi (4 天活跃) — 🔄 active#

gadget工具链（Research Profiler + summarize + website） (4 天活跃) — 🔄 active#

CalendarPro (2 天活跃) — 🔄 active#

VLA评估辅助工具 / CALVIN格式转换 (2 天活跃) — ⏸️ paused#

关键任务#

问题与解决方案#

1. per-section PCA/STAIG产生不可比嵌入空间，跨切片检索14组合中10组SL@50=0，normalize无法修复 [MIHD空间转录组] (2026-03-16)#

2. CompositeBodyObject在env.reset()时散架（lid悬浮、base偏移），但HDF5回放时正常（set_sim_state_flat覆盖body位置掩盖了问题） [Error Recovery Benchmark] (2026-03-16)#

3. Semantic Scholar将多位同名研究者论文错误合并，Pieter Abbeel等著名教授被匹配到h=4的同名人，h-index统计严重失真 [Research Profiler] (2026-03-16)#

4. vla_infer.py任务完成后未清空current_prompt，下一循环chunk_count仍≥5且模型分数仍高，立即再次触发done消息，无限循环汇报完成 [robobrain_pi] (2026-03-17)#

5. π₀.₅ Pi0WithCompletionHead用组合方式导致所有父模块参数路径多了pi0/前缀，pytree merge抛出'2 children vs 1 child’ ValueError，checkpoint完全无法加载 [π₀.₅] (2026-03-18)#

6. RobotwinOutputs.__call__只返回{actions}字段，静默丢弃manip_progress，模型即使正确预测progress字段，外部也永远无法获取，eval txt文件始终为空 [π₀.₅] (2026-03-18)#

7. CalendarPro用户批量汇报任务状态时系统返回’我不太确定’而非处理请求 [CalendarPro] (2026-03-18)#

8. MIHD all_aligned模式下–alignment参数未注入evaluate阶段，EvaluationJob.alignment始终为None，Harmony对齐结果被完全忽略，对齐功能实际失效 [MIHD空间转录组] (2026-03-18)#

9. drop_in_transit_D0仅生成极少有效场景，min_hold_height=0.85过低，物体在桌面（z≈0.88）被误判为空中持有，80%机会为假阳性 [Error Recovery Benchmark] (2026-03-20)#

10. python summarize/daily_summary.py永久卡在@ccusage/codex步骤，无输出无报错 [gadget] (2026-03-21)#

11. threading/pick_place等多物体任务中phase detection系统性失效，threading全部帧标记为pre_reach，导致12/13个skill无法找到opportunity [Error Recovery Benchmark] (2026-03-21)#

12. Panda机械臂夹爪action极性与代码假设相反：Panda需要action=+1闭合，硬编码-1实际在打开夹爪，导致coffee/stack等所有注入失败 [Error Recovery Benchmark] (2026-03-22)#

13. drop_with_interaction在全部任务生成0 scenes：原实现只施加1-3cm偏移后放手，物体间距10-20cm根本不会碰到邻居 [Error Recovery Benchmark] (2026-03-22)#

学习收获#

架构 (architecture)#

调试 (debugging)#

工具 (tools)#

领域知识 (domain)#

AI 使用备注#

下周展望#

Token 用量统计#

每日费用趋势#

Claude Code#

模型使用分布#

Codex#

模型使用分布#

周报 — 2026-W12 (2026-03-16 ~ 2026-03-22)

本周概览

项目进展

Error Recovery Benchmark (5 天活跃) — 🔄 active

MIHD空间转录组 (4 天活跃) — 🔄 active

π₀.₅ / robobrain_pi (4 天活跃) — 🔄 active

gadget工具链（Research Profiler + summarize + website） (4 天活跃) — 🔄 active

CalendarPro (2 天活跃) — 🔄 active

VLA评估辅助工具 / CALVIN格式转换 (2 天活跃) — ⏸️ paused

关键任务

问题与解决方案

1. per-section PCA/STAIG产生不可比嵌入空间，跨切片检索14组合中10组SL@50=0，normalize无法修复 [MIHD空间转录组] (2026-03-16)

2. CompositeBodyObject在env.reset()时散架（lid悬浮、base偏移），但HDF5回放时正常（set_sim_state_flat覆盖body位置掩盖了问题） [Error Recovery Benchmark] (2026-03-16)

3. Semantic Scholar将多位同名研究者论文错误合并，Pieter Abbeel等著名教授被匹配到h=4的同名人，h-index统计严重失真 [Research Profiler] (2026-03-16)

4. vla_infer.py任务完成后未清空current_prompt，下一循环chunk_count仍≥5且模型分数仍高，立即再次触发done消息，无限循环汇报完成 [robobrain_pi] (2026-03-17)

5. π₀.₅ Pi0WithCompletionHead用组合方式导致所有父模块参数路径多了pi0/前缀，pytree merge抛出'2 children vs 1 child’ ValueError，checkpoint完全无法加载 [π₀.₅] (2026-03-18)

6. RobotwinOutputs.call只返回{actions}字段，静默丢弃manip_progress，模型即使正确预测progress字段，外部也永远无法获取，eval txt文件始终为空 [π₀.₅] (2026-03-18)

7. CalendarPro用户批量汇报任务状态时系统返回’我不太确定’而非处理请求 [CalendarPro] (2026-03-18)

8. MIHD all_aligned模式下–alignment参数未注入evaluate阶段，EvaluationJob.alignment始终为None，Harmony对齐结果被完全忽略，对齐功能实际失效 [MIHD空间转录组] (2026-03-18)

9. drop_in_transit_D0仅生成极少有效场景，min_hold_height=0.85过低，物体在桌面（z≈0.88）被误判为空中持有，80%机会为假阳性 [Error Recovery Benchmark] (2026-03-20)

10. python summarize/daily_summary.py永久卡在@ccusage/codex步骤，无输出无报错 [gadget] (2026-03-21)

11. threading/pick_place等多物体任务中phase detection系统性失效，threading全部帧标记为pre_reach，导致12/13个skill无法找到opportunity [Error Recovery Benchmark] (2026-03-21)

12. Panda机械臂夹爪action极性与代码假设相反：Panda需要action=+1闭合，硬编码-1实际在打开夹爪，导致coffee/stack等所有注入失败 [Error Recovery Benchmark] (2026-03-22)

13. drop_with_interaction在全部任务生成0 scenes：原实现只施加1-3cm偏移后放手，物体间距10-20cm根本不会碰到邻居 [Error Recovery Benchmark] (2026-03-22)

学习收获

架构 (architecture)

调试 (debugging)

工具 (tools)

领域知识 (domain)

AI 使用备注

下周展望

Token 用量统计

每日费用趋势

Claude Code

模型使用分布

Codex

模型使用分布