周报 — 2026-W10 (2026-03-02 ~ 2026-03-08)

本周跨DCC、天河超算、TzJsDesktop三台设备,并行推进空间转录组研究、机器人操作训练/评估、AI个人助理、论文管理工具四条主线。MIHD项目完成scGPT+UNI2全套融合实验(QFormer avg ARI=0.370,+117% vs scGPT-only)并确立zero-shot跨样本评估框架;Pi0.5 LoRA精调以整体58.9%成功率全面超越BC-RNN(0%),定量验证VLA模型优势;CalendarPro完成从被动响应到主动决策的架构跃升(321个测试全绿),同时暴露并修复BackgroundCoordinator从未启动等关键集成缺陷;gadget Research Scout从零构建到生产就绪,单日内实现两阶段LLM论文评估管线并首次产出3条研究方向建议;error_recovery_benchmark完成65个symlink全量清理和错误场景MP4可视化基础设施建设。本周最重要的工程经验是:测试通过≠系统可用(集成层必须单独验证),以及设计Agentic系统前应主动研究成熟同类项目的架构模式。

本周概览

指标 数值
日期范围 2026-03-02 ~ 2026-03-08
活跃天数 7 / 7
总对话数 31
涉及项目 18
完成任务 51
进行中任务 11
总 Token 436,851,629
总费用 $306.71
Claude Code Token 424,137,873
Claude Code 费用 $302.72
Codex Token 12,713,756
Codex 费用 $3.99
日均费用 $43.82

项目进展

error_recovery_benchmark(机器人错误恢复基准) (5 天活跃) — 🔄 active

完成项:

  • BC-RNN全量评估(5任务×50 rollout),通过代码追踪定位SR=0%根因为observation key bug,而非模型能力问题
  • 项目全景总结.md系统性对齐(M14评估数据726 ep→6474 ep,Pipeline图补充VLA Rollout注入和自然失败捕获两条路径)
  • 65个symlink全量清理(4路并行Agent覆盖9阶段),所有import路径迁移至error_benchmark.framework,127单元测试全绿
  • coffee/stack/three_piece_assembly三组任务错误场景MP4可视化,3块GPU并行产出9+支视频
  • pre-error轨迹回放存储层实现(action_history + initial_state入NPZ),为错误前5秒回放奠定基础

阻塞项:

  • ⚠️ pre-error可视化回放逻辑因context耗尽未完成
  • ⚠️ BC-RNN observation key bug的正式修复尚未实施
  • ⚠️ three_piece_assembly injection模式有效场景为零(底座物理过稳),需调整冲量力参数

MIHD(多模态空间转录组融合) (4 天活跃) — 🔄 active

完成项:

  • 完成scGPT+UNI2五种融合策略全套实验,QFormer avg ARI=0.370(+117%),LLaVA-MLP次之(0.316),均显著优于scGPT-only(0.170)
  • 三层代码追踪发现STAIG实际不使用gene encoder输出(使用原始HVG作为GCN输入),改进应从GNN结构入手
  • 实现跨样本RM-IDEAL benchmark脚本(781行),添加零嵌入运行时检测,完成151673↔151508双向7层评估
  • Layer_1/5表现优异(Spearman 0.42-0.66),中间层(Layer_3/6)出现负相关,揭示过渡层的嵌入空间局限性
  • 确立zero-shot差异化叙事框架(与STAIG训练依赖方法形成本质对比),完成周一汇报准备
  • 分析QueST论文跨样本评估方法(WWL Graph Kernel构造pseudo ground truth),撰写Cross-Sample Patch Query方法文档(459行)

Pi0.5 LoRA训练与评估(天河集群) (4 天活跃) — 🔄 active

完成项:

  • BatchedVLAServer并行评估9任务(44分钟),整体SR=58.9%(Stack_D0 100%、Stack_D1 95%、StackThree 80-90%)
  • 三层证据确认所有训练正确使用pi05_base初始化权重(config.py weight_loader + 训练日志 + 对比组)
  • 修复eval pipeline多个关键问题:websocket ping_timeout=None(JAX JIT编译超时)、JIT并发崩溃(错峰启动)
  • 定量确认VLA推理GPU利用率10%根本原因为action chunking,多client并发反比串行慢24%
  • 双节点(an49/an53)9任务续训恢复,从最高step 18000无损继续

阻塞项:

  • ⚠️ BatchedVLAServer批量推理优化方案设计完成但未落地
  • ⚠️ 演示视频渲染待确认最终评估结果后执行

CalendarPro(个人智能管家) (3 天活跃) — 🔄 active

完成项:

  • 参考OpenClaw/GSD架构模式完成整体设计,实现16个新服务文件(GapAnalyzer/AutonomousExecutor/SituationMonitor等),321个测试全绿
  • 修复BackgroundCoordinator.start_all()从未被调用的关键集成缺陷(所有后台服务从未在生产中运行)
  • 补全9个IntentType的Discord Bot Handler,消除意图路由断层
  • 消除16处静默异常(except: pass),删除executor.py死代码并实现真实分发逻辑
  • 452条utterances外部化至JSON,实现UtteranceAugmenter从mismatch日志自动学习(每日2AM定时增广)
  • 编写1674行中文完整使用教程,完成Discord bot上下文感知bug三处根因定位

阻塞项:

  • ⚠️ 上下文感知bug修复方案已设计(general_keywords精简 + LLM传对话历史 + 语义路由重设)但未实施

Phoenix/FLARE/zhaoganlong框架(机器人训练基础设施) (3 天活跃) — 🔄 active

完成项:

  • zhaoganlong 9任务数据准备4步流水线完整执行(5Hz标注→speed dataset→LLaVA JSON 103万条→RGB渲染约100万张)
  • Diffusion Policy(GPU 0单卡)和Pi0.5(GPU 2+3 FSDP)在an53成功启动训练
  • Phoenix/FLARE代码库从混合库分离为独立项目,155GB降至37MB(符号链接共享大型数据集)
  • 开发6个全任务训练脚本套件,补充3个缺失OpenPI warmup配置
  • 修复Openpi-moe norm_stats/prev_actions归一化隐患(apply_tree静默跳过机制)

阻塞项:

  • ⚠️ LLaVA MPM训练阻塞:集群无网络访问,缺少liuhaotian/llava-v1.5-7b基础模型,待确认cpx2用户本地副本完整性

gadget/Research Scout(论文管理系统) (2 天活跃) — ✅ completed

完成项:

  • 从零实现Research Scout完整功能(~2650行):6命令CLI、arXiv多源搜索、两阶段LLM评估Pipeline
  • 首次完整验证运行,产出3条可执行研究方向(生成式数字孪生场景基准、人类视频恢复原语、文档引导操作)
  • 实现_resolve_param()四层优先级配置、会议论文专项搜索(arXiv comment字段)、作者搜索(au:查询)
  • 实现搜索去重早停(连续5篇已知论文阈值),init –from-overview自动从已有文档提取项目信息

VLA-RoboTwin(机器人操作数据采集) (2 天活跃) — 🔄 active

完成项:

  • 修复RoboTwin在无头Docker环境的Vulkan渲染失败(从官方.run包提取用户态GL库→三环境变量注入,无需root)
  • 为10个机器人操作任务实现关键区域标注系统,发现critical_region全为0后改为记录原始ee_target_distances

阻塞项:

  • ⚠️ critical_region阈值需基于实际距离分布数据校准后重新采集(τ=0.10m纯估算偏小)

关键任务

  • CalendarPro个人管家系统完整设计规划与Phase 1-3实现 (2026-03-05) — 参考OpenClaw/GSD架构模式设计,实现16个新服务,321个测试全绿;发现并修复BackgroundCoordinator从未启动的关键集成缺陷
  • Research Scout两阶段论文评估Pipeline完整实现与验证 (2026-03-07) — Stage 1轻量筛选→Stage 2深度分析(上限20篇),首次运行产出3条可执行研究方向,支持会议搜索、作者搜索、四层参数配置
  • MIHD scGPT+UNI2全套融合实验(5种策略) (2026-03-02) — QFormer avg ARI=0.370(+117% vs scGPT-only),确认STAIG不使用gene encoder输出,确立zero-shot叙事框架
  • Pi0.5 LoRA批量评估(9任务,整体SR=58.9%) (2026-03-03) — BatchedVLAServer 44分钟完成9任务评估,Stack类任务近乎完美(95-100%),BC-RNN全量0%,定量证明VLA优势
  • Pi0.5 LoRA base model核查与9任务续训恢复 (2026-03-03) — 三层证据确认两侧均使用pi05_base,从最高step 18000无损恢复续训;阻止误启动的fresh-start覆盖已有checkpoint
  • MIHD跨样本RM-IDEAL benchmark实现(781行) (2026-03-03) — 双向跨section评估,添加零嵌入运行时检测与自动重算,Layer_3 Spearman r≈0.44,建立可复用评估框架
  • BC-RNN正常任务SR=0%根因定位 (2026-03-04) — 代码探索定位baseline_accuracy评估中object观测键bug,明确区分Normal SR(被bug拦截)vs Error Recovery SR(benchmark核心论点)
  • Openpi-moe norm_stats/prev_actions归一化链路修复 (2026-03-05) — 发现apply_tree(strict=False)静默跳过缺失键,VAE中已归一化/未归一化动作拼接的scale mismatch隐患;修改compute_norm_stats.py动态检测并写入统计量
  • CalendarPro Utterance外部化与UtteranceAugmenter自动增广 (2026-03-05) — 452条硬编码utterances迁移至JSON,实现从mismatch日志自动学习的在线增广机制,每日2AM定时运行
  • 修复RoboTwin无头Docker Vulkan渲染失败 (2026-03-06) — 从NVIDIA官方535.104.12 .run包提取用户态GL库,通过VK_ICD_FILENAMES/LD_LIBRARY_PATH注入,无需root权限
  • error_recovery_benchmark 65个symlink全量清理与代码迁移 (2026-03-08) — 4路并行Agent覆盖9阶段迁移,所有路径从error_framework迁移至error_benchmark.framework,127单元测试全绿
  • 🔄 VLA-RoboTwin关键区域标注系统实现(10任务) (2026-03-08) — 实现critical_region逐帧标注;发现阈值τ=0.10m估算偏小后改为记录原始ee_target_distances以数据驱动校准
  • 🔄 VLA eval pipeline GPU利用率优化方案设计 (2026-03-02) — 确认action chunking为GPU利用率仅10%的根本原因,设计BatchedVLAServer批量inference方案,方案未最终落地
  • 🔄 CalendarPro Discord bot上下文感知bug根因分析与修复规格 (2026-03-06) — 定位三处根因:general_keywords预检截断跟进消息、_llm_classify不传对话历史、GENERAL路由包含确认词。修复方案已设计待实施
  • 🔄 zhaoganlong 9任务数据准备流水线与双路训练启动 (2026-03-05) — 4步流水线完整执行,Diffusion Policy和Pi0.5 FSDP成功启动;LLaVA MPM因缺少基础模型阻塞
  • 🔄 pre-error轨迹回放存储层开发 (2026-03-08) — rollout_generator添加action_history收集与initial_state保存,NPZ扩展存储,可视化脚本回放逻辑因context耗尽未完成

问题与解决方案

1. STAIG two-stage实际完全忽略gene encoder输出,使用原始HVG作为GCN输入,导致scGPT+UNI2+STAIG≡PCA+UNI2+STAIG [MIHD] (2026-03-02)

解决方案: 三层代码追踪(Fusion.py→runner.py→STAIGTrainer.py)确认架构事实:gene encoder与GNN训练解耦,改进应从GNN结构入手而非替换gene encoder

2. Pi0.5 eval client报keepalive ping timeout,SR全为0%;多client并发反比串行慢24% [Pi0.5/VLA评估] (2026-03-02)

解决方案: connect()中加入ping_timeout=None禁用20s超时(JAX JIT编译30-60s超过默认值);确认VLA推理严格串行,多client无效,正确方案为BatchedVLAServer批量inference

3. STAIG fusion嵌入在某些section上训练坍塌(全为零),导致跨样本评估Spearman r为NaN [MIHD] (2026-03-03)

解决方案: 在load_fused_embeddings()中添加零嵌入检测(norm<1e-6),自动触发–recompute_fusion重训练STAIG(约50秒)

4. Pi0.5 LoRA训练配置名含’pi05_libero’,用户怀疑初始化权重来自libero而非pi05_base [Pi0.5/VLA训练] (2026-03-03)

解决方案: 三层证据(config.py weight_loader字段 + 训练日志Restoring checkpoint路径 + 对比组配置)确认两侧均正确使用pi05_base;配置名描述数据加载配置,weight_loader才是唯一依据

5. BC-RNN在所有正常任务上SR=0%,与training rollout完全不符 [error_recovery_benchmark] (2026-03-04)

解决方案: 代码探索定位baseline_accuracy评估中object观测键bug,策略接收空观测;M14中接近0% Error SR是benchmark核心论点(现有策略缺乏错误恢复能力),与Normal SR构成对比才能说明问题

6. Openpi-moe训练特征norm_stats.json缺少prev_actions键但不报错;VAE中hist_actions(未归一化)与actions(已归一化)直接拼接造成scale mismatch [zhaoganlong/openpi] (2026-03-05)

解决方案: 修改compute_norm_stats.py动态检测prev_actions并写入统计量;根本机制是apply_tree(strict=False)对缺失键静默跳过,新增训练特征必须强制同步归一化脚本

7. CalendarPro所有后台服务从未在生产环境中运行,321个测试全通过却未发现此集成缺陷 [CalendarPro] (2026-03-05)

解决方案: 在discord_bot.py的on_ready()中添加await coordinator.start_all();根本原因是注册模式与生命周期管理解耦,单元测试无法发现集成层静默失效

8. 无头Docker容器SAPIEN报Render Error,bare except隐藏真实异常,apt驱动版本与内核模块不匹配 [VLA-RoboTwin] (2026-03-06)

解决方案: 暴露真实异常→确认NVIDIA Vulkan ICD缺失→从官方535.104.12 .run包提取与内核版本严格匹配的用户态GL库→通过VK_ICD_FILENAMES/LD_LIBRARY_PATH环境变量注入(无需root)

9. Research Scout初版对全量论文(50篇)单阶段深度评估,token浪费严重且低相关论文占用大量分析资源 [gadget/Research Scout] (2026-03-07)

解决方案: 重构为Stage 1轻量筛选→Stage 2深度分析(高相关论文上限20篇)两阶段pipeline,来自真实研究者阅读习惯

10. error_recovery_benchmark 65个symlink在代码迁移中造成间接层,symlink移除后sys.path父链深度需重新计算 [error_recovery_benchmark] (2026-03-08)

解决方案: 4路并行Agent按9阶段计划无重叠清理所有symlink,主线程处理Makefile/文档;主动修复2个计划外sys.path深度错误(Path.resolve()不再经过symlink折叠)

11. VLA-RoboTwin关键区域标注critical_region采集数据全为0,τ=0.10m阈值纯基于估算与实际工作空间尺度不匹配 [VLA-RoboTwin] (2026-03-08)

解决方案: 不直接调参,改为记录原始ee_target_distances(每任务4-8个距离变量),先分析真实数据分布再数据驱动校准阈值

学习收获

架构 (architecture)

  • 大规模实现后的三项标准检查:(1) 新服务是否接入启动链路;(2) 跨层(IntentType→路由→Handler→服务)是否一致更新;(3) 静默异常(except: pass)是否屏蔽运行时错误。测试通过是必要条件而非充分条件,集成层缺陷只能通过端到端验证发现
  • 设计Agentic系统前应主动研究成熟同类项目——OpenClaw的EventBus/CronScheduler/Plugin注册模式和GSD的STATE.md持久记忆/多Agent上下文隔离是高度可复用的架构模式;相关修复应合并为单次改动而非分阶段实施,避免代码返工
  • apply_tree(strict=False)是ML训练管道的隐性危险:新增需归一化的训练特征若忘记同步更新norm_stats计算脚本,会导致无声的scale mismatch影响训练质量;AI系统的mismatch记录是免费标注数据,自动回流为utterance增广可实现低成本持续自我改进
  • 两阶段信息处理(粗筛+精评)比单阶段全量处理在token效率和分析深度上均更优:Stage 1关注问题相关性/新颖性/来源权威性(30秒判断),Stage 2聚焦驱动效果的关键insight而非工程细节,并批判性审视作者选择的baseline和指标

调试 (debugging)

  • VLA推理GPU利用率低的根因分析:action chunking使推理调用稀疏化(每trial约8次×2.5s/200s总时间=10%);多client并发不能提升严格串行推理吞吐量,正确优化方向是BatchedVLAServer批量inference + 多GPU独立部署
  • BC-RNN SR=0%的诊断路径:先检查observation键名/维度是否与训练一致,再通过历史训练日志区分「评估bug」vs「训练本就失败」,避免误诊为模型能力问题;bare except是渲染/仿真框架中最常见的调试障碍,应立即改为except Exception: traceback.print_exc()
  • 参数设定应实验驱动而非直觉估算:先采集少量数据验证实际分布再设定阈值;关键参数(如距离阈值、驱动版本)估算错误会导致整批数据无效或安装失败

工具 (tools)

  • 4路并行子Agent + 主线程处理不可并行化部分,可将65 symlink大规模代码迁移控制在单session内完成;关键是按文件集合无重叠划分agent任务边界;BatchedVLAServer并行评估(44分钟/9任务)比串行节省约80%时间
  • 无头HPC节点修复Vulkan/EGL渲染的标准方案:从NVIDIA官方.run包提取与内核版本严格匹配的用户态GL库(无需安装内核模块),通过VK_ICD_FILENAMES/__EGL_VENDOR_LIBRARY_FILENAMES/LD_LIBRARY_PATH注入,无需root;EGL/Vulkan设备配置与CUDA独立,CUDA正常不代表Vulkan可用
  • arXiv comment字段是事实上的会议录用公告区,通过all:“CVPR 2025"全文搜索+comment后过滤可实现会议论文专项搜索;au:“Author Name” AND (kw1 OR kw2)是系统追踪特定研究者最新工作的有效方式

领域知识 (domain)

  • 学习式融合(QFormer)显著优于简单拼接:scGPT 512d表示本身有价值但需非线性投影才能充分激活(+117% vs scGPT-only);STAIG的gene encoder与GNN训练解耦,文档与代码差异只能通过代码追踪发现;zero-shot能力是与训练依赖方法的核心差异化竞争点
  • Pi0.5 LoRA精调在Stack类任务上可达95-100%(整体58.9%),BC-RNN全量失败(0%);任务复杂度(多步骤、精细操作)是VLA vs 传统序列建模成功率差距的主要决定因素;Pi0.5 LoRA模式也需要至少2张80GB GPU(FSDP是必要前提)

AI 使用备注

有效模式:

  • ✓ 多层代码追踪(3-4层调用栈)精确定位STAIG架构事实,给出代码行级证据,比文档分析更可靠
  • ✓ 4路并行Agent按文件集合无重叠划分任务,将65 symlink大规模迁移控制在单session内完成
  • ✓ sacct step时间戳系统性分析正确排除AI操作导致NODE_FAIL的误判,建立操作因果关系证据链
  • ✓ 通过AskUserQuestion主动澄清模糊需求(作者搜索是否需LLM评估),将产品需求精确转化为工程方案
  • ✓ 在三层证据系统性核查实验配置正确性(base model来源)上表现优于直觉判断

局限性:

  • ✗ 实现新功能后未验证是否接入系统启动链路,只依赖单元测试而遗漏集成层检查(BackgroundCoordinator未启动)
  • ✗ 设计Agentic系统时未主动提出研究业界成熟实现,需用户明确指出后才参考OpenClaw/GSD架构模式
  • ✗ 参数设定缺乏实验验证环节(τ=0.10m纯估算),导致整批critical_region标签数据全为0
  • ✗ 研究贡献描述倾向技术细节而非竞争优势,zero-shot的差异化定位需用户明确指出
  • ✗ 初始任务编排倾向保守串行,未主动识别长时GPU任务+轻量可视化任务可并行执行的机会
  • ✗ 在资源密集型操作(GPU训练)前缺乏必要的resume/fresh-start意图确认,误启动fresh-start覆盖checkpoint

下周展望

下周核心优先级:1) CalendarPro上下文感知bug三处修复实施(精简general_keywords移除确认词/时间词 + _llm_classify传入最近3条对话历史 + 重设GENERAL路由utterances),完成系统从架构升级到实际可用的最后闭环;2) pre-error轨迹可视化回放逻辑补全(存储层已就绪,完成可视化脚本中的初始状态回放与帧渲染部分);3) zhaoganlong训练结果监控与评估:Diffusion Policy预计2-4天完成,Pi0.5 FSDP还需约31小时,训练完成后立即启动批量eval;4) LLaVA MPM训练解锁:确认cpx2用户本地llava-v1.5-7b完整性,通过–model_name_or_path指向本地路径启动训练;5) VLA-RoboTwin关键区域阈值校准:分析ee_target_distances实际分布后重新设定τ值并重新采集critical_region标签;6) BC-RNN observation key bug正式修复并重新运行正常任务评估;7) 演示视频渲染(Pi0.5高SR任务成功/失败对比)。Research Scout已生产就绪,可开始为MIHD、error_recovery_benchmark等活跃项目配置定期论文发现流程。

Token 用量统计

每日费用趋势

日期 Token (百万) 费用 ($)
2026-03-02 54.9 35.90
2026-03-03 66.4 40.55
2026-03-04 21.3 13.49
2026-03-05 92.5 61.12
2026-03-06 29.6 17.48
2026-03-07 108.1 91.99
2026-03-08 64.1 46.18

峰值日: 2026-03-07 — $91.99 / 108.1M tokens

Claude Code

指标 数值
总 Token 424,137,873
输入 Token 648,550
输出 Token 1,268,678
Cache 创建 30,062,586
Cache 读取 392,158,059
总费用 $302.72

模型使用分布

模型 费用 ($) 输入 Token 输出 Token
claude-opus-4-6 252.62 233,943 664,457
claude-sonnet-4-6 25.25 484 15,631
claude-haiku-4-5-20251001 24.84 414,123 588,590

Codex

指标 数值
总 Token 12,713,756
输入 Token 12,648,899
输出 Token 64,857
推理 Token 30,268
Cache 读取 12,095,872
总费用 $3.99

模型使用分布

模型 费用 ($) 输入 Token 输出 Token 推理 Token
gpt-5.3-codex 3.99 12,648,899 64,857 30,268