周报 — 2026-W10 (2026-03-02 ~ 2026-03-08)

本周跨DCC、天河超算、TzJsDesktop三台设备，并行推进空间转录组研究、机器人操作训练/评估、AI个人助理、论文管理工具四条主线。MIHD项目完成scGPT+UNI2全套融合实验（QFormer avg ARI=0.370，+117% vs scGPT-only）并确立zero-shot跨样本评估框架；Pi0.5 LoRA精调以整体58.9%成功率全面超越BC-RNN（0%），定量验证VLA模型优势；CalendarPro完成从被动响应到主动决策的架构跃升（321个测试全绿），同时暴露并修复BackgroundCoordinator从未启动等关键集成缺陷；gadget Research Scout从零构建到生产就绪，单日内实现两阶段LLM论文评估管线并首次产出3条研究方向建议；error_recovery_benchmark完成65个symlink全量清理和错误场景MP4可视化基础设施建设。本周最重要的工程经验是：测试通过≠系统可用（集成层必须单独验证），以及设计Agentic系统前应主动研究成熟同类项目的架构模式。

本周概览

指标	数值
日期范围	2026-03-02 ~ 2026-03-08
活跃天数	7 / 7
总对话数	31
涉及项目	18
完成任务	51
进行中任务	11
总 Token	436,851,629
总费用	$306.71
Claude Code Token	424,137,873
Claude Code 费用	$302.72
Codex Token	12,713,756
Codex 费用	$3.99
日均费用	$43.82

项目进展

error_recovery_benchmark（机器人错误恢复基准） (5 天活跃) — 🔄 active

完成项:

BC-RNN全量评估（5任务×50 rollout），通过代码追踪定位SR=0%根因为observation key bug，而非模型能力问题
项目全景总结.md系统性对齐（M14评估数据726 ep→6474 ep，Pipeline图补充VLA Rollout注入和自然失败捕获两条路径）
65个symlink全量清理（4路并行Agent覆盖9阶段），所有import路径迁移至error_benchmark.framework，127单元测试全绿
coffee/stack/three_piece_assembly三组任务错误场景MP4可视化，3块GPU并行产出9+支视频
pre-error轨迹回放存储层实现（action_history + initial_state入NPZ），为错误前5秒回放奠定基础

阻塞项:

⚠️ pre-error可视化回放逻辑因context耗尽未完成
⚠️ BC-RNN observation key bug的正式修复尚未实施
⚠️ three_piece_assembly injection模式有效场景为零（底座物理过稳），需调整冲量力参数

MIHD（多模态空间转录组融合） (4 天活跃) — 🔄 active

完成项:

完成scGPT+UNI2五种融合策略全套实验，QFormer avg ARI=0.370（+117%），LLaVA-MLP次之（0.316），均显著优于scGPT-only（0.170）
三层代码追踪发现STAIG实际不使用gene encoder输出（使用原始HVG作为GCN输入），改进应从GNN结构入手
实现跨样本RM-IDEAL benchmark脚本（781行），添加零嵌入运行时检测，完成151673↔151508双向7层评估
Layer_1/5表现优异（Spearman 0.42-0.66），中间层（Layer_3/6）出现负相关，揭示过渡层的嵌入空间局限性
确立zero-shot差异化叙事框架（与STAIG训练依赖方法形成本质对比），完成周一汇报准备
分析QueST论文跨样本评估方法（WWL Graph Kernel构造pseudo ground truth），撰写Cross-Sample Patch Query方法文档（459行）

Pi0.5 LoRA训练与评估（天河集群） (4 天活跃) — 🔄 active

完成项:

BatchedVLAServer并行评估9任务（44分钟），整体SR=58.9%（Stack_D0 100%、Stack_D1 95%、StackThree 80-90%）
三层证据确认所有训练正确使用pi05_base初始化权重（config.py weight_loader + 训练日志 + 对比组）
修复eval pipeline多个关键问题：websocket ping_timeout=None（JAX JIT编译超时）、JIT并发崩溃（错峰启动）
定量确认VLA推理GPU利用率10%根本原因为action chunking，多client并发反比串行慢24%
双节点（an49/an53）9任务续训恢复，从最高step 18000无损继续

阻塞项:

⚠️ BatchedVLAServer批量推理优化方案设计完成但未落地
⚠️ 演示视频渲染待确认最终评估结果后执行

CalendarPro（个人智能管家） (3 天活跃) — 🔄 active

完成项:

参考OpenClaw/GSD架构模式完成整体设计，实现16个新服务文件（GapAnalyzer/AutonomousExecutor/SituationMonitor等），321个测试全绿
修复BackgroundCoordinator.start_all()从未被调用的关键集成缺陷（所有后台服务从未在生产中运行）
补全9个IntentType的Discord Bot Handler，消除意图路由断层
消除16处静默异常（except: pass），删除executor.py死代码并实现真实分发逻辑
452条utterances外部化至JSON，实现UtteranceAugmenter从mismatch日志自动学习（每日2AM定时增广）
编写1674行中文完整使用教程，完成Discord bot上下文感知bug三处根因定位

阻塞项:

⚠️ 上下文感知bug修复方案已设计（general_keywords精简 + LLM传对话历史 + 语义路由重设）但未实施

Phoenix/FLARE/zhaoganlong框架（机器人训练基础设施） (3 天活跃) — 🔄 active

完成项:

zhaoganlong 9任务数据准备4步流水线完整执行（5Hz标注→speed dataset→LLaVA JSON 103万条→RGB渲染约100万张）
Diffusion Policy（GPU 0单卡）和Pi0.5（GPU 2+3 FSDP）在an53成功启动训练
Phoenix/FLARE代码库从混合库分离为独立项目，155GB降至37MB（符号链接共享大型数据集）
开发6个全任务训练脚本套件，补充3个缺失OpenPI warmup配置
修复Openpi-moe norm_stats/prev_actions归一化隐患（apply_tree静默跳过机制）

阻塞项:

⚠️ LLaVA MPM训练阻塞：集群无网络访问，缺少liuhaotian/llava-v1.5-7b基础模型，待确认cpx2用户本地副本完整性

gadget/Research Scout（论文管理系统） (2 天活跃) — ✅ completed

完成项:

从零实现Research Scout完整功能（~2650行）：6命令CLI、arXiv多源搜索、两阶段LLM评估Pipeline
首次完整验证运行，产出3条可执行研究方向（生成式数字孪生场景基准、人类视频恢复原语、文档引导操作）
实现_resolve_param()四层优先级配置、会议论文专项搜索（arXiv comment字段）、作者搜索（au:查询）
实现搜索去重早停（连续5篇已知论文阈值），init –from-overview自动从已有文档提取项目信息

VLA-RoboTwin（机器人操作数据采集） (2 天活跃) — 🔄 active

完成项:

修复RoboTwin在无头Docker环境的Vulkan渲染失败（从官方.run包提取用户态GL库→三环境变量注入，无需root）
为10个机器人操作任务实现关键区域标注系统，发现critical_region全为0后改为记录原始ee_target_distances

阻塞项:

⚠️ critical_region阈值需基于实际距离分布数据校准后重新采集（τ=0.10m纯估算偏小）

关键任务

✅ CalendarPro个人管家系统完整设计规划与Phase 1-3实现 (2026-03-05) — 参考OpenClaw/GSD架构模式设计，实现16个新服务，321个测试全绿；发现并修复BackgroundCoordinator从未启动的关键集成缺陷
✅ Research Scout两阶段论文评估Pipeline完整实现与验证 (2026-03-07) — Stage 1轻量筛选→Stage 2深度分析（上限20篇），首次运行产出3条可执行研究方向，支持会议搜索、作者搜索、四层参数配置
✅ MIHD scGPT+UNI2全套融合实验（5种策略） (2026-03-02) — QFormer avg ARI=0.370（+117% vs scGPT-only），确认STAIG不使用gene encoder输出，确立zero-shot叙事框架
✅ Pi0.5 LoRA批量评估（9任务，整体SR=58.9%） (2026-03-03) — BatchedVLAServer 44分钟完成9任务评估，Stack类任务近乎完美（95-100%），BC-RNN全量0%，定量证明VLA优势
✅ Pi0.5 LoRA base model核查与9任务续训恢复 (2026-03-03) — 三层证据确认两侧均使用pi05_base，从最高step 18000无损恢复续训；阻止误启动的fresh-start覆盖已有checkpoint
✅ MIHD跨样本RM-IDEAL benchmark实现（781行） (2026-03-03) — 双向跨section评估，添加零嵌入运行时检测与自动重算，Layer_3 Spearman r≈0.44，建立可复用评估框架
✅ BC-RNN正常任务SR=0%根因定位 (2026-03-04) — 代码探索定位baseline_accuracy评估中object观测键bug，明确区分Normal SR（被bug拦截）vs Error Recovery SR（benchmark核心论点）
✅ Openpi-moe norm_stats/prev_actions归一化链路修复 (2026-03-05) — 发现apply_tree(strict=False)静默跳过缺失键，VAE中已归一化/未归一化动作拼接的scale mismatch隐患；修改compute_norm_stats.py动态检测并写入统计量
✅ CalendarPro Utterance外部化与UtteranceAugmenter自动增广 (2026-03-05) — 452条硬编码utterances迁移至JSON，实现从mismatch日志自动学习的在线增广机制，每日2AM定时运行
✅ 修复RoboTwin无头Docker Vulkan渲染失败 (2026-03-06) — 从NVIDIA官方535.104.12 .run包提取用户态GL库，通过VK_ICD_FILENAMES/LD_LIBRARY_PATH注入，无需root权限
✅ error_recovery_benchmark 65个symlink全量清理与代码迁移 (2026-03-08) — 4路并行Agent覆盖9阶段迁移，所有路径从error_framework迁移至error_benchmark.framework，127单元测试全绿
🔄 VLA-RoboTwin关键区域标注系统实现（10任务） (2026-03-08) — 实现critical_region逐帧标注；发现阈值τ=0.10m估算偏小后改为记录原始ee_target_distances以数据驱动校准
🔄 VLA eval pipeline GPU利用率优化方案设计 (2026-03-02) — 确认action chunking为GPU利用率仅10%的根本原因，设计BatchedVLAServer批量inference方案，方案未最终落地
🔄 CalendarPro Discord bot上下文感知bug根因分析与修复规格 (2026-03-06) — 定位三处根因：general_keywords预检截断跟进消息、_llm_classify不传对话历史、GENERAL路由包含确认词。修复方案已设计待实施
🔄 zhaoganlong 9任务数据准备流水线与双路训练启动 (2026-03-05) — 4步流水线完整执行，Diffusion Policy和Pi0.5 FSDP成功启动；LLaVA MPM因缺少基础模型阻塞
🔄 pre-error轨迹回放存储层开发 (2026-03-08) — rollout_generator添加action_history收集与initial_state保存，NPZ扩展存储，可视化脚本回放逻辑因context耗尽未完成

问题与解决方案

1. STAIG two-stage实际完全忽略gene encoder输出，使用原始HVG作为GCN输入，导致scGPT+UNI2+STAIG≡PCA+UNI2+STAIG [MIHD] (2026-03-02)

解决方案: 三层代码追踪（Fusion.py→runner.py→STAIGTrainer.py）确认架构事实：gene encoder与GNN训练解耦，改进应从GNN结构入手而非替换gene encoder

2. Pi0.5 eval client报keepalive ping timeout，SR全为0%；多client并发反比串行慢24% [Pi0.5/VLA评估] (2026-03-02)

解决方案: connect()中加入ping_timeout=None禁用20s超时（JAX JIT编译30-60s超过默认值）；确认VLA推理严格串行，多client无效，正确方案为BatchedVLAServer批量inference

3. STAIG fusion嵌入在某些section上训练坍塌（全为零），导致跨样本评估Spearman r为NaN [MIHD] (2026-03-03)

解决方案: 在load_fused_embeddings()中添加零嵌入检测（norm<1e-6），自动触发–recompute_fusion重训练STAIG（约50秒）

4. Pi0.5 LoRA训练配置名含’pi05_libero’，用户怀疑初始化权重来自libero而非pi05_base [Pi0.5/VLA训练] (2026-03-03)

解决方案: 三层证据（config.py weight_loader字段 + 训练日志Restoring checkpoint路径 + 对比组配置）确认两侧均正确使用pi05_base；配置名描述数据加载配置，weight_loader才是唯一依据

5. BC-RNN在所有正常任务上SR=0%，与training rollout完全不符 [error_recovery_benchmark] (2026-03-04)

解决方案: 代码探索定位baseline_accuracy评估中object观测键bug，策略接收空观测；M14中接近0% Error SR是benchmark核心论点（现有策略缺乏错误恢复能力），与Normal SR构成对比才能说明问题

6. Openpi-moe训练特征norm_stats.json缺少prev_actions键但不报错；VAE中hist_actions（未归一化）与actions（已归一化）直接拼接造成scale mismatch [zhaoganlong/openpi] (2026-03-05)

解决方案: 修改compute_norm_stats.py动态检测prev_actions并写入统计量；根本机制是apply_tree(strict=False)对缺失键静默跳过，新增训练特征必须强制同步归一化脚本

7. CalendarPro所有后台服务从未在生产环境中运行，321个测试全通过却未发现此集成缺陷 [CalendarPro] (2026-03-05)

解决方案: 在discord_bot.py的on_ready()中添加await coordinator.start_all()；根本原因是注册模式与生命周期管理解耦，单元测试无法发现集成层静默失效

8. 无头Docker容器SAPIEN报Render Error，bare except隐藏真实异常，apt驱动版本与内核模块不匹配 [VLA-RoboTwin] (2026-03-06)

解决方案: 暴露真实异常→确认NVIDIA Vulkan ICD缺失→从官方535.104.12 .run包提取与内核版本严格匹配的用户态GL库→通过VK_ICD_FILENAMES/LD_LIBRARY_PATH环境变量注入（无需root）

9. Research Scout初版对全量论文（50篇）单阶段深度评估，token浪费严重且低相关论文占用大量分析资源 [gadget/Research Scout] (2026-03-07)

解决方案: 重构为Stage 1轻量筛选→Stage 2深度分析（高相关论文上限20篇）两阶段pipeline，来自真实研究者阅读习惯

10. error_recovery_benchmark 65个symlink在代码迁移中造成间接层，symlink移除后sys.path父链深度需重新计算 [error_recovery_benchmark] (2026-03-08)

解决方案: 4路并行Agent按9阶段计划无重叠清理所有symlink，主线程处理Makefile/文档；主动修复2个计划外sys.path深度错误（Path.resolve()不再经过symlink折叠）

11. VLA-RoboTwin关键区域标注critical_region采集数据全为0，τ=0.10m阈值纯基于估算与实际工作空间尺度不匹配 [VLA-RoboTwin] (2026-03-08)

解决方案: 不直接调参，改为记录原始ee_target_distances（每任务4-8个距离变量），先分析真实数据分布再数据驱动校准阈值

学习收获

架构 (architecture)

大规模实现后的三项标准检查：(1) 新服务是否接入启动链路；(2) 跨层（IntentType→路由→Handler→服务）是否一致更新；(3) 静默异常（except: pass）是否屏蔽运行时错误。测试通过是必要条件而非充分条件，集成层缺陷只能通过端到端验证发现
设计Agentic系统前应主动研究成熟同类项目——OpenClaw的EventBus/CronScheduler/Plugin注册模式和GSD的STATE.md持久记忆/多Agent上下文隔离是高度可复用的架构模式；相关修复应合并为单次改动而非分阶段实施，避免代码返工
apply_tree(strict=False)是ML训练管道的隐性危险：新增需归一化的训练特征若忘记同步更新norm_stats计算脚本，会导致无声的scale mismatch影响训练质量；AI系统的mismatch记录是免费标注数据，自动回流为utterance增广可实现低成本持续自我改进
两阶段信息处理（粗筛+精评）比单阶段全量处理在token效率和分析深度上均更优：Stage 1关注问题相关性/新颖性/来源权威性（30秒判断），Stage 2聚焦驱动效果的关键insight而非工程细节，并批判性审视作者选择的baseline和指标

调试 (debugging)

VLA推理GPU利用率低的根因分析：action chunking使推理调用稀疏化（每trial约8次×2.5s/200s总时间=10%）；多client并发不能提升严格串行推理吞吐量，正确优化方向是BatchedVLAServer批量inference + 多GPU独立部署
BC-RNN SR=0%的诊断路径：先检查observation键名/维度是否与训练一致，再通过历史训练日志区分「评估bug」vs「训练本就失败」，避免误诊为模型能力问题；bare except是渲染/仿真框架中最常见的调试障碍，应立即改为except Exception: traceback.print_exc()
参数设定应实验驱动而非直觉估算：先采集少量数据验证实际分布再设定阈值；关键参数（如距离阈值、驱动版本）估算错误会导致整批数据无效或安装失败

工具 (tools)

4路并行子Agent + 主线程处理不可并行化部分，可将65 symlink大规模代码迁移控制在单session内完成；关键是按文件集合无重叠划分agent任务边界；BatchedVLAServer并行评估（44分钟/9任务）比串行节省约80%时间
无头HPC节点修复Vulkan/EGL渲染的标准方案：从NVIDIA官方.run包提取与内核版本严格匹配的用户态GL库（无需安装内核模块），通过VK_ICD_FILENAMES/__EGL_VENDOR_LIBRARY_FILENAMES/LD_LIBRARY_PATH注入，无需root；EGL/Vulkan设备配置与CUDA独立，CUDA正常不代表Vulkan可用
arXiv comment字段是事实上的会议录用公告区，通过all:“CVPR 2025"全文搜索+comment后过滤可实现会议论文专项搜索；au:“Author Name” AND (kw1 OR kw2)是系统追踪特定研究者最新工作的有效方式

领域知识 (domain)

学习式融合（QFormer）显著优于简单拼接：scGPT 512d表示本身有价值但需非线性投影才能充分激活（+117% vs scGPT-only）；STAIG的gene encoder与GNN训练解耦，文档与代码差异只能通过代码追踪发现；zero-shot能力是与训练依赖方法的核心差异化竞争点
Pi0.5 LoRA精调在Stack类任务上可达95-100%（整体58.9%），BC-RNN全量失败（0%）；任务复杂度（多步骤、精细操作）是VLA vs 传统序列建模成功率差距的主要决定因素；Pi0.5 LoRA模式也需要至少2张80GB GPU（FSDP是必要前提）

AI 使用备注

有效模式:

✓ 多层代码追踪（3-4层调用栈）精确定位STAIG架构事实，给出代码行级证据，比文档分析更可靠
✓ 4路并行Agent按文件集合无重叠划分任务，将65 symlink大规模迁移控制在单session内完成
✓ sacct step时间戳系统性分析正确排除AI操作导致NODE_FAIL的误判，建立操作因果关系证据链
✓ 通过AskUserQuestion主动澄清模糊需求（作者搜索是否需LLM评估），将产品需求精确转化为工程方案
✓ 在三层证据系统性核查实验配置正确性（base model来源）上表现优于直觉判断

局限性:

✗ 实现新功能后未验证是否接入系统启动链路，只依赖单元测试而遗漏集成层检查（BackgroundCoordinator未启动）
✗ 设计Agentic系统时未主动提出研究业界成熟实现，需用户明确指出后才参考OpenClaw/GSD架构模式
✗ 参数设定缺乏实验验证环节（τ=0.10m纯估算），导致整批critical_region标签数据全为0
✗ 研究贡献描述倾向技术细节而非竞争优势，zero-shot的差异化定位需用户明确指出
✗ 初始任务编排倾向保守串行，未主动识别长时GPU任务+轻量可视化任务可并行执行的机会
✗ 在资源密集型操作（GPU训练）前缺乏必要的resume/fresh-start意图确认，误启动fresh-start覆盖checkpoint

下周展望

下周核心优先级：1) CalendarPro上下文感知bug三处修复实施（精简general_keywords移除确认词/时间词 + _llm_classify传入最近3条对话历史 + 重设GENERAL路由utterances），完成系统从架构升级到实际可用的最后闭环；2) pre-error轨迹可视化回放逻辑补全（存储层已就绪，完成可视化脚本中的初始状态回放与帧渲染部分）；3) zhaoganlong训练结果监控与评估：Diffusion Policy预计2-4天完成，Pi0.5 FSDP还需约31小时，训练完成后立即启动批量eval；4) LLaVA MPM训练解锁：确认cpx2用户本地llava-v1.5-7b完整性，通过–model_name_or_path指向本地路径启动训练；5) VLA-RoboTwin关键区域阈值校准：分析ee_target_distances实际分布后重新设定τ值并重新采集critical_region标签；6) BC-RNN observation key bug正式修复并重新运行正常任务评估；7) 演示视频渲染（Pi0.5高SR任务成功/失败对比）。Research Scout已生产就绪，可开始为MIHD、error_recovery_benchmark等活跃项目配置定期论文发现流程。

Token 用量统计

每日费用趋势

日期	Token (百万)	费用 ($)
2026-03-02	54.9	35.90
2026-03-03	66.4	40.55
2026-03-04	21.3	13.49
2026-03-05	92.5	61.12
2026-03-06	29.6	17.48
2026-03-07	108.1	91.99
2026-03-08	64.1	46.18

峰值日: 2026-03-07 — $91.99 / 108.1M tokens

Claude Code

指标	数值
总 Token	424,137,873
输入 Token	648,550
输出 Token	1,268,678
Cache 创建	30,062,586
Cache 读取	392,158,059
总费用	$302.72

模型使用分布

模型	费用 ($)	输入 Token	输出 Token
claude-opus-4-6	252.62	233,943	664,457
claude-sonnet-4-6	25.25	484	15,631
claude-haiku-4-5-20251001	24.84	414,123	588,590

Codex

指标	数值
总 Token	12,713,756
输入 Token	12,648,899
输出 Token	64,857
推理 Token	30,268
Cache 读取	12,095,872
总费用	$3.99

模型使用分布

模型	费用 ($)	输入 Token	输出 Token	推理 Token
gpt-5.3-codex	3.99	12,648,899	64,857	30,268

周报 — 2026-W10 (2026-03-02 ~ 2026-03-08)#

本周概览#

项目进展#

error_recovery_benchmark（机器人错误恢复基准） (5 天活跃) — 🔄 active#

MIHD（多模态空间转录组融合） (4 天活跃) — 🔄 active#

Pi0.5 LoRA训练与评估（天河集群） (4 天活跃) — 🔄 active#

CalendarPro（个人智能管家） (3 天活跃) — 🔄 active#

Phoenix/FLARE/zhaoganlong框架（机器人训练基础设施） (3 天活跃) — 🔄 active#

gadget/Research Scout（论文管理系统） (2 天活跃) — ✅ completed#

VLA-RoboTwin（机器人操作数据采集） (2 天活跃) — 🔄 active#

关键任务#

问题与解决方案#

1. STAIG two-stage实际完全忽略gene encoder输出，使用原始HVG作为GCN输入，导致scGPT+UNI2+STAIG≡PCA+UNI2+STAIG [MIHD] (2026-03-02)#

2. Pi0.5 eval client报keepalive ping timeout，SR全为0%；多client并发反比串行慢24% [Pi0.5/VLA评估] (2026-03-02)#

3. STAIG fusion嵌入在某些section上训练坍塌（全为零），导致跨样本评估Spearman r为NaN [MIHD] (2026-03-03)#

4. Pi0.5 LoRA训练配置名含’pi05_libero’，用户怀疑初始化权重来自libero而非pi05_base [Pi0.5/VLA训练] (2026-03-03)#

5. BC-RNN在所有正常任务上SR=0%，与training rollout完全不符 [error_recovery_benchmark] (2026-03-04)#

6. Openpi-moe训练特征norm_stats.json缺少prev_actions键但不报错；VAE中hist_actions（未归一化）与actions（已归一化）直接拼接造成scale mismatch [zhaoganlong/openpi] (2026-03-05)#

7. CalendarPro所有后台服务从未在生产环境中运行，321个测试全通过却未发现此集成缺陷 [CalendarPro] (2026-03-05)#

8. 无头Docker容器SAPIEN报Render Error，bare except隐藏真实异常，apt驱动版本与内核模块不匹配 [VLA-RoboTwin] (2026-03-06)#

9. Research Scout初版对全量论文（50篇）单阶段深度评估，token浪费严重且低相关论文占用大量分析资源 [gadget/Research Scout] (2026-03-07)#

10. error_recovery_benchmark 65个symlink在代码迁移中造成间接层，symlink移除后sys.path父链深度需重新计算 [error_recovery_benchmark] (2026-03-08)#

11. VLA-RoboTwin关键区域标注critical_region采集数据全为0，τ=0.10m阈值纯基于估算与实际工作空间尺度不匹配 [VLA-RoboTwin] (2026-03-08)#

学习收获#

架构 (architecture)#

调试 (debugging)#

工具 (tools)#

领域知识 (domain)#

AI 使用备注#

下周展望#

Token 用量统计#

每日费用趋势#

Claude Code#

模型使用分布#

Codex#

模型使用分布#

周报 — 2026-W10 (2026-03-02 ~ 2026-03-08)

本周概览

项目进展

error_recovery_benchmark（机器人错误恢复基准） (5 天活跃) — 🔄 active

MIHD（多模态空间转录组融合） (4 天活跃) — 🔄 active

Pi0.5 LoRA训练与评估（天河集群） (4 天活跃) — 🔄 active

CalendarPro（个人智能管家） (3 天活跃) — 🔄 active

Phoenix/FLARE/zhaoganlong框架（机器人训练基础设施） (3 天活跃) — 🔄 active

gadget/Research Scout（论文管理系统） (2 天活跃) — ✅ completed

VLA-RoboTwin（机器人操作数据采集） (2 天活跃) — 🔄 active

关键任务

问题与解决方案

1. STAIG two-stage实际完全忽略gene encoder输出，使用原始HVG作为GCN输入，导致scGPT+UNI2+STAIG≡PCA+UNI2+STAIG [MIHD] (2026-03-02)

2. Pi0.5 eval client报keepalive ping timeout，SR全为0%；多client并发反比串行慢24% [Pi0.5/VLA评估] (2026-03-02)

3. STAIG fusion嵌入在某些section上训练坍塌（全为零），导致跨样本评估Spearman r为NaN [MIHD] (2026-03-03)

4. Pi0.5 LoRA训练配置名含’pi05_libero’，用户怀疑初始化权重来自libero而非pi05_base [Pi0.5/VLA训练] (2026-03-03)

5. BC-RNN在所有正常任务上SR=0%，与training rollout完全不符 [error_recovery_benchmark] (2026-03-04)

6. Openpi-moe训练特征norm_stats.json缺少prev_actions键但不报错；VAE中hist_actions（未归一化）与actions（已归一化）直接拼接造成scale mismatch [zhaoganlong/openpi] (2026-03-05)

7. CalendarPro所有后台服务从未在生产环境中运行，321个测试全通过却未发现此集成缺陷 [CalendarPro] (2026-03-05)

8. 无头Docker容器SAPIEN报Render Error，bare except隐藏真实异常，apt驱动版本与内核模块不匹配 [VLA-RoboTwin] (2026-03-06)

9. Research Scout初版对全量论文（50篇）单阶段深度评估，token浪费严重且低相关论文占用大量分析资源 [gadget/Research Scout] (2026-03-07)

10. error_recovery_benchmark 65个symlink在代码迁移中造成间接层，symlink移除后sys.path父链深度需重新计算 [error_recovery_benchmark] (2026-03-08)

11. VLA-RoboTwin关键区域标注critical_region采集数据全为0，τ=0.10m阈值纯基于估算与实际工作空间尺度不匹配 [VLA-RoboTwin] (2026-03-08)

学习收获

架构 (architecture)

调试 (debugging)

工具 (tools)

领域知识 (domain)

AI 使用备注

下周展望

Token 用量统计

每日费用趋势

Claude Code

模型使用分布

Codex

模型使用分布