日报 — 2026-02-23

今日概览

做了什么： 在DCC和天河两台集群上并行推进三个核心工作：MIHD融合训练全面优化与全切片基准测试、Error Recovery Benchmark M14三路评估启动与关键bug修复、Pi0.5 LoRA微调训练从零搭建到稳定运行。
怎么做的： DCC端通过NumPy向量化、GPU化随机数、批量Transformer forward三项手段消除CPU瓶颈并解耦编码器架构；天河端通过渐进式调试（依赖降级、修补源码、切换LoRA架构、sbatch提交）解决数据兼容性和显存OOM问题，同时通过scene级try-except修复评估进程崩溃。
有什么用： QFormer训练预计加速20-50x，STAIG全切片平均ARI=0.546，发现refine对弱/强fusion效果两极分化规律；Pi0.5 LoRA训练（Job 46553）以2.0s/step稳定运行（预计53小时完成）；M14三路评估修复后恢复全量推进，确认649场景中~519个为有效评估目标。

DCC

做了什么： 在RTX 5000 Ada GPU节点上完成MIHD融合训练全面优化：3项CPU加速实现、视觉编码器架构解耦、Vision Refine vs Baseline对比实验（8种fusion×有无refine）、STAIG全部11个DLPFC切片基准测试。
怎么做的： 使用conda General环境运行PyTorch训练；scipy cdist向量化边权重、GPU原生随机数消除跨设备传输、批量Transformer forward替代逐spot循环；清除pyc缓存解决ImportError；后台TaskOutput并行监控长耗时实验。
有什么用： 10/11 DLPFC切片STAIG fusion成功（151676已知坍塌），平均ARI=0.546；qformer+no-refine为151673最优组合（ARI=0.4832）；发现scan_cluster refine对弱fusion有益、对强fusion有害的规律。

tianhe

做了什么： 在天河集群（an46/an49/an51）完成Pi0.5 LoRA微调全流程搭建（数据转换→归一化统计→LoRA训练），以及Error Recovery Benchmark M14三路评估（CPU分析+GPU评估+环境指纹崩溃修复）。
怎么做的： 通过渐进式调试解决数据格式兼容性（datasets降级、lerobot源码修补）、显存OOM（全量→LoRA架构切换）、训练进程管理（srun→sbatch）等问题；srun –overlap并行启动评估进程；scene级try-except修复EnvironmentMismatchError。
有什么用： 获得step-1000 LoRA检查点，Job 46553稳定运行（loss=0.068，2.0s/step）；M14三路评估（m14_cpu完成、m14_pi05完成、m14_pi0运行中）修复后跨越scene 122崩溃点；确认649场景数据库中~130个natural_*场景不兼容，实际有效评估场景约519个。

在DCC节点系统优化MIHD空间组学融合训练（3项CPU加速+架构解耦+全切片基准测试+Vision Refine对比实验），同时在天河集群完成MimicGen数据准备、修复M14三路评估的环境指纹崩溃及Pi0.5全量微调OOM问题，成功将Pi0.5 LoRA训练（Job 46553）推进至稳定运行。

今日任务

架构与策略

✅ MIHD融合训练CPU三项加速（向量化+GPU化+批量化） — 对STAIGTrainer.py、STAIGTrainerE2E.py、QFormerFusion.py三个文件实施全面优化：用scipy cdist替代O(n²)嵌套循环（初始化阶段，~100-500x加速）、将adaptive_dropout_adj随机数生成迁移至GPU（消除每epoch GPU↔CPU同步开销约1-2s）、为QFormerFusion添加批量forward接口（forward_batched()含key_padding_mask+预构建padded tensor，预计20-50x加速）。
🔄 Pi0.5 LoRA微调训练（Job 46551→46553，运行中） — 历经全量微调OOM（pi0.5训练状态~~62GB超A800容量，FSDP=4无效）后，切换为gemma_2b_lora+gemma_300m_lora架构（显存降至~~22.5GB）。通过sbatch提交Job 46551首跑至step 3000，因stdout缓冲误判退出；加入PYTHONUNBUFFERED=1+stdbuf+ERR trap后以–resume重启为Job 46553，当前在an46（4×A800）以2.0s/step稳定运行，loss=0.068，预计约53小时完成。
🔄 M14三路评估（m14_cpu/Pi0/Pi0.5）启动与环境指纹修复 — 修复MUJOCO_EGL_DEVICE_ID不匹配后启动m14_cpu续跑；启动Pi0（an49 GPU6，port 5556）和Pi0.5（an49 GPU5，port 5557）VLA评估。三路均在scene 122/649崩溃（~130个natural_*场景xml_hash不兼容）；collector.py加入scene级EnvironmentMismatchError try-except修复后以–resume恢复，m14_cpu和m14_pi05以exit code 0完成，m14_pi0仍运行中。
✅ evaluate_mimicgen.py与collector.py关键bug修复 — evaluate_mimicgen.py：加入env.seed()确保可复现性、状态维度8D assert验证、修复_quat2axisangle的in-place数组修改bug（改用np.clip+copy）。collector.py：collect_on_scenes()中为每个scene捕获EnvironmentMismatchError，记录警告并跳过不兼容场景，避免整个进程崩溃。
✅ staig_fusion支持任意视觉编码器（解耦UNI硬依赖） — 重命名常量（STAIG_FUSION_VISION_ENCODER→STAIG_FUSION_DEFAULT_VISION_ENCODER）、新增STAIG_UNI_FAMILY集合（{uni,uni2}），更新extraction_planner.py/evaluation_planner.py/phase2_evaluate.py/run_benchmark.py四个文件分支逻辑，UNI系列自动使用staig_strict预处理，其他编码器使用standard。清除pyc缓存解决ImportError。
✅ STAIG fusion全部11个DLPFC切片基准测试 — 在全部11个DLPFC切片上运行pca+uni2+staig_fusion和none+uni2+staig_fusion，修复UNI2 patch_size兼容性bug（256×256→224×224 resize）和NaN KMeans fallback。10/11切片成功，平均ARI=0.546、NMI=0.639；151676已知坍塌（ARI=0）。
✅ M13 CPU分析三件套（基线报告+分类器可靠性+错误类型区分度） — 在m14_cpu 726 episodes上运行4_analyze_results.py、7_classifier_reliability.py（修复tabulate缺失）、8_error_type_discriminability.py（修复int(‘False’)崩溃），产出6个分析文件。Fleiss’ kappa=-0.02（poor），drop↔grasp_slip kappa=0.71（非冗余性验证失败），SR全零（CPU基线无法恢复）。
✅ MIHD Vision Refine vs Baseline对比实验（8种fusion方法） — 在切片151673上运行concat/mean/element_wise_sum/attention/basic_contrastive/adaln_attention/llava_mlp/qformer有/无scan_cluster refine全量对比，生成三子图可视化（GT | Baseline | Refine），汇总至vision_refine_summary_151673.txt。qformer baseline ARI=0.4832为所有实验最优；refine对弱fusion有益（attention +0.086），对强fusion有害（qformer -0.054）。

实现与修复

✅ MimicGen数据集准备（HDF5→LeRoBot转换+归一化统计） — 将9个MimicGen核心任务转换为LeRoBot格式（4500集，1,034,176帧），修复datasets 4.4.1不兼容问题（降级至3.6.0）及lerobot源码prev_delta_indices属性缺失bug。随后计算16159批次归一化统计（耗时约3.5小时），输出norm_stats.json。
✅ 项目全景总结.md更新（场景数454→649，版本v4.12） — 全面更新场景数（454→649，9种错误类型），更新里程碑进度、小目标完成状态、版本历史（v4.11.1→v4.12），更新差距分析实际值。

问题与解决方案

关键问题

1. pi0.5全量微调训练状态（params+optimizer+EMA）需~62GB/GPU，即使FSDP=4分片权重，初始化阶段仍因replicated_sharding导致每GPU暂时持有完整模型，反复OOM

解决方案: 切换为LoRA微调（gemma_2b_lora+gemma_300m_lora），可训练参数减少~~90%，显存需求降至~~22.5GB/GPU

关键洞察: JAX FSDP只分片参数存储，不减少前向传播激活内存；单A800 80GB无法承载pi0.5全量微调，LoRA是A800集群的唯一可行方案。看到’Can’t reduce memory use below 62.46GiB’警告时应立即切换LoRA而非继续尝试FSDP配置。

2. 所有三路M14评估均在scene 122/649处崩溃：自然捕获场景（~130个natural_*）与当前mimicgen环境xml_hash不一致，触发EnvironmentMismatchError且无捕获，导致整个评估进程崩溃

解决方案: 在collector.py的collect_on_scenes()中为每个scene加入EnvironmentMismatchError的try-except，记录警告并跳过该scene，修复后以–resume重启三路评估

关键洞察: 649场景数据库含两类环境：~~519个impulse/augmented兼容场景（xml_hash匹配）和~~130个natural_*自然捕获场景（在VLA环境生成，xml_hash不同）。M14实际有效评估目标为~519个场景，目标episode数需相应下调。

3. UNI2（ViT-H/14，patch_size=14）不兼容STAIG strict模式的256×256 patch输入（256/14=18.28非整数，AssertionError）

解决方案: 在UNI2提取流程中检测到STAIG模式时，批量推理前自动将patches从256×256 resize到224×224（224可被14整除）

关键洞察: UNI v1使用dynamic_img_size=True支持任意输入，UNI2是标准ViT-H/14；STAIG的256×256 patch为UNI v1设计，移植到新模型需适配patch_size约束。

4. 训练日志因stdout缓冲导致进度严重失真：Pi0.5训练看起来只跑了~580步，实际已到step 3000，误判训练中止

解决方案: 在训练脚本和sbatch提交脚本中加入PYTHONUNBUFFERED=1和stdbuf -oL，保证日志实时刷新；同时加入ERR trap和后台GPU内存监控

关键洞察: 所有长时间训练脚本应标准化加入PYTHONUNBUFFERED=1，否则stdout缓冲会导致进度监控完全失真，造成不必要的重启操作。

5. Slurm资源管理双重问题：srun –overlap方式在已分配作业上执行命令会阻塞超时；长时间训练进程在交互会话超时后被SIGTERM/SIGKILL（exit code 137/143）

解决方案: 使用srun –jobid=XXXXX –overlap解除资源冲突，在已分配节点执行命令；长时间训练改用sbatch提交独立批处理作业，与交互会话生命周期解耦

关键洞察: 交互式开发（srun）与长时间训练（sbatch）必须严格区分，sbatch作业有独立的资源分配和生命周期管理，是集群训练的正确方式。

6. DLPFC切片151676的STAIG训练loss从第一epoch变为NaN，KMeans fallback因NaN崩溃

解决方案: 在KMeans fallback路径加入nan_to_num清理；训练坍塌本身是已知问题（高温度tau=30+特殊数据分布），无根本解决方案

关键洞察: 151676是异常切片，可能需要独立调整tau/dropout rate/图构建参数进行专项调查。

一般问题

7. 多次训练失败后zombie GPU进程（nvitop、前次训练）占用70+GB显存，导致新训练无法获取足够显存，所有OOM实为zombie进程所致而非配置问题

解决方案: 使用fuser /dev/nvidiaX和kill -9逐一清理僵尸进程，特别注意nvitop即使无活跃训练也持有CUDA上下文

关键洞察: 启动训练前必须检查并清理所有非必要GPU进程，nvitop等监控工具是隐性显存占用的常见来源。

8. Python .pyc缓存导致模块修改不生效：重命名常量后遗漏phase2_evaluate.py引用（ImportError）；修改config.py的batch_size/fsdp_devices后未清缓存（配置不生效）

解决方案: 修改模块常量或配置后，主动清除所有__pycache__和.pyc文件，确保Python重新编译使用最新代码

关键洞察: Python字节码缓存在快速迭代开发中是常见陷阱；常量重命名后应先全局搜索所有引用再提交修改，避免遗漏。

9. MUJOCO_EGL_DEVICE_ID=0与CUDA_VISIBLE_DEVICES=5不匹配，导致m14_cpu评估启动立即AssertionError崩溃

解决方案: 将MUJOCO_EGL_DEVICE_ID设为与CUDA_VISIBLE_DEVICES字符串中相同的GPU编号（均设为5）

关键洞察: robosuite EGL绑定通过字符串包含断言实现，MUJOCO_EGL_DEVICE_ID必须是CUDA_VISIBLE_DEVICES中实际存在的GPU编号，而非重映射后的相对索引。

10. 数据集与脚本兼容性问题集合：datasets 4.4.1与lerobot 0.1.0不兼容（column访问API变更）、scripts/8中int(‘False’)崩溃（JSONL布尔值被序列化为字符串）、tabulate未安装

解决方案: 降级datasets至3.6.0并重新转换数据集；读取success字段时加入’True’/‘False’字符串到bool转换及kruskal退化case保护；pip install tabulate

关键洞察: 共享集群环境中Python依赖兼容性需在首次运行时逐一验证；JSONL中布尔值经json.dumps后可能变为字符串，读取时需显式转换。

人类思路 vs AI 思路

战略层面

649场景数据库组成的架构发现

角色	思路
人类	执行计划假设649个场景均可评估，未预见场景兼容性问题
AI	三路评估全部于scene 122崩溃后，AI通过分析EnvironmentMismatchError独立识别出数据库中含两类不兼容环境（~519 impulse兼容+~~130 natural_*不兼容），提出scene级try-except修复方案，并意识到实际有效评估场景数应为~~519

差异分析: 这是当天最重要的架构发现，由AI在调试过程中独立发现。AI的问题诊断能力在此体现了实际价值，但若提前检查meta.json中的场景指纹分布，可以在启动评估前预先规避。

CPU性能瓶颈识别与训练加速

角色	思路
人类	人类直觉提出「每epoch都做CPU密集型任务」是训练慢的根因，给出「预处理加速」大方向，并提前设计分阶段完整执行计划（含精确命令行参数）
AI	AI系统性读取三个核心文件，精确定位初始化O(n²)循环、每epoch GPU↔CPU传输、逐spot Python循环三个具体瓶颈，量化分析（2700 spot×200 epoch=54万次独立forward），设计含边界处理的完整实现方案，并在执行中发现多个计划未预见的运行时bug

差异分析: 人类提供战略方向和架构判断，AI负责量化分析、具体实现和调试适应；AI在FSDP显存节省效果（认为FSDP=4可降至~16GB，实际仍OOM）和新模型约束预检查（UNI2 patch_size）方面判断不够准确。

多GPU并行训练策略与显存管理

角色	思路
人类	用户主动提出使用多张GPU并行训练，推动AI探索FSDP方案；对部分数据先开始训练持实用主义（尽早验证）态度
AI	AI对JAX FSDP显存优化过于乐观，在多次OOM后才切换LoRA架构；对数据集格式完整性约束的判断正确（不能部分训练）；切换LoRA是正确解决方向，但应从JAX警告中更早识别

差异分析: 用户的并行化直觉正确，但AI对FSDP原理存在误解（只分片存储，不减少激活内存）；架构层面的解决方案（LoRA）应更早提出。

实现层面

Plan Mode工作流与AI自主执行边界

角色	思路
人类	用户两次拒绝AI自动调用ExitPlanMode，明确要求先审阅计划再批准执行；理解plan是用户决策门
AI	AI在写完plan后直接尝试调用ExitPlanMode推进执行，未等待用户确认

差异分析: AI未能正确理解Plan Mode语义——plan需要用户显式批准，而非AI自动推进的信号。这反映了AI对「计划作为用户决策检查点」这一工作流模式的理解不足。

AI 局限性

重要局限

对JAX FSDP显存优化原理判断错误：认为FSDP=4可将每GPU显存降至约16GB（62/4），实际上FSDP只分片参数存储，初始化时仍需完整模型，前向传播激活内存也不减少。应在看到’Can’t reduce memory use below 62.46GiB’警告时立即切换LoRA，而非继续尝试多种FSDP配置。
未预先检查模型架构约束和数据兼容性：实施UNI2兼容性时未核查ViT-H/14的patch_size整除要求；评估启动前未检查meta.json场景指纹分布；均在运行时崩溃后才发现修复，造成额外调试循环。
长时间任务的进度监控判断失误：未在训练脚本中设置PYTHONUNBUFFERED=1，导致日志缓冲、进度误判（580步→实际3000步）；多次在未检查GPU显存是否真正释放的情况下重启训练，多次OOM实为zombie进程所致而非配置问题。

一般局限

代码修改后的缓存清理和引用搜索不彻底：重命名常量后未一次性搜索所有引用（遗漏scripts/phase2_evaluate.py）；修改config.py后未清除__pycache__，导致运行时ImportError或配置不生效，需要额外修复步骤。
Plan Mode工作流理解不足：多次在写完plan后直接尝试调用ExitPlanMode推进执行（两次被用户拒绝），未能理解plan是用户决策门而非AI自动推进的信号。

今日收获

核心收获

pi0.5完整训练状态（参数+AdamW+EMA）需~~62GB显存，单A800 80GB无法承载全量微调；JAX FSDP只分片参数存储，不影响初始化时的完整模型加载和前向激活内存。LoRA微调（gemma_2b_lora）将显存需求降至~~22.5GB，是A800集群唯一可行方案。
649场景数据库由两类组成：~~519个impulse/pose_perturb/augmented兼容场景（xml_hash匹配）和~~130个natural_*自然捕获场景（在启用相机的VLA环境生成，xml_hash不同）。M14评估实际有效场景数为~519，目标episode数和所有文档需相应更新。
Vision Refine对Fusion效果呈两极分化规律：scan_cluster refine（1536d→256d降维）对弱fusion有益（attention +0.086 ARI），对强fusion有害（qformer -0.054）。强fusion（QFormer）具备处理高维输入的能力，降维反而损失信息；当日最优结果为qformer+no-refine（ARI=0.4832）。
向量化与批量化加速在科学计算中效果极为显著：O(n²)嵌套循环→cdist矩阵运算约100-500x加速；Python逐spot循环→批量GPU forward预计20-50x加速。这是空间组学训练提速的核心手段，同时验证了「预处理替代每epoch计算」的通用优化策略。
Slurm集群训练工程最佳实践：长时间训练必须用sbatch（非srun，避免会话超时被SIGTERM）；所有训练脚本标准化加入PYTHONUNBUFFERED=1+stdbuf -oL；启动训练前用fuser /dev/nvidiaX清理zombie GPU进程（nvitop等监控工具也持有CUDA上下文）；MUJOCO_EGL_DEVICE_ID必须与CUDA_VISIBLE_DEVICES字符串中的GPU编号完全一致。
STAIG fusion是端到端refine+fuse一体化方案（GCN编码空间关系），在输入端叠加scan_cluster refine会导致功能重叠和信息冗余，两者不应叠加使用。DLPFC切片151676存在稳定训练坍塌问题（NaN from epoch 1），需独立调整tau/dropout rate/图构建参数。
M13初步分析结论：Random+BC-RNN两个CPU基线在所有场景SR=0，Fleiss’ kappa=-0.02（poor），区分度不显著——因为基线策略根本无法成功恢复，缺乏SR变异性。有意义的统计结果需要VLA（Pi0/Pi0.5）数据。

会话摘要

MIHD

✅ MIHD融合训练全面优化：CPU三项加速+架构解耦+Vision Refine对比+STAIG全切片基准 00:02:10.477 | claude_code 在DCC的RTX 5000 Ada节点上完成六项工作：①对STAIGTrainer/STAIGTrainerE2E/QFormerFusion实施cdist向量化（100-500x）、GPU化dropout随机数、批量forward（预计20-50x）三项CPU加速；②移除staig_fusion对UNI的硬依赖，新增STAIG_UNI_FAMILY集合支持任意视觉编码器，清除pyc缓存解决ImportError；③在切片151673上完成8种fusion方法有/无scan_cluster refine全量对比实验并生成三子图可视化，发现qformer baseline ARI=0.4832为最优，refine对弱fusion有益（attention +0.086）对强fusion有害（qformer -0.054）；④修复UNI2 patch_size兼容性bug（256→224 resize）和NaN KMeans fallback；⑤完成全部11个DLPFC切片STAIG fusion基准测试，10/11成功，平均ARI=0.546（151676已知坍塌）。

Error Recovery Benchmark

• Pi0.5 LoRA训练全流程搭建+M14三路评估启动与关键bug修复+M13 CPU分析 00:00:18.651 | claude_code 在天河集群完成两条主线工作。【训练线】将9个MimicGen任务转换为LeRoBot格式（4500集，100万帧），修复datasets版本兼容性（降级至3.6.0）和lerobot源码bug；归一化统计耗时3.5小时；全量微调反复OOM（pi0.5训练状态62GB超A800容量，JAX FSDP无效）后，切换为LoRA架构通过sbatch提交Job 46551，首跑至step 3000后因stdout缓冲误判退出；加入PYTHONUNBUFFERED=1重启为Job 46553（an46，2.0s/step，loss=0.068，预计53小时）。【评估线】修复tabulate缺失/int(‘False’)类型转换/kruskal退化等bug，完成M13 CPU分析三件套（kappa=-0.02，SR全零，需VLA数据才有统计意义）；修复MUJOCO_EGL_DEVICE_ID不匹配后启动m14_cpu/Pi0/Pi0.5三路评估，均在scene 122因EnvironmentMismatchError崩溃（发现649场景库含130个不兼容natural_*场景）；在collector.py加入scene级try-except修复后以–resume恢复，m14_cpu和m14_pi05完成，m14_pi0运行中。同步更新项目全景总结.md（场景数454→649，v4.12）。

Token 用量

总览

指标	数值
总 Token	17,246,252
输入 Token	32,552
输出 Token	1,598
Cache 创建	2,043,944
Cache 读取	15,168,158
Cache 命中率	88.1%
总费用 (USD)	$8.8234

模型明细

模型	输入	输出	Cache 创建	Cache 读取	费用	占比
claude-opus-4-6	249	443	670,414	3,372,934	$5.8889	66.7%
claude-haiku-4-5-20251001	32,303	1,155	1,373,530	11,795,224	$2.9345	33.3%

各设备用量

设备	总 Token	输入	输出	费用
DCC	2,621,468	8,010	256	$1.2491
tianhe	14,624,784	24,542	1,342	$7.5743

日报 — 2026-02-23#

今日概览#

DCC#

tianhe#

今日任务#

架构与策略#

实现与修复#

问题与解决方案#

关键问题#

1. pi0.5全量微调训练状态（params+optimizer+EMA）需~62GB/GPU，即使FSDP=4分片权重，初始化阶段仍因replicated_sharding导致每GPU暂时持有完整模型，反复OOM#

2. 所有三路M14评估均在scene 122/649处崩溃：自然捕获场景（~130个natural_*）与当前mimicgen环境xml_hash不一致，触发EnvironmentMismatchError且无捕获，导致整个评估进程崩溃#

3. UNI2（ViT-H/14，patch_size=14）不兼容STAIG strict模式的256×256 patch输入（256/14=18.28非整数，AssertionError）#

4. 训练日志因stdout缓冲导致进度严重失真：Pi0.5训练看起来只跑了~580步，实际已到step 3000，误判训练中止#

5. Slurm资源管理双重问题：srun –overlap方式在已分配作业上执行命令会阻塞超时；长时间训练进程在交互会话超时后被SIGTERM/SIGKILL（exit code 137/143）#

6. DLPFC切片151676的STAIG训练loss从第一epoch变为NaN，KMeans fallback因NaN崩溃#

一般问题#

7. 多次训练失败后zombie GPU进程（nvitop、前次训练）占用70+GB显存，导致新训练无法获取足够显存，所有OOM实为zombie进程所致而非配置问题#

8. Python .pyc缓存导致模块修改不生效：重命名常量后遗漏phase2_evaluate.py引用（ImportError）；修改config.py的batch_size/fsdp_devices后未清缓存（配置不生效）#

9. MUJOCO_EGL_DEVICE_ID=0与CUDA_VISIBLE_DEVICES=5不匹配，导致m14_cpu评估启动立即AssertionError崩溃#

10. 数据集与脚本兼容性问题集合：datasets 4.4.1与lerobot 0.1.0不兼容（column访问API变更）、scripts/8中int(‘False’)崩溃（JSONL布尔值被序列化为字符串）、tabulate未安装#

人类思路 vs AI 思路#

战略层面#

649场景数据库组成的架构发现#

CPU性能瓶颈识别与训练加速#

多GPU并行训练策略与显存管理#

实现层面#

Plan Mode工作流与AI自主执行边界#

AI 局限性#

重要局限#

一般局限#

今日收获#

核心收获#

会话摘要#

MIHD#

Error Recovery Benchmark#

Token 用量#

总览#

模型明细#

各设备用量#