日报 — 2026-03-05

今日概览

做了什么： 跨三台设备并行推进MIHD空间组学基准测试、zhaoganlong机器人框架多任务训练部署、Openpi-moe训练质量修复，以及CalendarPro个人管家系统大规模架构升级
怎么做的： 综合运用多Agent并行编码、后台任务、SSH+tmux远程集群管理、深度代码追踪、离线集群依赖拷包、pytest自动化验证等手段，处理从HPC生产训练到产品系统架构的跨层次任务
有什么用： 获得MIHD跨样本zero-shot评估定量结论；建立zhaoganlong 9任务可重复训练基础；消除Openpi-moe和CalendarPro多个生产级隐患；CalendarPro完成从被动响应到主动决策的架构跃升，321个测试全绿

DCC

做了什么： 执行MIHD项目全部技术任务：RM-IDEAL跨样本benchmark（151673↔151508）、项目零样本叙事框架打磨、GPU Sinkhorn加速方案探索
怎么做的： 使用conda General环境执行benchmark脚本，与Claude多轮迭代确立zero-shot差异化定位，委托Agent分析OT加速方案
有什么用： 完成双向7层基准测试（Layer_1/5优异，Layer_3/6负相关揭示中间层泛化局限），确立区别于STAIG训练依赖方法的研究核心叙事

tianhe

做了什么： 远程控制an53部署zhaoganlong Self-Reflection框架9任务训练；本地完成curobo安装、Openpi-moe归一化修复、Phoenix/FLARE代码库分离规划与执行
怎么做的： SSH+tmux管理an53进程，逐步解决CLIP缺失/Pi0.5 OOM/symlink路径/LLaVA模型缺失；代码追踪揭示apply_tree静默跳过机制；rsync批量分离代码
有什么用： Diffusion Policy（GPU 0）和Pi0.5（GPU 2+3 FSDP）成功运行；Openpi-moe归一化流水线完整修复；RefineVLA可使用curobo CUDA扩展；Phoenix/FLARE分离基础结构建立

TzJsDesktop

做了什么： 将CalendarPro升级为个人智能管家：完成整体规划、16个新服务文件实现（Phase 1-3）、utterance外部化与自动增广、BackgroundCoordinator启动修复、9个Discord handler补全、16处静默异常消除与全面质量审计
怎么做的： 参考OpenClaw/get-shit-done架构模式，使用4-Agent并行编码策略，通过pytest（321个测试）和系统性grep审计验证质量
有什么用： 系统具备自主任务发现、波次执行、偏好学习能力；消除BackgroundCoordinator未启动、意图路由断层、静默异常黑洞等关键生产隐患

全天跨DCC/tianhe/TzJsDesktop三台设备并行推进四个项目：DCC完成MIHD多模态空间组学跨样本benchmark并确立zero-shot叙事框架；tianhe部署zhaoganlong框架9任务训练流水线并启动两路训练、修复Openpi-moe归一化隐患、推进Phoenix/FLARE代码库分离；TzJsDesktop将CalendarPro全面升级为具备自主感知与多Agent编排能力的个人智能管家（321个测试通过）

今日任务

架构与策略

✅ CalendarPro个人管家系统完整设计规划 — 参考OpenClaw（EventBus/CronScheduler/Plugin模式）和get-shit-done（STATE.md持久记忆/ContextAssembler/多Agent分工）设计完整升级方案：5大目标31个子目标、19个新文件+8个修改文件、5批实施顺序及三级目标层级结构
✅ CalendarPro Phase 1-3核心系统实现（16个新服务文件） — 新建GapAnalyzer/AutonomousExecutor/SituationMonitor/ReminderEvaluator/GoalTracker/WaveExecutor/RecommendationEngine/PreferenceLearner/SleepService等16个文件，修改EventBus/Config/Models/BackgroundCoordinator/ContextAssembler等21处，解决循环导入和pytest-asyncio配置后68个单元测试全通过
✅ MIHD跨样本RM-IDEAL基准测试（151673↔151508，PCA+UNI2+STAIG_fusion） — 对PCA+UNI2+STAIG_fusion融合嵌入进行两个DLPFC切片双向跨样本基准测试，计算7个layer标签的Spearman相关、Precision@K和Same-label rate。Layer_1/5表现优异（Spearman 0.42-0.66，SL@50达0.94-1.0），Layer_3/6出现负相关，所有layer的P@K均为零
✅ Openpi-moe norm_stats/prev_actions归一化修复 — 调查发现apply_tree(strict=False)静默跳过缺失键，及VAE中hist_actions（未归一化）与actions（已归一化）拼接导致的尺度不一致隐患。修改compute_norm_stats.py动态检测prev_actions并写入统计量，采用向后兼容设计
✅ CalendarPro Utterance外部化与自动增广 — 将452条硬编码utterances迁移到data/intent_utterances.json，新建UtteranceAugmenter从mismatch日志自动学习并追加新utterance，注册每日2AM定时增广任务，处理7条已有mismatch，48个测试通过
✅ CalendarPro BackgroundCoordinator启动修复与9个Discord handler补全 — 在discord_bot.py的on_ready()中添加coordinator.start_all()，使GapAnalyzer等后台服务实际运行；为SET_GOAL/QUERY_GOALS/LOG_MEAL等9个IntentType添加完整handler方法和路由分支
✅ MIHD项目五句话核心叙事框架打磨 — 与Claude三轮迭代确立三个核心卖点：zero-shot为重点、与STAIG训练依赖方法形成本质对比、跨患者patch query知识迁移的临床愿景
✅ zhaoganlong数据准备脚本修复与9任务全流水线执行 — 修改4个数据准备脚本（启用9任务、移除pdb断点、修复.testc.命名bug、修复h5py追加写）和2个JSON映射文件；在an53执行完整4步流水线（5Hz标注→speed dataset→LLaVA JSON 1,034,176条→RGB渲染约100万张图片）
🔄 zhaoganlong Diffusion Policy训练启动（an53 GPU 0） — 单卡训练，loss从1.16降至0.62，约10s/step，预计2-4天完成
🔄 zhaoganlong Pi0.5多任务训练启动（an53 GPU 2+3 FSDP） — FSDP 2卡训练，24.5k/100k步，约1.5s/step，预计还需31小时
✅ CalendarPro 16处静默异常修复与executor死代码清理 — 将situation_monitor/autonomous_executor/agent_registry等6个文件中16处except Exception: pass全部替换为带日志的错误处理；删除executor.py中4行死循环代码，实现get_progress()和learn_from_history()两个存根函数
🔄 RM-IDEAL最优传输GPU Sinkhorn加速方案探索 — 分析现有scipy EMD串行计算瓶颈（逐spot O(N³)复杂度），委托Agent设计基于Sinkhorn近似的GPU批量化加速方案，方案设计中
❌ zhaoganlong LLaVA MPM训练 — 缺少liuhaotian/llava-v1.5-7b基础模型，集群无网络访问。已发现cpx2用户有本地副本，待确认完整性后可用–model_name_or_path指向本地路径
🔄 Phoenix/FLARE代码库分离（tianhe） — 将zhaoganlong混合研究库分离为Phoenix（运动指令框架）和FLARE（重置技能学习）两个独立项目，建立shared_deps，789G+ mimicgen和245G openpi数据用symlink指向原存档。rsync复制进行中

实现与修复

✅ CalendarPro全面质量审计与测试套件扩充（321个测试） — 通过并行3子Agent创建conftest.py和20个新测试文件（125个新增测试），覆盖新文件/修改方法/集成测试；系统搜索全库TODO/FIXME/NotImplementedError并专项审计静默异常，总测试数从196提升到321
✅ curobo安装到RefineVLA conda环境 — 解决CUDA头文件非标准路径问题（targets/x86_64-linux/include/），通过CPLUS_INCLUDE_PATH编译成功，验证CUDA扩展加载正常

问题与解决方案

关键问题

1. CalendarPro所有后台服务（GapAnalyzer/AutonomousExecutor/ReminderEvaluator等）从未在生产环境中运行：setup_hook和main.py均未调用BackgroundCoordinator.start_all()

解决方案: 在discord_bot.py的on_ready()方法中添加await coordinator.start_all()调用

关键洞察: 注册模式+生命周期管理容易出现「注册了但从未启动」的静默失效；196个单元测试全通过却没发现这个集成缺陷，说明单元测试覆盖不等于系统可用

2. zhaoganlong create_5hz_dataset_new_motion.py第114行save_path含.testc.后缀，但下游create_speed_dataset.py读取时不含此后缀，导致静默数据丢失；h5py追加写模式在重跑时create_group报ValueError

解决方案: 将_adjust_llava_motion.testc.hdf5改为_adjust_llava_motion.hdf5；将h5py追加写(‘a’)改为覆盖写(‘w’)保证幂等性

关键洞察: 上下游脚本文件名约定不一致不会报错却会静默跳过数据，是流水线中最隐蔽的bug类型；HDF5训练数据生成脚本应使用写入模式而非追加模式

3. Openpi-moe中norm_stats.json缺少prev_actions键但训练不报错；同时VAE中hist_actions（未归一化）与actions（已归一化）被直接拼接，造成尺度不一致

解决方案: 修改compute_norm_stats.py动态检测prev_actions是否存在，若存在则添加RunningStats跟踪并写入norm_stats.json；重新生成含prev_actions的统计文件

关键洞察: transforms.py的apply_tree(strict=False)遍历数据键而非norm_stats键，对缺失键静默跳过——新增训练特征必须同步更新归一化脚本，否则造成无声的scale mismatch影响训练质量

4. CalendarPro 452条utterances全部硬编码；data/intent_mismatches.jsonl中积累的LLM纠正记录从未被利用为训练信号

解决方案: 外部化到JSON文件，实现UtteranceAugmenter从mismatch日志自动学习，注册每日定时增广任务，处理后清空已用mismatch记录

关键洞察: AI系统的mismatch记录是免费的标注数据，应自动回流到改进循环；utterance外部化+自动增广是低成本持续学习机制

5. CalendarPro 16处`except Exception: pass`静默异常分布在新增服务中，屏蔽所有运行时错误；executor.py的execute_step()循环体只有pass，get_progress()永远返回None，整个Agent执行链路实际断开

解决方案: 全部静默异常替换为except Exception as e: logger.error(...)；删除死代码，实现真实的步骤分发逻辑和进度追踪函数

关键洞察: 状态追踪层和事件总线层的静默失败危害远大于普通业务层——服务看似在运行但所有错误被吞掉，监控和调试变得不可能；新功能通过单元测试但集成点的空实现使整条链路断开

6. Pi0.5在单卡A800 80GB上OOM（模型+激活值需要~64GB+），且启动时因symlink resolve路径不匹配出现relative_to ValueError

解决方案: 添加–fsdp-devices 2参数将模型分片到GPU 2+3两卡运行；设置OPENPI_DATA_HOME指向实际缓存目录绕过pathlib.resolve()对symlink的解析

关键洞察: Pi0.5即使使用LoRA也需要至少2张80GB GPU，FSDP是必要前提而非优化手段；openpi的get_cache_dir()使用pathlib.resolve()解析symlink，必须通过环境变量明确设置缓存根路径

7. MIHD跨样本评估中Layer_3和Layer_6出现负Spearman相关（ρ≈-0.21～-0.36），所有layer的P@K均为零，与显著正Spearman并存

解决方案: 负相关认定为中间层在嵌入空间中与相邻层边界模糊的数据特性（非代码错误）；P@K=0与Spearman>0.4并存属合理现象——两个指标分别测量精确集合重叠（极严格）和整体排名单调性

关键洞察: zero-shot融合嵌入可在全局趋势上有效但缺乏精确定位能力；Layer_1/5因结构独特性强表现优异，中间过渡层为固有弱点；不应用单一指标否定另一个

8. CalendarPro 9个IntentType（SET_GOAL/LOG_MEAL/REVIEW_DECISIONS等）在Discord Bot中无对应处理器，用户相关指令均回退到默认响应

解决方案: 在discord_bot.py的_handle_intent中添加9个elif分支，实现对应_handle_xxx方法调用GoalTracker/DietService/ThoughtIncubator等服务

关键洞察: 意图路由层和模型层更新了，但视图层（Bot Handler）没有同步——典型的多层更新不一致问题，在无端到端集成测试时无法自动发现

9. an53集群无互联网访问，LLaVA MPM训练所需的liuhaotian/llava-v1.5-7b无法下载，代理503不可用

解决方案: 暂时阻塞；搜索发现cpx2用户在本地有副本，后续通过–model_name_or_path指向本地路径；CLIP等缺失依赖通过从同Python版本conda环境直接拷贝site-packages解决

关键洞察: 集群内用户间模型共享是离线HPC关键协作模式，大模型资源发现应作为标准准备步骤；离线conda依赖安装可直接拷贝site-packages，比重新编译更快

10. CalendarPro services/init.py的eager imports引发循环依赖（services ↔ core.scheduler），导致所有新增测试collection失败；pytest不识别@pytest.mark.asyncio，async测试全部跳过

解决方案: 将__init__.py改为lazy import模式（仅保留__all__），patch路径统一改为src.config.get_settings；安装pytest-asyncio并在pyproject.toml中配置asyncio_mode=“auto”

关键洞察: Python init.py的eager import在模块加载时立即触发整条依赖链；pytest-asyncio需要显式配置mode=auto才能自动处理所有async test

人类思路 vs AI 思路

战略层面

研究项目差异化竞争定位判断

角色	思路
人类	用户明确指出AI初稿缺失的三个核心卖点：zero-shot才是重点、与STAIG训练依赖性的本质对比、新患者切片即到即查的临床愿景
AI	AI生成了技术准确但战略性不足的描述，侧重benchmark框架的系统性，未突出zero-shot的竞争差异性

差异分析: 人类清楚识别了真正的差异化卖点和应用场景；研究贡献的竞争性定位框架需要人类主导，AI倾向于描述技术细节而非竞争优势

架构设计前主动参考外部成熟实现

角色	思路
人类	用户在AI开始设计管家系统后主动指出OpenClaw和get-shit-done两个优秀参考框架，要求先学习架构模式再优化方案
AI	AI直接基于CalendarPro现有代码库进行设计，未主动提出研究外部参考项目

差异分析: 人类具有主动引入外部参考的系统性思维；AI在设计时倾向于在已知信息范围内工作，用户引导使最终方案质量显著提升

代码质量主动识别与生产可用性审计

角色	思路
人类	用户在AI实现过程中主动发现utterances可外部化；在测试全通过后主动要求「检查哪些问题还没有解决」，发现BackgroundCoordinator未启动等严重集成问题
AI	AI处于执行模式时聚焦当前任务目标，未主动识别utterance硬编码；测试通过后认为任务完成，没有主动发起质量审计

差异分析: 人类具有「测试通过≠生产可用」的工程直觉和全局审查意识；AI的认知边界由测试覆盖范围决定，无法感知测试之外的集成和架构问题

大规模实现的文档驱动策略

角色	思路
人类	人类在设计阶段投入大量精力准备高质量架构文档（每个子目标的依赖、EventBus事件、注册方式、测试要求均详细说明），把AI当做执行引擎
AI	AI先探索现有代码模式确认基础设施就绪，随后用4个并行后台Agent分别处理不同文件修改

差异分析: 人类的预先设计使AI执行几乎零返工；人类提供产品直觉和架构边界，AI提供并行化执行效率——两者分工明确时整体效率最高

HPC集群隐性约束与代码库元结构的感知

角色	思路
人类	人类知道当前用户在an53只有4块GPU配额，在AI按全8卡制定计划时及时纠正；主动识别代码库混合了Phoenix和FLARE两个不同来源项目
AI	AI通过nvidia-smi观察到8卡全部空闲，默认以8卡分配资源；未主动识别代码库的混合子项目结构

差异分析: AI只能感知工具输出的显式信息，无法推断调度策略、配额约束、项目归属等隐性知识；被询问后AI能系统化输出结构，但初始框架由人类提供

对话式系统测试哲学：集成测试vs单元测试

角色	思路
人类	用户明确指出测试应通过发消息给Discord Bot来验证系统行为，而非写单元测试；要求列出人工测试清单
AI	AI自动创建了68+个单元测试（mock各种依赖），并将此作为实现完成的标志

差异分析: AI的测试思路来自软件工程默认范式；对话式管家系统更需要端到端交互验证，人类提出了更适合此类产品的测试哲学

AI 局限性

重要局限

实现新功能后未验证其是否接入系统启动链路（BackgroundCoordinator.start_all()未被调用），只验证单元测试通过，遗漏集成层面检查；更新IntentType和IntentRoutes后未同步更新Discord Bot处理器层，产生三层不一致——在无端到端集成测试时无法自动发现这类跨层缺口
设计Agentic系统时未主动提出研究业界成熟实现，需要用户明确指出才去参考OpenClaw和get-shit-done；执行模式下缺乏对全局代码质量的持续关注（如utterance硬编码等架构优化点）
新增服务时为了让代码「不崩溃」写了大量except Exception: pass静默异常处理，牺牲可观测性换取表面健壮性——这是一种错误的安全感，在异步服务架构中特别危险
在研究项目描述任务中，未自发突出zero-shot核心竞争优势，也未主动对比STAIG训练依赖性，需要用户明确指出才补充——缺乏对研究贡献差异化竞争定位的自主判断能力
无法感知HPC集群的GPU配额策略和调度约束，只能观察硬件空闲状态；在长上下文中混淆具体标识符（节点名an49/an53），需要人类把关

一般局限

多次在用户拒绝ExitPlanMode后仍重试，对「何时应暂停确认vs直接推进」的边界判断存在偏差；并行启动大量子Agent时缺乏明确的任务边界和完成状态验证机制

今日收获

核心收获

apply_tree(strict=False)是ML训练管道的隐性危险：新增需归一化的训练特征时若忘记同步更新norm_stats计算脚本，会导致无声的scale mismatch影响训练质量；VAE拼接历史动作和预测动作时必须确保两者使用相同归一化尺度
大规模实现后的标准三项检查：(1) 新服务是否接入启动链路；(2) 跨层（路由→Handler）是否一致更新；(3) 静默异常是否屏蔽了运行时错误。测试通过是必要条件而非充分条件
设计Agentic系统前应主动研究成熟同类项目——OpenClaw的EventBus/CronScheduler/Plugin注册模式和GSD的STATE.md持久记忆/ContextAssembler/多Agent上下文隔离是高度可复用的架构模式，先研究再设计能避免架构返工
注册模式+生命周期管理中「注册了但从未启动」是常见静默失效模式；静默异常（except: pass）在异步服务架构中特别危险：服务看似运行但所有错误被吞掉，监控和调试变得不可能。正确做法是始终至少记录logger.exception()
AI系统的mismatch记录是免费的标注数据——每次LLM纠正分类错误就是一条训练样本，通过UtteranceAugmenter自动回流可实现无监督的持续自我改进，是高性价比的在线学习机制
并行多Agent（4个同时处理不同文件）在大规模代码实现任务中极有效，可将串行时间压缩至约1/4且文件隔离避免冲突；高质量前期架构文档（明确依赖、EventBus事件、注册方式、测试要求）是AI一次性高效实现的关键前提
跨样本zero-shot融合嵌入的层特性：独特性强的皮层层（Layer_1/5）因结构差异明显表现优异（Spearman 0.42-0.66），中间过渡层（Layer_3/6）在嵌入空间中与相邻层边界模糊出现负相关；P@K=0但Spearman>0.4是合理的——两者分别测量精确位置匹配和全局排名单调性
Pi0.5（PaliGemma 2B + action expert 300M）在LoRA微调模式下也需要至少2张80GB GPU（FSDP是必要前提）；zhaoganlong框架各训练阶段数据依赖：Pi0.5用独立LeRoBot数据可立即启动，Diffusion Policy需Step 2（speed dataset），LLaVA MPM需全部数据准备完成
对话式AI系统的测试哲学：单元测试验证组件正确性，但系统价值需通过实际对话测试（Discord消息驱动）验证，两者不可互相替代；GSD的层级上下文组装（PROJECT→ROADMAP→STATE→EXECUTION）是解决multi-agent context rot的有效工程方案

实践收获

离线HPC集群实用技巧：同Python版本conda环境间可直接拷贝site-packages安装依赖；CUDA头文件可能在targets/x86_64-linux/include/而非标准路径，编译失败时先find搜索cuda_runtime_api.h再设置CPLUS_INCLUDE_PATH

会话摘要

MIHD空间组学

🔄 跨样本RM-IDEAL基准测试、项目核心叙事打磨与GPU加速方案探索 15:49:09.875 | claude_code 全天在DCC集群上推进MIHD多模态空间转录组框架工作。确认UNI/UNI2的L2归一化状态；与Claude三轮迭代确立5句话核心叙事（zero-shot为重点、区别于STAIG训练依赖、patch query临床愿景）；对151673↔151508（原误输入151608经AI纠正）执行PCA+UNI2+STAIG_fusion双向跨样本RM-IDEAL基准测试，Layer_1/5 Spearman 0.42-0.66表现优异，Layer_3/6负相关揭示中间层泛化局限，所有layer P@K=0；探索基于Sinkhorn近似的GPU加速方案（方案设计中），编写Layer_3空间可视化脚本（尚未执行出图）。

Motion-based-Self-Reflection-Framework

🔄 在an53部署zhaoganlong框架：9任务数据准备流水线、训练启动与Phoenix/FLARE代码库分离 04:04:27.702 | claude_code 在tianhe通过SSH+tmux远程控制an53部署zhaoganlong Self-Reflection框架。修改4个数据准备脚本（启用9任务、移除pdb断点、修复.testc.命名bug和h5py追加写），更新2个JSON映射文件；在an53执行全流程数据准备（~100万张图片）；解决CLIP缺失（拷包）、Pi0.5单卡OOM（改FSDP 2卡）、symlink路径错误（设OPENPI_DATA_HOME）等问题，成功启动Diffusion Policy（GPU 0）和Pi0.5（GPU 2+3），LLaVA MPM因缺少基础模型阻塞。通过/init分析代码库识别Phoenix和FLARE两个子项目边界，启动rsync批量分离（进行中）。

Openpi-moe

✅ norm_stats缺少prev_actions键的训练行为分析与归一化修复 04:20:57.932 | claude_code 用户发现norm_stats.json仅含actions/state键但训练不报错。追踪到transforms.py的apply_tree(strict=False)静默跳过机制；进一步发现pi0_moe.py中hist_actions（未归一化）与actions（已归一化）被拼接送入VAE，存在scale mismatch隐患。修改compute_norm_stats.py动态检测prev_actions并写入统计量，采用向后兼容设计不影响无prev_actions的数据集。

VLA-RoboTwin-curobo

✅ curobo库安装到RefineVLA conda环境（CUDA头文件路径排查） 10:08:54.172 | claude_code 发现CUDA头文件位于非标准targets/x86_64-linux/include/路径，通过设置CPLUS_INCLUDE_PATH和C_INCLUDE_PATH解决编译失败。最终import curobo和CUDA扩展加载均验证成功。

CalendarPro

✅ 个人管家系统全链路工作：规划→Phase 1-3实现→Utterance增广→质量审计→关键修复 15:35:31.287 | claude_code 全天在TzJsDesktop上完成CalendarPro管家系统升级。规划阶段：参考OpenClaw/GSD架构设计5大目标31子目标方案（19新文件+8修改文件），确定WeChat暂不实现、使用Claude子进程作为Agent内核等关键决策。实现阶段：并行4 Agent新建16个服务文件（GapAnalyzer/AutonomousExecutor/WaveExecutor等），修改21处基础设施，解决循环导入（lazy imports）和pytest-asyncio配置问题后68个单元测试全通过。Utterance优化：将452条硬编码utterances外部化到JSON，实现UtteranceAugmenter从mismatch日志自动学习，处理7条已有mismatch，48个测试通过。质量审计：系统搜索全库并专项审计静默异常，发现executor空循环、BackgroundCoordinator从未启动、9个intent无handler、16处危险静默异常等关键问题，全部修复后321个测试通过。

Token 用量

总览

指标	数值
总 Token	92,483,351
输入 Token	149,991
输出 Token	337,863
Cache 创建	6,273,046
Cache 读取	85,722,451
Cache 命中率	93.2%
总费用 (USD)	$61.1176

模型明细

模型	输入	输出	Cache 创建	Cache 读取	费用	占比
claude-opus-4-6	43,885	143,217	3,417,138	56,847,992	$53.5810	87.7%
claude-haiku-4-5-20251001	106,106	194,646	2,855,908	28,874,459	$7.5367	12.3%

各设备用量

设备	总 Token	输入	输出	费用
DCC	2,410,657	883	11,431	$2.7439
tianhe	27,219,255	44,761	83,775	$16.8247
TzJsDesktop	62,853,439	104,347	242,657	$41.5491

日报 — 2026-03-05#

今日概览#

DCC#

tianhe#

TzJsDesktop#

今日任务#

架构与策略#

实现与修复#

问题与解决方案#

关键问题#

1. CalendarPro所有后台服务（GapAnalyzer/AutonomousExecutor/ReminderEvaluator等）从未在生产环境中运行：setup_hook和main.py均未调用BackgroundCoordinator.start_all()#

2. zhaoganlong create_5hz_dataset_new_motion.py第114行save_path含.testc.后缀，但下游create_speed_dataset.py读取时不含此后缀，导致静默数据丢失；h5py追加写模式在重跑时create_group报ValueError#

3. Openpi-moe中norm_stats.json缺少prev_actions键但训练不报错；同时VAE中hist_actions（未归一化）与actions（已归一化）被直接拼接，造成尺度不一致#

4. CalendarPro 452条utterances全部硬编码；data/intent_mismatches.jsonl中积累的LLM纠正记录从未被利用为训练信号#

5. CalendarPro 16处except Exception: pass静默异常分布在新增服务中，屏蔽所有运行时错误；executor.py的execute_step()循环体只有pass，get_progress()永远返回None，整个Agent执行链路实际断开#

6. Pi0.5在单卡A800 80GB上OOM（模型+激活值需要~64GB+），且启动时因symlink resolve路径不匹配出现relative_to ValueError#

7. MIHD跨样本评估中Layer_3和Layer_6出现负Spearman相关（ρ≈-0.21～-0.36），所有layer的P@K均为零，与显著正Spearman并存#

8. CalendarPro 9个IntentType（SET_GOAL/LOG_MEAL/REVIEW_DECISIONS等）在Discord Bot中无对应处理器，用户相关指令均回退到默认响应#

9. an53集群无互联网访问，LLaVA MPM训练所需的liuhaotian/llava-v1.5-7b无法下载，代理503不可用#

10. CalendarPro services/init.py的eager imports引发循环依赖（services ↔ core.scheduler），导致所有新增测试collection失败；pytest不识别@pytest.mark.asyncio，async测试全部跳过#

人类思路 vs AI 思路#

战略层面#

研究项目差异化竞争定位判断#

架构设计前主动参考外部成熟实现#

代码质量主动识别与生产可用性审计#

大规模实现的文档驱动策略#

HPC集群隐性约束与代码库元结构的感知#

对话式系统测试哲学：集成测试vs单元测试#

AI 局限性#

重要局限#

一般局限#

今日收获#

核心收获#

实践收获#

会话摘要#

MIHD空间组学#

Motion-based-Self-Reflection-Framework#

Openpi-moe#

VLA-RoboTwin-curobo#

CalendarPro#

Token 用量#

总览#

模型明细#

各设备用量#