周报 — 2026-W12 (2026-03-16 ~ 2026-03-22)
本周横跨DCC、tianhe、TzJsDesktop三台设备,在机器人操作与空间转录组两大研究方向全面深度推进。Error Recovery Benchmark完成从采集方案设计(RBG分组329条demo预算)到架构级轨迹分段重构(InteractionSegmenter),training scenes最终达1627个(148 subtypes覆盖,+35%);MIHD空间转录组完成跨切片Embedding对齐全链路落地并确立scGPT零样本优势(100%命中率 vs UNI2 71%);π₀.₅完成任务完成检测头全链路训练上线(loss≈0.253)并设计Exp5-9五种conditioning策略;gadget工具链完成Research Profiler消歧架构重构、网站统一deploy staging架构建设、ECC全员升级至opus+max thinking。全周核心突破集中在「找到并解决架构级根因」:per-section PCA坐标系不可比、多物体target_object歧义、Flax NNX继承vs组合三个系统性问题均在本周得到根本性修复。
本周概览
| 指标 | 数值 |
|---|---|
| 日期范围 | 2026-03-16 ~ 2026-03-22 |
| 活跃天数 | 6 / 7 |
| 总对话数 | 32 |
| 涉及项目 | 25 |
| 完成任务 | 55 |
| 进行中任务 | 5 |
| 总 Token | 491,120,167 |
| 总费用 | $388.14 |
| Claude Code Token | 459,397,404 |
| Claude Code 费用 | $370.34 |
| Codex Token | 31,722,763 |
| Codex 费用 | $17.80 |
| 日均费用 | $55.45 |
项目进展
Error Recovery Benchmark (5 天活跃) — 🔄 active
完成项:
- 设计5个RBG分组体系将人类演示需求从1740条压缩至329条(节省81%)
- 实现完整8文件Pipeline(recovery_types/recovery_segmenter/采集增广转换脚本),139单元测试全通过
- 修复CompositeBodyObject坐标变换bug(lid位置从0.211m恢复0.1045m)
- 诊断修复drop_in_transit假阳性(min_hold_height 0.85→0.93,成功率10%→50%)
- 将串行场景生成改造为32 worker并行(4 GPU round-robin),速度提升约10倍(973 scenes/41分钟)
- 系统性代码审查发现5类bug根因,修复error skill参数24处(Fix A-G)
- 架构级重构:新增InteractionSegmenter按物体交互分段轨迹,彻底绕过phase detection缺陷
- 修复Panda夹爪action极性反转、wrong_object过滤、drop_with_interaction注入策略三项核心bug
- 最终生成1627个training scenes,覆盖148个subtypes
- 系统归因48个ungenerable cases为物理约束而非pipeline故障
阻塞项:
- ⚠️ three_piece_assembly扫描从23退化至4 subtypes(get_target_object和InteractionSegmenter均误选base fixture),代码修复因bwrap沙箱限制未在本周落地
- ⚠️ Pi0.5-base LoRA训练因Slurm interactive job到期中断,需重新sbatch提交
- ⚠️ pick_place数据生成184/2000条时因Slurm到期中断
MIHD空间转录组 (4 天活跃) — 🔄 active
完成项:
- 完成跨切片嵌入诊断实验(5种方法×14组合),确认scGPT 100%命中率远超UNI2(71%)和PCA/STAIG(0-14%)
- 批量生成可视化PDF(5套完整版+35个per-layer子PDF),产出英中双语诊断报告
- 用sklearn纯Python重写批次效应评估指标(ASW_batch/batch_entropy/batch_kl/graph_connectivity),无R包依赖
- 实现HarmonyAligner与JointSTAIGAligner,修复all_aligned模式alignment参数未注入evaluate阶段的关键bug
- 端到端验证:Harmony使batch_entropy 0.33→0.52,batch_kl 0.39→0.25
- /simplify三路并行代码审查修复9处问题(cdist→KDTree防OOM、NEEDS_COORDS_FUSIONS集中常量等)
- 修复STAIG超参数扫描公平对比问题(实验名与实际实现不一致),建立PCA+UNI/UNI2公平基准(ARI均值0.47)
- 完成151676样本10x Visium scanpy分析脚本与6张可视化图
阻塞项:
- ⚠️ Harmony对PCA嵌入的批次效应改善有限(per-section PCA特征空间本身不一致无法通过后处理根本解决)
π₀.₅ / robobrain_pi (4 天活跃) — 🔄 active
完成项:
- 修复vla_infer.py 5个bug(任务完成后无限循环、None检查顺序崩溃、idle状态未广播等)
- 实现action_loss与task_loss分离监控(JAX has_aux机制,wandb三曲线独立追踪)
- 完成π₀.₅任务完成检测头全链路:CompletionHead/Pi0WithCompletionHead(继承方式)/train_completion_head.py,训练正常启动(loss≈0.253)
- 定位并修复RobotwinOutputs.__call__静默丢弃manip_progress字段的根本原因,建立progress评估基础
- 设计实现Exp5-9五种conditioning策略(from_hidden/sinusoidal/detach各变体)
- 修复LIBERO libero_object_com注册缺失及多项评估环境阻塞
- 完成5任务HDF5→LeRoBot数据转换和norm stats计算(coffee/stack等共8000+条)
阻塞项:
- ⚠️ Pi0.5-base LoRA训练因Slurm interactive job到期被强制终止,需重新以sbatch提交
- ⚠️ LIBERO评估环境K8s GPU隔离配置需每次手动检查
gadget工具链(Research Profiler + summarize + website) (4 天活跃) — 🔄 active
完成项:
- 批量分析20+位研究者学术画像,识别5+个严重同名污染案例
- 两轮代码重构:三级解析链(精确ID→论文反查→名字搜索)、量化指标主导消歧权重、新增–author-id CLI参数
- 修复S2限速时递归重试死循环(改为指数退避最多5次)
- 修复gadget _finalized死循环根因(3个source log首次export当天finalized=False导致merge永不收敛)
- 修复npx子进程在capture_output=True模式下永久挂起bug(添加–yes参数)
- ECC全员升级至opus + effortLevel: max
- monthly_summary.py新增Codex用量独立聚合支持
- 完成Hugo站点bugJournal导航下拉菜单(自定义header.html partial覆盖主题)
- 建立统一deploy staging架构(outputs/site → website/sync_staging.py → Hugo构建 → 部署)
- 修复PaperMod主题损坏(macOS._pack文件)并更新至支持Hugo v0.157.0的最新版
- 批量生成W05-W12历史周报8份
阻塞项:
- ⚠️ 会议奖项识别ROI极低(约80%批次返回空,专业细分领域近乎无效),未完成替换为外部数据源方案
CalendarPro (2 天活跃) — 🔄 active
完成项:
- 实现BATCH_UPDATE意图全链路(语义路由+关键词计数规则+LLM分类器+handler),修复批量任务状态汇报的核心缺陷
- 关键词计数规则(2+完成动词→+0.30 boost)弥补嵌入相似度对多任务消息的盲区
- 修复GENERAL fallback使实质性LLM回复不被丢弃
- 21个新测试+72个相关测试全部通过
阻塞项:
- ⚠️ 全量pytest套件因HuggingFace语义路由模型下载挂起,marker隔离方案未完成
VLA评估辅助工具 / CALVIN格式转换 (2 天活跃) — ⏸️ paused
完成项:
- 实现评估视频实时叠加manip_progress预测值(cv2.putText白色带黑描边)
- 修复CALVIN RLDS→LeRoBot转换脚本(数据集名称、观测键名、目录覆盖逻辑)
- 确认RoboCasa MimicGen预训练数据下载失败为上游未发布问题,无需代码修复
关键任务
- ✅ InteractionSegmenter轨迹分段架构重构(Contract全链路对齐) (2026-03-21) — 识别detector→injector→validator→generator整链路contract不一致为系统性根因;新增InteractionSegmenter按物体交互分段轨迹,每段明确target_object/phase/other_objects,彻底绕过单物体phase detection缺陷;修复13个skill的objects[0]语义歧义,全链路透传target_object和target_pos;139单元测试全通过
- ✅ Error Recovery Pipeline全链路实现(8文件,139测试) (2026-03-16) — 实现recovery_types.py/recovery_segmenter.py/采集增广转换脚本等8个新文件,新增34个单元测试;完成VLA错误恢复数据采集方案(5个RBG分组,6任务×3 tier,329条人类demo总预算)
- ✅ π₀.₅任务完成检测头设计与实现(训练上线) (2026-03-18) — 全链路完成:prefix_output mean pooling特征来源、继承方式保持checkpoint路径兼容、CompletionHead/Pi0WithCompletionHead/train_completion_head.py;修复RepackTransform键名映射,训练正常启动(loss≈0.253,参数冻结验证正确)
- ✅ MIHD跨切片Embedding对齐实现与bug修复 (2026-03-18) — 新建pipeline/alignment.py(HarmonyAligner+JointSTAIGAligner),修复all_aligned模式下alignment参数未注入evaluate阶段的3行关键bug;端到端验证:Harmony使batch_entropy 0.33→0.52
- ✅ CalendarPro BATCH_UPDATE意图实现 (2026-03-18) — 修改8个文件新增BATCH_UPDATE枚举、语义路由(21个utterance)、关键词计数规则(2+完成动词→+0.30 boost)、LLM handler;修复GENERAL fallback;21个新测试+72个相关测试全通过
- ✅ Error Recovery Benchmark三项核心bug修复 (2026-03-22) — 修复Panda夹爪action极性反转(基于机械臂类型动态检测)、wrong_object过滤逻辑(限定grasp_geoms非空)、drop_with_interaction注入策略(主动搬运到non-target正上方再释放);training scenes 1209→1627
- ✅ gadget npx挂起bug修复 + ECC全员opus升级 (2026-03-21) — 修复npx在capture_output=True模式下等待安装确认而永久挂起的bug;将27个agent从sonnet/haiku升级至opus,settings.json effortLevel改为max
- ✅ 统一deploy staging架构建设 (2026-03-22) — 新建common/site_staging.py统一输出接口,所有工具Hugo发布路径切换到outputs/site;新建website/sync_staging.py(link优先/copy回退/首次bootstrap迁移);benchmark添加完整发布层;update.sh集成staging同步
- ✅ robobrain_pi任务状态汇报bug修复 (2026-03-17) — 修复vla_infer.py 5个问题:任务完成后未清空current_prompt导致无限循环、None检查顺序错误潜在崩溃、idle状态未广播、调试日志阈值不一致
- ✅ gadget _finalized死循环根因诊断与修复 (2026-03-19) — 诊断sync-all每次重处理所有历史日期的根因:部分设备source log _finalized=False(首次export当天),merge时all_sources_finalized=False导致report永远不finalized。精确定位3个问题source log,确定手动重新export修复方案
- ✅ drop_in_transit假阳性诊断与修复 (2026-03-20) — 诊断min_hold_height=0.85导致物体在桌面(z≈0.88)被误判为空中持有(80%假阳性),将阈值提升至0.93(桌面+物体高+余量),D0成功率10%→50%
- ✅ 训练场景并行批量生成(串行→32 worker) (2026-03-20) — 将串行脚本改造为ThreadPoolExecutor(32 worker,4 GPU round-robin),41分钟完成973 scenes(约10倍提速);后续多轮生成最终达1627 scenes
- ✅ π₀.₅ manip_progress推理日志修复 (2026-03-18) — 定位并修复根本原因:RobotwinOutputs.__call__只返回{actions}字段静默丢弃manip_progress,导致上游预测结果外部完全不可见;修改output transform后数据流重新打通
- ✅ MIHD批次效应评估指标纯Python实现 (2026-03-18) — 用sklearn.neighbors.NearestNeighbors完全替代R包nabor,纯Python重写ASW_batch/batch_entropy/batch_kl/graph_connectivity四个跨切片批次效应量化指标
- ✅ STAIG超参数扫描公平对比修复 (2026-03-20) — 发现实验名称误导性(‘pca_uni2_staig_fusion’实际使用UNI)且使用raw HVG而非PCA输入;修改脚本添加–gene_encoder/–vision_variant参数,建立PCA+UNI/UNI2公平基准(ARI均值0.47)
- 🔄 Pi0.5-base LoRA合并数据集微调流水线数据准备 (2026-03-20) — 完成5任务HDF5→LeRoBot数据转换(共约8000条)和norm stats计算,启动coffee/stack训练后因Slurm interactive job到期中断,需重新sbatch提交;pick_place数据生成184/2000条时亦中断
- 🔄 three_piece_assembly退化根因分析 (2026-03-22) — 确认Fix1-3已落地,定位两处未修根因:get_target_object()和InteractionSegmenter均在all_objects中以最近距离选目标,base fixture因z≈0.80永不满足lift_height=0.84阈值,导致887个opportunity中879个被过滤;修复方案已明确,代码实施待下周
- ✅ Research Profiler消歧架构两轮重构 (2026-03-16) — 实现三级解析链(精确ID→论文反查→名字搜索)、量化指标主导消歧权重重校准(h-index/论文数权重大幅提升)、s2_author_id字段、–author-id CLI参数、S2限速指数退避重试;修复Pieter Abbeel等著名教授h-index误识别问题
- ✅ π₀.₅ Exp5-9实验配置设计与实现 (2026-03-18) — 在pi0_config.py添加cond_mode字段,实现Exp5-9:from_hidden+last/special_token、sinusoidal+last/special_token、detach_cond+last_token五种conditioning策略,系统覆盖端到端梯度/中间层/detached三个实验方向
- ✅ action_loss与task_loss分离监控 (2026-03-17) — 修改model.py抽象方法返回(loss_array, aux_dict),train.py使用JAX has_aux=True解包辅助指标,wandb和进度条中新增action_loss/task_loss独立曲线
- ✅ VLA错误恢复数据采集方案设计(5 RBG分组) (2026-03-16) — 调研MimicGen/IntervenGen等文献,将29种error subtype按motor primitive聚类为5个RBG组(Re-grasp/Retrieve/Retract/Redirect/Realign),制定329条demo总预算,节省1740条朴素需求的81%
- ✅ gpumon重复进程bug修复 (2026-03-17) — 双重过滤:要求同时有/dev/nvidia* FD打开才认定为GPU进程(消除CUDA_VISIBLE_DEVICES环境变量误报),并添加父进程链去重(折叠DDP worker子进程);进程数从35降至8;新增键盘交互导航
- ✅ 训练场景生成失败根因分析文档 (2026-03-20) — 通过parallel_logs日志、opportunity map、meta.json交叉分析,识别5大根因(gripper_closed_norm异常P0级、drop碰撞检测不足等),写入training_scene_failure_analysis.md
- ✅ Hugo站点bugJournal导航下拉菜单实现 (2026-03-22) — 自定义header.html partial覆盖PaperMod默认模板,添加has-submenu/submenu class渲染逻辑,通过bugjournal-menu.css实现hover下拉效果;list.html过滤使根页面只展示三个子section入口
问题与解决方案
1. per-section PCA/STAIG产生不可比嵌入空间,跨切片检索14组合中10组SL@50=0,normalize无法修复 [MIHD空间转录组] (2026-03-16)
解决方案: 改用预训练Foundation Model(scGPT):所有切片共享同一套模型权重,输出天然处于同一坐标系;SL@50从0.013提升到0.416,命中率100%。根因是坐标系不一致(数学上normalize不可解),而非基因特征信息不足
2. CompositeBodyObject在env.reset()时散架(lid悬浮、base偏移),但HDF5回放时正常(set_sim_state_flat覆盖body位置掩盖了问题) [Error Recovery Benchmark] (2026-03-16)
解决方案: 在generated_objects.py的__init__中添加locations_relative_to_corner实例属性存储,恢复角点到中心的坐标变换逻辑(对齐commit 398af01b);139单元测试全通过
3. Semantic Scholar将多位同名研究者论文错误合并,Pieter Abbeel等著名教授被匹配到h=4的同名人,h-index统计严重失真 [Research Profiler] (2026-03-16)
解决方案: 重构消歧权重(量化指标压倒字符串相似度)+新增三级解析链(精确ID→论文反查→名字搜索)+–author-id CLI参数;限速时通过WebSearch查找正确authorId并直接指定
4. vla_infer.py任务完成后未清空current_prompt,下一循环chunk_count仍≥5且模型分数仍高,立即再次触发done消息,无限循环汇报完成 [robobrain_pi] (2026-03-17)
解决方案: 在任务完成处理块末尾添加current_prompt=‘‘和_publish_state(‘idle’);状态机完成必须同时重置触发条件和广播状态变更
5. π₀.₅ Pi0WithCompletionHead用组合方式导致所有父模块参数路径多了pi0/前缀,pytree merge抛出'2 children vs 1 child’ ValueError,checkpoint完全无法加载 [π₀.₅] (2026-03-18)
解决方案: 改为继承方式(class Pi0WithCompletionHead(Pi0)),Pi0参数直接在顶层与checkpoint路径对齐;Flax NNX中继承是保持checkpoint路径兼容的唯一方案
6. RobotwinOutputs.__call__只返回{actions}字段,静默丢弃manip_progress,模型即使正确预测progress字段,外部也永远无法获取,eval txt文件始终为空 [π₀.₅] (2026-03-18)
解决方案: 修改output transform的return dict包含manip_progress字段,数据流重新打通;排查此类bug应从数据流终点向上游追踪
7. CalendarPro用户批量汇报任务状态时系统返回’我不太确定’而非处理请求 [CalendarPro] (2026-03-18)
解决方案: 分析完整根因链:嵌入相似度低→LLM分类器无该意图→GENERAL handler丢弃AI回复;在路由/分类/处理三层全链路添加BATCH_UPDATE支持,关键词计数规则弥补嵌入盲区
8. MIHD all_aligned模式下–alignment参数未注入evaluate阶段,EvaluationJob.alignment始终为None,Harmony对齐结果被完全忽略,对齐功能实际失效 [MIHD空间转录组] (2026-03-18)
解决方案: 在run_pipeline.py evaluate阶段前加3行代码:当phase==‘all_aligned’且args.alignment有值时将alignment注入每个experiment的extra_config
9. drop_in_transit_D0仅生成极少有效场景,min_hold_height=0.85过低,物体在桌面(z≈0.88)被误判为空中持有,80%机会为假阳性 [Error Recovery Benchmark] (2026-03-20)
解决方案: 将阈值提升至0.93(桌面高0.80+Milk物体高0.08+余量0.05),假阳性消除,D0成功率从10%提升至50%
10. python summarize/daily_summary.py永久卡在@ccusage/codex步骤,无输出无报错 [gadget] (2026-03-21)
解决方案: subprocess.run(capture_output=True)将stdin重定向到DEVNULL,npx首次安装确认提示无限等待;在所有3处npx调用添加–yes参数跳过交互确认
11. threading/pick_place等多物体任务中phase detection系统性失效,threading全部帧标记为pre_reach,导致12/13个skill无法找到opportunity [Error Recovery Benchmark] (2026-03-21)
解决方案: 新增InteractionSegmenter按物体交互分段轨迹(EEF接近度+夹爪状态+共运动检测),每段明确target_object和phase;彻底绕过单物体phase detection,不修补而是绕过缺陷抽象;threading subtypes 3→25
12. Panda机械臂夹爪action极性与代码假设相反:Panda需要action=+1闭合,硬编码-1实际在打开夹爪,导致coffee/stack等所有注入失败 [Error Recovery Benchmark] (2026-03-22)
解决方案: 在EnvWrapper.__init__中通过机械臂类型检测极性,PandaGripper设close_action=+1.0,RethinkGripper设-1.0;添加helper并替换全部硬编码action[-1]
13. drop_with_interaction在全部任务生成0 scenes:原实现只施加1-3cm偏移后放手,物体间距10-20cm根本不会碰到邻居 [Error Recovery Benchmark] (2026-03-22)
解决方案: 重写inject逻辑:将物体主动搬运到non-target正上方(+0.15m),再松开夹爪让物体自由落体,全程追踪settle过程中的object-object contact
学习收获
架构 (architecture)
- Pipeline contract对齐必须追踪完整数据流:不仅修改处理逻辑,还必须确保数据在存储层被持久化(如segment_interactions()结果写入NPZ);output transform是推理链的隐式过滤器,任何不在return dict中的字段都被静默丢弃;多阶段pipeline中CLI参数必须显式传递给每个下游阶段,不能依赖隐式共享。「单元测试通过 ≠ E2E正确」
- 多物体机器人操作任务中target_object必须作为一等公民在detector/injector/validator三阶段全程透传;objects[0]是字典插入序第一个物体,在多物体场景语义完全错误且不会报错,导致所有基于物体状态的判断系统性误判。graspable物体与fixture必须通过grasp_geoms字段区分,不能用纯距离/位置选择target
- per-section独立处理(PCA/训练)产生不可比嵌入空间,这是架构级根本限制,无法通过归一化或后处理修复。唯一正确的zero-shot解决方案是预训练Foundation Model(共享权重)。Gene FM(scGPT 100%)显著优于Vision FM(UNI2 71%),因H&E图像存在跨样本batch effect而基因表达具有更强跨样本一致性
- Flax NNX扩展已训练模型:继承(class Child(Parent))是保持checkpoint路径兼容的唯一方案;组合(self.pi0 = Pi0(…))会在所有父模块参数路径前加一层前缀,导致pytree merge完全失败。现有框架的冻结机制(freeze_filter+nnx.DiffState)通常已考虑扩展性,优先复用而非新建
- 面对架构层面的设计缺陷,「绕过」比「修补」更根本:phase detection的单物体假设是无法通过调参修复的设计缺陷,InteractionSegmenter直接绕过它而非打补丁,是更优雅的解法。不修补而是绕过错误的抽象层次
调试 (debugging)
- 状态机设计原则:完成事件必须同时做两件事——重置触发条件(清空current_prompt)和广播状态变更(_publish_state(‘idle’))。只做其中一件会留下无限循环或上游感知失效的隐性bug。None检查必须先于任何属性访问(防御性编程)
- 诊断未知第三方库行为时,编写最小化实测脚本比静态代码分析更可靠高效(robosuite夹爪极性案例);日志Counter统计比逐条阅读更有效定位系统性bug(1698次’gripper not closed’直接指向target_object歧义);排查隐式过滤类bug应从数据流终点向上游追踪
- 实验命名约定必须严格对应实际实现;「pca_uni2_staig_fusion」实际使用UNI的命名不一致会导致长期理解错误,必须通过读取日志而非仅看实验名来确认实际配置。benchmark数据质量问题(分布不均衡、phase标注全为pre_reach)应在pipeline设计阶段就加入监控机制
工具 (tools)
- subprocess.run(capture_output=True)会将stdin重定向到DEVNULL,调用可能有交互提示的CLI工具(npx等)必须传入–yes/-y,否则会无限挂起而非超时。capture_output=True是高隐蔽性挂起根因
- Slurm HPC集群的pam_slurm_adopt策略在job结束时强制kill所有相关进程,SSH nohup无法绕过;长时间训练任务必须用sbatch提交正式job。MuJoCo物理仿真(enable_camera=False)是纯CPU任务,MUJOCO_GL=disabled可完全绕过OpenGL,workers数应精确匹配–cpus-per-task
- JAX has_aux机制:nnx.value_and_grad支持has_aux=True,compute_loss返回(loss_array, aux_dict)后梯度只对loss_array计算,aux_dict透明携带监控指标;stop_gradient将aux loss严格限制于MLP参数,action/aux loss数值比例悬殊不代表训练失衡
- Hugo最佳实践:.Title是识别特定section最稳定的字段(.Section和.RelPermalink大小写跨平台不一致);静态目录名与content页面基础名相同会产生路径冲突;自动生成frontmatter不应使用系统当前时间作为date;可通过项目级layouts/partials/安全覆盖主题partial,无需fork主题
- 空间数据近邻查询:大规模点云(>10K点)应优先KD树(O(N log N)预处理),而非cdist(O(N²)内存);在HD空间转录组(17K+细胞)场景差异可达OOM vs正常运行。单一真相来源(SSOT)原则:需要跨多文件引用的常量集合必须从唯一定义处import
领域知识 (domain)
- Recovery Behavior Group(RBG)分组策略:将29个error subtype按motor primitive聚类为5组,同组内demo可交叉增广,MimicGen从10条源demo生成1000+条;将1740条朴素需求压缩至329条(节省81%)。这是可广泛应用于机器人recovery数据工程的范式
- π₀.₅计算图特性:推理天然两步(VLM prefix forward→action expert denoising),训练时Exp1-4可用teacher forcing合并为一次联合forward;from_hidden模式因conditioning依赖模型输出引入循环依赖,必须额外一次prefix-only forward。prefix_output的mean pooling比action expert的suffix_output更适合分类任务(编码全局状态理解)
- LLM对学术轨迹分析的深度理解能力超预期:能自发识别’基础设施思维型研究者’、‘范式转变的技术前提’等高阶特征;why_not_before字段(从数据/算力/insight三维归因每项突破的历史前提)是研究者画像中价值最高的字段。会议奖项识别在当前LLM能力下ROI极低,应替换为外部数据源方案(精确标题匹配JSON库)
AI 使用备注
有效模式:
- ✓ 并行多agent代码审查(复用/质量/效率三维独立分析同一diff):三个维度发现完全不重叠的问题集,并行执行节省时间
- ✓ 系统性代码追踪定位根因:从数据流终点向上游追踪,成功定位output transform静默丢弃bug、S2限速递归死循环等
- ✓ 主动超出任务边界的质量检查:在研究者画像分析中主动识别同名混淆(h-index与论文量比值异常、领域不可能跨度等),未在prompt中显式要求
- ✓ 学术轨迹分析达到学术评论级别:自发识别’基础设施思维型研究者’等高阶特征,why_not_before字段价值超预期
- ✓ 日志聚合统计定位系统性bug:Counter统计1698次’gripper not closed’直接指向target_object歧义根因,比逐条分析高效
局限性:
- ✗ 面对复杂系统问题时倾向定位孤立bug,缺乏从数据流全链路视角分析contract不一致的能力,需人类从架构层面指引
- ✗ 完成局部修复计划后缺乏主动的全局数据流验证,单元测试通过给了错误的「完成感」,多处遗漏(e05/e06/e09、target_pos传递、collect脚本未集成)需人类系统性审查发现
- ✗ 环境配置未预验证导致批量任务多轮全量失败(Agent子代理无Bash权限、conda激活失败、PYTHONPATH缺失、API密钥类型),应先单个任务验证再批量扩展
- ✗ 未能主动识别效率瓶颈:串行场景生成缓慢时仅设定等待而未提并行化;nohup SSH启动时未考虑Slurm job到期的资源隔离
- ✗ 对框架特定行为预判不足:未预见Flax NNX继承vs组合对checkpoint路径的影响;未预见JAX/NNX TrainConfig机制可直接复用
- ✗ 不了解工具最新功能(effortLevel: max被告知才知道),对快速迭代的AI工具生态存在知识滞后
下周展望
下周核心优先级:(1) Error Recovery Benchmark收尾——修复three_piece_assembly(get_target_object和InteractionSegmenter均改为_get_graspable_objects()优先+回退全部对象),目标将该任务subtypes从4恢复到20+;补全collect脚本调用segment_interactions()使分段数据持久化到NPZ;(2) π₀.₅训练重启——以sbatch提交Pi0.5-base LoRA六任务合并微调训练,补全pick_place数据生成(2000条D0),监控Exp1-4与Exp5-9的action_loss/task_loss曲线对比;(3) MIHD研究推进——基于本周确立的scGPT零样本优势启动跨切片分析论文写作,整合Harmony对齐结果(batch_entropy 0.52)作为baseline;(4) Research Profiler第三版——实现论文标题搜索支持(本周已规划但未落地),替换会议奖项识别为外部Best Paper JSON数据库方案;(5) 基础设施稳定化——将已完成的统一staging架构推广至research/summarize/benchmark所有工具,验证sync.py全类别同步正常
Token 用量统计
每日费用趋势
| 日期 | Token (百万) | 费用 ($) |
|---|---|---|
| 2026-03-16 | 49.5 | 38.47 |
| 2026-03-17 | 19.3 | 14.89 |
| 2026-03-18 | 78.1 | 51.97 |
| 2026-03-20 | 91.3 | 61.62 |
| 2026-03-21 | 49.6 | 32.48 |
| 2026-03-22 | 86.3 | 58.70 |
| unknown | 117.1 | 130.01 |
峰值日: unknown — $130.01 / 117.1M tokens
Claude Code
| 指标 | 数值 |
|---|---|
| 总 Token | 459,397,404 |
| 输入 Token | 441,822 |
| 输出 Token | 1,189,117 |
| Cache 创建 | 44,180,748 |
| Cache 读取 | 413,585,717 |
| 总费用 | $370.34 |
模型使用分布
| 模型 | 费用 ($) | 输入 Token | 输出 Token |
|---|---|---|---|
| claude-opus-4-6 | 264.59 | 197,835 | 588,231 |
| claude-sonnet-4-6 | 83.51 | 17,991 | 147,871 |
| claude-haiku-4-5-20251001 | 22.24 | 225,996 | 453,015 |
Codex
| 指标 | 数值 |
|---|---|
| 总 Token | 31,722,763 |
| 输入 Token | 31,481,309 |
| 输出 Token | 241,454 |
| 推理 Token | 107,479 |
| Cache 读取 | 28,673,408 |
| 总费用 | $17.80 |
模型使用分布
| 模型 | 费用 ($) | 输入 Token | 输出 Token | 推理 Token |
|---|---|---|---|---|
| gpt-5.4 | 17.81 | 31,481,309 | 241,454 | 107,479 |