周报 — 2026-W13 (2026-03-23 ~ 2026-03-29)

本周横跨三台设备（TzJsDesktop / tianhe / DCC）并行推进约10个项目。核心成就：gadget 的 summarize（2930行→8模块+72测试）和 research_scout（2934行→7子包）两大模块完成系统重构，并新增自然语言论文搜索 ask 命令；TokenMonitor 从 macOS 专属工具演进为跨平台多设备 SSH 费用追踪平台（含 Windows 原生 UX、悬浮球、ccusage 接入、LiteLLM 动态定价、全面安全加固，多次成功构建 MSI/NSIS 安装包）；Error Recovery Benchmark 完成 Pipeline 2 全链路设计实现与 Context Replay 架构重构（163 测试全通过）；ccplan / cchypothesis / optimize 等 Claude Code 工具链获得系统性升级。机器人研究方向完成 Pi0.5 全任务评测（揭示 Stack 96% vs PickPlace 6% 极端分化）、BOSS benchmark 工程化落地及 openvla-oft 训练脚本创建。MIHD 空间转录组完成 QueST 协议对齐与 8 编码器 benchmark 框架搭建。

本周概览

指标	数值
日期范围	2026-03-23 ~ 2026-03-29
活跃天数	6 / 7
总对话数	40
涉及项目	27
完成任务	65
进行中任务	6
总 Token	639,747,276
总费用	$439.02
Claude Code Token	599,935,711
Claude Code 费用	$413.30
Codex Token	39,811,565
Codex 费用	$25.72
日均费用	$62.72

项目进展

TokenMonitor（桌面应用） (7 天活跃) — 🔄 active

完成项:

完成 Phase E 跨平台迁移，移除全部 macOS-only 依赖，生成首个可分发 Windows NSIS/MSI 安装包
实现悬浮球全生命周期（四边吸附、拖拽/点击区分、胶囊 UI、Win32 形状裁剪）
实现 Windows 原生 UX（任务栏嵌入、透明圆角、动态定位至系统托盘上方）
实现 SSH 多设备费用追踪（ssh_config 解析、远程 jq/python3/grep 三级预处理、500MB→5MB）
接入 ccusage CLI（按视图 fallback）和 LiteLLM 动态定价（2598 模型、24h 缓存）
完成 commands.rs（2466→7模块）、rate_limits.rs（1202→5模块）大规模代码重构
修复 SSH 同步 0 条死循环（format! 行连接符破坏 Python 缩进 + 时间戳条件更新）
修复 Dashboard 1-2Hz 抖动（四层防御打断 ResizeObserver↔setSize 正反馈循环）
修复图表 Tooltip 布局抖动（永久预留固定高度 + 固定高度轮播面板）
修复窗口底边跳动（position:fixed Footer + JS 预设 minHeight + 删除动态锚点检测）
5 个并行专项 Agent 安全审计，修复 SSH alias 注入、路径遍历等全部安全问题
229 Rust + 191 前端测试全通过，clippy 零警告

阻塞项:

⚠️ 前端 glass 清理（Phase E-3+E-9）尚未完成
⚠️ 多设备 UI 架构 P1-P3 层（主界面折叠区 / 图表切换 / 单设备深入页）尚未实现

Claude Code 工具链（ccplan / cchypothesis / skills） (6 天活跃) — 🔄 active

完成项:

ccplan：新增 Phase 0 五步 Prompt Calibration、多意图分解（coupled/related/independent）、Phase 4-6 最低发现阈值 max(3,N/2)、Feature Guard Protocol、WebSearch 断流修复
cchypothesis：通过 ccplan 完整 9 阶段流程设计 6-phase 假设驱动调试 skill，后整合智能双轨插桩架构（静态并行 + 串行插桩升级路径 + Git Safety Checkpoint），经 critic agent 11 个对抗问题验证
optimize skill 扩展为 Python/Swift/Rust/TypeScript 四语言 hub+spoke 架构
code-summarize 新增 –for audience 参数（self/coworker/user/display 权重矩阵）
新建 slurm-gpu skill（解析 sinfo/squeue/scontrol，双层 GPU 可用情况输出）
全局 skill 库重组：删除 36 个无关 skill，按就近原则移入项目级

BOSS Benchmark（机器人评测） (6 天活跃) — 🔄 active

完成项:

完成 Git 仓库迁移（YY-GX/BOSS → Junye-Chen/boss），配置代理绕过集群限制
完成零配置迁移至 openpi LIBERO 环境（模块注入注册 BENCHMARK_MAPPING）
创建 eval_oss_ch.py（修改环境评估）和 eval_skill_chain.py（技能链评估）两个 server-client 评估脚本
修复 5 个缺失物体资产（corn/egg/lemon/onion/potato），确认 7 个 LIVING_ROOM 任务 0% 成功率为有意设计的零样本泛化测试
统一三个评估脚本的成功率日志和 JSON 结果保存逻辑（不再依赖 –save_stats 标志）
创建 CLAUDE.md 文档，完成训练-评测完整链路工程化

Error Recovery Benchmark (5 天活跃) — 🔄 active

完成项:

完成 Pipeline 2 全链路实现：target_object 贯穿数据流、Phase×Object 三维均匀采样（bucketing+回流）、D0/D1 分层 MimicGen 增强，163 单元测试全通过，GPU smoke test 确认
E4 合并入 E3 架构重构，taxonomy 从 13 skills/26 subtypes 精简为 12 skills/24 subtypes，136 测试全通过
Context Replay 全面重构：删除 observations 死代码、修正 policy_adapter 时序（移至 post-injection 环境稳定后）、重命名 render_window（修正 VLA context window 错误叙事），7 个文件 22 处批量清理
向 BaseErrorSkill 提取 6 个共享 helper，消除 ~60 行重复代码，修复 bare except/热路径 import 等安全问题
macOS 收集包从 952MB 压缩至 1.1MB

阻塞项:

⚠️ set_sim_state_flat 替代逐帧回放方案规划完成但未执行代码变更
⚠️ Pipeline 2 数据生成与实际训练-评测闭环验证尚待完成

gadget（summarize / research / tools） (5 天活跃) — 🔄 active

完成项:

summarize 模块重构：daily_summary.py 从 2930 行拆分为 8 模块（config/remote/parsers/usage/summarizer/formatter/daily/cli），72 测试全通过，保留向后兼容 shim
research_scout.py 模块化重构：2934 行→ scout/ 子包 7 模块，research_scout.py 降为约 80 行薄 shim，mcp_server.py 零改动
新增 ask 命令（parse_ask_intent / validate_ask_plan / route_search），支持自然语言论文搜索并修复 6 个运行时 bug（arXiv 重试、会议 token 级柔性匹配、孤立目录清理等）
修复 –sync-all 子进程 ModuleNotFoundError（python daily.py → python -m summarize.cli）
summarize skill 升级为论文式六章节格式，新增 /code-summarize 命令

机器人学习研究（openvla-oft / openpi / LiPM） (3 天活跃) — 🔄 active

完成项:

Pi0.5 merged-LoRA D0/D1 全任务 rollout 评测完成（10 项任务，8×A800 并行），揭示 Stack 96-98% vs PickPlace 6% 极端性能分化
深度对比 openvla vs openvla-oft finetune.py（动作表示、FiLM/本体感知/Action Chunking、数据接口差异），创建完整训练脚本 run_openvla_oft.sh
完成 OpenPI 评测客户端改造（WebsocketClientPolicy、图像预处理、状态向量、action chunking）
修复 lerobot2rlds.py 字段过滤逻辑（joint_state 字段遗漏），添加 –max-episodes 参数
LiPM trainer.py 审查发现 5 个逻辑 bug（重复 GPU 转移、变量名错误、backbone.eval() 被覆盖等）

阻塞项:

⚠️ Pi0.5 训练在 25000 步被 Slurm 时限中断，精细任务（PickPlace/Threading）成功率极低，需更多训练步数

MIHD 空间转录组（DCC） (1 天活跃) — 🔄 active

完成项:

完成 QueST cross-sample query 协议差距分析（4 个差距：query 粒度/candidate 表征/niche 类型/评估指标）并对齐实现（K-hop mean-pool、boundary niche 7 种类型、NCJS 指标）
搭建 8 基因编码器 benchmark 框架（Cache-First 架构），完成 4/8 编码器（HVG1500 ARI=0.3300 最优，优于所有测试基础模型）

阻塞项:

⚠️ UCE 因 Figshare 下载失败（需代理）阻塞
⚠️ TEDDY/Geneformer/scGPT-spatial 环境安装或 OOM 问题待解决

LifeCopilot / openclaw 集成 (1 天活跃) — ⏸️ paused

完成项:

完成 LifeCopilot 代码库完整中文文档化（OVERVIEW.md，4 并行 Agent），并通过验证 Agent 发现 AI 生成统计数据的系统性偏差
确立将 LifeCopilot 作为插件构建在 openclaw 多渠道架构之上的集成方向

阻塞项:

⚠️ 安全设计（多渠道暴露 / prompt injection 防护）尚未完成，会话在关键决策前中断

关键任务

✅ gadget summarize 模块重构（2930行→8模块+72测试） (2026-03-24) — 将 daily_summary.py 拆分为 8 个模块，先写 47 个导入烟雾测试建立安全网，消除三处 sys.path.insert hack，保留向后兼容 shim，同步更新三个外部消费者导入链。
✅ Error Recovery Benchmark Pipeline 2 全链路设计与实现 (2026-03-29) — brainstorming→spec→subagent-driven-development 工作流，target_object 贯穿数据流，三维均匀采样 bucketing，D0/D1 分层 MimicGen 增强，163 测试全通过，GPU smoke test 确认。
✅ gadget research ask 命令完整实现 (2026-03-29) — ccplan 9 维意图提取 + Critic 识别 12 个潜在问题后实现。修复 6 个运行时 bug：arXiv 指数退避重试、会议 token 级双向子集匹配、孤立目录清理、模块导入路径修正。
✅ TokenMonitor SSH 同步 ‘始终 up to date’ 根本修复 (2026-03-29) — 根因：Rust format! 行连接符删除 Python 脚本缩进，IndentationError 被 2>/dev/null 静默吞掉，返回 0 条后时间戳仍写入形成死循环。concat! 宏替代 + 时间戳条件更新修复。
✅ ccplan skill 多轮系统升级 (2026-03-24) — 新增 Phase 0 Prompt Calibration、多意图分解（coupled/related/independent 轨道并行）、Phase 4-6 定量阈值 max(3,N/2)、Feature Guard Protocol、WebSearch 断流修复（Tool Invocation State Preservation）。
✅ research_scout.py 模块化重构（2934行→7子包） (2026-03-25) — 拆分为 scout/ 子包，research_scout.py 降为 ~80 行薄 shim，添加 SSRF 防护和配置值外部化，mcp_server.py 零改动，全部验证通过。
🔄 TokenMonitor 跨平台迁移与首个 Windows 安装包 (2026-03-25) — 移除全部 objc2/macos-private-api 依赖，三平台矩阵构建，生成 TokenMonitor_0.5.0_x64-setup.exe（NSIS 3.2MB）。前端 glass 清理尚待完成。
✅ cchypothesis 假设驱动调试 skill 设计与实现 (2026-03-27) — ccplan 完整 9 阶段流程设计 6-phase 工作流，后整合智能双轨架构（静态并行 + 串行插桩升级路径 + Git Safety Checkpoint），经 critic agent 11 个对抗问题验证，+395/-70 行。
✅ TokenMonitor 全面性能优化与安全加固 (2026-03-29) — 8 项性能优化（normalize_model 归一化、merge_payloads mem::take、静态查找表替换 47 条 if 链等）。5 个并行专项 Agent 安全审计，修复 SSH alias 注入、路径遍历等全部安全问题。229+191 测试全通过。
✅ Pi0.5 LoRA D0/D1 全任务 rollout 评测 (2026-03-26) — 8×A800 并行完成 10 项任务各 50 trials。D0：Stack 96%、StackThree 78%、PickPlace 6%；D1：Stack 98%、StackThree 58%、PickPlace 未测。揭示精细任务对训练步数高度敏感。
✅ Context Replay 代码逻辑修复与 VLA 叙事清理 (2026-03-28) — 删除 observations 死代码，修正 policy_adapter 时序（移至 post-injection），重命名 render_window 纠正错误叙事，7 个文件 22 处批量清理，grep 验证 0 残留，139 测试通过。
✅ TokenMonitor Dashboard 1-2Hz 垂直抖动修复 (2026-03-28) — 四层并发修复打断 ResizeObserver↔setSize 正反馈循环：RESIZE_SETTLE_DELAY 16→100ms、shallowPayloadEqual、resize 节流阀（500ms/3次）、is_active 2 分钟宽限期。
✅ Error Recovery Benchmark E4 合并入 E3 架构重构 (2026-03-29) — E4 drop_with_interaction 合并为 E3 双模式技能，taxonomy 从 13/26 精简为 12/24。用户选择 2 subtypes（D0/D1）而非 AI 建议的 4。136 测试全通过，OVERVIEW.md 同步更新。
✅ MIHD QueST cross-sample query 协议对齐实现 (2026-03-26) — 识别 4 个 query protocol 差距，新建 niche_utils.py（K-hop mean-pool、boundary niche 7 种类型、NCJS），添加 –quest_style benchmark 扩展模式，原有模式向后兼容。
✅ TokenMonitor SSH 多设备费用追踪功能 (2026-03-29) — ssh_config 解析、SSH 远程发现与传输、本地缓存管理、Settings SSH 管理 UI、Devices Tab、后台同步调度。远程预处理数据量 500MB→5MB，新增 Sync Now 按钮状态反馈。
✅ openvla-oft 训练代码深度对比与脚本创建 (2026-03-25) — 深度对比动作表示（离散 token vs L1/Diffusion）、FiLM/Proprio/Action Chunking、数据接口差异，创建 run_openvla_oft.sh（torchrun、L1 回归、双图输入、本体感知、150K 步）。
✅ TokenMonitor 图表 Tooltip 布局抖动根本修复 (2026-03-29) — 4 轮方案迭代后改为永久预留固定高度 detail panel，hover 只更新内容，leave 保留最后数据，彻底消除 height 动画和窗口 resize。面板改为固定高度轮播（3 模型/页，滚轮切换）。
🔄 LifeCopilot 与 openclaw 集成架构方向确立 (2026-03-29) — 确立将 LifeCopilot 作为插件构建在 openclaw 多渠道架构之上（人类主动反转集成方向）。安全设计（多渠道暴露、prompt injection 防护）尚未完成，会话在关键决策前中断。

问题与解决方案

1. daily_summary.py 过大（2930行）、零测试覆盖，Critic 审查发现 mcp_server.py 导入断裂风险（CRITICAL） [gadget] (2026-03-24)

解决方案: 先写 47 个导入烟雾测试建立安全网，再按功能区块拆分为 8 模块，用相对导入替换 sys.path.insert，保留向后兼容 shim，同步更新三个外部消费者

2. ccplan 工作流在 Phase 边界提前终止，9/10 个 Phase 缺少 multi-turn protocol [Claude Code 工具链] (2026-03-24)

解决方案: 在 SKILL.md 顶部添加 CONTINUOUS EXECUTION MANDATE 全局约束，每个 Phase 末尾添加 →NEXT: 强制过渡指令（10/10 全覆盖），补齐缺失的 multi-turn protocol

3. research_scout.py 拆包后 mcp_server.py 直接 import 15 个函数面临断裂风险 [gadget] (2026-03-25)

解决方案: research_scout.py 降为约 80 行薄 shim，通过 re-export 保证 mcp_server.py 零改动

4. TokenMonitor SSH 同步所有主机返回 0 条，显示 ‘Already up to date’ 形成不可恢复死循环 [TokenMonitor] (2026-03-29)

解决方案: 根因为 Rust format! 行连接符删除 Python 缩进产生 IndentationError 被 2>/dev/null 静默吞掉。改用 concat! 宏；set_last_sync 仅在 >=1 条时才写时间戳；删除陈旧 .last-sync 文件

5. Tauri v2 capability 白名单制导致悬浮球 outerPosition()/scaleFactor() 调用静默失败，拖拽完全无效 [TokenMonitor] (2026-03-26)

解决方案: 在 capabilities/default.json 补充三个缺失权限（allow-outer-position/allow-scale-factor/allow-current-monitor），并将 float-ball 加入 windows 数组

6. TokenMonitor Dashboard 以 1-2Hz 频率持续垂直抖动（多层正反馈循环叠加） [TokenMonitor] (2026-03-28)

解决方案: 四层并发修复：RESIZE_SETTLE_DELAY 16→100ms、shallowPayloadEqual 跳过无意义更新、resize 节流阀（500ms/3次）、is_active 2 分钟宽限期消除时间边界振荡

解决方案: 废弃动态高度方案，改为永久预留固定高度 detail panel；hover 只更新内容，leave 保留最后数据，彻底消除 height 变化根本原因

解决方案: Footer 改为 position:fixed;bottom:0 直接锚定视口底部，完全绕过 CSS layout 帧延迟；背景容器用 JS 同步预设 style.minHeight；移除 SWP_NOCOPYBITS 防止 WebView2 全帧重绘

9. Context Replay 存在根本性 VLA 概念错误（误以为 VLA 需要回放前 N 帧建立 context window），policy_adapter 喂入时机错误（在干净帧阶段而非 post-injection 后） [Error Recovery Benchmark] (2026-03-28)

解决方案: 重命名 render_window 纠正命名叙事；将 policy_adapter 调用移至 Step F（错误注入且环境稳定后）；批量清理 7 个文件 22 处错误叙事

10. BOSS 评估脚本报 KeyError: ‘potato’；7 个 LIVING_ROOM 任务成功率全为 0，误以为模型泛化失败 [BOSS Benchmark] (2026-03-28)

解决方案: 从 BOSS 仓库复制 5 个缺失物体资产并注册；查看 form_boss_44_dataset.py 确认 allowed_files 白名单只含 KITCHEN_SCENE，7 个 LIVING_ROOM 任务是有意设计的零样本泛化测试

11. Rust commands.rs（2222行）与新 commands/ 子目录并存导致 42 个编译错误（模块路径歧义） [TokenMonitor] (2026-03-28)

解决方案: 将旧 commands.rs 重写为约 80 行薄模块根，正确声明 6 个子模块，删除所有重复函数，消除并存歧义

12. arXiv 会议搜索返回 0 结果（API 限流无重试、query 过复杂、会议名精确匹配失败） [gadget] (2026-03-29)

解决方案: 新增指数退避重试（5/10/20秒）；会议模式 query 仅用会议名；实现 token 级双向子集匹配（A⊆B 或 B⊆A 均算匹配）

13. guard-check.py 存在 shell injection（YAML command 直传 shell=True）和 bare except 吞掉所有异常 [Claude Code 工具链] (2026-03-26)

解决方案: 执行前交互式 [y/N] 确认；只 catch 预期的 JSONDecodeError，其他异常写入 stderr 保留可见性

14. MimicGen 增强在多物体任务中 warp 了错误的物体（next(iter(…)) 随机选第一个） [Error Recovery Benchmark] (2026-03-29)

解决方案: 从 ErrorSpec.target_object 贯穿到 RecoveryAugmenter 精确定位 warping 锚点；D0 用 object-centric transform，D1 加 subtask-aware 分段变换

学习收获

架构 (architecture)

Win32 SetWindowPos 与浏览器 CSS re-layout 之间存在固有 1 帧延迟，这是 Tauri 桌面应用的核心约束。解决方案：底部锚定 UI 用 position:fixed 绕过 CSS layout；背景容器用 JS 同步预设 style.minHeight；避免 SWP_NOCOPYBITS 防止 WebView2 全帧重绘。
解决布局抖动应优先问「能否消除这个变化的根本原因」，而非「如何更精确地同步两套异步系统」。永久预留固定高度 panel 比动态展开收起更稳定；固定高度 viewport + 内部轮播是信息量可变但展示空间需固定场景的通用模式。
ECL（Evolving Constraint Language）文档是解决多 session 复杂项目 context rot 的有效机制：将架构决策、对抗审查结果、当前执行状态外化到 YAML 文件，任何后续 Agent 都可从此继续工作，防止工具调用打断工作流上下文。
Tauri v2 capability 是白名单制，任何 window API（包括基础的 outerPosition/scaleFactor）都需在 capabilities JSON 中显式声明，多窗口应用中每个 WebviewWindow 独立配置，静默失败无错误提示是最难排查的问题类型。
插桩调试的正确架构：以静态并行分析为主路径，以插桩探测为 inconclusive 结果的升级路径；每个假设独立完成 instrument→run→analyze→cleanup 循环；Git Safety Checkpoint 在入口保护用户工作现场，优先用 git restore . 而非 git stash 避免堆叠冲突。
BOSS benchmark 设计机制：boss_44 通过 allowed_files 白名单有意覆盖 37 个 KITCHEN 任务，7 个 LIVING_ROOM 任务是有意设计的零样本泛化评估（OSS 范式），0% 成功率是预期行为而非模型失败。
Rust 增量模块重构安全顺序：先创建新文件结构并让旧入口 re-export，验证编译通过后最后一步才替换/删除旧入口。commands.rs 与 commands/mod.rs 并存会导致模块路径歧义，旧文件阻止新子模块被识别。

调试 (debugging)

Rust format! 行连接符会删除下一行前导空格，破坏缩进敏感脚本（Python/Shell）。应使用 concat! 宏或 r#""# 原始字符串拼接嵌入脚本。同时：2>/dev/null 会静默吞掉错误，调试时应先移除；状态更新（如时间戳）必须在确认操作真正成功后才执行。
多层正反馈循环叠加的抖动 bug 必须同时打断所有环节（ResizeObserver↔setSize 循环需同时添加：测量延迟、相等性检查、节流阀、数据边界宽限期），任何单一修复只能削弱不能消除。
重构大文件前先将所有外部导入契约写为测试（烟雾测试）建立安全网，重构后立即验证后向兼容性。对抗性 Critic 在规划阶段发现 CRITICAL 问题的成本比实施后修复低一个数量级。
AI 生成的代码库文档在定量统计上存在系统性偏差（服务数少算 30%、定时间隔误差数倍、AI 提供商链漏掉超过一半），必须通过独立验证步骤（可用多 Agent 并行）校正。定量统计不能直接信任。

领域知识 (domain)

VLA（Vision-Language-Action）是 open-loop 推理：每步接受单帧观察输出动作，不维护 recurrent hidden state，根本不需要「提前回放 N 帧建立上下文窗口」——这个假设是对 VLA 工作机制的根本性误解。
Pi0.5 LoRA 微调任务性能差异极大：简单堆叠任务（Stack 96-98%）vs 精细操作任务（PickPlace 6%）；D1 难度不总高于 D0（Coffee D1 26% > D0 16%），初始状态分布比任务本身更影响成功率。精细任务对训练步数高度敏感。
HVG1500 原始特征（ARI=0.3300）优于所有测试的基础模型（scGPT_original 0.1934、scGPT-spatial 0.1510），提示空间转录组聚类任务中复杂基础模型不一定优于简单统计特征——是值得深入研究的重要发现。

工具 (tools)

ccplan 定量约束（至少 max(3,N/2) 个发现）优于定性描述（「仔细分析」）——AI 会找到跳过定性要求的理由，而定量阈值难以绕过。Skill 的 Phase 边界必须有明确 →NEXT: 强制过渡指令，否则 AI 会在 Phase 边界「礼貌停下」。
SSH 高延迟链路应在远程侧先过滤/压缩数据（jq→python3→grep 三级降级策略确保跨平台兼容）再传输，数据量 500MB→5MB 减少 50-100 倍。SSH 命令应使用 -o LogLevel=ERROR 控制 stderr 输出级别防止 warning 误判。
arXiv 会议搜索两步法：宽泛 query（仅会议名）获取候选 → comment/journal_ref 字段做 token 级双向子集匹配过滤（A⊆B 或 B⊆A 均算匹配）。LLM 生成的实体名需柔性匹配，token 子集比全字符串比较更鲁棒。
Hub+spoke 架构适用于多语言 prompt skill 设计：hub 维护通用框架（≤140行），spoke 聚焦语言特有检查项（≤80行），物理文件隔离比 section 分隔更能防止 Claude 处理单语言时注意力稀释。
gym 风格评测框架同 task 多 trial 应复用 env（env.reset() 而非重建），MuJoCo 初始化可带来 20 倍性能差距（880次→44次）。此优化模式可推广至所有 gym 风格评测脚本。
Cache-First Integration 是处理多依赖冲突的有效设计模式：各编码器在独立 conda 环境中运行输出标准 .npz 缓存，下游 pipeline 无需感知各模型的环境差异，实现彻底解耦。

AI 使用备注

有效模式:

✓ 并行多 Agent（Critic/Red Team/Feasibility/Explore）系统性发现人类遗漏的关键约束（MCP import 断裂、Windows tray 尺寸限制、prompt 稀释、resizeDebug 100+ 调用深度）
✓ ccplan 9 维意图提取框架：将模糊需求细化约 3 倍，对抗审查在实施前识别 CRITICAL 级风险
✓ 5 个并行专项 Agent 安全审计：从 yes/no 二元安全判断升级为可操作分级改进路线图
✓ subagent-driven-development 工作流：brainstorming→spec→并行实现驱动 Pipeline 2 等复杂多模块任务
✓ ECL 文档跨 session 持久化：多 session 大型项目（TokenMonitor 跨平台迁移）通过 ECL 保持架构决策上下文
✓ cchypothesis 假设驱动调试：将直觉猜测转化为可证伪假设并行调查，有效缩短调试周期

局限性:

✗ Tauri 原生窗口帧级视觉缺陷（帧延迟、透明间隙）超出代码静态分析检测能力，需人工视觉验证；TokenMonitor 窗口底边抖动问题历经 5 轮迭代才最终解决
✗ 领域先验知识缺失：VLA open-loop 推理机制、Pi0.5 任务选择（stack 作为 baseline）、policy_adapter 正确时机，均需用户纠正；AI 倾向信任已有代码注释而非主动质疑
✗ 定量统计全局一致性验证不足：生成代码库 OVERVIEW 时统计数据系统性偏差（服务数/定时间隔/AI 提供商链），设计文档沿用旧错误数字（13/26 而非 12/24）
✗ 规划文档 status:verified 不等于代码已实现：ccusage 已标记 verified 但代码未接入，需用户追问才揭示
✗ 布局问题根因判断偏差：面对抖动 bug 连续多次尝试「协调两套异步系统」方向，需用户明确强约束才转向正确方向（消除变化根本原因）
✗ 安全代码生成不足：guard-check.py 生成时未主动考虑 shell injection 风险，需专项安全审查代理才发现

下周展望

下周核心任务：① TokenMonitor 完成前端 glass 清理（Phase E-3+E-9）和多设备 UI 架构 P1-P3（主界面折叠区、图表模式切换、单设备深入页），推进正式发布；② Error Recovery Benchmark 执行 Pipeline 2 数据生成（D0/D1 MimicGen 增强），与实际训练-评测闭环验证，为后续论文准备数据基础；③ MIHD benchmark 完成剩余 4 个编码器（UCE 需解决 Figshare 下载问题，TEDDY/Geneformer 需解决环境安装/OOM 问题），产出完整 8 编码器 ARI/NMI 对比数据；④ LifeCopilot/openclaw 集成安全设计（多渠道暴露防护、prompt injection 防护），推进集成原型；⑤ BOSS Pi0.5 更长训练（PickPlace/Threading 精细任务在 25000 步训练不足，需更多步数验证）。gadget 方面持续运营论文搜索管道，跟踪已收藏高相关论文的后续进展。

Token 用量统计

每日费用趋势

日期	Token (百万)	费用 ($)
2026-03-24	72.3	57.99
2026-03-25	86.4	66.62
2026-03-26	191.6	126.04
2026-03-27	40.2	25.22
2026-03-28	69.7	46.39
2026-03-29	107.9	66.80
unknown	71.6	49.96

峰值日: 2026-03-26 — $126.04 / 191.6M tokens

Claude Code

指标	数值
总 Token	599,935,711
输入 Token	561,006
输出 Token	1,391,987
Cache 创建	26,181,655
Cache 读取	571,801,063
总费用	$413.30

模型使用分布

模型	费用 ($)	输入 Token	输出 Token
claude-opus-4-6	392.44	248,195	926,865
claude-haiku-4-5-20251001	17.97	290,227	449,832
claude-sonnet-4-6	2.89	3,430	13,042
glm-4.7	0.00	19,154	2,248

Codex

指标	数值
总 Token	39,811,565
输入 Token	39,459,933
输出 Token	351,632
推理 Token	202,151
Cache 读取	34,755,328
总费用	$25.72

模型使用分布

模型	费用 ($)	输入 Token	输出 Token	推理 Token
gpt-5.4	25.72	39,459,933	351,632	202,151

周报 — 2026-W13 (2026-03-23 ~ 2026-03-29)#

本周概览#

项目进展#

TokenMonitor（桌面应用） (7 天活跃) — 🔄 active#

Claude Code 工具链（ccplan / cchypothesis / skills） (6 天活跃) — 🔄 active#

BOSS Benchmark（机器人评测） (6 天活跃) — 🔄 active#

Error Recovery Benchmark (5 天活跃) — 🔄 active#

gadget（summarize / research / tools） (5 天活跃) — 🔄 active#

机器人学习研究（openvla-oft / openpi / LiPM） (3 天活跃) — 🔄 active#

MIHD 空间转录组（DCC） (1 天活跃) — 🔄 active#

LifeCopilot / openclaw 集成 (1 天活跃) — ⏸️ paused#

关键任务#

问题与解决方案#

1. daily_summary.py 过大（2930行）、零测试覆盖，Critic 审查发现 mcp_server.py 导入断裂风险（CRITICAL） [gadget] (2026-03-24)#

2. ccplan 工作流在 Phase 边界提前终止，9/10 个 Phase 缺少 multi-turn protocol [Claude Code 工具链] (2026-03-24)#

3. research_scout.py 拆包后 mcp_server.py 直接 import 15 个函数面临断裂风险 [gadget] (2026-03-25)#

4. TokenMonitor SSH 同步所有主机返回 0 条，显示 ‘Already up to date’ 形成不可恢复死循环 [TokenMonitor] (2026-03-29)#

5. Tauri v2 capability 白名单制导致悬浮球 outerPosition()/scaleFactor() 调用静默失败，拖拽完全无效 [TokenMonitor] (2026-03-26)#

6. TokenMonitor Dashboard 以 1-2Hz 频率持续垂直抖动（多层正反馈循环叠加） [TokenMonitor] (2026-03-28)#

7. 图表 Tooltip 出现/消失时 detail panel 高度变化触发 ResizeObserver→SetWindowPos，底部内容跳变（4 轮方案均无效） [TokenMonitor] (2026-03-29)#

8. Win32 SetWindowPos 与浏览器 CSS re-layout 之间存在固有 1 帧延迟，导致 Footer 抖动且无法用 CSS layout 修复 [TokenMonitor] (2026-03-27)#

9. Context Replay 存在根本性 VLA 概念错误（误以为 VLA 需要回放前 N 帧建立 context window），policy_adapter 喂入时机错误（在干净帧阶段而非 post-injection 后） [Error Recovery Benchmark] (2026-03-28)#

10. BOSS 评估脚本报 KeyError: ‘potato’；7 个 LIVING_ROOM 任务成功率全为 0，误以为模型泛化失败 [BOSS Benchmark] (2026-03-28)#

11. Rust commands.rs（2222行）与新 commands/ 子目录并存导致 42 个编译错误（模块路径歧义） [TokenMonitor] (2026-03-28)#

12. arXiv 会议搜索返回 0 结果（API 限流无重试、query 过复杂、会议名精确匹配失败） [gadget] (2026-03-29)#

13. guard-check.py 存在 shell injection（YAML command 直传 shell=True）和 bare except 吞掉所有异常 [Claude Code 工具链] (2026-03-26)#

14. MimicGen 增强在多物体任务中 warp 了错误的物体（next(iter(…)) 随机选第一个） [Error Recovery Benchmark] (2026-03-29)#

学习收获#

架构 (architecture)#

调试 (debugging)#

领域知识 (domain)#

工具 (tools)#

AI 使用备注#

下周展望#

Token 用量统计#

每日费用趋势#

Claude Code#

模型使用分布#

Codex#

模型使用分布#

周报 — 2026-W13 (2026-03-23 ~ 2026-03-29)

本周概览

项目进展

TokenMonitor（桌面应用） (7 天活跃) — 🔄 active

Claude Code 工具链（ccplan / cchypothesis / skills） (6 天活跃) — 🔄 active

BOSS Benchmark（机器人评测） (6 天活跃) — 🔄 active

Error Recovery Benchmark (5 天活跃) — 🔄 active

gadget（summarize / research / tools） (5 天活跃) — 🔄 active

机器人学习研究（openvla-oft / openpi / LiPM） (3 天活跃) — 🔄 active

MIHD 空间转录组（DCC） (1 天活跃) — 🔄 active

LifeCopilot / openclaw 集成 (1 天活跃) — ⏸️ paused

关键任务

问题与解决方案

1. daily_summary.py 过大（2930行）、零测试覆盖，Critic 审查发现 mcp_server.py 导入断裂风险（CRITICAL） [gadget] (2026-03-24)

2. ccplan 工作流在 Phase 边界提前终止，9/10 个 Phase 缺少 multi-turn protocol [Claude Code 工具链] (2026-03-24)

3. research_scout.py 拆包后 mcp_server.py 直接 import 15 个函数面临断裂风险 [gadget] (2026-03-25)

4. TokenMonitor SSH 同步所有主机返回 0 条，显示 ‘Already up to date’ 形成不可恢复死循环 [TokenMonitor] (2026-03-29)

5. Tauri v2 capability 白名单制导致悬浮球 outerPosition()/scaleFactor() 调用静默失败，拖拽完全无效 [TokenMonitor] (2026-03-26)

6. TokenMonitor Dashboard 以 1-2Hz 频率持续垂直抖动（多层正反馈循环叠加） [TokenMonitor] (2026-03-28)

7. 图表 Tooltip 出现/消失时 detail panel 高度变化触发 ResizeObserver→SetWindowPos，底部内容跳变（4 轮方案均无效） [TokenMonitor] (2026-03-29)

8. Win32 SetWindowPos 与浏览器 CSS re-layout 之间存在固有 1 帧延迟，导致 Footer 抖动且无法用 CSS layout 修复 [TokenMonitor] (2026-03-27)

9. Context Replay 存在根本性 VLA 概念错误（误以为 VLA 需要回放前 N 帧建立 context window），policy_adapter 喂入时机错误（在干净帧阶段而非 post-injection 后） [Error Recovery Benchmark] (2026-03-28)

10. BOSS 评估脚本报 KeyError: ‘potato’；7 个 LIVING_ROOM 任务成功率全为 0，误以为模型泛化失败 [BOSS Benchmark] (2026-03-28)

11. Rust commands.rs（2222行）与新 commands/ 子目录并存导致 42 个编译错误（模块路径歧义） [TokenMonitor] (2026-03-28)

12. arXiv 会议搜索返回 0 结果（API 限流无重试、query 过复杂、会议名精确匹配失败） [gadget] (2026-03-29)

13. guard-check.py 存在 shell injection（YAML command 直传 shell=True）和 bare except 吞掉所有异常 [Claude Code 工具链] (2026-03-26)

14. MimicGen 增强在多物体任务中 warp 了错误的物体（next(iter(…)) 随机选第一个） [Error Recovery Benchmark] (2026-03-29)

学习收获

架构 (architecture)

调试 (debugging)

领域知识 (domain)

工具 (tools)

AI 使用备注

下周展望

Token 用量统计

每日费用趋势

Claude Code

模型使用分布

Codex

模型使用分布