日报 — 2026-02-19

今日概览

做了什么： 系统开展了 MIHD 项目三大工作：技术文档体系建立（RM-IDEAL 双语说明、视觉编码器指南、病理 PFM 文献综述、UNI/UNI2 评测分析），H&E Image-Only 聚类方法深度调研（含量化基线、Foundation Model 失效根因分析及 ENHANCEMENT_PLAN_CN.md 大目标 7 更新），以及三种 image-only 自监督聚类增强方案（STEGO/BYOL+GAT/SCAN）的完整实现与对比验证。
怎么做的： 通过大量学术文献网络检索（spEMO、HEST-1k、STAIG 等）与代码库深度探索，新建五个模型文件及修改基础设施文件，在 GPU 上完成多方法对比实验，同时利用缓存 .npz 文件批量重新生成 UNI2 可视化，并将所有调研结论整理写入 ENHANCEMENT_PLAN_CN.md。
有什么用： SCAN 方法将 image-only ARI 从基线 0.251 提升至 0.303（+20.6%），其嵌入与基因特征融合可进一步提升 +0.065 ARI；系统调研填补了文献中几乎无 vision-only 空间域识别评测的空白，为项目建立了可参考的文献对标基准与完整的多阶段增强路线图。

在 MIHD 项目中，系统完成了 H&E Image-Only 聚类方法文献调研（确立 ARI 0.11–0.16 基线及 Foundation Model 失效五大根因）、四份核心技术文档建立，并实现并验证了三种自监督聚类增强方案（STEGO/BYOL+GAT/SCAN），SCAN 将 image-only ARI 从 0.251 提升至 0.303（+20.6%）。

今日任务

架构与策略

✅ MIHD 技术文档体系建立 — 创建四份核心技术文档：RM-IDEAL 双语结构文档（WWL 图核、Wasserstein 最优传输、与 ARI/NMI 的互补关系）、视觉编码器使用指南（12 章节端到端流水线，含 UNI2/UNI/HIPT/ResNet50 详细对比）、病理 PFM 文献综述（spEMO/HEST-1k/STAIG 等方法的 patch 提取策略与 encoder 选型）、UNI/UNI2 原论文评测分析（34 个临床任务 + 8 个 benchmark 综合文档）。
✅ H&E Image-Only 聚类方法系统调研 — 搜集 MILWRM、F-SEG、Deep Contrastive Clustering 等方法全貌，专项从消融实验中核实 image-only 的 DLPFC ARI 数值（SpaConTDS=0.16、stLearn=0.11，为目前唯二可查数据），深度调研 BYOL/STEGO/SCAN 在病理学中的应用（尤其 STAIG 用 BYOL 训练图像 encoder 的先例），调研 FGVC/医学影像/遥感/材料科学跨领域类比方案，梳理 CV 社区四级 domain gap 解决框架。
✅ Foundation Model 在空间域识别失效根因分析 — 从训练数据 domain 不匹配（以癌症组织为主）、预训练任务 mismatch（patch 分类/重建 vs 层间梯度识别）、脑组织层间形态差异极微小、特征冗余、缺乏空间上下文五个维度系统分析失效机制，结合 UNI2 棕色重复 patch 现象提供具体案例支撑。
✅ Image-Only 聚类增强方案实现（STEGO/BYOL+GAT/SCAN） — 完成五阶段实施：修改基础设施（run_benchmark.py、config.yaml 等 5 个文件）→ 新建 STEGOHead/BYOLAdapter/SpatialGATRefiner/SCANHead 四个模型文件（全部通过 AST 语法验证）→ 新建 eval_image_only.py 在 151673 section 对比测试 → 更新 models/init.py 懒加载和配置集成。SCAN 以 ARI=0.303 最优（baseline 0.251，+20.6%）。
🔄 SCAN 嵌入与多模态 Fusion 联合评估 — 编写 eval_scan_fusion.py，将 SCAN 优化后的 256 维视觉嵌入与 PCA 基因特征做所有 fusion 方法对比；mean fusion ARI +0.065，llava_mlp fusion +0.018，证明互补性。coords 维度 bug 已部分修复，脚本调试中。
🔄 ENHANCEMENT_PLAN_CN.md 大目标 7 更新及 Image Encoder 增强方案规划 — 将全天调研成果（文献综述、根因分析、六类方案、BYOL 详解、五阶段实施路线、风险与验证计划）写入 ENHANCEMENT_PLAN_CN.md（~400 行扩展至 907 行）；并行通过三个 agent 分析 ImageEncoder.py/spatial_utils.py/datasets.py 架构并生成实施计划，后续实施尚未开始。

实现与修复

✅ UNI2 可视化添加 H&E 面板并批量更新 — 修改 scripts/run_benchmark.py 可视化函数为 1×3 布局（H&E + GT + 预测），修复 151510 缺少 tissue_lowres_image.png 的问题（创建 hires→lowres symlink），利用缓存 .npz 文件批量重新生成全部 11 个 section 可视化，无需重新推理。

问题与解决方案

关键问题

1. STEGO 训练 loss 全程为 NaN，模型无法收敛

解决方案: 两步修复：① 对输入 image_emb 做 L2 归一化防止幅度过大；② 将 InfoNCE 改为数值稳定版本（先减去行最大值再做 logsumexp），temperature 提高至 0.1

关键洞察: 3639×3639 dense 相似度矩阵除以 temperature=0.07 后指数运算在 float32 精度下溢出；log-sum-exp 是彻底解决方案，大规模对比损失计算必须使用此形式

2. MILWRM 被错误归类为 Image-Only 方法，且 AI 初次汇总时将多模态方法混入 image-only 结果，导致第一版调研结论需大幅修订

解决方案: 通过 WebFetch 阅读 PMC 全文确认 MILWRM 实际基于基因表达，将其从 image-only 列表移除；结合用户两次明确的边界约束，重新聚焦于纯图像场景并专门从消融实验中挖掘 image-only 数据点

关键洞察: 文献摘要描述常具误导性，需阅读全文方法部分确认输入模态；大多数多模态方法的消融实验从不测 image-only，需专门从 SpaConTDS 等少数文章中定向检索

一般问题

3. 付费学术期刊（Nature Medicine、Elsevier 等）返回 303/403，及论文图表中嵌入数值无法通过网页文本提取

解决方案: 转而使用 PMC 全文镜像、arXiv HTML 版本、HuggingFace 模型卡及 GitHub README 作为替代来源；图表嵌入数值无法获取时，改用文字定性结论并明确标注数据来源和置信度

关键洞察: PMC 和 arXiv HTML 是访问付费期刊的有效路径；关键模型性能数值通常已在 GitHub README 中完整列出，应优先检索；无法获取精确数值时，定性结论加来源标注优于推测

4. eval_scan_fusion.py 中空间坐标维度异常（变成 (1,2)），多个 fusion 方法（basic_contrastive/qformer/staig_fusion）报错

解决方案: 放弃调用 load_spatial_coordinates()（barcode 匹配失败），改为直接从 adata.obsm[‘spatial’] 读取坐标；同时修复 load_dlpfc_data 返回值解包错误（函数返回单值而非元组）

关键洞察: 依赖 barcode 精确匹配的工具函数跨数据源时容易失败；直接访问 AnnData 原生字段更可靠，调用项目内部函数前应实时核验函数签名

5. AI 在文档任务中反复触发 ExitPlanMode（被拒绝两次），以及默认使用 CPU 进行模型验证，导致不必要的交互摩擦和效率损失

解决方案: 用户明确指示后，纯文档写入任务直接调用 Write 工具；所有模型验证改在 GPU 上运行，三个方法并行后台执行大幅缩短总耗时

关键洞察: 在 HPC 环境中 GPU 是默认计算设备，CPU 测试会掩盖真实性能问题；纯文档任务不需要「计划→退出计划」流程

6. 重新生成可视化时需避免重跑 UNI2 推理（耗时数小时），以及 151510 缺少 tissue_lowres_image.png

解决方案: 发现 .npz 缓存文件中已保存 pred_labels 和 gt_labels，直接加载后调用修改后的可视化函数，11/11 section 全部成功；151510 通过创建 hires→lowres symlink 修复

关键洞察: MIHD 的缓存设计（embedding+labels 一起保存）使可视化更新与推理完全解耦；sc.read_visium 默认寻找 lowres 图，hires 用软链接替代是最小改动方案

人类思路 vs AI 思路

战略层面

监督分类与无监督聚类的本质等价性

角色	思路
人类	用户直觉上指出「UNI 的 CRC-100K 9类分类不就是 clustering 吗？」，从任务本质打破了论文的分类框架，主动建立了 UNI 评测与 MIHD 空间域识别之间的类比关系。
AI	AI 按照论文分类框架（ROI 分类/聚类/分割/检索）进行详细描述，未主动发现两者的本质联系；被提示后解释了监督（linear probe）与无监督（KMeans）的关键区别，并指出这是一个文献空白。

差异分析: 人类从任务本质出发突破了论文框架；AI 停留在文献描述体系内。这一洞察完全由人类主动提出，是本次最重要的认知差异，揭示了 UNI 高准确率不能直接推断无监督聚类效果。

从消融研究定向获取 Image-Only 量化数据

角色	思路
人类	用户主动提问「这些文章的 ablation study 里有 image-only 的部分吗？」——这一策略直接找到了 SpaConTDS ARI=0.16 等为数不多的精确数字。
AI	AI 起初搜索专门做 image-only 的独立论文，方向正确但遗漏了多模态方法消融实验中的 image-only baseline 这一重要来源。

差异分析: 人类对论文结构（消融实验往往包含模态对比）有更强的直觉，能精准定向；AI 的检索策略偏宏观，需用户引导才能聚焦到最有效的信息来源。

SCAN 嵌入与全 Fusion 联合评估的系统化实验设计

角色	思路
人类	在三方法对比完成后，用户主动提出将 SCAN 优化嵌入与所有 fusion 方法（含 staig_fusion）联合评估，设计了「先独立评估视觉嵌入质量，再探索与基因特征互补性」的系统化消融实验。
AI	AI 在完成三方法对比后准备收尾，未主动提出扩展实验；实验设计的前瞻性不及用户。

差异分析: 用户具有清晰的实验设计思维，能主动识别独立性评估与融合互补性验证的两阶段逻辑；AI 倾向于完成当前目标后停止，缺乏主动延伸的研究视野。

研究边界精确界定与可视化需求主导

角色	思路
人类	用户两次明确打断 AI（「我只要 image-only 的方法/部分」），同时主动提出在可视化中添加 H&E 原图作为形态学参照，以便直观解释棕色重复 patch 的生物学含义。
AI	AI 初次汇总时习惯性提供多模态全景视图；在可视化实现中只输出 GT+预测双面板，未主动建议添加原始图像。

差异分析: 人类研究者对研究边界和分析目标有明确先验认知；AI 倾向于提供更完整背景而忽视约束，关键细节需求（形态对比）由人类主导提出。

BYOL 与 STAIG 关联的领域知识触发

角色	思路
人类	用户主动提出「我记得有个方法使用了 BYOL」，将 AI 引向了 STAIG 使用 BYOL 在目标数据集上做无监督域适配这一关键先例。
AI	在梳理六种无监督方案时，AI 未主动关联 BYOL 与 STAIG 的已知联系，将 BYOL 列为通用选项之一，未凸显其在 ST 领域的已有实践。

差异分析: 用户的领域先验知识触发了更精准的信息检索；AI 的知识库中存在此关联但未被主动激活，需要外部线索触发。

AI 局限性

重要局限

文献归类与知识关联的准确性不足：将 MILWRM 错误归类为 image-only 方法（实际基于基因表达），需要 WebFetch 全文阅读才自我纠正；描述 UNI 评测任务时未主动建立与 MIHD 空间域识别的类比关系；整理无监督方案时未主动激活 BYOL→STAIG 的已知联系。三者均需用户干预才能触发或纠正。
技术实现的预见性不足：STEGO 数值稳定性问题（3639×3639 dense 矩阵的 float32 精度边界）未在初始设计阶段预见；eval_scan_fusion.py 多次出现 API 使用错误（函数签名/返回值解包），倾向于依赖记忆而非实时读取源码核验。
任务约束感知不足与流程误判：初次汇总忽视用户核心约束（image-only），导致第一版需大幅修订；在文档任务中反复触发 ExitPlanMode（被拒绝两次）；默认使用 CPU 进行 HPC 环境的模型验证。均造成额外交互摩擦。

一般局限

无法访问付费期刊全文，以及无法提取论文中嵌入图片/图表的具体数值（F-SEG F1 曲线、MILWRM DLPFC ARI 散点图等），导致部分定量数据缺失，只能依赖定性结论或间接来源。

今日收获

核心收获

纯 Image-Only 在 DLPFC 精细分层任务上 ARI 仅 0.11–0.16（多模态可达 0.45–0.64），这是脑组织层间形态学差异极小与 foundation model 训练 domain 不匹配的综合结果，而非 encoder 质量问题；多模态方法的消融实验几乎从不单独测试 image-only（基因表达被视为核心），这本身是一个值得关注的 research gap。
Foundation Model 在空间域识别上失效的五大根因：① 训练以癌症组织为主（domain gap）；② 预训练任务（patch 分类/重建）与层间梯度识别不匹配；③ 脑皮层层间形态差异极微小；④ 图像特征与基因表达高度冗余；⑤ 单 patch 独立编码缺乏空间位置上下文。UNI2 棕色重复 patch 现象是根因①③的直接体现。
SCAN 在 image-only 空间转录组场景中 ARI 最优（0.303 vs baseline 0.251，+20.6%），其核心优势是离线特征 k-NN 挖掘解耦了嵌入学习与聚类，避免了 STEGO 的数值不稳定性；其 256 维优化嵌入与基因特征融合具有真实互补性（mean fusion +0.065，llava_mlp +0.018 ARI）。
STAIG 使用 BYOL 在目标数据集 H&E patch 上做无监督域适配（训练后丢弃 projector/predictor，保留 encoder 特征）是将无监督域适配引入空间转录组的直接先例；BYOL 无需负样本的设计对小 batch ST 场景（每 section 数千 patch）天然友好，且对 H&E 染色变异鲁棒。
大规模 dense 相似度矩阵（n>3000）计算 InfoNCE 对比损失时，必须使用数值稳定的 log-sum-exp（减去行最大值），否则在 float32 精度下 temperature=0.07 的指数运算会溢出导致 NaN；这是 HPC 大规模对比学习实现的关键工程约束。
CV 社区处理「domain gap + 细粒度任务 + 无标注」的四级共识框架：Level 1 直接用预训练特征聚类 → Level 2 STEGO/SCAN 特征精炼 → Level 3 域内 SSL 重新预训练（BYOL/MAE）→ Level 4 专属 foundation model；应按计算资源约束选择合适级别。GPFM/CHIEF 是空间域识别 ARI 最优 PFM；UNI2 是 spot 检索最优；224×224 是行业标准 patch 尺寸。
UNI 原论文 34 个监督评测任务（linear probe）与 MIHD 无监督聚类（KMeans）在任务本质上相同，但评估方式不同，UNI 的高准确率不能直接推断无监督聚类效果；HEST-1k 证明 PFM 大小与空间基因表达预测性能呈对数关系（R=0.81），病理专用 PFM 比 ResNet50 高约 8.2%（Pearson r）。
spEMO 文献综述发现：GPFM/CHIEF 在空间域识别聚类 ARI 最优；UNI2 在 spot 检索排名相关性最优；224×224 是行业主流 patch 尺寸，与 MIHD 一致。这为 MIHD 的 encoder 选型提供了有据可查的文献支撑。

会话摘要

✅ 技术文档体系建立与 UNI2 可视化扩展（RM-IDEAL / 视觉编码器指南 / 文献综述 / UNI2 评测分析） 2026-02-19 | claude_code 上午会话聚焦于 MIHD 技术文档建设：创建 RM-IDEAL 双语结构文档、12 章节视觉编码器使用指南（含 UNI2/UNI/HIPT/ResNet50 对比）、病理 PFM 文献综述（spEMO/HEST-1k/STAIG 等），及 UNI/UNI2 原论文评测任务综合分析（34 任务 + 8 个 benchmark）。期间通过大量联网文献检索核实各方法性能数据，并在用户发现棕色重复 patch 异常后，将 UNI2 聚类可视化从双面板扩展为含 H&E 原图的三面板布局，利用缓存 .npz 批量重新生成全部 11 个 section 可视化（修复 151510 symlink 问题后全部成功）。

✅ H&E Image-Only 聚类方法深度调研与 ENHANCEMENT_PLAN_CN.md 大目标 7 更新 2026-02-19 | claude_code 下午前段系统调研纯图像空间域聚类方法：多轮联网检索核实 image-only DLPFC ARI 量化基线（SpaConTDS=0.16、stLearn=0.11），用户两次纠正边界约束后精准聚焦于 image-only 场景。从五个维度分析 foundation model 失效根因，调研 FGVC/医学影像/遥感等跨领域类比方案，在用户提示下深度剖析 BYOL 在 STAIG 中的域适配应用（无负样本设计对 ST 小 batch 的天然优势）。将全部调研成果（约 500 行）写入 ENHANCEMENT_PLAN_CN.md 大目标 7，文件从约 400 行扩展至 907 行。

🔄 Image-Only 聚类增强三方案实现（STEGO/BYOL+GAT/SCAN）及 SCAN Fusion 联合评估 2026-02-19 | claude_code 下午后段完成五阶段实施：修改基础设施文件 → 新建四个模型文件（STEGOHead/BYOLAdapter/SpatialGATRefiner/SCANHead）→ 在 GPU 上于 151673 section 对比四种方法（SCAN ARI=0.303 最优，修复 STEGO NaN loss 后全部方法正常运行）→ 完成集成配置。随后开始编写 eval_scan_fusion.py 进行 SCAN 嵌入与多模态 fusion 联合评估（mean fusion +0.065 ARI，验证互补性），修复 coords 维度 bug；同时通过三个并行 agent 分析 image encoder 增强架构并生成实施计划，待后续开始实施。

Token 用量

总览

指标	数值
总 Token	3,152,997
输入 Token	10,779
输出 Token	9,386
Cache 创建	399,815
Cache 读取	2,733,017
Cache 命中率	87.2%
总费用 (USD)	$2.1354

模型明细

模型	输入	输出	Cache 创建	Cache 读取	费用	占比
claude-opus-4-6	17	9,258	105,702	914,790	$1.3496	63.2%
claude-haiku-4-5-20251001	10,752	99	228,410	1,515,992	$0.4484	21.0%
claude-sonnet-4-6	10	29	65,703	302,235	$0.3375	15.8%

日报 — 2026-02-19#

今日概览#

今日任务#

架构与策略#

实现与修复#

问题与解决方案#

关键问题#

1. STEGO 训练 loss 全程为 NaN，模型无法收敛#

2. MILWRM 被错误归类为 Image-Only 方法，且 AI 初次汇总时将多模态方法混入 image-only 结果，导致第一版调研结论需大幅修订#

一般问题#

3. 付费学术期刊（Nature Medicine、Elsevier 等）返回 303/403，及论文图表中嵌入数值无法通过网页文本提取#

4. eval_scan_fusion.py 中空间坐标维度异常（变成 (1,2)），多个 fusion 方法（basic_contrastive/qformer/staig_fusion）报错#

5. AI 在文档任务中反复触发 ExitPlanMode（被拒绝两次），以及默认使用 CPU 进行模型验证，导致不必要的交互摩擦和效率损失#

6. 重新生成可视化时需避免重跑 UNI2 推理（耗时数小时），以及 151510 缺少 tissue_lowres_image.png#

人类思路 vs AI 思路#

战略层面#

监督分类与无监督聚类的本质等价性#

从消融研究定向获取 Image-Only 量化数据#

SCAN 嵌入与全 Fusion 联合评估的系统化实验设计#

研究边界精确界定与可视化需求主导#

BYOL 与 STAIG 关联的领域知识触发#

AI 局限性#

重要局限#

一般局限#

今日收获#

核心收获#

会话摘要#

Token 用量#

总览#

模型明细#