Adv Sci 复旦大学附属中山医院宋志坚复旦大学上海肿瘤医院黄丹等团队:基于基础模型的多模态深度学习用于结直肠癌不完整模态的预后预测

张开发
2026/4/15 11:03:39 15 分钟阅读

分享文章

Adv Sci 复旦大学附属中山医院宋志坚复旦大学上海肿瘤医院黄丹等团队:基于基础模型的多模态深度学习用于结直肠癌不完整模态的预后预测
01文献学习今天分享的文献是由复旦大学附属中山医院宋志坚、复旦大学上海肿瘤医院黄丹等团队于2026年1月20日在《Advanced Science》中科院1区topIF14.1上发表的研究“Foundation Model-Enabled Multimodal Deep Learning for Prognostic Prediction in Colorectal Cancer with Incomplete Modalities: A Multi-Institutional Retrospective Study”即基于基础模型的多模态深度学习在不完整模态结直肠癌预后预测中的应用该研究提出了一种名为FLARE的多模态深度学习框架整合病理图像、CT影像与临床文本用于结直肠癌患者的生存预后预测特别针对临床常见的模态缺失问题进行优化。研究基于1679例多中心患者数据验证了模型在预后分层与预测精度上的优越性。创新点①多模态融合首次整合病理图像、放射影像与临床文本构建统一深度学习框架突破单模态局限。②基础模型驱动采用预训练基础模型进行特征提取提升模型效率与跨模态协同能力。③缺失数据处理引入提示机制与伪嵌入技术有效应对临床中常见的数据缺失问题。临床价值①泛化能力强经多中心外部验证模型在真实临床环境中表现稳定适用于不同医疗机构。②精准风险分层能有效区分高/低风险患者为个体化治疗与随访策略提供依据。③可解释性高通过热图、免疫与基因通路分析增强预测结果的可信度与临床可操作性。图 1研究整体设计图a多中心多模态数据集构成b模态特异性基础模型特征提取展示FLARE的特征编码逻辑——针对不同模态采用专用预训练基础模型病理图像用病理基础模型、CT影像用放射学基础模型、临床文本用医学大语言模型Med-LLM。c缺失模态处理策略呈现三大创新技术模态感知提示Modality-aware Prompts、缺失感知提示Missing-aware Prompts、可学习伪嵌入Pseudo Embedding、模态级数据增强Modality Dropout丢弃率30%。d多分支注意力融合网络设计3个并行注意力分支Attention Branch 1-3结合“互斥多样性损失函数Multiple Exclusive Diversity Loss”实现跨模态特征的差异化融合。e模型评估与可解释性分析框架验证层面采用Kaplan-MeierKM分析和一致性指数C-index在1个内部验证集3个外部验证集上评估可解释性层面通过临床因素分析、免疫浸润分析、基因通路分析、热图可视化实现。02研究背景及目的研究背景结直肠癌是全球范围内高发且致命的恶性肿瘤之一准确预测患者预后对于制定个体化治疗策略和改善临床结局至关重要。当前临床实践广泛采用的预后评估体系如AJCC/TNM分期主要依赖于病理学家的主观判读局限于肿瘤尺寸、浸润深度和转移等宏观指标而未能充分整合病理图像、放射影像和临床文本报告等多维度信息导致预测与真实结局存在偏差。此外关键的预后因素如肿瘤出芽、肿瘤微环境中的免疫细胞密度等虽可通过影像学手段识别却在现有分期系统中被忽视同时蕴含家族史、疾病进展和实验室标志物等关键信息的临床报告也未得到有效利用。这凸显了构建一个能够融合多模态数据的预后预测框架的迫切需求。近年来深度学习技术在医学数据分析中展现出巨大潜力多模态数据融合成为研究前沿。然而现有研究多聚焦于单模态如病理图像、放射影像或文本或双模态融合在处理三种及以上异质性模态时能力有限。不同模态数据属性差异巨大病理图像具有超高分辨率需分割为数千个斑块放射影像如CT需进行三维层面分析文本报告则需语义建模。这种异质性加之高质量多模态数据集的稀缺使得有效的端到端训练异常困难。更为严峻的是临床实践中普遍存在模态数据缺失问题而多数现有模型假设训练或测试阶段数据完整严重限制了其实用性。此外现有多模态深度学习模型的“黑箱”特性导致其临床可解释性不足医生难以理解模型决策背后的临床、免疫或基因组学模式。因此开发一个能够高效整合异质多模态数据、鲁棒处理模态缺失、且具备良好可解释性的深度学习框架是当前结直肠癌精准预后预测领域亟待突破的核心挑战。研究目的本研究的核心目的是开发并验证一个名为FLARE的新型多模态深度学习框架以显著提升结直肠癌患者的预后预测精度并解决当前该领域面临的关键技术瓶颈。具体而言本研究旨在实现以下几个目标首先构建一个能够无缝整合全切片病理图像、放射影像CT和临床文本报告含分子标志物信息这三种关键模态数据的统一架构以模拟临床医生综合多种信息进行诊断决策的完整过程从而超越传统单模态或双模态方法的局限性。其次创新性地解决临床实践中不可避免的模态缺失问题通过设计模态感知与缺失感知提示、可学习的伪嵌入向量以及模态层面的数据增强策略使模型在训练和推理阶段都能鲁棒地处理不完整数据避免性能退化增强其在真实世界临床环境中的适用性。再者提升模型的可解释性建立其预测结果与临床生物学意义之间的桥梁。研究计划通过热图可视化展示模型在病理切片、CT影像和文本中的关注区域并结合统计分析探究模型划分的高/低风险组在关键临床因素如AJCC分期、免疫浸润模式以及基因通路富集上的显著差异从而揭示模型决策的潜在生物学依据增强临床医生对模型的信任。最后在大型多中心回顾性数据集上对所提框架进行 rigorous 验证。通过使用一致性指数C-index和Kaplan-Meier生存分析等指标在内部及多个独立外部验证队列中评估FLARE在预测总生存期OS和无进展生存期PFS方面的性能旨在证明其不仅优于传统临床模型和现有先进多模态方法更具有卓越的泛化能力和临床应用的稳健性最终为结直肠癌的精准预后评估和个体化治疗提供一种先进的AI工具。03数据和方法研究数据数据类型多中心回顾性多模态数据集包含病理切片WSI、放射CT图像、临床文本报告含分子标志物突变、病史、病理/放射学结论等信息。样本量共1679例结直肠癌患者来自4个独立临床中心复旦大学上海肿瘤医院FUSCC839例训练内部验证集五折交叉验证复旦大学附属中山医院FUZSH169例外部验证集复旦大学附属华山医院FUHSH87例外部验证集TCGA-COADREAD公共数据库584例外部验证集数据特征部分患者存在模态缺失如TCGA队列无放射数据所有患者均有完整的随访数据OS、PFS、复发状态等。图 2多中心多模态数据集及队列特征图技术方法1模型架构FLARE框架模态特异性基础模型特征编码病理图像WSI采用预训练病理视觉语言模型PLIP提取2D patch特征放射CT图像采用预训练放射影像基础模型MedSAM提取3D层状特征含位置信息临床文本采用预训练医学大语言模型BioLinkBERT-large提取语义特征。多分支注意力融合模块设计3个并行注意力分支结合“互斥多样性损失函数”增强不同模态特征的差异性和互补性。模态缺失处理策略模态感知缺失感知提示编码模态类型和缺失状态优化多模态整合可学习伪嵌入动态生成缺失模态的补偿特征模态级数据增强训练时随机丢弃30%模态至少保留1种模拟临床缺失场景。预后预测网络通过自注意力模块融合特征全连接网络输出患者风险评分。2评估方法预测准确性一致性指数C-index风险分层Kaplan-Meier生存分析Log-rank检验对比实验与传统临床模型Cox回归含AJCC/TNM分期、年龄等、单模态模型、现有主流多模态模型生成式、特征平均、注意力聚合对比消融实验验证模态增强、提示机制、多分支结构等核心组件的有效性可解释性分析热图可视化多模态关键区域、临床因素关联分析AJCC/TNM分期等、免疫浸润分析CIBERSORT、基因通路富集分析GSEA-KEGG/GO。图 3FLARE模型架构图a模型整体架构模态特异性编码病理图像WSI经Path-FM编码、CT影像经RAD-FM编码、临床报告经Med-LLM编码生成模态特征集多分支互斥建模每个模态特征输入3个并行注意力分支结合“互斥多样性损失函数D-LossBlock”促进差异化特征学习融合与预测经自注意力模块Self-Attention融合跨模态特征输入多模态预后风险预测网络Multi-Modal SurvNet输出风险评分b缺失模态处理细节提示编码为每个模态分配模态感知哈希编码病理“01”、放射“10”、文本“11”和缺失感知编码存在“1”、缺失“0”拼接至特征向量中可学习伪嵌入当模态缺失时生成动态优化的伪嵌入向量替代缺失特征补偿信息损失。04实验结果预测性能FLARE在全部4个队列中C-index最高OS: 0.730–0.812PFS: 0.725–0.901显著优于单模态模型与传统临床模型。风险分层能力Kaplan-Meier分析显示高低风险组生存差异显著Log-rank P0.05。可解释性分析热图可视化显示模型关注与预后相关的病理区域如坏死、浸润、CT影像特征如淋巴结肿大及文本关键词如“便血”。高风险组与低风险组在AJCC分期、pT/N分期、免疫细胞组成如CD4 T细胞、巨噬细胞及基因通路如免疫相关通路上均有显著差异。图 4模型性能评估图图 5模态可解释性分析图图 6临床-免疫-分子层面可解释性分析图05研究结论本研究提出并验证了一种基于基础模型的多模态深度学习框架FLARE用于结直肠癌CRC的预后预测能够有效处理临床中常见的多模态数据缺失问题。通过整合病理图像、放射影像和临床文本报告FLARE在包含1679例患者的多中心回顾性数据集中表现出卓越的预测性能其在总体生存OS和无进展生存PFS预测中的C指数显著高于传统临床模型及现有多模态方法并在外部验证队列中表现出强泛化能力。模型通过注意力多分支架构、模态感知提示、可学习伪嵌入和模态级数据增强等机制有效缓解了因模态缺失导致的性能下降。此外FLARE具备良好的临床可解释性其风险分层结果与AJCC/TNM分期、免疫微环境特征及关键基因通路显著相关揭示了免疫抑制与肿瘤进展的生物学关联。尽管存在回顾性设计、未包含基因组原始数据等局限FLARE仍为结直肠癌的精准预后评估提供了一个稳健、可扩展的多模态深度学习框架具备推动临床决策向个性化、智能化方向发展的潜力。参考文献Qu L, Zhang C, Hou Y, Tang F, Sheng W, Huang D, Song Z. Foundation Model-Enabled Multimodal Deep Learning for Prognostic Prediction in Colorectal Cancer with Incomplete Modalities: A Multi-Institutional Retrospective Study. Adv Sci (Weinh). 2026 Jan 20:e10931. doi: 10.1002/advs.202510931.

更多文章