Nature communications|医学多模态多任务基础模型:引领肺癌筛查新纪元
点击上方蓝字关注(联系方式见文末)
期刊《Nature Communications》上发表的文章《Medical multimodal multitask foundation model for lung cancer screening》本研究提出了一种基于多模态多任务学习框架的医学基础模型,旨在提升肺癌筛查的智能化水平与诊断效能。该模型通过深度整合肺部CT影像、病理学特征、临床诊疗记录及基因组学数据等异构医疗信息,构建跨模态表征学习机制,在统一架构下同步执行病灶检测、恶性程度分级、侵袭性预测及预后分析等关联任务。研究采用分层注意力融合策略优化特征交互,结合自监督预训练与迁移学习机制,有效克服医学数据标注稀缺的挑战。通过多中心回顾性验证,模型在敏感度、特异性及AUC值等关键指标上显著超越单模态系统,其动态风险分层能力为临床决策提供了可解释的量化依据。这项工作不仅验证了多任务联合优化在提升模型泛化性方面的优势,更为构建可扩展的智能肺癌筛查系统确立了新的技术范式,标志着医学人工智能向多维度数据融合与临床工作流深度适配的重要突破。
本研究提出了首个面向肺癌筛查(LCS)的多模态多任务基础模型(M3FM),旨在突破现有AI模型对单模态小数据的依赖,通过整合三维低剂量CT(LDCT)影像、49类临床文本(如人口学特征、吸烟史、病理结果)及随访数据,构建统一框架以协同执行肺癌风险预测、恶性结节检测、心血管疾病关联分析等17项临床任务。研究团队创建了多中心开源数据集OpenM3Chest(含163,725个胸部CT序列),并设计由CT视觉变换器(CTViT)、文本编码器、任务编码器及预测器组成的M3FM模型,采用自监督预训练与多任务联合优化策略,显著提升跨模态特征交互与任务泛化能力。实验表明,该模型在肺癌风险预测(AUC提升20%)和心血管疾病死亡率预测(提升10%)等任务中超越传统单模态模型,同时通过注意力机制实现临床可解释性,并展现对分布外任务的强适应性。尽管当前验证为回顾性研究,但M3FM为构建可扩展的智能筛查系统提供了技术范式,未来可通过临床实时部署及多模态扩展,推动肺癌早诊与精准诊疗的革新。
一、模型架构概述
M3FM是一个统一且可扩展的模型,旨在有效编码多模态医学数据(包括三维LDCT图像和各种临床数据)并灵活执行多个LCS相关任务。其整体架构由四个主要组件构成:CT视觉变换器(CTViT)、文本变换器、任务编码器和预测器。
二、各个模块功能
-
CT视觉变换器(CTViT)
-
多尺度CT标记器:包含多个线性嵌入层,对应不同大小的图像块,以处理CT图像中不同尺度的疾病特征。
-
图像编码器:由多个自注意力Transformer层和一个线性变换层组成,将图像标记器提取的特征映射到任务嵌入空间。
-
功能:CTViT专门设计用于处理多尺度三维CT体积,并提取其判别性特征。
-
组成:
-
特点:通过解耦物理尺寸与图像内容,CTViT能够灵活感知任意大小的CT体积,并具有尺寸感知能力,无需对CT体积进行重采样。
-
文本变换器
-
Byte-level Byte-Pair-Encoding (BBPE)标记器:用于将文本数据标记为令牌。
-
文本编码器:由原始Transformer层和一个线性变换层组成,将文本令牌嵌入映射到任务嵌入空间。
-
功能:将患者特定的临床信息(如人口统计学、吸烟史、疾病史等)和问题文本编码为嵌入表示。
-
组成:
-
特点:允许通过自由文本提示嵌入任意组合的临床信息,无论其顺序如何。
-
任务编码器
-
功能:从多模态令牌嵌入中提取任务特定特征,给定特殊的<TASK>令牌嵌入。
-
组成:由多个Transformer层组成,将所有令牌视为单个输入序列。
-
特点:仅将特殊的<TASK>令牌传递给任务编码器,其余问题令牌被忽略。任务编码器输出的任务特定嵌入特征集成了所有多模态数据。
-
预测器
-
功能:将任务特定嵌入特征映射为最终答案。
-
组成:包括任务ID预测器和其他特定任务的预测器,实现为两层多层感知机(MLP)。
-
特点:任务ID预测器能够自动选择适合特定任务的预测器。对于不同的任务,可能有不同的预测器或共享相同输出维度的预测器。
三、模型训练与推理
-
自监督预训练:使用掩码自编码器方法预训练CTViT,以提高其对未标记数据的利用能力。
-
多任务学习:通过同时优化多任务损失函数来联合训练M3FM,采用分布式任务并行策略提高训练效率。
-
推理:M3FM能够灵活处理多尺度CT体积、临床数据和多个任务,通过文本提示进行推理,输出针对特定任务的答案。
总之,M3FM的模型架构通过整合CTViT、文本变换器、任务编码器和预测器这四个模块,实现了对多模态医学数据的有效编码和对多个LCS相关任务的灵活执行。
-
多模态多任务数据集构建:
-
成功构建了包含49种临床数据类型、163,725个胸部CT序列和17项LCS相关任务的多模态多任务数据集,为模型的训练和评估提供了丰富的数据资源。
-
模型性能显著提升:
-
在自建的OpenM3Chest数据集上,M3FM模型显著优于现有的最先进模型。例如,在肺癌风险预测(6年)任务中,M3FM的AUC达到了0.8232(95% CI: 0.7936-0.8529),比现有最先进模型(Sybil*)提高了最高达9%的性能。
-
在心血管疾病(CVD)诊断任务中,M3FM的AUC为0.9284(95% CI: 0.9136-0.9433),比现有最先进模型(Tri2D-Net)提高了约6%的性能。
-
多任务学习的协同效益:
-
研究发现,多任务学习对具有更不平衡数据集或较少正类标签的任务尤为有益。M3FM在多任务学习设置下,对大多数LCS相关任务都表现出了优于单任务模型的性能。例如,在MGH数据集上,M3FM对1年肺癌风险预测的AUC比现有模型提高了20.80%。
-
模型的通用性和适应性:
-
M3FM模型能够有效编码各种组合的多模态输入,并在新任务(如免疫治疗预后预测)上通过迁移学习展现了良好的适应性。在免疫治疗预后预测任务上,M3FM的AUC达到了0.941% ± 0.026,比参考模型提高了4.7%的性能。
-
数据集的独立验证:
-
在独立收集的WFUSM和MGH数据集上,M3FM也展现了一致且显著的性能提升,验证了模型的通用性和鲁棒性。
CT体素嵌入与跨模态注意力映射验证
M3FM模型的整体性能与扩展性分析
综上所述,本研究提出的M3FM模型在肺癌筛查的多模态多任务学习中展现了出色的性能。通过构建大规模多模态多任务数据集、开发高效的模型架构以及利用多任务学习和迁移学习技术,M3FM模型为提高肺癌筛查的效率和准确性提供了新的解决方案,并为未来多模态医学人工智能模型的发展奠定了坚实基础。
04
-
推动肺癌筛查技术的进步:
-
文章提出了一种创新的医学多模态多任务基础模型(M3FM),该模型能够充分利用多模态临床数据(包括三维LDCT图像、患者人口统计学、吸烟史、疾病史等)进行肺癌筛查。这一模型不仅提高了肺癌风险预测的准确性,还改善了心血管疾病等其他相关疾病的诊断性能,为肺癌筛查技术的发展提供了新的思路和方法。
-
促进多模态数据在医疗领域的融合应用:
-
随着医疗数据的快速增长,如何有效融合和利用多模态数据成为了一个重要问题。文章通过构建大规模多模态多任务数据集,并开发相应的模型架构,展示了多模态数据在肺癌筛查中的巨大潜力。这不仅为肺癌筛查领域提供了新的研究范式,也为其他医疗领域的数据融合应用提供了借鉴。
-
提升人工智能在医疗诊断中的准确性和效率:
-
人工智能在医疗诊断中的应用日益广泛,但如何提高其准确性和效率仍然是一个挑战。文章提出的M3FM模型通过多任务学习和迁移学习技术,实现了对多模态数据的深度挖掘和高效利用,显著提高了肺癌筛查的准确性和效率。这为人工智能在医疗诊断中的应用提供了新的技术支撑。
-
为医疗人工智能模型的发展奠定基础:
-
文章不仅提出了具体的模型架构和实现方法,还通过大规模实验验证了模型的性能和通用性。这为未来医疗人工智能模型的发展奠定了坚实基础,有助于推动医疗人工智能领域的持续创新和进步。
综上所述,该文章的发表不仅推动了肺癌筛查技术的进步和多模态数据在医疗领域的融合应用,还提升了人工智能在医疗诊断中的准确性和效率,为医疗人工智能模型的发展奠定了基础,具有重要的学术价值和社会意义。
葩米AI—专注于医疗大模型科研、影像组学与人工智能算法的科研探索者。我们面向医疗场景致力于AI科研算法服务,专注于将前沿人工智能技术融入医学研究和临床应用,产品包括面向医生的影像组学科研平台,医疗多模态大数据中心以及医疗AI大模型研发平台。联系我们,开启您的医疗AI科研之旅,一起成为医疗AI的探路者。
微信号:radiomier
邮箱:pami2018@163.com