前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Mach. Intell. | 基于癌症影像生物标志物的基础模型

Nat. Mach. Intell. | 基于癌症影像生物标志物的基础模型

作者头像
DrugAI
发布2024-04-28 10:53:55
800
发布2024-04-28 10:53:55
举报
文章被收录于专栏:DrugAIDrugAI

今天为大家介绍的是来自Hugo J. W. L. Aerts团队的一篇论文。深度学习中的基础模型特指一个在大量数据上训练的单一大型模型,作为各种下游任务的基础。基础模型通常通过自监督学习进行训练,在减少下游应用中训练样本需求方面表现出色。这在医学领域尤为重要,因为大型标记数据集往往很稀缺。

图 1

在这项研究中,作者探讨了基础模型是否可以改进基于深度学习的影像生物标志物的开发,特别是在数据集规模有限的情况下。基础模型——一个卷积编码器,通过自监督预训练在来自2,312名独特患者的计算机断层扫描(CT)影像上识别的11,467个多样化且有注释的病变上进行了预训练(图1a)。该模型首先通过分类病变解剖部位进行了技术验证。随后,它被应用于两个临床相关的应用:开发一个预测肺结节恶性程度的诊断生物标志物和一个对非小细胞肺癌肿瘤的预后生物标志物(图1b)。

模型架构

作者使用自监督学习(SSL)开发了一个深度学习基础模型,并测试了该模型在三个不同用例中的表现。研究设计和预训练过程在图1中概述。作者使用一个包含来自2,312名独特患者识别的11,467个有注释的CT病变数据集训练了一个单一的基础模型。病变发现多样化,包括多种病变,如肺结节、囊肿和乳腺病变等众多其他类型。一个与任务无关的对比学习策略被用来对这些病变发现进行模型预训练(图1a)。作者展示了预训练基础模型对几个任务的适用性,通过在五个不同数据集上的三个不同的临床应用进行评估(图1b)。

预训练选择

图 2

作者将简单的自编码器预训练和几种最新的自监督预训练方法——具体来说是SimCLR、SwAV和NNCLR——与研究中开发的SimCLR修改版本进行了比较。通过比较在各选定策略提取的特征之上训练的线性分类器,在病变解剖部位分类的技术验证用例上评估了预训练策略。作者观察到修改的SimCLR预训练在平衡准确率(图2a)和平均平均精度(mAP)(图2b)中超过了所有其他方法(P < 0.001),达到了0.779的平衡准确率(95%置信区间(CI)0.750–0.810)和0.847的mAP(95% CI 0.750–0.810)。正如预期的那样,表现第二好的方法是SimCLR(平衡准确率0.696(95% CI 0.663–0.728);mAP = 0.779(95% CI 0.749–0.811))。当用有限的数据(50%,20%和10%)进行下游任务训练时,作者的方法表现出持续改善的性能。更重要的是,当训练数据从100%减少到10%时,通过平衡准确率和mAP分别只下降了9%和12%,证明了其鲁棒性。

病变解剖部位分类

作为基础模型的技术验证,作者选择了一个分布内任务(即,来源于与基础模型预训练相同的队列),并开发了分类模型,以预测训练和调整数据集上总共3,830个病变的解剖部位(用例1,图1b)。在一个保留的1,221个病变的测试集上,作者评估了基础模型两种不同实现的性能(图1c)。作者发现,基础模型实现在与比较的基线方法相比显示出优势(图2c,d)。经过微调的基础模型,标记为Foundation(fine-tuned),其mAP为0.857(95% CI 0.828–0.886),在mAP上显著(P < 0.05)优于所有基线方法。其平衡准确率为0.804(95% CI 0.775–0.835),与所有基线相比也观察到了显著(P < 0.01)的改进。从基础模型提取的特征,Foundation(features),进行线性分类时,显示出在平衡准确率和mAP上显著改善的性能,相较于从Med3D和Models Genesis基线方法提取的特征。使用计算密集的监督深度学习方法进行微调的模型——Supervised, Med3D(fine-tuned)和Models Genesis(fine-tuned)——在平衡准确率和mAP上并没有比基础模型特征的简单线性分类显著提高。此外,仅考虑mAP时,简单线性分类显著(P < 0.05)优于所有其他实现。

结节恶性预测

为了评估基础模型的泛化能力,作者选择了一个分布外任务(即,属于与预训练不同的队列)并训练分类模型,以预测LUNA16数据集中507个肺结节的恶性程度(图1b中的用例2)。然后在一个独立的170个结节的测试集上评估性能。通过微调基础模型的方法,Foundation(fine-tuned),其曲线下面积(AUC)= 0.944(95% CI 0.907–0.972)和mAP = 0.953(95% CI 0.915–0.979),显著(P < 0.01)优于大多数基线实现(图2e,f)。实现Med3D(fine-tuned),AUC = 0.917(95% CI 0.871–0.957)和mAP = 0.9307(95% CI 0.888–0.964),性能略低于作者的模型,但这不显著(P = 0.134)。对于从基础模型提取的特征,类似于用例1,作者的实现超越(P < 0.001)了基于特征的基线实现。

非小细胞肺癌(NSCLC)预后预测

图 3

接下来,作者评估了我们的基础模型在另一个临床相关用例中捕获NSCLC肿瘤的预后放射学表型的有效性。作者使用HarvardRT队列(n = 291)的数据训练和调整预后预测模型,以预测治疗后2年的总生存率,然后在两个独立的测试队列上比较基础模型和基线实现的性能,LUNG1(NSCLC-Radiomics)(n = 420)和RADIO(NSCLC-Radiogenomics)(n = 133)(图1b中的用例3)。在LUNG1队列中,从基础模型提取的特征后接一个线性分类器,Foundation(features),以0.638的AUC(95% CI 0.584–0.692)超越了所有基线性能(图3a)。基线比较中的深度学习实现在这个用例上没有表现出强劲的性能。除了AUC,作者还绘制了最佳表现实现的Kaplan-Meier估计(图3b)。对于RADIO队列,Foundation(features)展示了最佳性能,AUC为0.653(95% CI 0.532–0.771)。与LUNG1队列类似,深度学习实现没有展示出优越性能(图3c)。由于样本量小,除了Foundation(features)相比于接近随机表现的Supervised模型(AUC = 0.520)有所提高外,没有任何模型显示出与其他模型有显著差异(P > 0.05)。Kaplan-Meier分析显示,唯一提供显著分层的模型是Foundation(features),P = 0.009(图3d)。

编译 | 曾全晨

审稿 | 王建民

参考资料

Pai, S., Bontempi, D., Hadzic, I., Prudente, V., Soka?, M., Chaunzwa, T. L., ... & Aerts, H. J. (2024). Foundation model for cancer imaging biomarkers. Nature machine intelligence, 1-14.

本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-20,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com