基于肿瘤HLA质谱数据库的机器学习来改进肿瘤新生抗原的鉴定

文章来源：企鹅号 - 王初课题组

大家好，本周推荐发表在nature biotechnology上的文章，题目是Deep learning using tumor HLA peptide mass spectrometry datasets improves neoantigen identification，通讯作者是美国Gritstone Oncology公司的Dr. Roman Yelensky。

免疫疗法逐渐成为癌症治疗的新趋势，目前也有一些由体细胞突变衍生的新生肿瘤抗原，在免疫检测点被阻碍后，会成为T细胞的主要靶标。临床上需要精准快速且划算的肿瘤新生抗原及同源T细胞的鉴定方法。而这方面的一大阻碍是人类白细胞抗原（HLA）表位预测算法的特异性不足，目前HLA一类表位抗原鉴定主要以预测肽段-HLA结合力为标准，有几个基于体外肽段-HLA结合数据库的机器学习模型，例如NetMHC、MHCflurry，都能很好的预测结合力，但是在实际HLA呈递的预测能力很弱，仅有5%预测的肽段能在细胞表面找到，尽管也有结合质谱数据，但帮助不大。准确地预测哪些突变是肿瘤新生抗原，就需要测试所有突变的抗原表位，那么就需要大量的投入样品、试剂耗费、分析时间。作者希望能发展一个准确的HLA I型表位预测算法，来优化肿瘤抗原的鉴定，作为个性化的基于肿瘤抗原的免疫疗法的关键一步。

本文从不同的肿瘤及正常组织出发进行分析，一是免疫沉淀HLA并质谱鉴定，二是对正常组织的DNA进行测序分类与获取外显子组，最终得到的等位基因分类，三是从中提取总RNA并转录组测序，可以作为基因表达的评价，利用这三个完整的数据库训练一个神经网络模型EDGE，可以共同学习等位基因-肽段的映射与等位基因-特异呈递的motif。这个训练集包含了来自101份样品的142844个HLA呈递肽段，验证集包含同101份样品18004个呈递肽段。之后他们用两种质谱数据库测试，分别是来自更多肿瘤组织的729个呈递肽段与训练集中单等位基因邻近区的基因窗口对应的1958个肽段，预测出53个等位基因，也发现HLA呈递依赖于肽段长度及其序列位置、基因RNA表达及基因特异呈递的偏向。

在针对质谱数据库与肿瘤T细胞库优化模型后，作者将其应用在癌症病人的肿瘤抗原的鉴定上，他们分析了正在进行anti-PD1治疗的病人的活组织和外周血，根据之前方法中提到的外显子组测序、肿瘤转录组测序以及对应的外显子组测序，发现了9个癌症患者中人均198个体细胞突变，118个表达了，接着又合成20个抗原表位来测试已有的抗肿瘤T细胞的响应，发现T细胞能识别平均2个人的抗原，刺激T细胞得到的分泌物也是多样的，显示出肿瘤特异T细胞的多样性。

原文作者：LBW

文章链接：https://www.nature.com/articles/nbt.4313

文章引用：DOI：10.1038/nbt.4313

发表于: 2018-12-242018-12-24 09:39:42
原文链接：https://kuaibao.qq.com/s/20181224B0AAZZ00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

基于肿瘤HLA质谱数据库的机器学习来改进肿瘤新生抗原的鉴定

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐