当前位置:主页 > 查看内容

解密阿里云高效病原体基因检测工具

发布时间:2021-04-28 00:00| 位朋友查看

简介:1.背景介绍 病原体基因检测 为各种严重感染的诊断提供了基……
1.背景介绍

病原体基因检测 为各种严重感染的诊断提供了基础。病原体检测流程分成五个步骤 1 采集病人的样本 比方说静脉血 痰液 肺泡灌洗液 或者脑脊髓液等。 2 对样本进行培养 提取样本中的核酸组织。 3 通过高通量基因测序仪 对核酸序列进行测序。高通量测序为了保证精度 会将很长的核苷酸序列 切成小的分片 分别进行测序 在读取基因序列上 一般是50pb到200bp不等。 4 高通量测序之后 需要查询相关的病原体标准序列 找到匹配的基因序列。 5 通过将这些小的片段进行分析 得到全部基因片段的组成成分 即检测结果 从而为病人的疾病确诊以及精准治疗提供有力的支持。

image.png对于生物分析检测来说 通常情况下 一次病原体检测 大约会生成5亿左右的75bp的基因片段。过滤掉一些人的基因组织序列之后 还需要查询1亿左右的基因片段。通常情况下 会使用nBlast [1]工具来进行基因匹配 这部分在整个病原体检测过程中 也是非常耗时的部分 大约需要2-3个小时。阿里云AnalyticDB向量版提供了一个高效的基因检索工具 大大提升了基因分析的性能 能够在几十分钟内完成整个病原体的查询检测过程。

2.基因检索应用2.1 基因检索功能

图1展示了病原体基因检索的界面。当前演示包含了12182个病毒的碱基序列 我们将病毒切分成150bp的小片段 总共1590804个片段 转化成向量之后 存储到AnalyticDB中。在检索框中 用户可以输入一段基因序列 到我们当前的系统中进行检索。为了方便大家使用 我们挑了新冠病毒 艾滋病毒 埃博拉病毒和中东呼吸综合症的基因序列来进行演示 用户可以拷贝相关的序列 来检测查询的性能。

image.png

图2. 核酸查询演示

图3用户输入了一段新型冠状病毒的基因序列 可以看到排到前面的序列片段就是我们要找的新冠的病毒的序列。因为当前AnalyticDB提供高效的向量索引 系统会在毫秒级的时间内 返回相关的基因片段。

image.png

图3.基因检索结果

2.2 端到端的基因分析

我们模拟了人体的基因采样 将新型冠病毒基因 塞尔维亚MT450872 [2] 美国MT450873 [3] 和中东呼吸症MERS基因 NC_019843.3 [10] 三株病毒混合在一起 打散成75bp的序列 当做测试集合。我们希望 通过当前病毒库的检索分析 能够识别出当前测试集合中包含新型冠状病毒和MERS病毒。当前系统通过匹配检测 我们生成图4。

image.png

图4. 基因匹配结果

可以看到经过检测 病毒库检索系统返回了三个基因组 NC_045512.2 NC_019843.3和NC_038294.1 。NC_045512.2 65% 是武汉海鲜市场的新型冠状病毒的基因 NC_019843.3 20% 是MERS病毒的基因 而NC_038294.1 13% 是beta型英国冠状病毒 经过查询这个是MERS病毒的另外一个名字 [8] 也属于MERS病毒。因此 通过分析 当前混合测试集合中包含了新型冠状病毒和MERS病毒。

2.3 应用架构总体设计

阿里云基因检索系统的总体架构如图5所示 AnalyticDB负责整个应用的全部的结构化数据 比方说 基因序列的长度 基因的名称 基因的种类 以及基因的详细介绍 DNA或者RNA等 和基因序列产生的特征向量的存储和查询。在查询的时候 我们使用基因向量抽取模型 将基因转化成向量 在AnalyticDB库中进行粗排检索。在向量匹配的结果集中 我们使用经典的Needleman-Wunsch [4]算法进行精排 返回最相似的基因序列。

image.png

图5.基因检索系统框架

3.基因训练和查询模型3.1 基因查询过程

基因模型的训练已经在上一篇文章中 [5] 进行了详细的讲解。通过训练好的DNA K-Mer模型 我们可以得到每个k-mer的向量。给定一段12bp的基因序列 如图6 我们在这段基因序列中抽取出5个8-mers。我们将这5个8-mers转成对应的向量 求和归一化之后 就是这段12bp的基因序列的最终的向量。当然 为了提升精度 我们也可以使用doc2vec [6]等学习模型来对整段基因片段进行转化。

image.png

3.2 基因精度分析

我们训练了两个模型 全部病毒模型和21个病原体细菌模型 痤疮丙酸杆菌 金黄色葡萄球菌 表皮葡萄球菌 溶血葡萄球菌 大肠埃希氏菌 鲍曼不动杆菌 结核分枝杆菌 肺炎链球菌 肺炎克雷伯氏菌 流感嗜血杆菌 副流感嗜血杆菌 嗜麦芽窄食单胞菌 铜绿假单胞菌 屎肠球菌 纹带棒状杆菌 人疱疹病毒4型(EB病毒) 细环病毒 人腺病毒B组 黄曲霉 白色假丝酵母 耶氏肺孢子菌 。我们将一个基因 每隔150个bp 做一下切分。然后将150bp的小的分段 转化成向量存在库里面 进行检索。因此病毒数据集包括12182个病毒, 1590804个分段 21个细菌共275个基因 1521807个分段。


实验1 见表1 系统随机的在当前的基因库里面 取出75bp的小的片段。我们知道这75bp的基因片段是在哪个基因的哪个片段中提取的。我们将这75bp的基因段到库里面进行检索 查找返回前N个结果集中 查看是否包含这75bp的基因段对应的基因片段。Top-n的精度 Precision(n) 用公式 1 进行计算。

image.png

其中 n表示查询返回的列表的长度。u表示查询的次数 在实验中u取的是1000次。34d937744ea34201815d98913183b595.png表示在第i次查询中 序列si是否出现在Top-n的列表中 出现为1 不出现为0。如果n越小 精度越高 说明我们的方法在实际中非常有效。我们可以看到 针对两个模型来说 top20的精度 都在99%以上。精度在0.99以上 对于实际检验基因片段包含物种基因是足够了的。

表1.基因查询精度检测

数据集top 1top 2top 3top 4top 5top 10top 20病毒0.8660.9650.9830.9860.990.9920.99421个细菌0.9010.9750.9870.9870.9930.9941.0

实验2 见表2 系统随机的在当前的基因库里面 取出75bp的小的片段。我们将这75bp的基因段进行了2%的随机的突变 自然界中的基因突变的概率会更低 比方说人的30亿个碱基 新生儿会有30个基因发生突变。病毒RNA的突变概率会高一些 一般也都小于1% 然后到库里面进行检索 查找返回前N个结果集中 查看是否包含这75bp的基因段对应的基因片段。基因突变之后 虽然查询的精度有所下降 但是top20的精度也都达到了0.99。

表2.基因突变查询精度检测

数据集top1top 2top3top4top5top6top7病毒0.8460.9540.9600.9760.980.9820.9921个细菌0.8840.9610.9680.9730.9730.9891.0


实验3 见表3 对基因检索的速度进行了比较。我们下载了病毒序列 菌类的基因序列 以及部分植物基因序列 [7] 总共9.7G。我们分别将相关数据 导入到AnalyticDB数据库中和Blast库中。我们跑了100次不同的查询 对实验结果取了平均。Blast需要3.22秒才能返回结果 我们算法精度在top30的情况下 保证精度在0.95的准确性下 测试端到端的查询 包括查询基因转向量 向量粗排和Needleman-Wunsch算法的精排 只需要0.257s 提升了12.5倍 。

表3.检索时间


image.png

[1] blast ? https://ftp.ncbi.nlm.nih.gov/blast/executables/blast /LATEST/

[2] https://www.ncbi.nlm.nih.gov/nuccore/MT450872

[3] https://www.ncbi.nlm.nih.gov/nuccore/MT450873

[4] Needleman, Saul B. Wunsch, Christian D. (1970). A general method applicable to the search for similarities in the amino acid sequence of two proteins . Journal of Molecular Biology. 48 (3): 443–53. doi:10.1016/0022-2836(70)90057-4. PMID 5420325.

[5]汉朝. 阿里云提供高效基因序列检索功能 助力冠状病毒序列快速分析 , https://developer.aliyun.com/article/753097?utm_content g_1000111278

[6] Mikolov Tomas; et al. (2013). Efficient Estimation of Word Representations in Vector Space . arXiv:1301.3781

[7] 基因数据集 https://www.ncbi.nlm.nih.gov/genome/viruses/variation/help/flu-help-center/ftp/

[8] de Groot RJ Baker SC Baric RS et al. Middle East respiratory syndrome coronavirus (MERS-CoV): announcement of the Coronavirus Study Group. J Virol. 2013; 87: 7790-7792

[9] https://www.ncbi.nlm.nih.gov/nuccore/NC_045512.2

[10] https://www.ncbi.nlm.nih.gov/nuccore/NC_019843.3

[11] https://www.ncbi.nlm.nih.gov/nuccore/NC_038294.1


本文转自网络,原文链接:https://developer.aliyun.com/article/783849
本站部分内容转载于网络,版权归原作者所有,转载之目的在于传播更多优秀技术内容,如有侵权请联系QQ/微信:153890879删除,谢谢!

推荐图文

  • 周排行
  • 月排行
  • 总排行

随机推荐