当前位置:主页 > 查看内容

Colab中使用AlphaFold2

发布时间:2021-08-16 00:00| 位朋友查看

简介:AlphaFold与Colab AlphaFold是一个预测蛋白质三维空间结构的深度学习模型。据开发者介绍,用户只需要给出蛋白质序列,这个模型能给出“原子精度”(Atomic accuracy)级别的预测。模型刚刚开源不久,一些数据库、安装包在境外服务器,不容易安装。 Colab是谷……

AlphaFold与Colab

AlphaFold是一个预测蛋白质三维空间结构的深度学习模型。据开发者介绍,用户只需要给出蛋白质序列,这个模型能给出“原子精度”(Atomic accuracy)级别的预测。模型刚刚开源不久,一些数据库、安装包在境外服务器,不容易安装。

Colab是谷歌免费提供的一个计算环境,一个类似于JupyterLab的环境。用户可以在上面下载软件包、各种库,运行自己的代码。Colab给用户提供几十G的空间,十几G的内存,还会分配显卡,这些资源可以满足AlphaFold预测蛋白结构。Colab服务器在境外,安装、下载文件非常方便。

有一些工作者已经在Colab上写好了AlphaFold的工作流程(一个ipynb文件)。我们只需要填好要预测的序列执行,然后等待最终预测结构就好。用户可以把它当成黑箱子

工作流程是:

  1. 下载第三方库,安装AlphaFold.
  2. 填写蛋白质序列,进行multiple sequence alignment(MSA)。
  3. 用AlphaFold预测蛋白质3D结构。(五个模型)
  4. 观察预测结果,下载预测结构。

用户只需要用鼠标一个一个点,便可完成最终预测。

缺点是,目前成熟的版本只能预测单链Monomer的结构。dimer或者更复杂的预测目前还在开发中。

使用方法

需要注册Google账户,并开通Colab。然后点击以下链接

https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb

便打开了这个工作流程(ipynb)。首先填写想要折叠的蛋白质序列,如果您在测试它的精准性,可以从PBD网站下载fasta文件,把序列粘贴到sequence这一行。MSA_models选择建议MMseqs,num_model建议选5,用五个模型进行折叠,Alphafold折叠并不耗时。use_amber表示折叠后进行结构优化,选择后会增加计算时间。use_templates会增加折叠的精准度。homooligomer是同一段蛋白的多聚体。如果是二聚体,就填2。

接下来就是依次点击'>'按钮执行每一段代码。等预测完成时,会自动下载一个prediction.zip的文件。里面有用五个模型预测的蛋白质结构,存为pdb文件。

折叠过程并不慢,400+氨基酸的蛋白只需要不到2个小时。

结果

我在PBD网站上随机抽选了一个蛋白,4F3I。各个模型都得到了非常好的预测(置信度96%+)。

model_1 96.96527318998822
model_2 96.9231908208698
model_3 96.88623080086097
model_4 96.4259728359441
model_5 96.1541728226406

Colab中可以直接显示蛋白质的结构和预测精度。蓝色代表该区域预测非常精准。可以看的4F3I的结构预测非常准,与PBD文件中的结构非常相似。

我也选了一个刚发表的蛋白质,7CL7,它有400个左右的氨基酸,并且中心有个卟啉铁。这个蛋白质不可能在AlphaFold训练集和测试集中。预测结果尚可,打分到了92%。

model_1 92.29288487879997
model_2 92.0199339127982
model_3 91.9780967129574
model_4 89.91842044944458
model_5 89.37234771426955

同时发现,蛋白头部的折叠预测较差。大部分折叠区预测较好。

与PDB网站中的结构进行比对。我们发现AlphaFold折叠的结果与实验结果看起来比较相近。请参考下图(左侧为实验结果,右侧为AlphaFold推理结果)。

其他

  1. 由于AlphaFold开源不久,很多计算流程都在开发中。要留意pipine的最新进展。
  2. AlphaFold官方版本需要下载2TB左右的蛋白质数据库,这个数据库是用来进行MSA计算的。我们也可采用其他的在线MSA运算。
  3. 如果没有MSA计算,AlphaFold的预测结果很差。AlphaFold更像一个同源建模的辅助程序,它能做到的事同源建模也许能实现。如果一个蛋白与自然界中已有的蛋白只有很小同源关系,那么它的结构可能无法精准预测。
  4. Colab有使用限额,很难稳定使用,最终还是要在本地运行。如果您有良好的国际联网,简单修改Colab上的ipynb文件,便可以拿到本地来部署AlphaFold的计算框架。希望AlphaFold后续能提供Docker镜像或者更容易部署的版本。

本站部分内容转载于网络,版权归原作者所有,转载之目的在于传播更多优秀技术内容,如有侵权请联系QQ/微信:153890879删除,谢谢!

推荐图文


随机推荐