Drug Discov. Today | 药物发现中的先进机器学习技术

DrugAI

修改于 2021-02-02 11:30:50

7970

修改于 2021-02-02 11:30:50

文章被收录于专栏：DrugAIDrugAI

编·译作者 | 王建民

今天给大家介绍一篇由Abdul W.Basit等人2020年12月5日发表在Drug Discovery Today上的一篇综述文章” Advanced machine-learning techniques in drug discovery”。机器学习(ML, machine learning)在药物发现中的受欢迎程度持续增长，取得了令人印象深刻的结果。随着其使用的增加，其局限性也变得明显。这些局限性包括它们对大数据的需求、数据的稀疏性以及缺乏可解释性。此外，这些技术也变得很明显，它们并不是真正的自主技术，甚至需要在部署后进行再培训。综述中详细介绍了先进技术的使用，以规避这些挑战。此外，还介绍了新兴技术及其在药物发现中的潜在作用。

背景

ML在药物发现领域的应用持续增长，促进了众多途径的研究。越来越多的制药公司将ML作为其商业模式的核心，大型制药公司也在探索ML用于药物发现。这样的成功证明了ML对于药物发现的必要性和实用性，也毫不含糊地表明药物发现将与ML有着内在的联系。其目标是减少药物发现的资源和劳动密集型，主要是高通量筛选（HTS）技术。ML的另一个目的是消除对动物试验的需求，而动物试验近来受到了负面的宣传。

传统的ML技术已经在药物发现方面进行了彻底的探索。这些技术包括有监督和无监督的ML技术，包括k-最近邻(kNN)、决策树、随机森林、支持向量机(SVM)、人工神经网络(ANN)、主成分分析(PCA)和k-均值。它们的吸引力来自于它们的简单性，计算量不大，但与传统预测算法相比，预测精度有所提高。同样，传统技术的底层机制也可以被非计算机科学家研究人员认知理解。例如，对于kNN来说，用户只需要控制一个参数，即k值，而k值又是根据复数投票来决定分类搜索空间。另一个例子是SVM，它利用超平面结合支持向量来划分类别，使不同类别之间的距离最大化。SVM的优势在于使用了内核技巧，可以对数据进行非线性映射，这在非线性数据集上得到了广泛的应用。该技术也可用于PCA（kernel PCA；kPCA）。最近的一项研究发现，kPCA可以用来改善线性模型的分类，其性能与非线性模型相当，不过速度明显更快。

传统的ML技术尽管简单，但也有其缺点。kNN受到维度的诅咒，即在高维空间，预测性能开始减弱。同样，当维数大于样本量时，SVM的性能也开始下降。增加随机森林中的树的数量可以提高预测精度，尽管大量的树结果产生的算法对于实时监测来说效率不高。然而，ML技术有两个主要的批评是其对大数据的需求和缺乏透明度。鉴于数据的收集可能具有挑战性、成本高、耗时长，因此需要解决这些限制。此外，透明度可能会促进用户对发现过程的理解，并最大限度地减少他们对ML理解过程的依赖。传统ML技术的另一个限制是它们缺乏自主性。此外，一旦部署，它将需要后期维护，特别是随着数据集的发展。为了解决这些限制，研究界已经采用了新的技术，并取得了可喜的成果。预计这些先进的技术将进一步扩大ML的应用范围。最终，人们的目标是实现药物发现管道中的人工智能（AI）。AI是计算机科学中一个广泛的分支，旨在利用机器创造人类智能，其中ML是实现这一目标的核心。近年来，ML的一个子集--深度学习作为一种能够从大数据中实现高准确度的技术出现，同时处理结构化和非结构化数据。

先进机器学习技术

ML技术的一些批评包括需要大量的数据集和人为干预。从这些言论中，人们研究了先进的技术，以解决传统ML技术的缺点，从而进一步扩大其适用性。这些先进的技术包括强化学习(RL, Reinforcement learning)，它弥补了自主学习技术的差距；迁移学习，以及多任务学习，用于开发缺乏大数据的预测模型。

强化学习(RL, Reinforcement learning)

当代RL的核心是新分子设计或分子优化。Popova等人针对药物的全新设计进行了一项结合这两方面的值得注意的研究。通过这种方法，RL与两种深度学习技术相结合。一种技术，即生成模型，作为代理，生成表面上可行的化学分子。另一种技术，预测模型，作为批评者，据此它奖励或惩罚生成模型的每一个生成的分子。研究还进一步证明，通过深层RL，可以优化理想的物理性质、化学复杂性或生物活性的新型化合物。虽然该研究表明，RL可以被利用来生成新的化合物，但还需要进一步的工作来完善该模型。

迁移学习(Transfer learning)

如果数据供不应求，那么可以使用一些技术来规避这个问题。其中一种技术是迁移学习，它是将从解决一个任务中获得的知识转移到另一个相关任务的过程。

ML在材料科学中也得到了应用，尽管它的应用不像在药物发现和开发中那样发达。材料科学与药物制剂息息相关，实际上也是一个同盟领域，有着相似的研究理念和方法。最近，迁移学习被应用于各种材料，包括小分子、聚合物和无机晶体材料。该研究能够成功地将迁移学习应用于一个观测值较少的数据集。此外，还揭示了小分子和聚合物之间、无机化学和有机化学之间的潜在联系。

多任务学习(Multitask learning)

迁移学习是顺序学习以及随后知识向另一任务的转移，而多任务学习是在一个模型中同时学习不同任务。据观察，与单学习任务时相比，学习相关任务可同时提高预测性能。多任务学习的好处在小批量数据集或噪声很大的情况下特别有用。此外，发现多任务学习优于传统的MLT，尤其是在数据相对稀疏的情况下。

药物发现中，多任务学习已发现可用于解决多靶点药物的作用。对此类候选物进行研究是因为它们具有严重的不利影响，这是对多个靶标采取行动的不利结果。同样重要的是，最近证明，对于几种复杂疾病，例如癌症和代谢性疾病，多靶点药物比单靶点药物更有效。

主动学习(Active learning)

主动学习是一种独特的半自动化机器学习方法，试图使用用户反馈来解决低标签数据集的问题。与被动学习相比，主动学习是理想的选择，因为在这种情况下，大量的无监督训练数据需要昂贵且耗费资源的实验来标记。因此，用户可以进行实验并随后为数据集的子集标记数据，并使用主动学习来获得对其余未标记数据的预测。例如，使用ML预测药物通过血脑屏障的渗透率，一个人可以对10％的分子进行实验，并使用所述10％的分子训练模型以预测其他90％的分子。如果模型不确定，它将进行查询，然后研究人员可以对这些样本进行实验。因此，与被动学习相比，它有可能需要相当少的标记数据，从而在最小化成本的同时加快了药物发现过程。

生成模型(Generative models)

如前所述，生成模型是能够生成新样本的ML技术。生成模型通过直接从输入数据中学习而将自己与区分模型区分开，并不一定要求用户编写明确的规则。生成模型可以通过实现数据分布的概率估计器来生成新数据实例，其中新数据位于分布内。换句话说，生成模型能够为给定的分布生成新的样本。这与判别模型形成对比，判别模型揭示了给定数据实例的情况下标记数据的概率，而与数据实例是否有效无关。最近的研究中使用的深度生成模型，其中，在除了生成新的化合物，可以用小的数据集时用于数据扩张。如前所述，将需要对新产生的分子进行彻底评估，以确保它们与市场上已经存在的化合物不同和/或与输入模型的化合物不同。

贝叶斯神经网络(BNN, Bayesian neural networks)

BNN是利用贝叶斯推理将多个神经网络模型组合在一起的集合模型。与传统的神经网络不同，传统的神经网络需要大量的数据进行训练，而BNN由于能够避免过拟合，所以能够处理小数据集。过拟合是大多数传统ML技术相关的问题，BNN在训练过程中通过先验概率分布来计算众多模型的平均值，从而产生网络的正则化效应，从而避免了这个问题。换句话说，神经元的权重和偏置不是一个单一的值，而是从一个分布中抽样出来的，这个分布会定期更新来训练BNN。BNN在药物发现中的应用还没有被彻底探索。最近的一项研究显示，利用ChEMBL数据集，贝叶斯图网络在预测分子的抑制活性方面表现优于传统图网络。最近，BNN被应用于识别药物相似性，其中单个分类器的贝叶斯误差分布可以产生93%的准确率，用于区分类药物和非类药物分子。

可解释性算法(Explainable algorithms)

ML的使用确实可以促进和加快决策的制定，特别是对于日常任务。因此，可能没有必要了解该模型实现的决策过程。但是，了解ML做出的决策过程将灌输研究人员的信心。解释模型可以帮助研究人员解决模型出现错误的问题。此外，决策过程中的洞察力可能会引发合理的研究问题。另外，它可以通过提供决策制定的见解来促进研究理解。同样，如果要将技术商业化，透明度也可能会引起对监管机构的信任。

最近一个可解释的机器学习实例被应用到构效关系建模中，其中半监督的回归树的表现优于监督的回归树。Rodriguez-Perez和Bajorath使用不同的策略来预测活性，开发了一种方法，该方法阐明了传统技术的预测过程以及集成和深度学习模型。他们的工作重点是消除ML模型的“黑匣子”性质。

新兴的机器学习技术

混合量子-机器学习

(H-QML, Hybrid quantum-machine learning)

机器学习与量子计算的混合已经成为预测分析中的一项强大技术。量子计算的主要前景是能够解决复杂问题的效率，而这些问题对于传统计算机而言却过于昂贵。

H-QML的优势确实可以在制药科学中加以利用，但是，该技术尚未得到应用。2018年IBM发表了一篇关于量子计算在药物发现中的潜力的文章，其中作者将量子ML的潜力纳入了其综述范围。最近，Google LLC发布了针对python的开放访问量子ML框架，该框架将使研究人员能够使用混合量子机器学习技术。因此，制药科学中的混合量子ML有望很快实现。

推荐系统

推荐系统在2006年因Netflix竞赛而声名鹊起，该竞赛旨在为其用户创建准确的用户偏好内容。推荐系统是一种ML框架，它基于在一组用户到一组项目之间建立链接的数据。推荐系统在电子商务中被大量使用，例如亚马逊和YouTube。此类技术的优势在于它们具有处理数据稀疏性，在先验信息不可用时进行预测的能力，以及通过解释推荐系统如何做出决策来提供透明度的能力。

推荐系统已被研究用于医疗应用中，正确的治疗是根据患者的病史提出的。但是，在药物发现和开发中的应用尚未建立。Sosnina等开发了用于化合物与靶标相互作用预测抗病毒药物发现的推荐系统。作者使用了基于内容的过滤推荐系统，该系统适用于稀疏数据和可解释性。

参考资料

Elbadawi M , Gaisford S , Basit A W . Advanced machine-learning techniques in drug discovery[J]. Drug Discovery Today, 2020.

https://www.sciencedirect.com/science/article/pii/S1359644620305213

本文参与?腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2020-12-26，如有侵权请联系?cloudcommunity@tencent.com 删除

机器学习