DrugAI-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

专栏作者

1073

文章

663906

阅读量

115

订阅数

ACS. Synth. Biol. | 基于扩散的生成模型用于从头设计启动子

数据优化工作模型设计

今天为大家介绍的是来自华南理工大学崔巍团队的一篇论文。计算机辅助的启动子设计是合成启动子工程中的一大发展趋势。各种深度学习模型已被用来评估或筛选合成启动子，但关于从头设计启动子的研究还很少。为了探索生成模型在启动子设计中的潜力，作者在大肠杆菌中建立了一个基于扩散的生成模型。该模型完全由序列数据驱动，能够研究自然启动子的基本特征，从而生成在结构和组分上与自然启动子相似的合成启动子。作者还改进了FID指标的计算方法，使用卷积层来提取启动子序列的特征矩阵。得到的合成启动子的FID为1.37，这意味着合成启动子的分布与自然启动子类似。作者的工作为从头设计启动子提供了一种新的方法，这表明一个完全数据驱动的生成模型对于启动子设计是可行的。

2024-05-15

1290

Nat. Comput. Sci. | 将单细胞ATAC测序数据与基因组序列整合以辨识细胞类型

测试数据性能优化 nat

今天为大家介绍的是来自中山大学杨跃东团队的一篇论文。单细胞染色质可及性测序（scATAC-seq）技术能揭示基因调控和表观遗传异质性的单细胞分辨率细节，但由于数据的高维性和极端稀疏性，通过scATAC-seq进行细胞标注仍然具有挑战性。现有的细胞标注方法主要关注细胞峰值矩阵，并没有充分利用基因组序列。作者提出了一种名为SANGO的方法，通过整合scATAC数据中可达性峰周围的基因组序列来进行精准的单细胞标注。基因组序列的峰（peak）被编码成低维嵌入向量，然后通过一个全连接网络迭代用于重建细胞的峰值统计。学习到的权重被视为表征细胞的调控模式，并用于通过图变换网络将查询细胞与参考数据中的已标注细胞对齐，进行细胞标注。SANGO在55个配对的scATAC-seq数据集上，在样本、平台和组织持续优于其他方法。SANGO还能通过图变换学到的注意力边权重探测未知的肿瘤细胞。此外，从已标注的细胞中，作者发现了细胞类型特异性的峰，这些峰通过表达富集分析、顺式调控染色质相互作用分析和基序富集分析提供了功能性见解/生物信号。

2024-05-14

1580

Nucleic Acids Res. | 生物医学知识文献网站PubTator 3.0

工具搜索系统性能网站

今天为大家介绍的是美国国立卫生研究院陆致用教授团队的一篇论文。PubTator 3.0是一款结合了最先进人工智能技术的生物医学文献搜索工具，它专注于蛋白质、遗传变异、疾病和化学物质等关键生物医学概念的语义及关联性搜索。该平台已累积提供超过十亿个实体和关系的注释，覆盖约3,600万篇PubMed摘要和600万篇PMC开放获取的全文文章，每周获取最新的相关信息。作者通过一系列实体对比查询展示了PubTator 3.0在文章检索方面的卓越性能，其检索量和前20条结果的精确度均优于PubMed和Google Scholar。此外，整合ChatGPT（GPT-4）的PubTator API显著提升了查询结果的事实性和可验证性。

2024-05-13

830

AlphaFold3及其与AlphaFold2相比的改进

编码架构连接模型算法

蛋白质结构预测是生物化学中最重要的挑战之一。高精度的蛋白质结构对于药物发现至关重要。蛋白质结构预测始于20世纪50年代，随着计算方法和对蛋白质结构的认识不断增长。最初主要采用基于物理的方法和理论模型。当时的计算能力有限，这些模型往往难以成功地预测大多数蛋白质的结构。蛋白质结构模型的下一个发展阶段是同源建模，出现在20世纪70年代。这些模型依赖于同源序列具有相似结构的原理。通过将目标序列与已知结构的模板序列进行多序列比对，首次成功地确定了以前未解决的序列的结构。然而，这些模型的分辨率仍然有限。20世纪80年代出现了从头开始的方法，带来了下一个分辨率提升。这些方法应用了基于物理的技术和优化算法。结合计算技术的进步，这导致了蛋白质结构预测的显著改进。为了对所有这些新方法进行基准测试，从90年代初开始了蛋白质结构预测技术评估的关键阶段(CASP)系列活动。近年来，机器学习和深度学习技术已经越来越多地集成到蛋白质结构预测方法中，尤其是自2007年以来使用长短期记忆(LSTM)以来。

2024-05-13

2050

Nat. Mach. Intell. | 药物设计中的多任务学习

设计数据神经网络 nat 模型

今天为大家介绍的是来自Gisbert Schneider团队的一篇论文。多任务学习是一种机器学习范式，旨在通过利用多个任务之间的共享信息来增强预测模型的泛化能力。深度神经网络模型在各个领域取得的突破性成就，为化学科学的类似进步带来了希望。在本文中，作者提供了神经型应用于多任务学习计算机辅助药物设计的当前状态和未来潜力的见解。在药物发现的背景下，多任务学习的一个突出应用是进行蛋白质-配体结合亲和力预测。本文介绍了多任务学习的基本原则，并提出了一个框架，用于根据其架构来对多任务学习模型进行分类。

2024-05-13

810

Nature | AlphaFold 3 预测了所有生命分子的结构和相互作用

性能开发模型数据系统

AlphaFold 2的问世引发了蛋白质结构及其相互作用建模的革命，使得在蛋白质建模和设计领域有了广泛的应用。 Google DeepMind and Isomorphic Labs团队在5月8日Nature的最新论文“Accurate structure prediction of biomolecular interactions with AlphaFold?3”描述了最新推出的AlphaFold 3 模型，采用了一个大幅更新的基于扩散的架构，能够联合预测包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物的结构。新的 AlphaFold 模型在许多先前专门工具上显著提高了准确性：在蛋白质-配体相互作用方面比最先进的对接工具准确得多，比核酸特异性预测器在蛋白质-核酸相互作用方面具有更高的准确性，比 AlphaFold-Multimer v2.3.在抗体-抗原预测准确性方面显著更高。这些结果表明，在单一统一的深度学习框架内实现生物分子空间的高准确建模是可能的。

2024-05-13

2420

J. Chem. Theory Comput. | 通过变分自编码器隐空间采样生成蛋白质结构集合

theory 集合模型数据优化

今天为大家介绍的是来自david baker团队的一篇论文。该篇文章探索了针对单一蛋白质，利用变分自编码器（Variational Autoencoder, VAE）生成蛋白质构象集合的方法。baker团队利用这个方法来产生K-Ras的3D结构集合，在K-Ras晶体结构和分子动力学模拟快照上训练VAE。实验表明，该隐空间采样程序能够快速生成高结构质量的蛋白，与留出集（held-out set）的晶体结构相近（差距在1埃），在结构一致性上超过了分子动力学模拟（Molecular Dynamics，MD）和AlphaFold2方法。此外，采样得到的结构足以重现留出集中晶体结构的隐蔽口袋。

2024-05-13

1130

Drug Discov. Today | 主动学习在药物发现中应用的现状和前景

工作流模型数据算法性能

主动学习(AL)是一个迭代反馈过程，其能迭代性的从化学空间中识别有价值的数据，从而实现以较少的有标签数据高效的完成对空间的探索和开发。AL的这一特性正好与药物发现过程中所面临的探索空间不断扩大和有标签数据存在缺陷等问题互补，因此，AL已经被广泛的用于药物发现领域以推动药物发现的进程。最近，曹东升教授课题组和曾湘祥课题组在Drug Discovery Today上发表了一篇综述“The Present State and Challenges of Active Learning in Drug Discovery”，这篇综述首先介绍了AL工作流，然后对AL在药物发现领域中的应用进行了全面且系统的回顾，最后总结了AL在药物发现领域的研究现状和研究前景，具体见下文。

2024-05-13

1360

Patterns | 使用天然配对数据改进抗体语言模型

编译架构模型数据性能

今天为大家介绍的是来自Bryan Briney团队的一篇论文。抗体语言模型是利用大规模机器学习技术，特别是自监督学习方法来理解和预测抗体序列的特性和功能的计算模型。这些模型通过分析抗体的氨基酸序列，尝试学习抗体序列数据中的模式和关联，类似于自然语言处理技术在文本数据上的应用。本研究通过使用成对和随机的抗体序列数据训练语言模型，发现使用成对数据训练的模型能够学习到抗体的重要特征，在多种性能指标上表现得更好。

2024-05-13

820

医疗保健和医学中使用大型语言模型的复杂情况

数据系统工具开发模型

今天为大家介绍的是来自Stefan Harrer的一篇论文。大型语言模型（LLMs）是生成式人工智能（AI）应用的关键组成部分，这些应用能够根据文本指令创建包括文本、图像、音频、代码和视频在内的新内容。若无人类的监督、指导以及负责任的设计和操作，这类生成式AI应用将仅仅成为一种有着巨大潜力在前所未有的规模上创建和传播错误信息或有害和不准确内容的制造者。

2024-05-13

1140

Nat. Commun. | 扩散模型实现基于结构的三维分子生成与先导化合物优化

模型设计优化 nat 测试

今天为大家介绍的是来自Hailong Li，Ka-Chun Wong和Hengtong Zhang团队的一篇论文。基于结构的生成方法在计算机辅助药物发现中至关重要，它通过探索广阔的化学空间来设计与靶点高亲和力结合的配体。然而，传统的计算机模拟方法受限于计算效率低下，而机器学习方法则因自回归采样面临瓶颈。为了解决这些问题，作者开发了一种条件深度生成模型PMDM，用于生成符合特定靶标的三维分子。

2024-05-02

1160

Nat. Immunol. | 一种预测可以提升免疫检查点阻断疗效的药物的方法

开发模型数据数据库 nat

今天为大家介绍的是来自Lu Gan和An-Yuan Guo团队的一篇论文。联合疗法是一种有前景的治疗策略，用以提升免疫检查点阻断（ICB）的疗效；然而，预测有效的联合用药仍然充满挑战。在这里，作者开发了一种名为CM-Drug的通用数据驱动方法，用于筛选能够增强ICB治疗效果的化合物。

2024-05-01

1030

Nat. Biomed. Eng. | 利用RNA测序数据生成肿瘤的合成图像

nat 测试模型数据深度学习

今天为大家介绍的是来自Olivier Gevaert团队的一篇论文。通过合成数据训练机器学习模型可以缓解数据集成本高昂且具有挑战性时数据稀缺的问题。作者在这里展示了如何使用级联扩散模型从人类肿瘤的RNA测序数据的潜在表示中合成出现实感强的全幅图像切片。

2024-04-30

640

Nat. Commun. | 通过机器学习预测和改善啤酒风味

模型数据性能机器学习 nat

今天为大家介绍的是来自Kevin J. Verstrepen团队的一篇论文。食物风味的感知依赖于许多相互作用的化学化合物和外部因素，因此理解和预测它们颇具挑战性。在这项研究中，作者结合了对250种不同啤酒的广泛化学和感官分析，训练机器学习模型，以预测啤酒的风味和消费者的喜好。

2024-04-29

1100

Nat. Comput. Sci. | 人类般的直觉行为和推理偏见在大型语言模型中出现，但在ChatGPT中消失了

系统 nat chatgpt 模型数学

今天为大家介绍的是来自Michal Kosinski团队的一篇论文。作者设计了一系列语义幻觉和认知反思测试，旨在诱发直觉性但错误的反应。作者将这些任务（传统上用于研究人类的推理和决策能力）应用于OpenAI的生成预训练变换器模型家族。结果显示，随着模型在规模和语言能力上的扩展，它们越来越多地显示出类似人类的直觉型思维和相关的认知错误。这一模式随着ChatGPT模型的引入而显著转变，这些模型倾向于正确响应，避免了任务中设置的陷阱。ChatGPT-3.5和4都利用输入输出上下文窗口进行思维链推理。作者的发现强调了将心理学方法应用于研究大型语言模型的价值，因为这可以揭示先前未被发现的突现特性。

2024-04-29

1070

Nat. Commun. | 通过单一分子基础模型实现结构和属性的双向生成

nat 基础模型设计数据

今天为大家介绍的是来自Jong Chul Ye团队的一篇论文。人工智能中基础模型的近期成功促使了大规模化学预训练模型的出现。尽管对于提供下游任务有用信息的大型分子预训练模型的兴趣日增，但在分子领域上对多模态预训练方法的尝试却很有限。为了解决这一问题，作者在此介绍了一个多模态分子预训练模型，该模型结合了结构和生化属性的模态，灵感来自于近期多模态学习技术的进展。作者提出的模型数据处理和训练目标在一个共同的嵌入空间中对齐了结构/属性特征，使得模型能够考虑分子结构和属性之间的双向信息。

2024-04-28

1070

Chem. Sci. | 来鲁华、裴剑锋团队开发基于扩散模型的柔性分子对接方法

开发模型优化深度学习测试

基于结构的虚拟筛选（SBVS）能够从大规模化合物库中快速识别潜在的活性分子。分子对接是SBVS中最常用的技术之一，它可以用于预测配体的结合姿态，描述蛋白质-配体的结合强度，并识别关键的相互作用。传统的分子对接方法一般使用刚性的蛋白质口袋作为对接的受体，即当蛋白-配体晶体结构已知时，移除配体分子再重新对接配体回到已知蛋白质的Holo态结合口袋。然而，在现实应用场景下的分子对接任务中，如果事先不知道受体的结合构象，由配体诱导的口袋构象的变动会使得刚性对接方法给出错误的预测。尽管AlphaFold2能够较准确地预测目标蛋白质的结构，但预测的靶标蛋白结构与结合态有一定差别，导致未考虑蛋白质柔性的刚性分子对接方法无法利用预测的结构给出正确的复合物结构。而现有的柔性分子对接方法，受限于计算复杂度，仅能考虑少量的侧链构象变化。一些基于深度学习的分子对接方法，对蛋白质进行粗粒化的主链编码在一定程度上可以克服局部的侧链构象变化，但由于口袋残基侧链原子信息的缺失以及缺乏基于物理模型的配体分子建模，所生成的对接构象经常出现配体构象不合理及配体与蛋白间的碰撞等问题，也不能提供对于配体进行优化所需要的受体与配体的相互作用细节。

2024-04-28

1330

Nat. Commun. | 基因组语言模型预测蛋白质共同调控和功能

nat 编码模型数据数据库

今天为大家介绍的是来自Peter R. Girguis团队的一篇论文。解读基因与其基因组环境之间的关系是理解和工程生物系统的基础。机器学习在从大规模蛋白质序列数据集中学习隐藏的序列-结构-功能范式关系方面显示出潜力。然而，迄今为止，利用更高阶的基因组环境信息的尝试还很有限。进化过程决定了基因在不同系统发育距离中所处的基因组环境的特异性，这些新出现的基因组模式可以用来揭示基因产物之间的功能关系。在这里，作者训练了一个基因组语言模型（gLM），通过数百万的宏基因组来学习基因之间潜在的功能和调控关系。

2024-04-28

1730

Nat. Methods | 一个用于预测动态环境中全新蛋白-蛋白相互作用的平台

nat methods 模型数据系统

今天为大家介绍的是来自Ileana. M. Cristea团队的一篇论文。蛋白-蛋白相互作用（PPIs）推动细胞过程和对环境的反应，反映了细胞状态。在这里，作者开发了Tapioca，一个用于研究动态环境中全局PPIs的集成机器学习框架。

2024-04-28

1340

Nat. Commun. | AlphaFold2进行高通量预测蛋白质构象分布

测试集合模型算法 nat

今天为大家介绍的是来自Brenda M. Rubenstein团队的一篇论文。论文提出了一种创新方法，利用AlphaFold 2这一革命性的人工智能技术预测蛋白质构象的相对分布。AlphaFold 2通过精确预测蛋白质结构，已经在生物学领域引发了革命。尽管AlphaFold 2在准确性和速度方面表现出色，但它主要用于预测蛋白质的基态构象，预测构象景观的能力有限。作者在这里展示了AlphaFold 2如何通过对多序列对齐进行子样本抽样，直接预测不同蛋白质构象的相对分布。

2024-04-28

1270

点击加载更多

社区活动

RAG七天入门训练营

鹅厂大牛手把手带你上手实战

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态