1. Learning Centers
  2. 科学进展
  3. 干货分享 | DeepSeek 让 AI 筛选更火了? AI+虚拟筛选, 药物筛选新范式! 速戳~

干货分享 | DeepSeek 让 AI 筛选更火了? AI+虚拟筛选, 药物筛选新范式! 速戳~

 

 

最近 DeepSeek 火的很,小 M 也来小试一下~试什么呢?要不就问与其相关的 AI 筛选吧!哎嘿,还别说,有模有样的哈,不过每位科研用户的需求各不相同,还要具体情况具体分析哇~

 

 

 

“哈哈,针不戳~” 接下来,小 M 将带您更深入探讨 AI 与虚拟组合带来的好处,挑战以及对药物发现未来的影响。

 
0
什么是基于分子对接的药物筛选?
 
 

在深入了解 AI 筛选之前,首先需要了解分子对接的基本概念。实际上,分子对接是一种基于物理的计算方法,用于预测配体 (即与靶标结合的分子,如药物和肽) 在与受体 (通常是蛋白) 相互作用时的优选结合模式和结合亲和力。分子对接的目的是找到配体和受体复合物稳定的结合模式,这对于识别潜在的候选分子至关重要

传统的分子对接受限于打分函数精度较差,以及靶标的柔性对分子对接的影响无法评估。因此需要更多复杂的计算来预测小分子和蛋白的作用模型,比如通过预测不同结合模式的结合自由能,可以帮助研究人员找到优选的分子用于进一步的测试,从而指导实验研究,加速药物发现的过程。

 

0
AI 在药物筛选中的作用
 
 

AI,特别是机器学习 (ML) 和深度学习 (DL),将对药物筛选发挥变革性作用。

 

图 1. AI 在药物筛选中的技术和应用[2]

 

  1. 提高预测的准确性

传统的分子对接方法基于预定义的算法来尝试模拟分子间的相互作用。虽然这些方法可以提供有用的见解,但在准确性和计算效率方面常常存在局限性。AI 技术,特别是深度学习,可以通过从大量数据中学习 (包括分子的物理和化学性质及其相互作用)提高对接预测的准确性

比如 RTMscore 就是基于蛋白的 AI 筛选方法,在这个方法中,小分子用一个二维图表示,生物大分子用一个基于残基的三维的分子坐标图来表示,每个残基都是一个坐标点,通过相应的图神经网络进行特征的提取,再将提取的特征合并,用 Transformer 进行表征的学习,最后得到残基和原子的距离统计势。配体里面所有原子和残基的距离统计势即为每个配体的打分,这个方法也有点类似于传统的基于知识的打分。

 

 

 

图 2. RTMscore 的模型架构示意图[3]

 

研究人员在评价打分函数的基准数据集 CASF-2016 上评估 RTMscore 和其他先进的打分函数的对接和筛选能力。在对接能力评估中,RTMscore 的平均 top1 对接成功率在有无天然构象存在的条件下分别达到 97.3% 和 93.4%;在筛选能力评估中,RTMscore 的平均 top1 成功率为 66.7%,1% 富集因子为 28;以上结果都优于其他先进的打分函数。

 

图 3. 在 CASF-2016 上评估对接和筛选能力[3]

 

  2. 加速药物筛选

AI 可以显著加速药物发现的过程,尤其是在早期发现阶段,有上千万潜在的候选分子需要进行评估。传统的基于分子对接的筛选方法需要几天甚至几周的时间来分析大型数据集,但 AI 驱动的分子对接可以在短时间内完成这些分析。通过高通量筛选,AI 可以快速预测哪些化合物最有可能有效地与目标蛋白结合,从而降低下游评估的时间和成本

比如 GeminiMol 是基于配体的 AI 筛选模型,在 2023 年上海国际计算生物学创新大赛中荣获一等奖,该模型在本次大赛中筛选 1800 万个化合物,1 个小时就可以完成筛选(详见往期推文:科研助攻 | "药筛+AI":AI 算法如何加速药物发现?

 

  3. 更多样化的化学空间

AI 模型在筛选过程中可以“集百家之长”,基于 AI 的虚拟筛选一般不会只借鉴一个分子,而会同时借鉴更多结构不同的先验活性分子,因此筛到的分子理论上是兼具多个分子的药效团特征或者结构信息,先验活性分子更多,则可能获得化学空间更多样化的候选分子。与此同时,将 AI 和虚拟筛选结合,研究人员可以探索更大的化合物库,进而识别出可能被传统对接方法遗漏的新型药物候选分子。

例如,STL1267 是一个高效的选择性 REV-ERBα 激动剂,通过共晶结构解析,可以看到 STL1267 直接与 REV-ERBα 的配体结合域 (LBD) 结合,进而更有效的招募核受体协同抑制因子 NcoRID1。

 

图 4. STL1267 的 2D 结构以及与 REV-ERBα 和 NCoR ID1 的复合物共晶结构 (PBD_ID:8D8I)[4]

 

进一步调研,我们找到 SR-29065(34) 也是一种新型的报道的 REV-ERBα 激动剂,但没有报道的共晶结构,为了进一步探究 SR-29065(34) 的结合模式,我们尝试基于 8D8I 中小分子的结合位点进行分子对接,对 SR-29065(34) 生成 64 个初始构象进行半柔性对接,我们发现无输出结果,因此可以认为基于 8D8I 进行虚拟筛选是无法筛到和 SR-29065(34) 化学空间类似的分子。

 

图 5. REV-ERBα 选择性激动剂 SR-29065(34)[5]

 

此外,GeminiMol 模型基于分子间构象空间相似性对比学习来进行预训练,基于 GeminiMol Encoding 能够表征小分子的构象空间特征,全面反应与分子结构相关的分子属性、潜在药效性质等,进而在包括配体的虚拟筛选、靶标鉴定、分子属性预测等多种药物发现任务上表现出均衡的优良性能。在我们的组合筛选流程中,我们首先会收集一系列 REV-ERBα 激动剂的结构和活性数据,通过 GeminiMol 模型进行分子结构的表征和学习,获得化学空间更多样化的候选分子用于下一步的筛选

 

图 6. GeminiMol 应用架构图[6]

 

  4. 优化药物-靶标相互作用

药物发现中的一个关键挑战是能够设计特异性且有效结合靶蛋白的分子,同时避免产生脱靶效应。AI 能够通过对分子对接的更深入见解来优化药物与靶标之间的相互作用。通过强化学习和生成模型,AI能够提出新的化学结构与修改建议,以提高候选分子的结合亲和力和选择性。

在我们的组合筛选流程中,我们会输入多个起始构象进行分子对接,输出多个不同的分子对接结果,再通过 RTMscore 对不同的对接结果进行进一步的打分评估,最终的输出结果除了综合打分还包括各个原子和残基对得分的影响,以及与之相关的不同构象。

 

图片

图片

 

图 7. RTMScore 分解为各个残基和各个原子的贡献[3]

 

(A)某一配体多个对接构象的残基贡献 (PDB_ID:1Z95),红色和蓝色分别表示较低和较高的得分。X 轴表示蛋白质口袋中的每个残基,Y 轴表示每个构象。这些构象根据它们相对于天然构象的 RMSD 值按升序排列。(B)对接配体多个对接构象不同原子的贡献,红色和蓝色分别表示较低和较高的得分。X 轴表示配体中的每个原子,Y 轴表示每个构象。这些构象根据它们相对于天然构象的 RMSD 值按升序排列。

图片

 

 

0
AI 筛选的挑战
 
 

  1. 数据质量和可靠性

AI 模型需要大规模的数据集以有效训练。然而,实验验证的蛋白质-配体复合物形式的数据质量和可用性有限。尽管存在像 PDB 和 PubChem 这样的大型数据库,但它们可能并不涵盖所有可能的相互作用,或未能为每个感兴趣的蛋白质提供高质量的数据。此外,AI 模型可能会对噪声或不完整的数据感到困扰,这可能导致不准确的预测。

 

  2. AI 模型的可解释性

深度学习模型虽然强大,但通常被视为“黑箱”,这意味着它们的决策过程并不总是透明的。这种缺乏可解释性可能成为其在药物发现中采用的重大障碍,特别是在理解预测背后推理至关重要的行业中。虽然有努力使 AI 模型更具可解释性,但这仍然是一个持续的挑战。

 

  3. 与现有工作流程的整合

将基于 AI 的分子对接集成到现有的药物发现工作流程中可能比较复杂。研究人员通常依赖传统的方法和软件,而采用 AI 需要大量的基础设施、计算资源和培训。然而,随着 AI 技术的发展及其好处变得越来越明显,其在药物发现管道中的整合可能会变得更加无缝。

 

 

0
MCE 组合筛选优势
 
 

MCE 组合筛选将 AI 筛选算法和基于分子对接的虚拟筛选组合,可以进一步提高虚拟筛选的准确性以及筛选速度,与此同时,筛选结果的化学空间也更多样化,并对优化药物-靶标相互作用也有一定的帮助。

MCE 一站式药筛平台聚焦于药物发现早期,积极拥抱 AI 带来的巨大机遇和挑战,将越来越多的 AI 技术应用到各个业务模块。化合物库方面,除了通过 AI 算法生成 MegaUni 1,000 万虚拟类药多样库,还将 AI 算法应用到各种类型的 Mini 化合物库的构建,帮助客户更高效地获得符合自己需求的化合物库。虚拟筛选方面,将 AI 主动学习和分子对接相结合,以支持更大规模的虚拟筛选。

此外,MCE 拥有已知活性库、类药多样库、特色片段库及药物筛选、先导化合物优化技术平台为全球科研客户及新药研发客户提供—站式药物发现及研究服务。

 

画板 2750.jpg

图 8. MCE 一站式药筛平台简介。 

 

未来,平台将紧跟全球研发前沿,持续丰富专业资源与科研工具,提升视觉形象与用户体验,链接全球产业链资源,推进产业提质增效。在系统化、专业化、精益化的战略引领下,平台致力于打造适合科学研究领域的一站式药物发现及研究服务平台,构建开放、公益的化合物信息共享平台,为科学研究提供各种化合物与试剂,为科研工作者和学术界提供一个创新、高效、协作的平台,为新药研发提供智能化解决方案,更好推动科学发展和知识共享。

 
 

 

产品推荐

类药多样库 Plus

由 80,000 种类药化合物组成。本多样性库具备新颖性、类药性,结构多样性等特点,库中化合物可重复供应,是新药研发的有力工具,可以广泛地应用于高通量筛选 (HTS) 和高内涵筛选 (HCS)。

5K Scaffold Library

由 5,000 种类药化合物组成,每种化合物代表一种结构骨架,最大程度保证了库的结构多样性。库中的化合物均经过 MedChem & PAINS filters 筛选,剔除了不合适的化学结构,避免“目标错误”。本库化合物数量少但结构足够多样,是药物筛选的有力工具。

Natural Product-like Compound Library

由 5,000 个类天然产物化合物组成,库中每个分子含有天然产物关键骨架(42 个)或者和天然产物的谷本相似系数 >0.6,且 Natural-likeness scoring >-2。该化合物库同时具备类药性和新颖性,库中化合物可重复供应,是新药研发的有力工具,可以广泛地应用于高通量筛选 (HTS) 和高内涵筛选 (HCS)。

RNA Binding Library

由 5,000 多个具有潜在 RNA 相互作用活性的小分子化合物组成,我们收集了 PDB、R-BIND、ROBIN 和内部数据库中的已知 RNA 靶向小分子作为阳性数据集,并基于 ROBIN 数据集获得非靶向 RNA 的小分子作为阴性数据集。基于 GeminiMol 预训练模型,对这些分子进行编码,并通过 Mordred 计算了 1,700+ 分子描述符作为模型的输入。接着用 13 个深度学习模型对这些数据进行学习,所有模型都取得了良好的训练结果,AUROC 均超过 0.75。选择分类效果最好的 Finetune 模型(AUROC 值:0.82,预测准确率:0.76)对 HY-L901P 进行筛选。进一步基于 StaR Rules(cLogP≥1.5,Molar Refractivity≥4,Relative Polar Surface Area≤0.3)进行再过滤,该库同时具备结构多样性,是 RNA 靶向药物开发的有利工具。

 

[1]. https://www.drugdesign.org/chapters/molecular-docking/

[2]. Samvedna Singh, etl. Advances in Artificial Intelligence (AI)-assisted approaches in drug screening,Artificial Intelligence Chemistry,Volume 2, Issue 1,2024,100039,ISSN 2949-7477.

[3]. Journal of Medicinal Chemistry 2022 65 (15), 10691-10706.

[4]. Murray MH,etl. Structural basis of synthetic agonist activation of the nuclear receptor REV-ERB.

[5]. Journal of Medicinal Chemistry 2023 66 (21), 14815-14823.

[6]. https://www.163.com/dy/article/JBLSQ996055040N3.html