榴莲忘了回来2014
导读
通过整合ChEMBL活动数据和CrossDocked靶标信息,BigBind数据集在BANANA模型的辅助下有效提高了虚拟筛选的有效性。
BigBind 数据集将来自ChEMBL 的活动数据与来自CrossDocked 的目标信息相结合。 BANANA模型在训练和测试中表现良好。与传统的分子对接技术相比,BANANA模型的效率和效果显着提升。 BigBind 是一个创新数据集,可将ChEMBL 活性数据映射到CrossDocked 蛋白质靶标,包含851K 配体结合亲和力和3D 口袋结构。这种组合不仅增加了结合构象的数据量,而且还增加了新的亲和力数据。
研究人员利用该数据集开发了BANANA(基本神经网络亲和分类模型),可以有效地区分活性和非活性化合物。在BigBind 测试集上,BANANA 模型的AUC 为0.72,与仅依赖配体信息的模型(AUC 为0.64)相比有所提高。
此外,在LIT-PCBA基准上,该模型表现出强大的性能(中位EF1%达到2.06),比使用GNINA的分子对接快16,000倍。值得一提的是,当研究人员首先使用BANANA筛选出90%的化合物,然后进行GNINA对接时,他们获得了4.95的EF1%分数。
分子筛选与数据整理
分子选择标准
原子类型:按照ZINC 惯例,选择仅包含特定原子(H、C、N、O、F、S、P、Cl、Br、I)的分子。混合物排除:过滤所有混合物。大小和重量限制:每个分子至少包含5 个原子,分子量小于1000。
重复处理与结构优化
活性值重复:KNN 模型用于处理任何活性值重复。 3D 结构生成:使用RDKit 创建分子的3D 结构并使用UFF 对其进行优化。不合格的结构将被丢弃。
蛋白质结合口袋分析
确定结合口袋
配体结构叠加:将与口袋结合的所有配体的晶体结构叠加。定义结合口袋:结合口袋的定义包括配体原子5埃以内的所有受体残基。 Pocket 文件创建:为每个受体保存一个单独的PDB 文件。
边界盒与筛选
边界框定义:定义具有4 埃填充的三维边界框,其中包含所有结晶配体。过滤标准:过滤掉口袋中残基少于5 个或边界框超过42 的文件。
模型训练数据划分
聚类与分割
相似性得分:使用ProBis 生成每个口袋之间的相似性得分。聚类:z 分数3.5 的口袋聚集在一起。数据分区:将数据按照80:10:10的比例分为训练集、测试集和验证集,保证集群内的一致性。
靶标特异性划分
LIT-PCBA 目标:与任何LIT-PCBA 目标位于同一簇中的口袋包含在测试集中以进行评估。
简化结构网络分析(SNA)
分类问题
化合物标记:将结合亲和力小于10 m 的化合物标记为“活性”。选择非活性化合物:选择等量的非结合化合物作为“非活性”,避免与相似靶标的已知结合物。
分子表征
原子特征:包括形式电荷、杂化、附着的氢原子数以及芳香性。键表示:键被描述为边,并注明键的顺序。
模型训练与评估
MPNNs 与输出向量
创建输出向量:使用两种不同的MPNN 创建配体(vL) 和受体(vR) 的向量。计算输出:这些向量的外积被展平并通过多层感知器进行处理。
训练细节
损失函数:使用均方误差进行回归,使用二元交叉熵进行分类。优化器和超参数:使用AdamW 优化器,具有特定的学习率和批量大小。
模型测试
ROC AUC 分析:使用接收者操作特征曲线下的面积进行评估。虚拟筛选指标:将前1% 富集因子和标准化富集因子与GNINA 在LIT-PCBA 目标上的性能进行比较。
BANANA
速度评估
基准测试:在特定GPU 设置下的PDBbind 2016 核心集上,对BANANA 的速度与GNINA 的性能进行基准测试。
虚拟筛选中的实际应用
使用BANANA 进行筛选:在与GNINA 进行传统对接之前,用于在虚拟筛选中过滤掉90% 的化合物。
结果
BANANA 模型在不同训练条件下表现出显着的性能差异。在未经SNA 训练的模型中,仅涉及配体的模型比同时涉及配体和受体的模型表现更好。这一现象说明数据集的偏差是影响模型性能的关键因素。然而,经过SNA训练后,同时包含配体和受体信息的模型的性能明显优于仅包含配体的模型,证实SNA训练可以有效提高模型理解配体和受体之间相互作用的能力。
与GNINA模型相比,BANANA模型表现出一定的竞争力。在默认集成模型中,BANANA 的富集因子(EF1%) 略低于GNINA(2.06 vs. 1.88),但在密集模型中表现稍好(2.58)。值得一提的是,BANANA 和GNINA 的表现似乎并没有直接的相关性。 BANANA 和GNINA 相结合的组合模型的EF1% 中位数达到4.95,性能显着提高。
在速度方面,BANANA模型表现尤其出色。在评估PDBbind 2016 核心集中的单个蛋白质-配体复合物时,BANANA 的平均处理时间仅为1.7 毫秒,而GNINA(默认设置)需要27 秒。这种显着的速度优势使得BANANA 和GNINA 的组合模型的运行速度比单独的GNINA 快十倍,同时保持更高的性能水平。
图 1: BigBind 数据集的创建流程
图2: BANANA架构图
图3: 使用和不使用SNA训练的模型的ROC曲线比较
左图显示了应用SNA 的配体和受体模型(0.72) 与仅配体模型(0.64) 的测试ROC 曲线。右图显示了没有SNA 的配体和受体模型(0.64) 与仅配体模型(0.75) 的测试ROC 曲线。值得注意的是,SNA模型的AUC值不应该与非SNA模型进行比较,因为它们的测试集不一样。图4: 每个模型在LIT-PCBA 目标上的性能
表1: LIT-PCBA上各模型的中位数EF1%、NEF1%和AUC值
由于BANANA+GNINA模型没有明确对每个化合物进行评分,因此无法计算AUC值。
讨论与总结
BigBind数据集创新BANANA模型的实用性和速度探索未来发展方向深度学习模型的有效性很大程度上取决于其训练数据集的质量。在蛋白质-配体结合亲和力预测的研究中,研究人员通常基于PDBbind数据集训练机器学习模型,但该数据集规模较小且存在固有偏差,限制了其实用性。为此,我们开发了BigBind 数据集,其中包含851K 蛋白质-配体结合亲和力及其受体结合口袋的三维结构的数据。
研究人员还添加了假定的不活跃物种,以减少数据集中的偏差,并证明在该去偏差数据集上训练的模型可以学习有关蛋白质-配体相互作用的信息,并可以应用于新的目标。
单独使用时,该模型的性能与GNINA 的分子对接工作相当,在LIT-PCBA 基准测试上的运行速度比传统分子对接快16,000 倍。此外,在使用BANANA筛选出90%的化合物并使用GNINA重新评分后,研究人员获得了4.95的中位EF1%,这是行业领先的结果。因此,BANANA 在虚拟筛选中显示出直接的实用性。由于该模型仅需1.7 毫秒即可评估单个配体,因此在筛选大型数据集(例如Enamine 的REAL 数据库)时显示出巨大的潜力。
此外,还计划在未来扩展BigBind 数据集,例如,通过合并来自PubChem 的高通量筛选数据,虽然噪音较大,但可能有助于提高模型性能。
缺点:
数据集的代表性和偏差BigBind 数据集的代表性可能有限,数据集中的偏差可能会影响模型性能。将ChEMBL 活性数据映射到蛋白质靶标的过程可能会引入错误或偏差,这一点尚未得到充分讨论。模型性能和验证性能指标(AUC、EF1%)不错,但不是一流的,模型优于现有方法的结论有待讨论。对外部数据集或实际应用程序的验证不足对于建立模型的实际应用价值至关重要。
改进建议
提高数据集质量和多样性扩展BigBind 数据集以包含更多样化的蛋白质-配体复合物集,并进一步探索数据集中的潜在偏差。提供对数据集映射过程的更详细分析,包括错误估计和偏差缓解策略。改进的模型验证和基准测试包括对外部数据集或通过实际应用案例研究进行的额外验证研究。与该领域其他最先进的模型进行比较分析,以更好地定位模型性能。第:章
Brocidiacono, M.Francoeur, P.Aggarwal, R.Popov, K.Koes, D.Tropsha, A. (2022)。 BigBind: 从非结构数据中学习以进行基于结构的虚拟筛选。 https://doi.org/10.26434/chemrxiv-2022-3qc9t IF: NA NA NACode: https://github.com/molecularmodelinglab/bigbindDate: https://bigbind.mml.unc.edu/BigBindV1.tar.bz2
标题:BANANA:快速高效的虚拟筛选模型
链接:https://www.7kxz.com/news/sypc/38676.html
版权:文章转载自网络,如有侵权,请联系删除!
用户评论
BANANA这款游戏在提升搜索效率方面真是太棒了!它就像是一个虚拟图书馆的超厉害检索工具。
有7位网友表示赞同!
我被它的智能推荐系统彻底征服,总能找到我喜欢的游戏类型。
有9位网友表示赞同!
速度是BANANA的最大亮点,快速筛选让我节省了太多时间。
有6位网友表示赞同!
无论是新上架还是经典游戏,BANANA都能迅速找到它们。真的超厉害!
有15位网友表示赞同!
使用这款模型玩游戏就像是在玩一场快节奏的智力竞赛,我爱极了这种刺激的感觉。
有7位网友表示赞同!
BANANA的游戏推荐准确无误,每个推荐的版本都符合我的口味。
有11位网友表示赞同!
虚拟筛选模型真的很聪明,能根据喜好自动调整筛选标准,太贴心了!
有19位网友表示赞同!
在BANANA的帮助下,我发现了一些经典游戏的新版本,真是意外之喜。
有20位网友表示赞同!
这款游戏不仅快捷高效,还给我带来了不少惊喜,真的是收藏爱好者的好助手。
有13位网友表示赞同!
BANANA不仅仅节省了我的时间,还帮助我在繁多的选择中找到真正想玩的游戏。
有6位网友表示赞同!
它的智能程度让我对每个新的游戏发行都能快速掌握,简直是游戏玩家必备良品。
有5位网友表示赞同!
超赞的筛选功能帮助我避免了不必要的浪费,每一分钱都花在了刀刃上。
有16位网友表示赞同!
在BANANA面前,寻找和收集游戏的乐趣被提升到了一个新的水平。太酷啦!
有18位网友表示赞同!
无论是单机、网游还是VR游戏,BANANA都能快速帮我找到想玩的版本,真的非常满意。
有15位网友表示赞同!
使用这款模型进行筛选时,感觉自己像是专业的游戏推荐顾问,决策效率直线上升!
有18位网友表示赞同!
BANANA完美结合了科技与热情,在游戏中发现新天地的过程变得无比顺畅。
有20位网友表示赞同!
它的高效快速不仅节省了我的时间成本,还为我的游戏体验添上了不少乐趣。
有9位网友表示赞同!
虚拟筛选模型让我在海量信息中迅速锁定目标,简直是玩游戏的福音。
有11位网友表示赞同!
BANANA以卓越的速度和精准性帮助我避免了购买后悔的游戏,绝对值得信赖!
有18位网友表示赞同!
我对这款模型的评估是:不仅实用而且有趣,每次使用都能找到新乐趣。
有13位网友表示赞同!