首页> 中文学位 >基于机器学习方法的药物毒性的理论预测研究
【6h】

基于机器学习方法的药物毒性的理论预测研究

代理获取

目录

声明

致谢

摘要

缩略词表

图目录

表目录

第1章 绪论

1.1 计算机辅助药物设计概述

1.1.1 计算机辅助药物设计发展概况

1.1.2 计算机辅助药物设计与药理学、毒理学的关系

1.2 计算毒理学的研究背景与意义

1.3 计算毒理学概述

1.4 定量结构毒性关系及其拓展

1.5 机器学习及其在毒性理论预测中的应用

1.5.1 机器学习的发展概况

1.5.2 机器学习算法沿革和软件实现

1.5.3 机器学习在毒性理论预测中的应用

1.6 毒性理论预测方法面临的挑战和机遇

1.7 本文的研究内容

第2章 药物经口急性毒性的理论预测

2.1 引言

2.2 研究方法

2.2.3 数据降维

2.2.4 QSTR建模方法

2.2.5 QSTR模型的评估和验证

2.2.6 应用域分析

2.2.7 预测误差较大化合物的骨架分析

2.3 研究结果与讨论

2.3.1 大鼠经口急性毒性数据的性质分布

2.3.2 大鼠经口急性毒性的各回归模型的比较

2.3.3 通过一致性建模准确预测大鼠经口急性毒性

2.3.4 对具有较大预测误差的化合物的分析

2.3.5 RVM回归模型给出的重要描述符和片段的分析

2.4 本章小结

第3章 药物呼吸道毒性的定性和定量预测

3.1 引言

3.2 研究方法

3.2.1 数据集构建和预处理

3.2.2 分子描述符的计算

3.2.3 数据降维

3.2.4 QSTR建模方法

3.2.5 QSTR模型的评价和验证

3.2.6 应用域分析

3.2.7 具有较大预测误差的化合物分析

3.3 研究结果与讨论

3.3.1 小鼠腹腔注射致呼吸道毒性数据的性质分析

3.3.2 小鼠呼吸道毒性的各回归模型的比较

3.3.3 小鼠呼吸道毒性的各分类模型的比较

3.3.4 对具有较大预测误差的化合物的分析

3.3.5 XGBoost模型分类错误的分子的重要片段分析

3.4 本章小结

第4章 基于提升算法的药物泌尿系统毒性的理论预测

4.1 引言

4.2 研究方法

4.2.1 数据集构建和预处理

4.2.2 数据降维

4.2.3 QSTR建模方法

4.2.4 QSTR模型的评估和验证

4.2.5 应用域分析

4.2.6 基于SARpy的化合物结构警报分析

4.3 研究结果与讨论

4.3.1 小鼠腹腔注射致泌尿系统毒性数据的性质分析

4.3.2 小鼠泌尿系统毒性的各回归模型的比较

4.3.3 小鼠泌尿系统毒性的各分类模型的比较

4.3.4 对具有较大预测误差的化合物的分析

4.3.5 rbfSVMBoost模型分类错误化合物的分析

4.3.6 泌尿系统毒性的结构警报分析

4.4 本章小结

第5章 总结和展望

5.1 总结

5.2 存在的不足和展望

主要创新性

参考文献

作者简介

附录

展开▼

摘要

毒性是导致候选药物开发失败的主要原因之一,为了有效提高药物开发的效率和成功率,需要在药物研发的早期阶段对化合物的毒性进行评价并将毒性较强的化合物尽早排除。毒性的实验评价成本高、周期长、工作强度大,因此发展高效可靠的毒性理论预测和虚拟高通量筛选模型具有重要的意义。在本论文中,采用多种机器学习算法,构建了针对急性毒性、呼吸道毒性和泌尿系统毒性的理论预测模型,并探讨了不同机器学习算法的性能和适用情况。主要研究内容及结论如下:
  (1).基于包含7385个化合物的大鼠经口急性毒性的大型数据集,采用相关向量机、支持向量机、k-最近邻回归、随机森林、局部近似高斯过程、多层感知器集成和极限梯度提升算法等技术构建一系列回归预测模型。采用了卡方统计量对分子描述符和分子指纹(PubchemFP或SubFP)进行了混合数据降维。在所有预测模型中,基于拉普拉斯核函数的相关向量机模型对测试集具有最优的预测能力(q2ext=0.669~0.689)。此外,还构建了多个一致性预测模型,最优的一致性预测模型对测试集中的化合物可以实现较为准确的预测(q2ext=0.689)。最后,对一些与毒性密切相关的分子描述符和分子指纹进行了深入分析。
  (2).基于一个包含多个呼吸道毒性终点的小鼠数据集,采用相关向量机、支持向量机、正则化随机森林、极限梯度提升、朴素贝叶斯和线性判别分析算法构建了多个呼吸道毒性回归和分类预测模型。为了确定最优的分子描述符子集,采用标准化一卡方统计量过滤一单变量过滤rfSBF—递归特征消除RFE-RF的四级策略对原参数集进行了降维。在所有预测模型中,基于高斯径向基核的支持向量机模型对测试集的化合物定量预测精度最优(q2ext=0.707),而极限梯度提升模型对测试集的化合物分类预测效果最优(测试集:MCC=0.644、AUC=0.893、灵敏度=82.24%、特异度=83.21%、全局精度=82.62%)。此外,还采用了多种方法分析了模型的应用域,并用杠杆方法确定了训练集中的41个响应异常值分子(hι>0.004)、23个结构性影响的异常值分子(标准化残差>3)和31个强影响分子(Cook距离>0.00388)。最后,对回归预测误差较大以及错误分类的化合物的结构特征进行了系统分析。
  (3).基于一个含有不同泌尿系统毒性终点的小鼠数据集,采用多种机器学习算法(支持向量机、相关向量机、正则化随机森林、C5.0决策树、极限梯度提升、Adaboost.M1、支持向量机提升和相关向量机提升算法)构建了多个回归和分类预测模型。用于回归和分类的最优的分子描述符子集的选择采用了基于随机森林的递归特征消除方法。在所有预测模型中,基于高斯径向基核的支持向量机提升模型对测试集的定量预测精度最优(q2ext=0.845),而基于高斯径向基核的支持向量机提升模型对测试集的分类效果最佳(测试集:MCC=0.787、AUC=0.893、灵敏度=89.58%、特异度=94.12%、全局精度=90.77%)。此外,还使用了多种方法分析了模型的应用域,并用杠杆方法确定了训练集中的3个响应异常值分子(hι>0.762)、4个结构性影响的异常值分子(标准化残差>3)和10个强影响分子(Cook距离>0.02797)。最后,对具有较大回归预测误差的化合物及错误分类的化合物的结构特征进行了系统分析。
  (4).此外,还研究了几种新型机器学习算法的性能和适用性,相关向量机、极限梯度提升和支持向量机提升算法的性能较好,而正则化随机森林和局部近似高斯过程回归算法的性能则有待提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号