论文部分内容阅读
在过去的几年时间里,人工智能在生命科学和医学等各个领域都发挥着无可替代的重要作用。起初最主要应用在序列分析中,这个方面时至今日也仍有很多重要问题亟待解决。 随着DNA测序技术的发展,新兴的技术使得DNA和蛋白质的线性序列数据呈几何级数增长。蛋白质二级结构预测(PSSP)这个领域的研究促进了机器学习方法在序列分析中的应用。本文有关蛋白质二级结构预测部分就是在这个研究背景的基础上继续进行了探究。我们设计了新型集成网络,新型网络对所占比例较多的结构C卷曲结构预测准确率较高,其余两种结构α螺旋与β折叠预测准确率和Q3准确率表现平平。本文除了介绍神经网络和支持向量机等机器学习算法在蛋白质二级结构预测方面的应用,还探索了基于这两种算法的乳腺癌早期筛查。 针对蛋白质二级结构的数据是完成对其未知结构的预测,而针对乳腺癌患者和健康人的一些指标来对其是否患有乳腺癌做出早期的诊断。乳腺癌是一种发生在乳腺上皮的常发性恶性肿瘤,因此为临床乳腺癌筛查诊断建立一种简单、快速、高效的方法具有很强的实际意义。 本文提出了一种基于神经网络与支持向量机的乳腺癌早期筛查方法。文中首先应用PCA(主成分分析)对原始数据进行降维处理,然后运用神经网络与支持向量机分别进行训练最后达到预测的目的。文中所包含的实验数据是由258例新诊断为乳腺癌的病人和159例乳腺癌诊断为良性的病人,其中包含78例健康病例,选取的每个代谢组学的血斑点样本包含23个氨基酸和26个酰基肉碱。实验结果显示,结合神经网络的方法得到最高的敏感度可达到97.1%,特异度可达到93.9%,精确度可达到91.5%;结合支持向量机的方法得到的实验结果中,敏感度最高可达到93.5%,特异度最高为93.8%,精确度可达到93.6%。因此,两种智能化算法各有千秋,在训练集数量与测试集数量相等或稍多于测试集数量时,神经网络方法表现较好;在训练集数量明显多于测试集时,支持向量机方法表现较好。相比于之前参考文献[42]中的蛋白标记物的方法所达到的92.2%的敏感性和84.4%的特异性,文中方法有了明显提升,所以具有其独特的优势和早期筛查的准确度。