基于神经网络和支持向量机的生物数据分类

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:fredzhuca
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的几年时间里,人工智能在生命科学和医学等各个领域都发挥着无可替代的重要作用。起初最主要应用在序列分析中,这个方面时至今日也仍有很多重要问题亟待解决。  随着DNA测序技术的发展,新兴的技术使得DNA和蛋白质的线性序列数据呈几何级数增长。蛋白质二级结构预测(PSSP)这个领域的研究促进了机器学习方法在序列分析中的应用。本文有关蛋白质二级结构预测部分就是在这个研究背景的基础上继续进行了探究。我们设计了新型集成网络,新型网络对所占比例较多的结构C卷曲结构预测准确率较高,其余两种结构α螺旋与β折叠预测准确率和Q3准确率表现平平。本文除了介绍神经网络和支持向量机等机器学习算法在蛋白质二级结构预测方面的应用,还探索了基于这两种算法的乳腺癌早期筛查。  针对蛋白质二级结构的数据是完成对其未知结构的预测,而针对乳腺癌患者和健康人的一些指标来对其是否患有乳腺癌做出早期的诊断。乳腺癌是一种发生在乳腺上皮的常发性恶性肿瘤,因此为临床乳腺癌筛查诊断建立一种简单、快速、高效的方法具有很强的实际意义。  本文提出了一种基于神经网络与支持向量机的乳腺癌早期筛查方法。文中首先应用PCA(主成分分析)对原始数据进行降维处理,然后运用神经网络与支持向量机分别进行训练最后达到预测的目的。文中所包含的实验数据是由258例新诊断为乳腺癌的病人和159例乳腺癌诊断为良性的病人,其中包含78例健康病例,选取的每个代谢组学的血斑点样本包含23个氨基酸和26个酰基肉碱。实验结果显示,结合神经网络的方法得到最高的敏感度可达到97.1%,特异度可达到93.9%,精确度可达到91.5%;结合支持向量机的方法得到的实验结果中,敏感度最高可达到93.5%,特异度最高为93.8%,精确度可达到93.6%。因此,两种智能化算法各有千秋,在训练集数量与测试集数量相等或稍多于测试集数量时,神经网络方法表现较好;在训练集数量明显多于测试集时,支持向量机方法表现较好。相比于之前参考文献[42]中的蛋白标记物的方法所达到的92.2%的敏感性和84.4%的特异性,文中方法有了明显提升,所以具有其独特的优势和早期筛查的准确度。
其他文献
近年来逐步发展起来的变时间分数阶微分方程受到广泛关注,其在很多领域都有重要的应用,由于求其精确解的复杂使得更多的人投入到其数值解的研究中。本文使用RBFs插值研究Coimbr
当下中国画界真的不像话,连他们自己都看不下去。什么样的人都有,什么样的事都有,什么样的画都有。但,以历史主义的眼光看,这才是当下的中国画界。正如现在看宋代、明清一样,
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
支持向量机是目前较为新型的数据挖掘工具,在20世纪90年代被提出以后,其一直是国内外研究的热点。该方法在文本识别、人脸图像识别、手写字体识别、基因分类和时间序列预测等领
叙述美国惯性约束聚变 (ICF)计划的结构 ,着重介绍“国家点火装置”。该装置是美国在不进行地下核试验时美国核防御计划的主要部分。美国惯性约束聚变计划的近期目标是在实验
分数阶扩散方程数值计算问题是人们关心的研究课题之一.本文研究一类Caputo分数阶导数意义下的时间分数阶扩散方程初边值问题的有限差分方法和谱方法逼近。  首先,引入一种
多维贝叶斯分类模型是一种描述类变量与类变量、类变量与属性变量和属性变量与属性变量之间的依赖关系的分类模型.本文针对完全朴素多维贝叶斯分类模型要求变量之间具有独立性
应在充分借鉴国际经验的基础上,循序渐进地推动我国巨灾债券市场发展,提高巨灾风险管理水平近年来,雨雪、地震、干旱等灾害给我国造成了严重经济损失和人员伤亡,如何应对巨灾