面向生物数据分析的支持向量机技术的研究

来源 :北京工业大学 | 被引量 : 5次 | 上传用户:bpsend
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(Support Vector Machines,简称SVM)是基于统计学习理论的一种新的数据挖掘技术,它借助于最优化方法来解决复杂的机器学习问题。SVM是处理小样本、高维数据的有效方法,它有着良好的理论基础的支持。它能够较好地解决了神经网络等方法的过学习问题,同时也能够较好地克服维数灾难问题。二十一世纪是生命科学迅猛发展的时代,生物数据呈指数增长,分析和挖掘生物数据背后隐藏的生物学规律已成为生命科学家关注的焦点。人类基因组中DNA序列的功能性研究是一个重要研究方向。对于一个给定的DNA序列,判断它是基因序列还是间区序列是进一步分析序列的前提。开发有效和快捷的分析算法是加速分析和理解生物信息的重要手段之一。目前国际上已有很多基因识别软件,但大多数软件不能识别完整的基因。本文主要研究目标是利用SVM和其它的机器学习方法对生物数据进行分类。论文首先系统地研究了基于统计学习理论的生物数据分类技术;然后,对不同的学习方法进行了性能比较和评价。统计学习理论的最大贡献是提出了结构风险最小化(SRM)归纳原理和基于该原理的实现方法──支持向量机。SRM原则已经显示出了优于传统的用于一般的神经网络的经验风险最小化(ERM)原则。SRM原则最小化经验风险和置信范围的和,而ERM原则最小化训练误差。其差别在于基于SRM原则的SVM学习方法有更好的推广能力,这正是统计学习的目标。从长长的DNA序列中准确地提取出具有分类特征的训练属性是机器学习的第一步。针对DNA数据的复杂性,本文提出了一种基于语言学方法的特征提取方法。假设仅考虑2类问题,该方法将出现在DNA序列中的所有长度为2~6的短序列作为候选特征词汇,对每个候选的特征词汇计算它在DNA序列集中的各个序列出现的频率、在DNA序列集合中出现频率,以及在不同类序列集内出现的相对差,来决定它是否为关键词汇作为训练属性。从而,将DNA序列映射到欧式空间中,使每个DNA序列对应于欧式空间中的一个向量。论文提出并实现了利用支持向量机来识别人类完整基因的方法,在不依赖于特殊的生物领域信息的基础上使基因识别分类精度达到了85%。在对完整基因的实现分类的基础上,通过大量试验,对复杂的训练参数选择,提出了在SVM训练过程中参数选择的具体而有效的方法。在对训练数据没有充分了解的情况下,对于C-SVC训练中,惩罚因子C从大到小地选取往往比其从小到大地选取更快地找到最佳训练结果。论文通过与其它学习方法进行比对,验证了SVM方法的诸多优势。对DNA序列分类问题,首次将SVM训练方法与二元Logistic回归(BLR)方法进行了比较。在处理高维、复杂数据分类问题上,SVM不仅在分类精度上优于BLR和人工神经网络(ANN),而且在训练速度上远远优于它们。论文初步探讨了并行SVM训练算法,并将遗传算法引进到了并行SVM训练过程中,充分地利用了SVM和遗传算法中固有并行化特点。论文研究工作将SVM技术用于生物数据分类并得到了满意的实验结果,它将使我们利用该方法解决其它生物数据的分类问题,因为生物数据既有整体上的相似性,在个体问题上又有其多样性和复杂性;另外,由于SVM学习方法的优势,可将该技术拓展到其它应用领域,有希望解决其它复杂分类问题。
其他文献
目的观察妊娠外感方治疗妊娠期流行性感冒的临床疗效。方法将100例患者随机分为两组,均给予基础治疗。治疗组在此基础上服用妊娠外感方;对照组服用维生素C,两组疗程均为3d。观察
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
当下,越来越多的网友开始反感网络上低质、无营养的信息泡沫,转而期待有深度、有见地的优质内容。鼓励优质内容不能仅靠少数媒体的理想主义坚守,更需要宏观制度设计的坚实保
“差一点”句式因其同时存在异形同义和同形异义现象而成为研究热点,学界主要围绕四个问题开展研究:“差一点”否定句式歧义分化的方法,其肯定句式与“差不多”句式的对比,其
近些年来,汉语越来越自信地走出国门,孔子学院肩负着对外文化传播重任,越来越多的新孔院在国外建成,汉语教师志愿者人数也随之增长。志愿者老师们离开祖国,在他们所赴任的国家里生活工作,各种跨文化适应的问题也随之而来。学界关于跨文化适应的研究早已兴起,但国别化的关于汉语教师的跨文化适应研究还不太全面,尤其是针对众多非洲国家的研究却寥寥无几,而本篇文章更是第一篇针对赴塞内加尔汉语教师志愿者跨文化适应研究的文
针对我国矿山开采的环境风险问题,以河南某钼矿露天采场为例,通过现场环境隐患排查手段,查明露天采场现有环境隐患问题,并制定相应的环境整治方案,同时对治理方案进行环境效
该文分析了超导电力系统的可能组成,电力系统超导化的优点、实现超导电力系统的必要条件和技术研究课题,研究了超导电力系统的可行性。
针对干熄焦锅炉的特点,提出了设计干熄焦锅炉时应注意的几个问题及对策。
论文研究进化策略中变异算子的改进。现有的变异算子都使用全基因变异,本文提出单基因变异,通过对变异成功概率、局部收敛速度、全局收敛性能、变异步长控制、计算开销、多种