基于数据挖掘的生物序列分类研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:oncecao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物信息学的发展,生物医学数据呈爆炸式的增长,目前已经拥有数百个活动的生物医学数据库,如何管理和分析这些海量的数据已成为研究的重点。数据挖掘技术用于发现大量数据所隐含的有价值的信息,是目前最有效的数据分析手段。生物序列数据是生物医学研究的主要内容之一,通过对其进行分析,研究者不仅能够理解已有的序列,而且能够更好地研究新颖的序列及其所拥有的功能,解读序列在它所在的生物体中所充当的角色,进而更好地理解生命的本质。   本文主要针对生物序列分类技术领域中的两个重要的研究方面:生物序列的分类分析和和异常检测。生物序列分类分析能够为未知标号的生物序列指定其所属的类别,进而预测它的功能以及与其它生物序列之间的相互关系,以辅助生物分子中的基因识别和预测蛋白质的结构等。异常检测可视为一类特殊的分类问题,生物序列中的异常主要是指突变或是一种疾病的特征,生物序列异常检测有助于发现突变,了解疾病产生的条件,分析疾病产生的机理,为疾病的诊断和治疗提供依据。   生物序列是由字符组成的序列数据,传统的数据挖掘技术主要适用于数值属性和分类属性的数据,难以直接应用于序列数据。针对上述问题,本文使用滑动窗口技术抽取子序列,并计算子序列在训练序列集中出现的频率,然后将频率值作为序列的特征映射到连续空间中,该方法有效地解决了传统的数据挖掘技术难以处理序列数据的问题。基于转换后的数据,本文给出了一种新的基于支持向量机的生物序列分类算法,通过对蛋白质序列的分类实验验证了该算法的有效性。   在生物序列异常检测技术中,相似性是生物序列异常检测的基础,相似性度量的好坏将直接影响生物序列异常检测的结果。生物医学研究表明,生物异常序列普遍的特点是其中的某些片段发生了改变。基于滑动窗口技术的子序列抽取技术能够有效发现序列中的局部异常,因此本文设计了一种新的基于滑动窗口的共享最近邻相似度,并根据这种相似度给出了基于核的生物序列异常检测算法。通过检测蛋白质异常序列验证了该算法的有效性。   本文设计的算法只考虑了生物序列数据的特点,对大多数生物序列的处理是有效的。但是,在生物进化过程中由于遗传变异,许多同源序列可能发生序列内碱基的替换、或序列片段的缺失,如果仅仅考虑生物序列数据的特点设计算法将会失效,需要结合生物学知识设计有效的挖掘算法。
其他文献
数字水印技术是利用信号处理的方法将具有特殊意义的标识信息(亦称为水印)嵌入到多媒体数据中,从而起到版权保护的作用。嵌入宿主数据中的水印应具有一定的抗攻击(有意和无意
智能视频监控是计算机视觉领域一个新兴的研究方向,结合了图像处理、模式识别、人工智能等多学科理论,被广泛应用于国防建设、交通管制、安防保卫等需要实时监控的场景。在监控
由于各种癌症在病原上有其自身的特点,为了达到最大疗效和最小毒副作用,需要制定有针对性的治疗方案,因此癌症的分类是治疗的关键。当前临床上的癌症诊断主要依据形态学信息,但有
XML已逐渐成为当前Internet上数据表示和数据交换的事实标准,已经在很多应用领域扮演着重要的角色;同时,它也是Web Service、各种文件处理系统和数据库事实上的互操作标准。然而
为了满足用户的全局QoS(Quality of Services)需求,如何从大量的候选服务中选择出最优的服务组合已经成为Web服务研究领域中的热点问题。然而,现有的服务选择方法较少考虑到服
神经元集群编码和spike train分析是神经信息处理的关键问题。随着多电极同步记录技术的发展,在海量数据中发现神经信息处理的模式和规律,需要多维神经发放的理论模型和计算
已知一种高性能的两步文本分类方法,第一步使用某种分类器对可靠部分的文本进行分类,第二步使用某种分类器对不可靠部分的文本再进行分类,该方法能够明显地提高分类的效果。而两
突现是复杂系统中通过个体间的非线性交互作用而产生的群体行为,是复杂系统表现出来的高层次事物整体所具有而其组分不具有的一种新特性。针对突现现象的研究已经成为复杂系统
计算机的普及和更新带动了互联网的发展,互联网的发展使得网络上信息的传播更为迅速和广泛。博客作为一种互联网用户之间用于交流和传播信息的工具,受到大部分人的喜爱,成为网络
近年来,车载设备作为监测列车运行状态的重要组成部分,其健康运行受到人们的广泛关注。目前关于车载设备的研究大多是基于车载设备采集系统对列车上空调系统、受电弓、车钩及