基于潜在语义索引及层次聚类特征空间重构方法与应用研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liyinhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质序列之间的远程同源检测和蛋白质相互作用预测是计算生物学中一个中心的问题。诸如支持向量机(support vector machine, SVM)一类的分类器方法是目前使用最广泛、也是最有效的方法之一。许多基于SVM的方法都致力于寻找有用的蛋白质序列表示方法,如使用显式的特征向量表示或者核函数等。这样的表示方法面临着高维度和大量噪音的问题。另外,远程同源检测问题中的数据集是不平衡数据集,即反例样本远远大于正例样本,目前的方法主要使用ROC(Receiver Operating Characteristic)分数来评价远程同源检测方法的性能。然而,对不平衡样本集,ROC曲线会过于乐观的估计算法的性能。  基于这些观察,本文采用了一个新的特征空间重构的方法解决高维度和噪音的问题——基于潜在语义索引(Latent Semantic Index,LSI)和层次聚类的特征空间重构方法LSI-HC;并在远程同源检测问题中采用精确度-召回率(Precision-Recall,PR)曲线来代替ROC曲线来评估算法的性能。  对蛋白质同源检测问题,本文使用SCOP数据库1.53版本数据集作为标准数据集,采用具有生物学意义的 N元组以及局部比对核函数(LAK)作为特征。我们首先分析了原始特征之间的关联,证明了这些特征之间确实存在着很大的相关性,进而又引入了潜在语义索引来分析所有特征之间隐含的语义关系,并据此使用层次聚类重构特征空间,达到降低维数和消除噪音的目的。模型的建立采用的是SVM模型,最终的评价标准采用的是PR分数,在N元组特征上,我们的结果和 Dong et al.2006的方法进行比较,提高了14个百分点,在LAK特征上,和Saigo et al.2004的方法比较,提高了7个百分点。  对蛋白质相互作用预测问题,本文使用的是HPRD数据库中的标准数据集,使用的是3元组特征,实验结果和Shen et al.2007的结果比较,ROC分数提高了4.5个百分点。另外,我们对Wnt、IL-2、IL-7、Notch这四个信号通路中的蛋白质相互作用进行了预测,并画出了相互作用网络,较好的实验结果也证明了我们的方法对蛋白质互作网络的预测有着重要的意义。
其他文献
随着网络通信与计算机技术的飞速发展,WEB服务的种类也逐渐多样化。传统的WEB技术由于互动性和实时性的缺陷,已经无法满足现实的需要。在传统的WEB服务中,所有的用户请求都交给
编队节点在高速运动状态下,有可能由于受到通信条件的制约或节点意外失效,从而失去与原指挥系统的联络关系。在这种条件下,为了保证节点之间通信畅通,必须在各编队节点间采用
学位
自然语言处理是人工智能和语言学领域的分支学科。在这个领域中探讨如何处理及运用自然语言实现特定的应用。本文提出了一种实现自然语言处理应用的方法,称为面向应用的受限
随着信息技术的发展,越来越多的图像和视频出现在人们的生活中和互联网上。如何有效的管理和组织这些多媒体数据成为一个亟待解决的问题。对多媒体内容进行分析与理解,进而对
随着吸烟人群的增加及环境污染的严重化,慢性阻塞性肺病(Chronic Obstructive Pulmonary Disease, COPD)的发病率越来越高,其早期诊断与治疗方法的研究受到越来越高的重视。
计算机是人类最伟大的科学技术发明之一,其应用已非常普遍,也使得计算机软件的应用也越来也广泛。软件作为信息的载体,包含了许多应用中的私密数据和重大的商业价值。为此,软件安
伴随着Internet的飞速发展,Web上出现了海量的信息资源,如何从这些浩如烟海的信息资源中寻找并获取有价值的信息和知识模式,已经成为信息处理领域的一个亟待解决的问题。本体
传感器技术、无线通信技术和嵌入式技术的进步推动了传感器网络的产生和快速发展。传感器网络作为一个全新的研究领域,向科技工作者提出了大量的挑战性研究课题,而数据管理作为
随着计算机软硬件的高速发展,使得计算机模拟仿真技术也得到了长足的进步。目前这种技术已经广泛应用于航空(海)、医学、电力工业、建筑业、军事等多个领域,尤其在虚拟制造方