聚类分析研究及其在生物数据分析中的应用

来源 :湖南大学 | 被引量 : 0次 | 上传用户:wyman_wmw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。这里重点讨论了聚类分析研究及其生物数据分析中的应用。聚类度量是特征提取的重要工具。本文首先概括了以往的聚类度量方法,并提出了一种新的基于信息论的聚类度量,用来对聚类对象的信息分布进行相异性分析。同时证明了新度量满足非负性、对称性、极值性、肯定性等。其次,利用基于信息论的方法进行序列比较。本文提出了一种新的基于信息论的序列比较方法。与传统的方法相比,此方法不需要序列比对,没有主观因素干涉,不会破坏数据的原始状态。实验选取了20种胎生哺乳动物的线粒体全基因序列,分别使用基于信息论方法进行全基因序列比较和新方法进行片段基因序列比较,再利用NEIGHBOR法构建系统树。由实验结果可知,新方法用较少时间构建的系统树完全不逊色于以往的方法,并且新方法有较好的健壮性。这为研究分子序列的差异性提供了一种新方法。最后,利用基于信息相异性的模糊聚类构建系统树。根据物种进化的模糊关系和序列之间的信息分布的差异性,本文提出了基于信息相异性的模糊聚类的系统树构建方法。将生物序列转化为信息集,利用基于信息论的新度量计算序列之间的隶属度,结合模糊等价关系的聚类分析进行聚类,分析物种在不同时期的类别划分情况,推断出物种的系统发生树。实验结果表明,这种方法构建的系统树是值得可信的。
其他文献
动态范围定义为场景(图像)最亮部分的灰度值与最暗部分的灰度值之比。现实世界的场景具有较大的动态范围,有的甚至能达到1014的数量级,然而从早期的胶片拍照直至现在的数码,他
横切关注点是指其实现分散到多个其它模块之中的关注点。在传统的软件实现中存在大量横切关注点,横切关注点增加了软件体系结构的复杂性,同时,横切关注点的实现导致了代码的
进化算法是建立在自然选择原理和自然遗传机制上的新型优化算法,有着简单、通用、健壮性强、适于并行处理等显著特点。多目标优化问题是科学和工程研究领域的一个难题和热点
图像分割是图像处理和计算机视觉中的关键技术之一。它有助于提高基于图像内容的特定目标定位的准确性,在图像的编辑抠图等技术中离不开正确的分割。图像分割的方法浩如烟海,但
随着企业级应用需求不断提升,大吞吐量、高性能、高可用性和高稳定性已经成为判定一个企业生产管理系统是否成功的主要标准。同时,随着人们对计算能力的依赖,企业级应用已经
在B3G/4G的网络环境下,未来的通信业务将具有泛在、融合、智能化协同工作的特征。业务平台可以根据用户的请求,捕获用户当时的环境信息和个人数据信息,为用户提供量身定做的个
目前网络学习资源日益繁多,面临着资源分散、资源冗余、共享性差、对资源检索难以实现预期希望的现状。从生态学的角度讲,就是各个物种之间的某个食物链和能量链(知识链)缺失
随之科技的迅猛发展,如今的手机已经不单单是一种通信工具,他的处理能力可以与一台小型的计算机相媲美。与此同时,无线网络的传输能力和传输质量的不断提高,3G时代的到来,这
近年来,随着各种高速超大容量网络迅速普及,人们对信息的安全性需求变得越来越迫切,然而,信息安全技术仍然很落后,且信息安全算法的软件实施已成为网络性能提高的系统瓶颈。
以Internet为代表的信息网络已成为现代社会最重要的基础设施之一,它逐渐渗透到社会的各个领域,成为知识经济的基础和载体,并在人类社会的政治、经济、军事、文化和商业等各