聚类分析及其应用研究

被引量 : 313次 | 上传用户：nikaixinma

【摘要】

：

模式识别,也被称为分类或者是统计分类,模式识别学科的研究目的就是为了构建能够自动判别输入数据类别信息的分类系统。聚类分析是一种无监督的模式识别方法,是模式识别研究

【作者】

：

唐东明

【发表日期】

：

2010年01期

【关键词】

：

模式识别聚类蛋白质序列基因表达序列分析选址问题

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

模式识别,也被称为分类或者是统计分类,模式识别学科的研究目的就是为了构建能够自动判别输入数据类别信息的分类系统。聚类分析是一种无监督的模式识别方法,是模式识别研究中的一个重要领域。无监督的聚类分析算法能够探索输入数据的内部群组结构,目前已经被广泛应用于各种数据分析场合,包括计算机视觉分析,统计分析,图像处理,医疗信息处理,生物科学,社会科学和心理科学等。聚类分析的基本原理就是将输入数据分成不同的群组,同一组中的成员拥有相似的特性,相反不同组中的成员特性相异。本文主要针对聚类分析算法及其应用进行研究,本文研究的聚类分析算法主要应用于生物信息学数据分析,大规模选址问题,数据不规则形状分布聚类分析问题。主要的工作和取得的成果概括如下:(1)基因表达序列分析技术(Serial Analysis of gene expression,SAGE)是一种快速详细的分析数以千计转录(transcripts)的最佳方法,这项技术最开始由Victor Velculescu博士于1995年提出。聚类分析算法是一种非常有用的SAGE数据分析方法,被用于发现SAGE数据集中潜在的新的或隐含的转录或者是基因组,因此已经被用于分析SAGE数据。尽管研究人员已经给出了多种用于SAGE数据分析的聚类分析算法,但是这些算法通常都需要结合一些用户自己设定的参数,并且聚类分析的结果对参数选择有很强的依赖性。本文基于SAGE数据的Poisson统计特性和最近提出的仿射消息传播聚类分析算法提出一种自适应的聚类分析算法,在该算法中引入了一个聚类结果校验测度,并以该测度为代价函数对聚类结果进行优化调整以获得优化的聚类结果,该算法被命名为PoissonAPS。在多个实际生命数据集上的对比实验结果表明本文给出的方法能够对SAGE数据进行很好的聚类分析,并且产生有意义的可解释的分类结果。(2)随着高通量测序技术的发展,目前在生物信息数据库中已经累积了大量的蛋白质序列数据。但是由于实验确定蛋白质序列功能的速度无法赶上新序列测序的速度,因此造成大量的新测序的蛋白质序列尚未通过实验的方式来确定它们的生物功能和家族信息。由于实验验证过程非常耗时并且昂贵,因此理想情况下希望仅仅依赖序列之间的相似性来探测未知功能序列和已知功能序列之间的同源关系,进而确定未知功能序列的信息。聚类分析方法能够通过将蛋白质序列分类到不同的蛋白质家族获得有意义的信息。最近几年研究人员已经提出了多种用于蛋白质序列分析的聚类算法。面对众多的蛋白质序列聚类分析算法,有必要进行一个对比研究分析,分析的结果将有利于生命科学研究人员考察不同的算法并且选择合适的用于特定实验分析场合的算法。本文比较了四种典型的蛋白质序列分析算法,在多个数据集上考察算法的以下几方面的性能:缺省参数条件下的聚类算法性能分析;算法对蛋白质序列在数据集中所处位置是否敏感;数据集自身的真实类分布对聚类算法结果的影响;调节算法的参数,观察参数对聚类结果的影响。本文给出的实验结果能够帮助研究人员选择合适的分析算法。并且实验结果还表明蛋白质序列聚类分析算法还有很大的改进空间。(3)随着大量的未知功能的蛋白质序列数据的累积,目前已经无法通过实验的手段来标注未知功能的蛋白质序列。聚类分析方法通过将蛋白质序列分类到不同的同源组来确定未知功能的蛋白质序列的信息。本文引入了一种用于大数据量蛋白质序列分析的无比对的在线聚类分析方法,命名为OnlineCAPS。该方法具有速度快,可在有限内存环境下运行等优点,此外该方法还可以被部署在WEB服务器上。实验结果表明该方法能够快速的分析大数据量的蛋白质序列,并且获得的聚类结果的质量接近于其它算法。(4)选址布局问题是一个广泛研究的运筹学问题。通过将选址布局问题看作聚类问题,结合聚类分析算法并且将候选地址的信息映射为特征向量,本文提出了两种求解选址布局问题的方法:基于块划分的选址布局方法;基于道路网络的选址布局方法。文中使用模拟数据集和真实数据集来评估这两种方法,实验结果表明两种方法都能够求解设施资源受限和不受限情况下的选址布局问题,而且可以很好的解决大规模的选址布局问题。(5)探测数据不规则形状分布的自然类簇分布是模式识别研究领域的一个困难的任务。本文给出了一种有效的数据不规则形状分布聚类分析算法,该算法结合了谱聚类和仿射消息传播聚类算法的优点,能够很好的分析数据不规则形状分布的类簇结构。与此同时,文中给出了一种新的基于邻居离散分析的相似度测度。本文给出的方法简单有效,在多个模拟数据和实际数据上检验了方法的性能。实验结果表明本文给出的方法能够探测数据中的自然类簇分布,并且聚类分析的结果和人的自然判断相一致。

其他文献

知识溢出、人力资本对区域经济增长的实证研究

技术进步对经济增长的重要作用已经无可非议,在知识经济条件下,落后国家或地区只有通过科学技术的进步才能快速实现工业化和经济的可持续发展。技术进步一方面可以通过自主创

学位

R&D溢出FDI溢出人力资本经济增长

基于DPASV法血铅分析仪的研究与设计

铅是对人体有害的重金属元素之一,随着环境污染日趋严重,铅会通过食物链、土壤、水、空气等途径进入人体,尤其是对儿童的影响更为严重,因此普及血铅检测和提高铅的检出率,对

学位

血铅检测差分脉冲阳极溶出伏安法数据采集定量分析串口通讯

新型隐身材料吸波特性研究

随着材料科学的发展,微波吸收材料不管是在军用上还是民用上都得到了飞速发展,“薄、宽、轻、强”逐渐成为现代微波吸收材料发展的目标。人们对吸波材料的研究已经从单层传统

学位

吸波材料微波吸收超常材料隐身材料纳米复合

企业办公室和谐管理研究

和谐管理在企业的运用在业界成为了一种趋势。随着建设和谐社会的全面展开,和谐企业的建设已经得到各国有、民营企业管理者的重视。当今时代,社会分工越来越细,企业内部职能

学位

企业办公室和谐管理可控性制度战略目标

改革开放三十年湖南省宁乡县大成桥镇农村群众体育之变迁

改革开放以来,湖南的体育运动一直具有良好的传统和较好的基础,作为群众体育重要组成部分的农村群众体育工作,也取得了显著的成绩和进步,但是地域发展极不平衡,整体水平仍然

学位

农村群众体育变迁启示发展趋势大成桥镇

近现代三国学研究

《三国演义》与《水浒传》、《西游记》、《红楼梦》号称中国古代四大古典名著,而作为诞生最早、对后世有着最广泛深远影响的《三国演义》以其长篇章回体小说的开篇之作在四

学位

近现代三国学《三国演义》罗贯中

从移动碎片化看在线音乐的传播新模式

移动互联时代,在线音乐平台快速发展,行业格局不断变化,传播规模日益扩大,推动了音乐传播的发展,取得了很好的成绩。然而,在线音乐平台存在侵权现象频发、缺乏个性化服务、互

期刊

移动互联网在线音乐音乐传播

可持续发展与城市绿化

人们在处理自然生态系统和人工生态系统的关系上,还存在不少问题。以可持续发展战略思想为指导,是城市发展进程中走向生态化的必然趋势。文章指出:在用可持续发展战略思想探

期刊

风景园林可持续发展生态城市自然观资源观

试析民族社会工作在西部少数民族农村地区发展中的运用

我国少数民族人口大多集中在西部农村地区,西部少数民族农村地区的发展对我国构建和谐社会有着至关重要的作用。但是由于地理环境、交通运输等方面的原因,西部少数民族农村地

期刊

民族社会工作西部少数民族农村地区

对发展民营企业和谐劳动关系的辩证思考

和谐劳动关系现已成为民营企业正确处理新时期矛盾的一项重要内容。本文在指出了和谐劳动关系在促进民营企业发展过程中的作用基础上,分析了当前民营企业劳动关系出现的新特

期刊

和谐劳动关系民营企业企业主工人

聚类分析及其应用研究

与本文相关的学术论文