基于隐马尔可夫模型的EST序列聚类研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:aswdea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在原始EST序列中,存在载体、限制核酸内切酶、polyA、polyT等多种特征。根据EST序列特征,在对EST序列集合进行分类的时候,通常是已经知道一定数量的EST序列的类别,并将这些已知类别的EST序列作为已标记类的样本,序列集合中余下的序列作为未标记类的样本。这种分类方法通常是基于一个特定的假设:已标记类的样本是完全样本。可是实际情况往往不是这样。根据不完全的初始类进行EST序列分类将会导致类缺失,出现错误的结果,而且还费时费力。针对这种问题,本论文采用了K-均值聚类和隐马尔可夫模型相结合的方法,对EST序列进行了聚类分析研究,其目的是对基于相似数据特征的EST序列进行聚类和预测。该方法克服了K-均值和隐马尔可夫模型两种算法的缺陷,发挥了各自的优势所在。论文首先是数据预处理,其次,对处理后的数据进行K-均值聚类,获得一个粗略的聚类;接着,应用隐马尔可夫模型其中的Baum-Welch算法对归类的序列进行训练,获得每一类的隐马尔可夫模型参数;之后,可以应用该概率模型对测试数据或新增EST序列进行模型序列比对,进而达到模型评估或者自动聚类的目的。聚类分析是EST序列分析中的重要研究课题,论文的研究内容是在实验的基础上进行的,通过实验,验证了所采用的方法的有效性,具有一定的研究意义,为进一步进行EST序列分析研究奠定了基础。
其他文献
电气操作票制度是我国电力系统运行管理中一种防止误操作的有效安全措施。近年来,经过国内外科研人员的不懈努力,操作票自动生成系统的智能性不断提高,有效地减轻了调度人员
在过去的研究中,一种具有多个自由度的新型的智能的车门仿真已经在实验室中被开发出来。在虚拟现实的测试平台上这种仿真车门已经可以实现。 在本论文中这种车门的仿真将被
大气中的悬浮颗粒污染物,特别是细小颗粒对人体健康的损害极大,悬浮颗粒污染物对环境也有严重的影响,因此,对空气中颗粒物的研究越来越得到人们的重视。粒度和浓度是颗粒物的
蚁群优化算法是由意大利学者Dorigo等人受到蚂蚁觅食行为的启发提出的一种新型的智能仿生类进化算法。大量实验结果表明,它在解决许多组合优化问题时都能表现出较好的求解能
滚动轴承是机械设备中重要的基础部件之一,其质量的优劣直接影响设备的使用质量和寿命。轴承振动测量仪就是检测轴承振动值从而客观地评价轴承质量的专用仪器,在整个轴承检测环节中发挥着重要作用。当前轴承检测基本上按照轴承振动测量仪检出振动波形,有经验的操作员进行经验判断的模式来检测轴承的好坏。这种方式效率低、对操作员熟练水平依赖性强,已不能满足大批量检测的要求。随着虚拟仪器技术的不断成熟,逐渐地人们希望将这
学位
在国家“西电东送,十二五规划”工程,“特高压输电”智能电网规划背景下,西南地区川西高原水电输出通道在国家电网布局结构占有重要地位。受限于川西高原独特的地理环境,输电走廊场建立在崇山峻岭之间,受地质灾害,气候灾害影响巨大,并且检修,抢救工作进行困难。电网的稳定运营,安全运营收到巨大影响。人工巡线,安装形变探测器等传统监测手段耗人力,高投入,不具有全局性和时效性。采用DIn SAR技术的全天时,全天候
独立成分分析(ICA,Independent Component Analysis)是一种基于高阶统计量的信号处理方法,可在统计独立意义的基础上对观测变量进行分解,从而找到过程内在的驱动信息源,更本质地描述过程特征。论文基于过程信号的盲源分离理论,深入研究了独立成分分析(ICA)方法,包括ICA的数学模型、目标函数、估计算法以及ICA在工业过程监控中的应用技术,并编写MATLAB仿真程序,给出6种
本文针对交流感应电机解耦控制问题,在教育部博士点基金的资助下,借助dSPACE仿真实时系统搭建实验平台,把神经网络右逆系统的方法应用到感应电机解耦控制中,并提出了在线调整权值的方法,同时应用神经网络左逆系统的方法对感应电机转速进行了辨识。首先,在对神经网络逆系统进行理论分析的基础上,给出了构造神经网络右逆、左逆系统的具体方法、步骤、设计原则和注意事项。使用神经网络右逆系统方法构造出了感应电机的逆系