一种基于聚类的RCNA识别算法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:piaodedaocao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
拷贝数变异CNV(Copy Number Variation)是指1kb以上的DNA片段的增加或者减少。CNV是基因组结构变异的重要组成部分,是人类疾病的重要致病因素之一。Recurrent CNA (RCNA)是与某种疾病有关的,存在于绝大多数样本相同染色体区域的一段连续的拷贝数变异,它与肿瘤、癌症等疾病有着重要的关系,识别RCNA对于疾病的研究有着重要的意义。目前已经有很多算法用于RCNA的识别,这些算法各有优缺点,但仍然没有一个算法能够准确的识别出各种情形的RCNA。CMDS算法是一个有效查找RCNA的算法,它根据相邻两列数据的相关性对数据进行打分,根据每一列的得分,判断出RCNA的位置。CMDS算法计算量小,效率较高,统计特性强,但是它不能识别出变异是增益还是缺失,对于变异程度较敏感,容易受到一些随机变异的拷贝数的影响。本文首先对拷贝数进行了数据仿真,对CMDS算法的优缺点进行了分析,提出了一种基于聚类的RCNA识别算法。该算法首先对数据进行了预处理,接着运用聚类算法对数据聚类,根据聚类的结果对每一列进行打分,最后根据得分判断出RCNA的位置。本文还针对CMDS算法的不足进行了改进,称为CMDS_s算法。在仿真数据上,针对各种情形的RCNA分别用CMDS算法、CMDS_s算法和本文算法进行了对比实验。实验结果表明,本文算法的性能优于CMDS算法,也优于CMDS_s算法,但是在某些特殊情况下,CMDS_s算法具有一定的优势。
其他文献
分支定界算法是求解优化问题的重要方法。虽然它有很高的计算精度,但是,高的计算时间复杂度,降低了它的实际应用价值。本文设计实现的一种专用于计算分支定界算法的机群计算
在木材加工中,原木的外围几何形状是制约下锯的关键性因素,对原木形状的精确识别已成为木材加工业的首要问题。长期以来使用的人工检尺方法,受人为因素影响较大且工作效率低,
自然语言问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。自然语言问答的人机界面、精确和实时是自然语言问答系统的三大研发目标
数字电视系统包括节目制作、信号发射、信号传输和用户接收4个环节,目前在我国前3个环节都已实现了数字化,只有用户接收这一环节尚未实现。模拟电视机最终将被数字电视机所取
随着网络信息的膨胀,网上大量可用信息对于回答用户的各种问题变成了具有吸引力的资源。基于关键字查询的网络搜索引擎,通常会对用户的提问返回成百上千个文档,而用户为了得到与
随着经济的发展,电信服务进入了全新的阶段,尤其是移动网络的发展更是日新月异。提供基于用户行为分析的增值服务越来越被广泛的使用,这就需要通信网络收集可靠准确的用户测量报
随着互联网技术的迅速发展,网络已经成为人们进行信息交互和处理的有效平台,各种以文本形式表示的信息以极高的速度增长,如何能够有效地组织和分析海量的Web信息资源,使人们能够
近年来,随着数据库技术的迅速发展,以三大经典系统为代表的传统数据库技术对于管理结构简单、操作简单、完全格式和结构化且较稳定的数据已经证明是很成功的,在一类传统商务和管
本文对专家系统的基本概念和原理作了介绍,主要讨论了产生式、谓词逻辑、语义网络、框架及面向对象的多种知识表示方法,对正向推理、反向推理和正反向混合推理控制策略进行了
教育信息化和数字校园是高等学校教育工作的一项重要内容,是整个学校管理的核心和基础。随着计算机技术的飞速发展和Internet的迅速普及,促进了基于网络的教学管理系统的发展