基于分块的单体型推导算法及缺失问题研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:yfg1243
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组学(genomics)的概念在1986年提出,随着人类基因组计划和人类基因组单体型图计划的实施,基因组学的研究已经系统化,海量出现的基因数据也成为各类生物研究的重要依据。由于当前生物技术的约束,实验手段获得的大量数据并不能直接为生物研究所使用并存在着数据的丢失,而重新检测数据意味着巨大的成本和大量时间消耗。基因数据中存在着特有的生物特性,计算方法可以利用这些生物特性对丢失的数据进行拟合,并转化为生物研究所需要的数据。本文围绕单体型推导和补缺两方面的问题进行研究,主要研究工作和贡献如下:1.群体数据集单体型推导概率算法是群体数据集下的单体型推导中的一类重要方法,但该类方法难以准确求解较大规模的问题,于是分块的思想被引入到概率算法中。前期的分块方法采用的是点对间的不平衡连锁的划分思想,本文采用多位点关联的方法进行分块,该方法在单体型分块的研究中被证明相比其他的分块方法更加合理,但该方法不能直接使用于基因型的分块,本文使用了滑动窗口对窗口内的数据进行预处理再利用多位点关联的方法进行分块。通过真实数据和模拟数据的测试,我们新的单体型推导方法EPLEM的运行时间与性能较优的几个算法保持在一个数量级上,同时推导出的单体型错误率得到有效降低。在真实数据集5q31上,EPLEM算法在个体错误率和和交换错误率上均低于其他算法,其中个体错误率降低1%到9%,运行时间为7.8s。2.基于分块的非参考单体型补缺目前,补缺问题主要利用已有单体型数据对样本补缺,当缺乏参考单体型时,需要利用样本自身的信息对样本进行补缺。本文使用分块方法,可将块内的数据分为完整和缺失两部分,完整部分可用作参考单体型,通过统计块内单体型出现频率来对缺失位点进行补缺。本文模拟生成了连锁不平衡较弱和较强的两类缺失基因型数据,并与Jung等人提出的非参考单体型补缺算法进行了计算实验比较。对于连锁不平衡较弱的数据,本文算法的正确率有1%到2%的提高;对于连锁不平衡较高的数据,本文算法的正确率有7%到10%的提高。
其他文献
ECT/ERT双模态成像技术是一种新型电成像技术,在工业检测中具有广阔的应用前景。目前传统ECT/ERT双模态成像系统中连接数据采集部分和成像终端多采用有线连接的方式,存在电缆
无线Mesh网(以下部分和WMN交替使用),又称无线网格网或无线网状网,是从移动Ad-hoc网中分离出来,同时沿袭了部分WLAN技术的全新的无线网络技术。严格来讲,WMN是一种新型的无线
在社会化标签推荐系统中,标签模糊和冗余的存在不但影响了系统的推荐质量,而且使得标签推荐系统不能得到准确的评估。如果将标签模糊和冗余应用到标签推荐系统当中,就可以提
红松是我国珍贵的树种,其经济效益非常可观。为了更好的保护红松和提高红松球果的产量,应该采用现代化的信息手段对红松的结实量进行预测研究。本文主要研究的是关于红松的球
面对“人们被数据淹没,却饥渴于知识”的挑战,数据挖掘(data mining)和知识发现(knowlegde discovery)应运而生,并得以蓬勃发展。关联规则(association rules)挖掘是数据挖掘众
分类是数据挖掘中一个很重要的研究课题,在神经网络、统计学以及机器学习等领域得到了广泛的研究,但是大部分分类算法适用于小型数据集。强跳跃显露模式(Strong Jumping Emergi
无线传感器网络以其应用范围广、成本低、功耗低以及网络的自动管理和高度协调性等卓越特性迅速发展起来。随着传感器网络研究的不断深入和应用的推广,传感器网络的可靠性技
基于Agent的建模与仿真方法(Agent-Based Modeling and Simulation, ABMS)是一种新型的建模与仿真方法,在过去十多年里获得越来越多的关注。一些学者主张ABMS是归纳法和演绎法
长久以来人们一直总有一种渴望,希望自己坐在家里或者办公室里就可以控制一个在遥远场景中的机器人,并且通过机器人身上的传感设备,可以将遥远场景中的各种实时感受反馈给人
随着高性能处理器技术的发展,存储墙问题为影响处理器系统性能的主要因素之一。处理器速度通常会比存储器的访问速度快两个数量级,当代多核处理器广泛采用基于大容量最后一级