基于分块的单体型推导算法及缺失问题研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：yfg1243

【摘要】

：

基因组学(genomics)的概念在1986年提出,随着人类基因组计划和人类基因组单体型图计划的实施,基因组学的研究已经系统化,海量出现的基因数据也成为各类生物研究的重要依据。

【作者】

：

王颖

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2011年期

【关键词】

：

基因型单体型连锁不平衡多位点关联补缺分块

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基因组学(genomics)的概念在1986年提出,随着人类基因组计划和人类基因组单体型图计划的实施,基因组学的研究已经系统化,海量出现的基因数据也成为各类生物研究的重要依据。由于当前生物技术的约束,实验手段获得的大量数据并不能直接为生物研究所使用并存在着数据的丢失,而重新检测数据意味着巨大的成本和大量时间消耗。基因数据中存在着特有的生物特性,计算方法可以利用这些生物特性对丢失的数据进行拟合,并转化为生物研究所需要的数据。本文围绕单体型推导和补缺两方面的问题进行研究,主要研究工作和贡献如下:1.群体数据集单体型推导概率算法是群体数据集下的单体型推导中的一类重要方法,但该类方法难以准确求解较大规模的问题,于是分块的思想被引入到概率算法中。前期的分块方法采用的是点对间的不平衡连锁的划分思想,本文采用多位点关联的方法进行分块,该方法在单体型分块的研究中被证明相比其他的分块方法更加合理,但该方法不能直接使用于基因型的分块,本文使用了滑动窗口对窗口内的数据进行预处理再利用多位点关联的方法进行分块。通过真实数据和模拟数据的测试,我们新的单体型推导方法EPLEM的运行时间与性能较优的几个算法保持在一个数量级上,同时推导出的单体型错误率得到有效降低。在真实数据集5q31上,EPLEM算法在个体错误率和和交换错误率上均低于其他算法,其中个体错误率降低1%到9%,运行时间为7.8s。2.基于分块的非参考单体型补缺目前,补缺问题主要利用已有单体型数据对样本补缺,当缺乏参考单体型时,需要利用样本自身的信息对样本进行补缺。本文使用分块方法,可将块内的数据分为完整和缺失两部分,完整部分可用作参考单体型,通过统计块内单体型出现频率来对缺失位点进行补缺。本文模拟生成了连锁不平衡较弱和较强的两类缺失基因型数据,并与Jung等人提出的非参考单体型补缺算法进行了计算实验比较。对于连锁不平衡较弱的数据,本文算法的正确率有1%到2%的提高;对于连锁不平衡较高的数据,本文算法的正确率有7%到10%的提高。

其他文献

ECT/ERT双模态成像无线数据采集系统设计

ECT/ERT双模态成像技术是一种新型电成像技术,在工业检测中具有广阔的应用前景。目前传统ECT/ERT双模态成像系统中连接数据采集部分和成像终端多采用有线连接的方式,存在电缆

学位

ECT/ERT双模态成像跳频通信无线数据采集数据采集

无线Mesh网路由协议的研究和改进实现

无线Mesh网(以下部分和WMN交替使用),又称无线网格网或无线网状网,是从移动Ad-hoc网中分离出来,同时沿袭了部分WLAN技术的全新的无线网络技术。严格来讲,WMN是一种新型的无线

学位

无线Mesh网混合式路由范围限定折中距离和能量一致性测试性能测试

社会化标签推荐系统中标签模糊和冗余的研究

在社会化标签推荐系统中,标签模糊和冗余的存在不但影响了系统的推荐质量,而且使得标签推荐系统不能得到准确的评估。如果将标签模糊和冗余应用到标签推荐系统当中,就可以提

学位

标签推荐系统标签模糊标签冗余核空间聚类推荐质量

红松球果和雌雄花的图像分割算法的研究

红松是我国珍贵的树种,其经济效益非常可观。为了更好的保护红松和提高红松球果的产量,应该采用现代化的信息手段对红松的结实量进行预测研究。本文主要研究的是关于红松的球

学位

图像分割边缘提取snake模型GVF Snake模型蚁群算法

基于智能算法的正负关联规则挖掘研究

面对“人们被数据淹没，却饥渴于知识”的挑战，数据挖掘(data mining)和知识发现(knowlegde discovery)应运而生，并得以蓬勃发展。关联规则(association rules)挖掘是数据挖掘众

学位

正负关联规则挖掘有效标准文化算法免疫克隆算法全局优化搜索

强跳跃显露模式挖掘算法及其应用

分类是数据挖掘中一个很重要的研究课题，在神经网络、统计学以及机器学习等领域得到了广泛的研究，但是大部分分类算法适用于小型数据集。强跳跃显露模式(Strong Jumping Emergi

学位

数据挖掘分类算法显露模式跳跃显露模式强跳跃显露模式

无线传感器网络的可靠性计算及路由研究

无线传感器网络以其应用范围广、成本低、功耗低以及网络的自动管理和高度协调性等卓越特性迅速发展起来。随着传感器网络研究的不断深入和应用的推广,传感器网络的可靠性技

学位

传感器网络可靠性路由算法遗传算法能量均衡

基于AGENT的快速公交系统仿真研究

基于Agent的建模与仿真方法(Agent-Based Modeling and Simulation， ABMS)是一种新型的建模与仿真方法，在过去十多年里获得越来越多的关注。一些学者主张ABMS是归纳法和演绎法

学位

智能代理仿真快速公交系统Agent仿真车辆调度站台管理netlogo平台

基于摄像机实时定标的遥在系统

长久以来人们一直总有一种渴望,希望自己坐在家里或者办公室里就可以控制一个在遥远场景中的机器人,并且通过机器人身上的传感设备,可以将遥远场景中的各种实时感受反馈给人

学位

遥在技术头部跟踪摄像机定标GPU加速特征跟踪

多核处理器中最后一级共享高速缓存管理策略研究

随着高性能处理器技术的发展,存储墙问题为影响处理器系统性能的主要因素之一。处理器速度通常会比存储器的访问速度快两个数量级,当代多核处理器广泛采用基于大容量最后一级

学位

多核处理器最后一级高速缓存LRU策略访存行为预测访问间隔高速缓存缺失主存储器访问高速缓存管理策略

基于分块的单体型推导算法及缺失问题研究

与本文相关的学术论文