特征选择算法在SNP关联性分析中的应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lishine369
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单核苷酸多态性(single nucleotide polymorphism,SNP),主要是指因为单个核苷酸的改变而造成的DNA序列的改变,从而导致物种染色体基因组的多样性,从而表现出不同的性状。关联性分析就是分析随机变量之间的相关性,一个随机变量的变化跟另一个随机变量的变化之间的内在联系,常常用于网站的推荐算法。而SNP关联性分析指的是在一个人的所有的由基因表达水平组成的特征集中,寻找出与某一个疾病关联性最大的特征子集。本文致力于SNP关联性分析中的搜索算法以及该算法选择出来的特征与真实特征在疾病预测方面的比较,并提出一种混合特征选择算法MFS。常用的特征选择算法主要由四个模块组成,但是现在国内外研究的重点是搜索策略和评价准则这两个模块。根据搜索策略的不同可以将现有算法分为穷举式、序列式和随机式,根据评价准则的不同可分为过滤式和封装式。本文首先实现了基于序列浮动前向搜索和基于动态振荡搜索的两种不同搜索策略下的特征选择算法,详细介绍了这两类算法的实现原理、设计思想和算法的特点,并在Model1~Model3数据集上进行了实验。通过分析实验结果、比较这两种搜索算法各自的特点和适用范围,我们得到当算法的平均计算时间在可以容忍的范围内时,DOS搜索策略比SFFS搜索策略更适合SNP关联性分析这类问题,最终确定在MFS算法中采用DOS搜索策略。其次,介绍了混合特征选择算法的必要性以及怎么实现混合的,在MFS算法中我们根据Filter和Wrapper这两种评价准则的不同点和使用场景,我们将MFS算法分成两个重要的阶段:样本数据的降维阶段和核心搜索阶段,其中降维阶段用的是Filter评价准则而核心搜索阶段使用的是Wrapper评价准则,通过将它们运用到MFS算法中,使得算法在时间上和性能上有了更好的均衡。最后,针对基于DOS搜索的算法更加容易陷入局部最优这一重要的缺点,我们将Halton序列应用到MFS算法中,因为Halton序列具有低差异性和超均匀分布这两个特性,这两个特性使得搜索非常均匀,算法不会集中到某一个点附近搜索,从而避免了MFS算法陷入局部最优。我们将MFS算法与其它算法在模拟数据集和真实数据集上完成了实验。实验最终结果表明,MFS算法在SNP关联性分析中比常规特征选择算法具有更好的性能,算法的搜索时间更短、目标结果更准确。
其他文献
<正>荣县位于四川南部,面积1609平方公里,人口近70万。2016年,在全省175个区县中,综合经济实力排名60位。面对高质量发展新要求,荣县坚定贯彻落实省委十一届三次全会决策部署
为了提高发电设备制造行业设计人员工作效率,解决单一系统或异构系统下由多个计算方法资源组成的方法组的联动执行问题,进行了相关研究与实现,集中分析了实现方法组参数映射的规
本文对目标规划的发展历史和特点以及各种模型和算法作了简明的总结,并对目标规划在国民经济管理各部门的应用成果进行了分析和展望。
提出了基于液压原理的新型微位移放大器。这种放大器由输入元件、充满油液的密封腔体和输出元件构成。输入的位移经过液压放大,转换成输出元件的位移。金属膜片或波纹管可以作
介绍了风电叶片模具液压翻转机构的工作原理,建立了一般的几何模型,通过Matlab优化工具箱对风电叶片模具液压翻转机构进行优化设计,利用LabView设计图形界面,并通过Matlab script
乾隆时期花部勃兴,花部宾白艺术别具魅力:质朴自然,通俗易懂,给人以亲切之感;形象生动,个性鲜明,给人以亲临其境之感;谐音双关,幽默风趣,给人以耳目一新之感;节奏重复,慷慨激昂,给人以刻骨
本文对我国推行能源消费革命、控制能源消费总量的三个关键战略问题进行了初步探讨:1我国能源消费的历史和未来发展趋势是什么?有哪些主要特点?2我国"能源消费革命"的基本概
猪繁殖与呼吸综合症(PRRS)是一种危害严重的传染性疾病。由于该病传播途径广泛,所以构建快速有的效诊断方法,在生产实践中也有着重要意义。此外,该病目前尚无特效的治疗药物,主
上海威特力焊接设备制造股份有限公司(以下简称“威特力”)是目前国内产量最大、品种最多,型号最全的逆变式焊接电源设备专业生产厂家,他们的产品在造船、电建、化建、核电、汽车
在师范院校综合英语教学中,应按大纲要求,把培养学生的教学能力贯穿于整个教学过程中。综合英语在培养学生教学能力方面是大有可为的。培养学生教学能力的内涵:即备课能力、授课