PCA与随机森林相结合筛选高信息量SNP位点——应用于羊的品种鉴别

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:guobihuai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对品种鉴别中面临的SNP(Single Nucleotide Polymorphisms)数据高维小样本的难点,研究利用少数高信息量SNP位点正确鉴别品种的方法,提出了一种新的SNP位点筛选方法。先利用PCA提取SNP主要位点,随后使用随机森林方法,根据平均精度下降和Gini指数下降对主位点的重要性进行评估,训练分类模型。最后分别选取重要度排名前48和96的位点,以这些位点为分类特征,建立分类模型进行品种鉴别。将该模型应用于6种绵羊Illumina Ovine SNP50的SNP数据。实验表明,可以从46 013个位点中分别筛选出49、96个高信息量位点用于品种鉴别,鉴别准确率达到97%以上。该方法减少了用于品种鉴别的SNP位点个数,降低了品种鉴别成本。
其他文献
双环戊二烯(DCPD)主要来自石油裂解制乙烯副产物的C5馏分和煤炭焦化副产物。以DCPD为主要原料,采用三步法进行热聚合反应,得到了高品质的DCPD石油树脂。考察了反应温度、反应时
小学英语教学内容不断扩充,小学英语教师的教学任务与日俱增,学生学习英语的负担不断加重。思维导图的出现极大地弥补了传统教学中的诸多不足,大大减轻了小学英语教师的教学
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
过敏性紫癜是一种表现为毛细血管炎的变态反应性疾病,其发病率有逐年增高趋势,任何年龄均可发病,但以学龄期儿童和青年发病率为高[1]。因机体对某些致敏物质发生变态反应,可导致毛
红外焦平面阵列(IRFPA)的非均匀性校正是获得高性能热成像的基本保证,非均匀性校正(NUC)算法是当前国内外研究的重要方向.鉴于序列图像的超分辨力复原方法和基于场景的NUC算法都
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
期刊
股指期货的产生是资本市场不断发展和投资者规避资本市场剧烈波动、进行资产保值增值而产生的,是资本市场发展到一定阶段的产物。股指期货的上市在为投资者提供风险管理工具
<正>叶圣陶先生说过:"语文教材无非是个例子。"语文教学的本质就是借助文本培养学生积累语言、运用语言的能力。《迟到》是北师大版五年级上册的一篇课文,选自台湾女作家林海
现代体育教学将提高学生的身体素质放在教学的重要位置,这为学生的学习、生活奠定了坚实的基础,同时还能培养学生顽强勇敢、吃苦耐劳的精神品质,对学生可持续发展以及实现终
历史实践表明,随着一国经济发展,一些企业的产品和品牌日趋由国内向国际延伸,这是经济全球化发展的必然。