基于词频统计的DNA序列大数据集模体发现算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:chenyingtg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在DNA序列中识别保守的模式,即模体发现,主要用于在DNA序列中定位转录因子结合位点,对研究基因的表达调控有着重要的意义。此外,高等真核生物中基因的表达往往会受到多个转录因子的共同调控,识别相应的转录因子结合位点可以抽象成结构模体发现。下一代基因测序技术(Next-Generation Sequencing,NGS)使得当前可以在基因组水平上定位转录因子结合位点,但是产生的DNA序列大数据集远大于传统的启动子序列数据集(小数据集),为求解模体发现带来了新的挑战。模体发现可以形式化地定义为quorum植入(l,d)模体搜索(quorum Planted(l,d)Motif Search,qPMS)问题。结构模体由存在可变长度间隔的多个(l,d)模体组成。相对于传统的小数据集,DNA序列大数据集中含有的模体出现较多,由于模体的出现之间较为相似,那么大数据集中出现频次较高的子串可能是模体的出现。基于此,本文开展了两个基于词频统计的模体发现算法的研究工作。第一部分研究通过样本序列选择加速现有qPMS算法。首先,分析了输入序列的数量t和含有模体出现的序列占所有序列的比例q对qPMS算法时间性能的影响,发现一个大的t或一个小的q将造成更大的时间开销。那么,为提升现有qPMS算法的时间性能,可以从大的输入序列中选择一个对应小的t和大的q的样本序列集。在此基础上,提出了一个样本序列选择算法SamSelect,采用词频统计得到输入序列中出现频次较高的子串,再通过高频子串聚类得到样本序列集。模拟和真实数据上的实验结果均表明,SamSelect只需很短的时间便能选出样本序列集,且qPMS算法运行于样本序列集后能以快得多的速度找出植入的或真实的模体。第二部分研究DNA序列大数据集结构模体发现算法。由于结构模体中单模体及其片段会在大数据集中多次出现,挖掘这些出现频次较高的子串,再利用结构模体模板处理高频子串可以高效且有效地搜索结构模体。在此基础上,提出了一种基于词频统计的结构模体发现算法SMS。算法首先根据各个单模体的l和d值自适应选取w和k值,并统计输入序列中所有w-mer的k失配计数;然后根据结构模体模板采用滑动窗口方法扫描输入序列获取峰值子串,期望峰值子串能够覆盖结构模体实例;最后通过峰值子串比对得到结构模体。在多组数据集上与现有算法进行了比较,结果表明SMS算法在保持识别准确率相近的前提下,能够更快地找到结构模体。
其他文献
阻变存储器(RRAM)是一种新型非挥发性存储器,具有读写速度快、存储密度高、功耗低、擦写次数多、成本低与传统CMOS工艺相兼容等优点,被认为是下一代非挥发性存储器最有力的竞争
近年来,家居行业不断发展,国内外竞争激烈,国内品牌受到国外品牌的管理技术等多方面的冲击,经济形势不容乐观。迅猛发展的电子商务又对传统家居行业带来新的挑战,家具行业急需转型升级,改变传统的运营模式,以适应新时代的潮流。我国传统的成品家居普遍存在库存过高、产销不平衡的难题,使企业现金流压力不堪重负,面临高风险、高压力的窘状。而随着居民生活生平的提高,消费者对个性化的需求不断增加,在大数据、智能制造的带
“板块式”是余映潮老师独创的阅读教学思路,区别于一般阅读教学的线性常规化学习,它是一种规范化了的教学思路,是一种高层次的教学指导理念。“板块式”教学思路具有思路清晰,目标明确,提问精粹,活动充分等独特的优势。本文在对“板块式”教学思路的基本概念、设计理念以及应用要领进行分析总结的基础上采用了问卷、课堂观察、教学案例对比以及访谈四种调查研究方法对“板块式”教学思路目前在新疆乌鲁木齐市A区初中学校的应
拱涵作为涵洞的一种重要结构形式,一般被建于高路堤用来承受较大的上部荷载,而大容量拱涵相较一般小尺寸拱涵而言,除了要承受较大的上覆填土荷载外对于自身稳定性的要求也更为严格。所以对大容量拱涵进行接长时,除了考虑新旧拱涵自身稳定性外,还需考虑到新旧拱涵的差异沉降。本文将以有限元方法为核心,对大容量拱涵接长的差异沉降特性、新旧拱涵的自身稳定性以及新旧高路堤之间的差异沉降进行研究。首先本文对莲株高速公路低改
幸福作为人类发展的根本目的,如何促进人们更加幸福一直是学术界研究的焦点。二十世纪七十年代,著名经济学家理查德·伊斯特林提出的“幸福悖论”说明绝对收入并不是影响幸福感的唯一因素,收入差距或收入不平等对幸福感的影响程度更明显。然而在相关研究中多数学者都利用基尼系数、泰尔指数等来测度整个群体的收入不平等程度。本文将反映个体收入不平等程度的指标——相对剥夺引入到收入不平等与幸福感的关系的研究中,更深入地分
二次变换器是一种Buck型DC-DC变换器原理的手工焊接设备,能够方便的将单独的一次电源,变换为多个二次电源,实现多个工位的同时工作,成本较低,性能较差,同成本较高的专用焊接设备相比,某些应用需求难以满足,本文以二次变换器为研究目标,分析其工作原理,搭建测试平台试验,使用模糊PID控制器对其性能进行改进,以提高其适应性。首先,本文从理论出发,论述了经典PID控制算法的原理和局限性,随后又论述了模糊
目的:本研究通过观察和对比埋针联合口服逍遥散加减的中药汤剂与口服维生素C片、维生素E软胶囊治疗肝郁气滞型黄褐斑的临床疗效,以期为单纯中医治疗黄褐斑在临床实践中的应用提供新思路,并为埋针在黄褐斑的辅助疗法中的应用提供重要依据。方法:将符合诊断标准的64例肝郁气滞型黄褐斑患者随机分为观察组和对照组各32例。观察组隔日应用揿针行穴位埋针治疗并结合每日口服以逍遥散为主的中药。对照组每日口服维生素C片、维生
随着中国经济的飞速发展和人民生活水平日益提高,大众的闲暇时间及可支配收入逐渐增多,国内旅游的趋势更是增长迅速。2019年,我国的国内旅游人次为60.6亿人次,国内旅游收入达5.6万亿元,分别比2018年增长9.5%和10%。其中,入境旅游人数达到1.43亿人次,国际旅游收入为1296亿美元,分别比2018年增长1%和2%。2019年,新疆接待游客取得历史性突破,旅游人次达2亿人次,实现旅游收入超过
初中地理课堂作为教学探究的主阵地之一,主要的任务是培养学生的地理综合运用能力,其重要性不言而喻。探究课作为地理知识落地的核心环节,与之联系的研究较多,探究能力作为地理实践的检验目标,向来便是教学界研究的重点。根据义务地理课程标准(2011版),初中地理探究课更加注重多样化的学习方式,要求学生具有地理独立学习与合作探究的双重能力[1]。就当前现状而言,初中阶段学生的地理学习存在的主要问题为探究能力不
目前,在已建成的悬索桥,大多数采用重力式锚碇,而采用隧道式锚碇可大大减少混凝土的用量。在我国“西部大开发战略”的实施下,大跨度的悬索桥逐渐增多,桥梁跨度增大,缆索受力增大,对锚碇及周边环境影响加剧。因此,本文主要通过现场调研及资料收集、文献调研、数值模拟等手段,基于泸定大渡河特大桥工程背景,建立隧道锚计算模型,深入研究隧道式锚碇对下穿公路隧道、山体边坡以及锚碇结构自身的安全稳定性。研究表明:(1)