基因表达数据挖掘关键技术研究

来源 :西北工业大学 | 被引量 : 0次 | 上传用户:castchen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因微阵列是实验分子生物学中的一个前所未有的突破,其使得研究者可以同时监测多个基因在多个实验条件下的表达水平的变化,进而为发现基因协同表达网络、研制药物、预防疾病等提供技术支持。随着基因微阵列技术的飞速进步,大量的基因表达数据和相应的挖掘结果(保序子矩阵,Order-Preserving SubMatrix,OPSM)积累下来,同时也不能方便且完全的为生物学家所利用。因此,亟待研究和设计探索与分析这些丰富数据资源的相关方法与技术。近年来,学术界提出大量的关于基因表达数据中保序子矩阵OPSM的批量挖掘的算法,且具有良好的挖掘性能。当面对海量的、含有噪声的且分布式并行环境时,已有的OPSM挖掘方法存在如下问题:(1)在分布式并行环境下,如何在减少数据通信并充分利用计算资源的情况下,保证挖掘结果的准确性与完整性;(2)如何不通过挖掘而直接从索引好的基因表达数据中检索出所需要的OPSM;(3)如何为大量积累的OPSM设计索引与查询技术,使用户获得良好的查询响应;(4)如何使用自定义约束来提高OPSM查询的相关性与响应速度。本文以基因表达数据中局部模式的挖掘、索引与查询为研究背景,针对上述问题进行了深入研究,提出了相应的适用于数据密集型计算环境的挖掘、索引与查询方法和优化技术。本文的研究工作得到了国家“973计划”课题、国家自然科学基金重点项目、西北工业大学研究生创业种子基金的支持。本文的研究内容以及创新点主要体现在如下几个方面:(1)基于蝶形网络的基因表达数据的并行分割与挖掘方法指出现有分布式并行系统存在的不易并行等问题。为了快速挖掘基因表达数据中的保序子矩阵(OPSM),提出了基于蝶形网络的基因表达数据的并行分割与挖掘方法。其扩展了Hama BSP框架,使得节点在每个超步中只需要与指定的某个节点通信即可,且最多使用log2N个超步。实验表明,所提出方法弥补了Apache Hama系统的处理框架BSP的不足,减少了信息传递量,加速了处理速度。同时从理论上证明了该方法能保证挖掘结果的完整性。(2)基于关键词的OPSM查询关键技术研究保序子矩阵OPSM的快速检索对生物学家寻找某种生理功能模块起着重要作用,但现有大多数方法需要通过挖掘来实现。为了跳过挖掘而直接通过索引数据来检索OPSM,提出了带有行列表头的前缀树索引方法、基于行/列关键词的精确/模糊查询技术以及多类型OPSM查询方法。通过大量实验证明了该方法的有效性与可扩展性。(3)OMEGA:OPSM并行挖掘、索引与搜索工具的设计与实现设计和实现了基于蝶形网络和带有行列表头的前缀树索引的OPSM并行挖掘、索引与检索系统。(4)OPSM的约束查询关键技术研究为了提升OPSM查询的相关性,提出了基于枚举序列与多维索引的两种查询方法。其利用自定义约束从提出的两种索引中搜索相关结果。在真实数据集上的实验结果表明:与蛮力搜索方法相比,基于枚举序列与多维索引的两种查询方法能够更准确有效地检索OPSM。为了进一步减少索引的大小,提出了基于数字签名与Trie的OPSM索引与查询方法。实验结果证明了查询方法的有效性与准确性。
其他文献
今年春天以来,我国电子商务的发展进入了一个"黄金期".电子商务所具有的不受时间、空间限制和无需人员直接接触的优势,在今年"非典"期间凸现出来,我国的电子商务在这一次偶然
这几天,一条“医学生论文致谢林俊杰”的话题被推上新浪热搜。这一事件的主人公是来自浙江大学医学院的研二学生胡江华。5月2日,她在世界科学界最权威的期刊数据库SCI中发表了
报纸
如何利用社会网络信息来寻找一个合作高效、高质量的团队,已成为热门的研究话题.但现有团队生成问题中对个体拥有技能的度量大多都采用0-1方式,而在实际应用中如何界定个体是
随着城镇化的加速前进,我国正面临着城市用地需求、生态保护以及耕地安全三者之间的矛盾。解决这三者之间矛盾的有效途径是城市土地不但要发挥土地的承载功能,而且要突出土地的生态功能,合理配置土地资源,优化土地利用布局,以集约换取生态空间,以生态提升集约水平,实现城市土地集约与生态协同利用,促进城市健康可持续发展。本文按照地形地物的边界一致性、行政区划的相对完整性和基准地价的一致性等原则初步划分若干功能区为
杉木(Cunninghamia lanceolata)是我国亚热带地区重要造林树种,地力衰退和养分归还慢是限制杉木人工林持续生产力维持的重要因素,而凋落物分解释养是杉木林养分归还土壤的重要途径。在人工林集约经营模式下,施肥(N、P添加)成为改善林地养分供应和维持生产力的重要措施,但施肥会同时改变凋落物分解的内在和外在条件影响分解过程。目前,由N、P添加引起的凋落物质量变化导致的凋落物分解过程的改变
今年年初以来,17万立方米级大型液化天然气(LNG)船市场出现了一波“小阳春”。截至8月,今年全球成交17万立方米以上LNG船新船订单已达到35艘。作为“明珠船型”,LNG船订单的猛增吸
学位
对于直流馈入受端电网,避免换相失败与维持电压稳定是两个重要问题。为降低换相失败发生风险,实际直流控制系统通常配置有换相失败预测控制功能模块。扰动过程中,预测控制通过减
语音是人类最主要的交流方式,人类通过语音传递讯息、表达情感。随着计算机技术的发展,我们开始研究如何让计算机能够“听懂”人类的语言,于是语音识别应运而生。一直以来,语音识别都被看做是连接人与机器之间的纽带和桥梁,它能够帮助人们简化工作流程,提升工作效率,使人机交互变得更加便捷、高效。因此在很多领域都得到广泛的使用,并且在许多未开发的领域有很大的发展前景。远场语音识别是语音识别领域的重要分支。该技术在
建设具有强大凝聚力和引领力的社会主义意识形态,是以习近平同志为核心的党中央面向21世纪和中华民族伟大复兴的现实要求,提出的社会主义意识形态建设重要任务。社会主义意识形
报纸
从资企业产负债表、利润表、现金流量表所展现的财务活动以及资金往来对企业的竞争力进行评析非常重要。本文以企业资金管理的上下游关系、企业的现金流、企业的可持续盈利能