生物序列模式挖掘与识别算法的研究

被引量 : 2次 | 上传用户：luozd

【摘要】

：

生物信息学是综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科,它是整个生命科学发展的重要组成部分,已成为生命科学研究的前沿。

【作者】

：

刘维

【发表日期】

：

2010年01期

【关键词】

：

数据挖掘生物信息学模式挖掘模式识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

生物信息学是综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科,它是整个生命科学发展的重要组成部分,已成为生命科学研究的前沿。生物信息学的核心是基因组信息学,包括基因组信息的获取、处理、存储、分配和解释,即以计算机、网络为工具,用数学等科学理论、方法和技术研究生物大分子,主要包括脱氧核糖核酸(DNA)和蛋白质(Protein)的序列、结构和功能。基因组信息学的关键是“读懂”基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能,这对于人类疾病基因发现、基因与蛋白质的表达与功能研究、合理化药物设计等方面都有着重要的意义。为了能达到上述目的,生物序列模式挖掘和识别是其重要的两个关键技术。本文针对生物序列模式挖掘和识别研究中的关键问题,主要研究了生物单序列、双序列频繁模式挖掘的研究和算法设计;生物数据的嵌入式频繁子树挖掘研究和算法设计;基因调控元件的识别以及CpG岛的位置识别等问题。取得的研究成果如下:(1)提出了生物单序列及多序列频繁模式的快速挖掘算法。针对传统生物序列频繁模式挖掘算法会在挖掘过程中大量构建投影数据库并产生大量短的模式而导致的挖掘效率低下的问题,本文分别提出了基于基本模式前缀树的生物单序列频繁模式挖掘算法SSPM和多序列频繁模式挖掘算法MSPM。算法挖掘时能从基本模式长度开始,避免了产生大量的短的生物序列模式,同时运用基本频繁模式前缀树进行模式扩展,避免了不相关模式的干扰,实验结果证实这两个算法不仅明显提高了挖掘效率,并能得到有效的挖掘结果。(2)提出了一种基于嵌入式子树结构的生物数据挖掘算法,应用嵌入式频繁子树算法挖掘RNA分子的公共拓扑模式。针对目前生物数据挖掘过程中存在的生物数据量大、序列模式相似度高等问题,本文提出了一种快速高效的频繁嵌入式子树挖掘算法IRTM。该算法采用垂直方式挖掘,引入了独特的字符串编码方法表示树,同时利用域表(Scope-List)进行子串扩增和频繁性测试,加以优越的剪枝技术极大地压缩了搜索空间,加快了运行速度。通过与经典的Patternmatcher算法以及TreeMiner算法的对比实验表明本文算法极大提高了挖掘效率,具有更加优越的性能。(3)提出了一种基于蚁群优化的基因调控元件识别算法。针对已有的算法大都存在容易过早陷入局部最优以及时间复杂度过高等问题,本文提出了一种识别基因调控的新型优化算法ACRR(ant-colony-regulatory-recognition)。该算法利用蚁群优化算法能够较快求解复杂优化问题的优越性来解决此问题,不仅提高了解的质量,而且大大的降低了算法的时间复杂度。实验结果表明,与其他类似算法相比,本文算法所得结果的准确性更高,具有更快的识别速度。(4)提出了一种基于条件随机场模型的CpG岛的位置识别新方法。为克服已有模型的标注偏差、需要独立假设等缺点,本文提出了用条件随机场(CRFs)模型来识别CpG岛的位置的新方法。该方法将识别CpG岛的位置的问题转化为序列标记问题,根据CpG岛的位置的性质设计了相应的特征函数,通过对样本集的训练,得到样本序列和标签序列的联合概率中各个特征函数式的权重参数。然后根据所得到的分布模型,对于输入序列确定最有可能的标注序列,从而识别CpG岛的位置。通过对标准数据库数据测试,本文算法是可行的、高效的,比HMM方法有更高的准确率。

其他文献

胚胎停育72例血清雌二醇水平变化的分析

<正>早期妊娠可通过多种激素检测对胚胎发育情况进行监测并指导临床治疗,判断预后。根据检测结果,先兆流产一般均采用孕酮(P)及绒毛膜促性腺激素(HCG)保胎,一定程度影响了患

期刊

胚胎停育雌二醇早期妊娠

洛克经济思想对马克思影响的研究

自马克思政治经济理论创立至今已有一百多年的历史。在这一理论之后研究这一理论来源的文章、专著层出不穷,其中不乏真知灼见。在论及这一理论来源时,大多数学者便会讲英国古

学位

马克思洛克经济学理论

饭店服务质量的人力因素控制与管理

随着旅游业的迅猛发展,饭店行业竞争日益激烈,消费者对提升饭店业服务质量的呼声越来越高。饭店服务质量是饭店具有市场竞争力的关键,与员工服务及工作息息相关。但在严峻的

学位

饭店服务质量人力因素控制管理

《聊斋志异》中的民间信仰探析

完成于清康熙十九年(1680年)的《聊斋志异》作为一部具有独特思想风貌和艺术风貌的文言文短篇小说集,以谈狐说鬼的形式来表现当时的社会关系,保留了相当数量反映明清时期民间

学位

《聊斋志异》民间信仰狐仙鬼魂作用

一种结合热数据识别的FTL算法

NAND FLASH存储器因为其访问速度快、质量轻、无噪音、体积小、非易失和防震抗摔等特点而被广泛应用于高科技领域以及各种手持电子产品之中。NAND FLASH由于其先擦后写以及擦

学位

固态存储器垃圾回收磨损均衡flash转换层热数据

抗CCP抗体对类风湿关节炎早期诊断的临床意义

目的:研究抗CCP抗体在临床应用中对类风湿关节炎早期诊断的临床意义。方法:取我院风湿科患者84例,其中类风湿性关节炎患者46例,其他风湿病患者38例,用ELISA法检测患者血清中

期刊

抗CCP抗体类风湿关节炎

习俗难尽去

“佛事”是如皋市雪岸镇当地的一项传统丧葬习俗,在海安县、如东县、东台市等地区也普遍存在。各地在做佛事的细节上有一些区别,但做“佛事”都是丧葬过程中不可缺少的一个基

学位

佛事雪岸丧葬习俗

中国研究生“男主外，女主内”刻板印象的实验研究

性别社会化是社会心理学的主要研究内容,“男主外,女主内”是性别社会化的一种表现,是内隐刻板印象的一种。本文采用内隐联想测验和刻板解释偏差测量,考察了南京三所高校的70

学位

性别社会化“男主外女主内”内隐联想测验刻板解释偏差

高科技企业生态系统运行机制的研究

目前我国高科技企业生态系统运行机制中存在着诸如管理部门分割,缺乏有效的协调机制;重大战略性技术研发和产业化的机制缺失;国内资本市场不完善,融资渠道单一,缺乏支持企业

学位

高科技企业生态系统运行机制收益分配机制自组织演化机制系统仿真

论我国民事诉讼中的专家辅助人制度

专家证人制度是英美法系国家诉讼领域中的概念和制度,在司法实践中起到举足轻重的作用。在诉讼中,专家证人基于特有的实践经验或专门知识对案件事实提出判断性的意见,帮助法

学位

专家辅助人专家证人中立

生物序列模式挖掘与识别算法的研究

与本文相关的学术论文