【摘 要】
:
随着生物信息学的发展,生命科学数据呈爆炸式增长,迫使人们寻求强有力的数据管理和分析工具。数据挖掘是目前最有效的数据分析手段,用于发现大量数据所隐含的各种规律。在生
论文部分内容阅读
随着生物信息学的发展,生命科学数据呈爆炸式增长,迫使人们寻求强有力的数据管理和分析工具。数据挖掘是目前最有效的数据分析手段,用于发现大量数据所隐含的各种规律。在生物序列分析中,数据挖掘技术有着非常广阔的前景,对于提高数据处理能力、产生有价值的生物学知识起着重要作用。生物序列模式挖掘是生物序列数据挖掘的一项重要研究内容,它对指导基因的识别和功能注释、非编码区功能元素的识别、蛋白质序列组成信息(如功能域或结构域)的识别等具有重要的意义。生物序列频繁模式挖掘和生物序列特定模式挖掘是生物序列模式挖掘中两个重要的研究内容。针对传统生物序列频繁模式挖掘算法会在挖掘过程中产生大量短的模式而导致的挖掘效率低下的问题,本文提出一种基于模式划分的生物序列频繁模式挖掘算法MBioPM。MBioPM算法采用模式划分的方法,挖掘时能从一个指定较长的模式长度开始挖掘,避免了产生大量的短的生物序列模式,明显提高了挖掘的运行时间效率。实验和分析证明了该算法的有效性。为了解决传统生物序列特定模式挖掘算法在挖掘过程中需要两两比较子序列从而导致挖掘效率不高的问题,本文提出一种基于MD索引结构的生物序列特定模式挖掘算法MSATR。MSATR算法在挖掘过程中只需要比较相邻的模式,就可以得到满足条件的生物序列特定模式。由于MSATR算法避免了不相关模式的比较,大大提高了挖掘效率。实验和分析证明该算法是有效的。
其他文献
网格技术利用网络将地理上分布的计算机组织成为一个虚拟的超级计算机,充分吸收网络上的各种资源,使用户可以方便的使用高性能计算能力、昂贵的实验设备及其它稀有的资源,从
反病毒虚拟机技术是当今反病毒领域的核心技术之一,作为病毒检测的辅助手段被广泛应用。由于理论和技术上的缺陷,目前的反病毒虚拟机对系统运行机制的模拟不足、扩展能力差,对于
随着计算机网络的飞速发展,各高校网络规模的扩大,计算机网络监管的问题日益突出,给机房管理带来了巨大的压力。与人工管理效率低下相比,自动的网络监控软件的越来越显示出其
当前,推荐方式通常被分为三类:基于内容的推荐方法,协同过滤推荐方法和混合推荐方法。基于内容的推荐是为客户推荐其以往偏爱的产品的相似产品。它没有考虑到用户反馈的信息
在计算机辅助设计和制造系统中,每种系统都有自己规定的数据格式。由于存在众多的数据格式,给产品模型的信息集成、共享和交流带来了巨大的障碍。因此旨在交换图形数据的格式
在网络信息时代,企业和机构都在通过internet寻找新的商机和新的业务开展途径。与此同时,他们必须确保公开信息的信息资产的安全。随着客户、员工、合作伙伴和供应商的数量不
随着现代社会的发展和人们安全意识的提高,越来越多的重要场合,如车站、机场、银行、政府部门、居民社区等,都需要对人的身份进行鉴别。生物特征识别是一种利用人的生理或行
伴随着网络的发展,文本分类技术成为信息处理领域中重要的研究方向,通常用于处理和组织大量文本数据。蒙古语在中国来说是少数民族语言,蒙古文信息处理发展较慢,但在民族文化
蒙古族现在所使用的文字有传统蒙古文、托忒蒙古文和新蒙文三种文字。目前这三种文字主要采用人工转写的方法来实现文字之间的转换。当今时代是高科技迅速发展的信息化时代,
云计算作为计算机行业新兴技术的一个重要组成部分,其运行性能的好坏直接影响到处理大规模问题的效率。对此,探求优化组合智能算法是目前云计算研究的重要任务,同时也具有相