基于全基因组的DNA序列词语挖掘

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sunnynoon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着测序技术的发展,许多生物的全基因组序列已经得到,所以摆在生物信息学家面前的问题是如何理解基因组中所蕴含的生物学机制。蕴藏着大量的控制生命活动的遗传信息的生物基因组与自然语言存在着密切关联,甚至可以说基因组本身可看作是一种细胞可读的“遗传语言”。生物基因组的词语构成分析是一个新的具有挑战性的研究。本文从语言学角度,将生物全基因组作为由词语组成的序列进行整体分析,利用计算语言学方法结合DNA序列的生物特性,进行全基因组的词语挖掘。首先针对基因组全局分析,提出了一种语言无关的真伪词分类算法;然后结合每个区域的局部特征,利用最大概率切分原理,对每条序列处理,识别并抽取出构成DNA序列形式化结构的所有词汇,为进一步DNA序列处理奠定基础;最后借助已知的功能片段来评价我们得到的结果词集。对启动子区域切分后得到的结果词集,利用已知的转录因子结合位点评价该词集,发现有78%的转录因子结合位点可以在结果词集中识别出来。对拟南芥基因组6个不同区域切分后,利用已知的人类基因组pyknons作为功能词集进行评价。发现每个区域都可以识别出已知的人类基因组pyknons,且在非蛋白质编码区域(基因间区域,启动子区域,内含子)识别出的pyknons比编码区域(编码序列,3’UTR,5’UTR)多。这一方面说明了人类基因组和拟南芥基因组中存在的一些共同调控元素;另一方面Pyknons在编码区和非编码区都有发现说明了这两个区域存在某些共同调控元素。
其他文献
基于CT图像的CAD(计算机辅助诊断)技术是目前世界上一种先进的医学影像诊断检查的临床应用技术,该技术通过对计算机图像处理技术来高效识别CT图像中的可疑病灶。CAD技术能够提高
随着人民生活水平的提高,“健康”和“疾病”成为人民关注的焦点,运用计算机技术进行疾病分析预测也成为健康医疗领域的研究热点之一。呼吸系统疾病是一类常见疾病,而且和气
随着多媒体技术、计算机技术的迅速发展,多媒体数据已经成为重要的信息资源,人们每天都可以通过互联网接触到大量的多媒体信息,如视频、图像、各类新闻等。网络新闻作为一种
海量科学数据的到来使领域科学家面临前所未有的科学数据管理困境。一方面,传统以表为数据模型的关系型数据库管理系统已经不能满足科学领域大规模科学数据的管理需求;另一方
随着通信技术的飞速发展,当今网络正在向着可以提供包括海量数据传输、音视频等各种高带宽服务的下一代网络发展。这种发展趋势对整体网络设施的网络包的处理能力与处理速度
传统的机器学习、数据挖掘算法是基于向量型数据提出的。由于结构化数据在现实应用中广泛存在,图形数据的表示和分析正得到越来越广泛的关注。由于图数据结构的复杂性,不能仅
随着应用层组播技术的不断进步和网络服务质量的不断提高,差错恢复显得越来越重要,因此,提出一种高效的应用层组播差错恢复模型显得越来越迫切。   本文首先对传统的非应用层
随着科技的发展,多媒体数据库里的图像信息越来越多,并且增长速度越来越快,它在提供大量资料的同时给我们带来了烦恼:如何对如此大的数据库进行整理与分类便于用户进行检索。
21世纪是计算机网络高速发展的世纪,但与之同时,黑客入侵日益猖獗,计算机病毒越来越泛滥,这严重影响了计算机网络的正常运行。更为严重的是,网络战争也已经出现在了我们的面
随着互联网信息的快速增长,如何对海量文本信息进行有效聚类一直是文本挖掘领域的研究热点。传统的文本聚类算法通常采用向量空间模型(VSM)进行文本聚类,但是文本向量空间存