基因表达数据聚类和分子结构数据库搜索

来源 :复旦大学 | 被引量 : 0次 | 上传用户:roytseng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是一门内涵非常丰富的交叉学科,该学科的核心研究内容是使用计算机科学与技术对生物学研究的实验数据管理、统计、分析并预测,其作用已经渗透到现代生物学研究的各个主要领域和阶段。生物信息学是当前计算机科学研究中的一个热点领域。由于研究对象的背景不同,生物信息学与传统的计算机科学具有相当不同的研究特点和方法。在这个领域不断有开放性问题涌现,同时已有问题也仍然需要新的方法与技术以适应不同的应用情况。 本文深入讨论了在生物信息学研究中的两个热点问题:基因表达数据聚类分析和结构数据库搜索。我们汇总了在这两个问题上已有的工作,对其中有价值的思想,方法和技术做了总结与评估,在此基础上,提出了用于新型基因.样本.时间微阵列基因表达数据的聚类算法gTRICLUSTER和用于化学化合物分子结构数据库的子结构搜索算法GString。 与传统的聚类算法不同,gTRCLUSTER用于从新型的GST微阵列数据中挖掘一致性三维聚类簇。与已有的方法相比,gTRICLUSTER突破了强加的限制,使用了更为通用的三维聚类模型。因此,gTRICLUSTER能够找出有可能被已有方法忽略但却具有生物学重要性的一致性基因聚类簇。在真实数据库上进行的实验验证了该算法的有效性,同时显示gTRICLUSTER具有良好的噪音鲁棒性。合理地运用gTRICLUSTER可以充分利用新型微阵列数据的优势,给用户提供有用的信息。 GString是针对化学化合物分子结构数据库进行子图搜索的算法。我们从领域知识得到启发,将语义信息记录在用于表示结构的字符串中,使用合适的方法对这些字符串构建索引以支持有意义的子结构搜索操作。对于给定的查询,我们使用这些索引过滤图数据库,得到较小的候选集,减少需要进行的高时间复杂度的子图同构匹配。GString也能很方便地支持相似子图搜索问题。在真实数据集上的实验表明,与已有的方法相比,GString在索引大小,索引构建时间,索引过滤效率和准确率等主要性能指标上取得较好的平衡。在上述工作的基础上,我们开发了一个原型系统。
其他文献
随着Internet的普及和WWW的迅猛发展,人们可以通过网络在浩瀚的信息海洋中漫游。然而,由于信息的爆炸式增长,很多Web经验不足的用户经常会“迷失”在其中,他们往往因为找不到所需
随着语义网出现,提出了一个人工智能网络与人类世界结合的远景,作为文化艺术领域内的概念参考模型也经过多年的发展,产生了一些针对文化遗产、可应用在博物馆领域知识底层的本体
Internet的出现和普及使计算机应用已经全面进入Internet时代,软件构件也经历了从传统集中式应用构件到分布式的松耦合网络构件的变革。网络构件是一种崭新的分布式计算模型,是
计算机技术、传感器技术以及通信技术的不断发展,有力的推动了数据采集系统的不断发展和创新。数据采集系统在当今工业设备检测诊断中起着关键作用,本文以宝钢工业技术服务有限
近年来数据挖掘引起了信息产业界的广泛关注,其主要原因是存在大量的可用数据,并且迫切需要将这些数据转换成有用的信息和知识。通过数据挖掘,可以将知识发现的研究成果应用
生物特征识别横跨了计算机技术和生物技术两大科技领域,近年来已广泛应用于金融、公安、军事等领域。鉴于单模的身份识别技术在准确率、用户接受程度、成本等方面都有不同的缺
无线传感器网络(WSN)作为一种集成了嵌入式计算、传感器、网络和无线通信等技术的新一代通信技术,已在各个领域得到广泛的应用。其中,网络能耗问题目前是限制其发展的一项关
分形理论是现代数学的一个分支,它研究局部与整体具有自相似性的对象。这些对象的空间维数既可以是离散的也可以是连续的,既可以是整数也可以是分数。自然界中存在大量的这类对
在交通车辆的自动监控、遥感图像的分析与处理以及模式识别等领域,由于成像条件的限制,会造成所获取的图像中存在各种各样的阴影,从而影响系统分析判别的准确性,因此,阴影处理的研
成像测井是地球物理探测的重要手段,裂缝识别是成像测井的重要目标,而裂缝图像处理是影响裂缝识别效果的关键因素。 本文对基于数学形态学的裂缝图像处理方法进行了研究。介