基于NONCODE的生物数据挖掘与应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:bareet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
NONCODE科学数据库是一个提供给科学研究人员分析和使用非编码RNA基因数据的综合数据平台。自从2005年NONCODE数据库发布以来,非编码RNA的基因数量迅速增加,而且人们也逐步的认识到,在大多数物种中非编码RNA基因都发挥着重要的调控作用。自发布之初,NONCODE数据库就以全面收集非编码RNA基因数据为目标。经过10年的发展,NONCODE数据库已经完成了三次重大升级,成为了非编码RNA领域著名的专业数据库。2013年11月,NONCODEv4正式上线。这一版在NONCODE前三个版本的基础上,收集了2011年5月1日以后PubMed收录的4572篇与非编码RNA相关的文献数据,以及当时Ensembl和RefSeq发布的最新版非编码RNA数据。NONCODE中收录的长非编码RNA数量从第三版的73327条急剧增加到了210831条,其中人类有95135条,鼠有67628条。NONCODE为本课题进行生物数据挖掘与应用提供了一个很好的平台。  早在上世纪80年代,芯片测序的原理就已经被提出:把一组已知序列的核酸探针与未知的核酸序列杂交而进行测定。各个公司在设计芯片探针时,都是基于当时最新的基因组参考序列,但是随着测序技术的发展与应用,基因组序列和注释信息不断被更新完善,这导致一些探针集合出现了对应到多个基因的情况。另外,很多芯片最初在设计的时候,并没有把非编码RNA序列作为探针设计到芯片中,但是有研究发现,通过对芯片探针集合进行重注释,可以使用这些芯片对非编码RNA的表达量进行测定。针对芯片测序存在的这两个问题,本课题设计了新的芯片探针重注释流程,并使用此流程对Affymetrix公司设计的17款芯片进行了重注释工作。  在癌症发病机理中,致癌病毒通过诱变融合导入宿主基因组是一种很重要的机制。病毒整合位点(Viral Integration Sites,VIS)已经被观察到毗邻致癌基因、染色体脆性位点、支架/基质结合区和重复/卫星序列丰富的地区。此外,染色体重排,包括序列缺失和病毒基因组插入宿主基因组,往往都与肿瘤的发生和发展有关。近几年来,越来越多的研究证明,长非编码RNA与很多疾病相关,但至今还没有一个全面的对长非编码RNA和病毒整合关系的研究。本课题全面收集了现在已经发表的病毒整合位点数据,并对这些数据进行了整理、注释。本课题总共收集了3340条人类疾病相关的病毒整合位点数据,其中3111条数据在人类基因组上有准确的位置。对于这3111条数据,本课题还对其附近的基因进行了计算,发现这些位点分布在1730个基因(编码基因有1005个,长非编码RNA基因有725个)附近。最后,本课题还利用此次收集的病毒整合位点数据,对Dr.VIS(Disease-related Viral Integration Sites)数据进行了升级。
其他文献
激光导引头电子舱是导弹探测、跟踪目标物体的关键部件,它为导弹系统的精确制导提供了重要保证。因此,导引头电子舱产品使用前的调试和检测至关重要,它们是保证电子舱的安全性和
本文在研究基于内容音乐检索基本理论和发展动念的基础上,着重研究了基于旋律的音乐检索算法及其在哼唱检索系统中的应用,主要创新性工作为: (1)提出旋律的表示模型,建立音乐
随着我国人大信息化工作的不断深入,在法律法规信息管理和使用方面逐步暴露出一些问题:其一,信息系统重复建设情况比较严重,资源利用率不高。目前我国采用统一且分级的立法制度,
货币识别与鉴别属于图像识别范畴,一直都是计算机应用领域研究的一个热点。货币自动识别在使用电子自动化设备的银行、商业、民用等众多领域内有广泛应用前景,而通过图像处理
学位
随着Internet的迅速发展和普及,电子商务(electronic commerce)迅速成为商务活动的重要形式,并且有着极为广阔的发展前景。而建立在Internet/Intranet之上的Web服务技术是电子
干涉合成孔径雷达(InSAR)技术是目前遥感成像领域的一个热点。它具有覆盖面积大,空间分辨率高,高程精度高的优点,并且可以全天时、全天候的工作,是获取三维数字高程模型(DEM)
学位
本文以“东半球空间环境地基综合监测子午链”为课题背景,进行空间环境数据共享子系统的设计与实现。   东半球空间环境地基综合监测子午链,简称子午工程,是国家发改委批
学位
行人检测技术在智能视频监控、车辆辅助驾驶、人体行为分析等方面有着广泛的应用,随着各种视频信息的飞速增长,安全意识的不断加强,大量不同场景下的行人检测任务需求变得越来越
社交网络已经成为大众发布信息的一种新渠道,并得到越来越多用户的关注和使用。社交网络的流行和普及,使得基于社交网络的信息数量呈现爆炸式的增长,然而信息质量却没有得到相应
从上世纪90年代开始人脸识别领域的科研工作者们就一直专注于寻找适合计算机理解的人脸的有效表达。在2005年之前,绝大多数的人脸表达都是基于底层特征的,这段时间的代表性的成