【摘 要】
:
近几十年来,生物信息学实验手段和研究方法的不断突破和数据存储技术的快速发展使得领域内实验数据及相关研究文献呈现爆炸式增长。如何从规模日益增大的网络数据库中快速有效
论文部分内容阅读
近几十年来,生物信息学实验手段和研究方法的不断突破和数据存储技术的快速发展使得领域内实验数据及相关研究文献呈现爆炸式增长。如何从规模日益增大的网络数据库中快速有效的提取感兴趣的信息成为生物信息学的一大挑战。随着文本挖掘技术的兴起,将其应用在生物信息学文献挖掘领域受到了广泛的研究与关注。利用文本挖掘技术不仅能从文献数据中发现知识从而掌握领域研究现状,更可以自由构建生物信息数据库。生物学文献挖掘系统成为了现代生物学研究工作的重要组成部分。在动植物生长过程中,许多重要的经济性状都是数量性状,据此引入了数量性状座位(Quantitative Trait Locus, QTL)来描述控制数量性状的基因。现有针对某个或某些物种的QTL信息数据库,它们大多均采用人工筛选文献的方式为这些数据库搜集信息。针对这些QTL信息数据库包含信息不完整和更新不及时的问题,本文尝试将基于机器学习的文本分类方法引入生物信息数据库构建流程,从大量文献中挖掘出特定的目标文献,构建了面向作物QTL定位的文献自动分类系统。本文的研究对象是大量特定物种的生物学研究文献,其研究目标是从中分类出与物种QTL定位相关的研究文献,为构建物种QTL信息数据库提供原始数据。在研究过程中,为实现对文献的分类采用了支持向量机来进行文本分类。用于支持向量机学习的实例文献来源于各个网络权威生物信息网站,通过网络爬虫程序逐级追踪链接将这些文献信息下载存为文本文档。针对学习实例来源于不同数据库,因此可能存在的数据格式的不一致和信息冗余问题,对该数据集进行了多种形式的数据清理工作。本文的待分类文献数据来源于PubMed数据库,通过对待分类文献数据集进行量化分析,得出本文的分类任务具有不均衡数据特性。针对该问题,在文本表示阶段,利用本文分类的生物学文献特性提出了将词表示和词组表示相结合的向量构建方法,有效提高了分类精度。在数据层面,对改善不均衡数据对分类器性能影响的多种典型重采样策略进行了综合比较,同时结合支持向量机内部各核函数和参数选择方法进行了细致的实验,选择出各个核函数和多种重采样策略之间相互最匹配的组合,给出了最适合本文任务的解决方案。最后通过对单个物种和多个物种混合的大量研究文献数据集进行预测分类,验证了本系统的有效性和普适性。
其他文献
油中溶解特征气体分析是油浸式电力变压器状态检修的有效方法之一,乙炔(C_2H_2)是溶解在变压器油中的主要故障特征气体,可以有效地反映电力变压器的放电性故障问题。半导体二氧化锡(SnO_2)气体传感器由于其低成本和高稳定性等特点而受到广泛关注,用于油中溶解气体在线分析时,存在选择性差,使用寿命短等难题,因此,研究SnO_2基C_2H_2气体传感器气敏机理及检测特性对提升变压器的绝缘运行水平具有重要
色谱及其联用仪器已经成为了复杂样品定性定量分析的有效手段。然而,为复杂体系寻找满意的分离条件,有时是困难且耗时的。并且,当某些组分的物理化学性质极其相似时,即使在最
目的研究以家庭为中心的护理干预对小儿先心病术后恢复的影响。方法从2013年4月~2015年4月收治的先天性心脏病患儿中随机选取100例作为干预对象,按照就诊顺序将其平分为观察
本文主要介绍概率论与数理统计中各类分布的定义及其产生的背景,一般的统计类的书籍只是简要介绍各类分布的定义、性质和应用.而对于其产生的背景,即它是怎么来的,为什么要研
合成气合成低碳醇技术的关键是催化剂的制备,Cu-Zn基催化剂制备工艺简单,价格低廉,反应条件温和,反应活性和总醇选择性较高,引起了众多学者的广泛兴趣。助剂在改善催化剂的结
颌面部缺损不仅造成患者生理功能的障碍,而且由于损坏容貌,往往造成严重的心理疾患。部分颌面部缺损可通过颌面外科及整形外科的方法进行修复,而缺损严重无法手术重建或无法获得
体育赛事文化是人类文化不可或缺的一部分。随着社会经济的发展,体育赛事文化在人们生活中的作用越来越明显,也推动文化产业不断向前发展。研讨著作权下我国体育赛事转播节目
Al掺杂ZnO(AZO)薄膜因其原材料丰富无毒、制造成本低和光电性能优异等特点,逐步取代了铟锡氧化物(ITO)薄膜,成为了目前研究最广泛的半导体氧化物薄膜。由原子层沉积法(ALD)制备的ZnO/Al_2O_3纳米叠层薄膜因其宽范围的电阻率能够满足微通道板打拿极导电层对电阻的要求,成为了微通道板打拿极导电层的一种材料选择。本文基于微通道板(MCP)打拿极导电层薄膜的电阻要求,分别通过原子层沉积法和溶
本文针对我国农产品出口贸易的现状、存在问题,具体分析了发达国家对中国农产品所构建贸易壁垒的表现形式,以及对我国农产品出口贸易的影响.立足我国农业国际化发展的新趋势
双轴太阳跟踪器是高倍聚光光伏发电(HCPV)系统中最重要的设备,其跟踪偏差对系统的发电效率影响十分显著。太阳跟踪器在重力载荷与风载荷的作用下发生结构变形,其运行过程中推