生物医学文献中的蛋白质名识别

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zhiyuanszy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于人类基因组计划(HumanGenomeProject)的实施以及分子生物学、信息科学的发展,DNA、RNA以及蛋白质等生物数据量空前增长,同时功能基因组和蛋白质组的大量数据已开始涌现。生物医学文献的数量也是在迅速的膨胀,数据不等同于知识,但却是信息和知识的源泉。激增的数据背后隐藏着许多重要的信息,如何从海量的医学数据中抽取知识成为当前一个研究的热点,要从生物医学文献中抽取知识,首先要做的就是正确识别文献中出现的大量的生物实体名。实体识别准确率的高低直接影响着数据挖掘系统的好坏与否,因此实体识别在生物医学文献的挖掘中成为关键性的一步。 目前对于实体识别采用的方法主要有以下几种,基于人工组织规则的方法,基于词典的方法和基于机器学习的方法,比较常用的就是基于词典的方法和基于机器学习的方法。词典法可以提供实体名的ID信息,机器学习法可以在训练中逐步提高自己的识别能力,但是由于生物实体名的特殊性,比如没有统一的命名规则,同一实体,可能会有不同的命名,两种方法还都没有达到理想的效果,第一个问题就是由于蛋白质名拼写的多样性造成了大量的错误的识别。另一个问题就是很多的蛋白质名是由两个或两个以上的单词组成,多个单词组成实体名就出现词序问题,词典中只有一种最常用的排列,而常用的搭配算法很难把文献中出现的其他的顺序的实体名全部找到,因而造成很多变形写法不能识别。因此不能简单的通过查找在词典中出现的词作为目标词。机器学习方法经实验证明是一个非常有效的方法,只是它不能提供关于被识别词条的验证信息。另外机器学习的方法需要大规模的训练文本来提高识别能力,但是目前这样的训练文本还不够多。 本文就生物实体识别进行了研究,结合了词典法和机器学习法的优点,提高了识别的准确率和查全率,识别过程包含两个步骤:一是识别阶段,即通过蛋白质名词典和近似匹配算法确定蛋白质名候选词,解决了拼写的多样化的问题,提高了查全率;二是过滤阶段,即通过机器学习方法训练一个分类器,把利用近似匹配算法错误识别出来的假蛋白质名过滤掉,以提高识别的准确率。但是仍然有些问题没有解决,例如词序颠倒的问题,本文做了一些改进,引入了DICE系数和首词计算法,提高了查全率,同时解决了词序颠倒的问题,并且降低了计算量。试验结果表明改进是有效的。
其他文献
三角网格曲面上褶皱、尖点、边界等几何特征的提取,在理论和实际应用上都有重要的意义[16,35].特征检测问题与曲面重建有密切的联系,而曲面重建又在激光范围扫描、科学计算、计
对于极坐标系下的波动方程,首先通过引入合适的对偶变量将其化为Hamilton系统,并基于Bessel函数的性质证明了导出的Hamilton算子矩阵本征函数系的完备性定理,最后利用展开定理给
本文基于个体的有限理性,结合经典的n人有限非合作博弈中Nash平衡点的精炼思想,旨在对群体博弈Nash平衡点进行精炼研究。由此,我们提出了有限理性下群体博弈中的三种平衡点,并推
本文主要研究非线性合作型p-Laplacian方程组的特征对(Eigenpair)的数值计算问题。首先,利用Rayleigh-quotient公式将合作型p-Laplacian方程组的特征对问题转化为Rayleigh-quo
图的染色理论是图论中的一个重要分支.图的染色种类有很多,诸如边染色、点染色、面染色和全染色等.其中研究最多,结果也较完善的就是图的边染色.图的正常的边染色就是把图的边集分
函数空间上的算子理论作为现代数学的重要分支,它与量子力学,微分几何,线性系统和控制理论,甚至数论等学科都有着出入意料的联系和相互渗透,已经越来越受到人们的重视,现在已经形成
  本文对最近的Acquair提出的利用同态加密和混合网构造无收据的电子投票,我们分析其中的不足,提出了一个新的不需要物理假设的无收据性的电子投票,而且满足电子投票的其他性
本文主要利用杨卫国教授独创的鞅方法与纯分析法结合的方法继续这方面的工作。全文共分为五章:  第一章是绪论部分,介绍了本论文的选题背景,并对已有的工作作了扼要的介绍;  
无网格方法是目前国内外数值分析研究的热点之一,以移动最小二乘近似为基础的无单元伽辽金法(EFG)就是无网格法的一种.它采用移动最小二乘近似构造近似函数,利用Galerkin法得到