生物医学文本中基因名识别的特征选择方法研究

来源 :青岛大学 | 被引量 : 0次 | 上传用户:shiyiyiyiyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学文本中隐含着不断更新的生物医学知识,从这些知识中可以发现基因同疾病之间的关系、基因同蛋白质之间的关系。因此,准确的进行基因名识别是抽取出这些关系的重要前提。融合多个特征来识别基因名的机器学习方法,己成为该研究的公认有效方法,这类方法一般假设采用的特征对于基因名的识别是有效的,而对特征间的关联考虑不足。为解决这个问题,本文主要做了如下工作:使用Global Linear模型作为识别框架,对多种类型的特征进行组合,建立感知机模型来识别基因名,发现了对基因名识别较为有效的特征集合。使用该特征集合进行基因名识别时,以标识特征和多元语法特征为主,词形特征和词法特征为辅。从中选出标识特征和词形特征,建立决策树进行基因名识别。基于同样的数据集,将两种模型得到的结果进行对比,决策树模型的精确率更高。对决策树进行剪枝,比较剪枝前和剪枝后的识别结果,剪枝后的决策树的精确率又有一定的提高。
其他文献
数字签名是对传统手写签名的电子模拟,是随着公钥密码体制的建立而产生的一个新的密码学应用方向,和传统手写签名一样,数字签名是一种认证机制,保证了消息的来源和完整性,所
医学诊断领域,超声成像诊断设备因为其经济实用、无侵袭、无损伤、对人体影响小、低成本、适应性广等优势,在临床诊疗中得到了广泛应用。随着计算机在生活中的普及与软硬件资源
无线自组织(Ad hoc)网络是一种无需基础设施且具有自组织能力的分布式临时自治网络系统。无线Ad hoc网络的易部署、终端可移动、灵活便捷以及可扩展等特性使之具有广阔的应用
本文首先分析配电自动化系统和配变终端国内外研究现状,针对国内现有配变终端存在问题,在对配变终端及相关国家标准充分调研基础上,确定配变终端基本功能及技术指标,借鉴当前国内
更快速地渲染出更具有真实感的人脸,对于虚拟现实,影视娱乐,医学仿真,信息安全等领域都有着重要的意义。因此,实时真实感人脸的渲染技术在应用领域中拥有广阔的前景,其也一直
随着网络社交平台的崛起,海量主观性信息迅速涌现。鉴于这些主观数据往往具有巨大的潜在价值,情感分类、观点挖掘等领域逐渐引起了广泛的关注。然而传统的情感分类具有领域特
微博用户网络是一个涉及普通用户、名人等多类用户要素以及其间关注、推文、转发、评论等多种行为关系的复杂网络,以往对微博用户网络的研究通常仅对一种关系进行讨论,忽略了
随着人们对高速高质量数据传输,以及高容量、大带宽需求的日益增加,每个超级通道以每秒太比特的速率传输成为发展趋势,因此,基于波分复用(WDM)的光网络成为研究热点。在基于波分
光通信网中的传送网和接入网这两个领域目前正朝着高速大容量方向发展,在有限带宽的情况下如何提高通信容量越来越受到关注。偏振复用可以用来提高单根光纤的通信容量,而单载波
为了充分利用彩色成像丰富的纹理细节,及热红外成像在夜视和不良天气条件下的稳定性,应用数据融合的理论和方法,综合热红外与可见光传感器的互补信息,进行图像目标检测。该方法能