基于词表示方法的生物医学命名实体识别

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:outerwy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学命名实体识别主要是对生物医学文本进行有效的分析,进而识别出DNA、RNA、蛋白质等命名实体。它是生物医学信息处理的关键环节,是进行蛋白质关系抽取等任务的前提。本文主要工作:(1)目前生物医学命名实体识别主要采用统计机器学习方法,研究主要集中于学习算法上,而对特征选择方面的研究较少。采用的特征大多是专家根据专业的领域知识制定的,并且存在冗余特征,冗余特征会增加计算时间、空间复杂度,影响分类器性能。本文总结了生物医学命名实体识别任务中常用的词汇特征、拼写特征、构成形态特征等特征,利用两种不同特征选择方法对原始特征集进行选择,达到去除冗余特征,提高系统性能的目的。在对特征选择的基础上,利用序列前向选择方法对条件随机场的特征模板进行优化选择,通过优化选择,有效提高了系统的分类性能。(2)目前采用机器学习方法进行实体识别时,大多依靠人工根据领域知识和经验制定特征,并且这些特征缺乏深层次的语义信息。为了探究语义信息对命名实体识别的影响,本文尝试在大规模未标注数据上进行训练,自动获得含有深层语义信息的特征,采用三种词表示方法:词向量、基于词向量的聚类和布朗聚类。然后将这些词表示作为CRF和SVM的特征并组合最优特征子集进行半监督学习,在相同条件下进行对比实验。实验结果表明,词表示方法能有效地学习到潜在的语义信息,从而提高现有基于机器学习系统的性能。在未利用词典等任何外部资源的情况下,公共评测语料BioCreative Ⅱ GM上的实验结果为:精确率、召回率、F值分别达到91.11%、86.05%、88.51%。
其他文献
随着高等职业教育在我国长足发展,高等职业教育所培育的技能型人才在我国生产、生活等各行业起着生力军的作用,但近几年高等职业教育在发展速度、规模、自身所培养的人才质量
深入研究和探讨淄博市科技支撑城乡统筹发展,一是有利于加快城乡统筹发展,实现建设淄博为区域性中心城市的目标;二是有利于找到科技创新促进城乡统筹发展的制约因素;三是有利于为
在两次世界大战之间的欧洲外交舞台上 ,环绕英国、法国、德国、意大利和苏联等大国周围的众多欧洲中小国家 ,其外交取向大致可以分为投靠法西斯、保持中立和追随英法三种类型
信息技术发展及其越来越广泛的应用,为教育变革提供了似乎无穷无尽的想象空间和探索空间。人们往往还没有来得及真正了解已经发生的事,又不得不于匆促间面对新的变化以及随之而
长期以来,农业、农村、农民问题一直是决定我国全面建设小康社会进程和现代化进程的关键性问题,也是关系党和国家工作全局的根本性问题。没有农业的牢固基础和农业的积累与支持
模拟审判是一种理论与实践相结合,将知识转化为能力的实践性教学活动。其价值取向是培养具有实务能力的应用型法律人才。践行模拟审判教学活动,必须转变观念,树立以能力培养
陆丰市地方剧种正面临发展前景黯淡的困境,通过对其进行旅游开发,既有利于陆丰市旅游业发展,也有利于剧种的保护。文章采用文献分析法、定量分析与定性分析结合法与实地调查法,在
<正>从2013年的7月,我们开始持续探讨"问题生教育"。在2014年的1月,我们满怀忐忑和热忱地推出"问题生教育"的最后一次集中探讨。沉迷于恋爱的学生、偷窃成性的学生、冲动攻击
期刊
财政可持续性要求硬化地方预算约束、保持财政收支之间互动性,本文采用面板VAR模型基于2007-2015年省级层面的财政收支数据,分析省级政府的财政收支互动关系,从而寻求加强收
在消费时代和富裕社会,以建构核心消费理念和富裕观念为引导,着力培养全民的健康消费方式和理性对待财富行为是德育的积极对策,是体现消费与富裕本质的客观要求,是统领现实多