【摘 要】
:
命名实体识别(Named Entity Recognition,NER)是自然语言处理的基本任务,在信息抽取中扮演着重要角色。医学命名实体识别是针对医学领域数据的信息抽取任务,对医疗信息化建设、医学问诊的开展起着重要作用,因此本文针对中文医学领域实体识别方法展开研究。命名实体识别方法经历了从早期基于规则的匹配方法、基于特征模板的统计方法、基于神经网络方法,直到近年来出现预训练加微调方法,在通用领域
论文部分内容阅读
命名实体识别(Named Entity Recognition,NER)是自然语言处理的基本任务,在信息抽取中扮演着重要角色。医学命名实体识别是针对医学领域数据的信息抽取任务,对医疗信息化建设、医学问诊的开展起着重要作用,因此本文针对中文医学领域实体识别方法展开研究。命名实体识别方法经历了从早期基于规则的匹配方法、基于特征模板的统计方法、基于神经网络方法,直到近年来出现预训练加微调方法,在通用领域语料中性能得到了显著提升。但是在临床医学领域中,由于存在较多的术语或非规范用语等情况,且训练数据较为缺乏,普通的神经网络模型无法有效地从中提取知识信息,传统的迁移学习方法所带来的性能提升也有限,导致NER模型的性能表现欠佳。此外,领域差异问题也为医学数据增强带来困难,容易导致增强样本质量低、分布偏差大等问题。由此本文针对医学领域的实体识别任务,分别从挖掘字向量表示、语料增强扩充和模型迁移三个方面进行创新和改进,有效地提升了电子病历语料的实体识别性能。本文的主要研究内容和贡献如下:(1)提出基于主动学习的数据增强方法,使用神经网络模型作为样本查询机制,通过领域分类模型和实体识别模型分别计算样本的领域相关性和标注确定性得分,以指导样本的选择和标注决策,有效地获得领域关联性强的样本并提高了伪标签质量,进而构建医疗领域NER增强语料库;(2)提出多元字结构特征融合方法,设计基于自注意力的笔画和拼音模型以挖掘细粒度字结构信息。通过在笔画和拼音模型中融入位置编码、部首编码和声调信息获得笔顺、偏旁部首、音素和音节等特征,进而捕获字结构、组成、读音等信息。通过预训练获得笔画和拼音编码器,并融入医疗领域实体识别模型进行微调,以获得性能的提升;(3)提出知识蒸馏的轻量级实体识别模型训练方法,利用经医疗领域数据预训练的语言模型作为教师模型来优化学生模型的知识表示,采取预训练、提示学习和微调的三阶段知识蒸馏来逐步训练出参数少、耗时低且性能高的实体识别学生模型。在提示学习阶段中使用了不同的提示模板,有效地增强了模型对下游任务的理解,提升实体识别任务的性能。我们将上述方法用于CCKS2017和CCKS2018电子病历语料库进行实验,并与医学实体识别相关的方法和模型进行对比和分析,实验结果表明本文的方法有效地提升了医疗领域实体识别的性能。
其他文献
随着我国住房需求趋于饱和、城镇化率增速放缓,我国正全面步入存量房时代。由于二手房交易市场信息不对称、房源信息分散、交易流程复杂等原因,人们往往会选择房产中介促成交易。但是,由于我国中介有关立法不完善、委托人诚信缺失、中介行业佣金偏高、服务质量参差不齐等原因,现实中“跳单”行为频繁发生,委托人与房产中介之间的矛盾也因此日益加剧。司法实务中法院对“跳单”纠纷的裁判思路也不统一,由此折射出我国房屋买卖中
本文以网络痕迹信息的民法保护为主题,全文共分为五个部分:第一部分,首先介绍网络痕迹信息依附于互联网产生,其具有信息数量庞大、存储时间长、处理行为隐蔽性强以及转移迅速等特征。在大数据产业日益繁荣的背景下,不免存在商业主体为获取利益,不当利用此类信息的行为,从而不同程度地侵害了网络用户的个人权益。因此,从民法领域保护网络痕迹信息具有重要的现实意义。第二部分,在梳理我国现行法律对网络痕迹信息的规定及司法
运动想象作为脑电信号重要范式之一,在医疗康复、军事交通、游戏娱乐等方面有着广泛的应用前景,因此对运动想象脑电信号的识别展开研究具有重要意义。在传统方法提取运动想象脑电信号特征时,大多数研究只考虑时域、频域及空域信息中的单一维度或者两个维度的信息,较少发掘维度之间的内在联系,难以做到全面提取脑电信号特征;在利用深度神经网络进行运动想象脑电分类时,多数研究没有兼顾效率与准确率的关系,深度网络难以部署在
随着邮轮旅游产业的蓬勃发展,公海上邮轮旅客人身损害事件层出不穷,越来越多的旅客在遭受人身损害后诉诸法院寻求救济。然而机械僵化的连结点与公海这一地点之间无法兼容,一般涉外侵权法律适用规范在面对此类侵权关系时稍显吃力,准据法选择的困境阻碍了案件审理的推进,被称为中国邮轮旅客公海侵权第一案的羊某某邮轮溺水案充分暴露了这一问题。面对依据现有法律规定选择准据法不合理的结果,基于公海上邮轮旅游的特点探究公海邮
优化营商环境,是政府通过优化市场主体准入、生产经营以及退出行为的政务环境、法治环境、人文环境、市场环境等环境,从而达到激发市场活力、解放与发展生产力的目标。2020年1月1日,《优化营商环境条例》正式施行,优化营商环境从政策要求转化为法律调整,这从一定程度上体现了优化营商环境的法治化水平得到了制度性确定。而在优化营商环境的大背景之下,我国铁路行政许可制度也迎来了新的机遇和新的挑战。本文第一部分简要
<正>非物质文化遗产是一个国家和民族历史文化成就的重要标志,是优秀传统文化的重要组成部分。汉中市非物质文化遗产共计92项,其中6项进入国家级非物质文化遗产名录,65项进入省级非物质文化遗产名录,种类涵盖民间文学、表演艺术、工艺美术、传统生产知识与技能、传统生活知识与技能、传统节日、传统仪式、文化空间等八大类。这些非物质文化遗产是汉中人民宝贵的精神财富,有着非常重要的文化价值,具有独特的地域性、传承
慢性心血管疾病在众多老年慢性病中发病率极高,由于治疗周期和康养护理周期漫长,以及高复发率和致死率的特点,严重影响了社区老年人的身体健康和生活质量。传统的心血管病治疗模式聚焦于帮助老年患者缓解病痛延长寿命,而忽视了心血管病早期干预与患者自我管理的预防性工作,居家环境下长期照护需求得不到满足。然而在移动互联时代,慢病管理已经不再局限于传统治疗的方式,更加强调了借助信息化手段实现慢病预防和自我健康管理。
自2020年以来,随着播客迎来飞速发展,音频新闻也成为媒体重新获得订阅用户和消费者信任的新形式。新闻机构和经验丰富的媒体人在客户端或综合音频平台上推出新闻类播客也渐渐成为一种趋势,这共同推动了音频新闻的发展。但目前国内音频新闻发展仍处于初期探索阶段,平台的节目数量、内容质量以及服务质量都有待提升。为了解用户在新媒介环境下的使用动机和行为,促进国内音频新闻发展和新闻业转型创新,本研究分析了音频新闻用
近年来,中国铁路工程建设发展迅速,铁路已成为人们交通出行、货物运输的重要交通工具。然而,随着装备水平和管理能力的提升,铁路运输网络不断扩大,行车速度和密度也大幅增加,导致铁路事故一旦发生就极易造成严重危害。此外,随着铁路设施设备日益智能化、一体化,各种复杂繁琐的操作指令得以简化。但这种简化使得指令作用范围变大,导致人为失误带来的事故后果被放大。同时,众多研究表明,人为因素在事故中出现的频率极高,具
新《证券法》和《上海证券交易所科创板股票上市规则》(以下简称《科创板股票上市规则》)的发布代表着双层股权制度的法律地位正式确立,双层股权结构的产生,是投资者与公司创始人之间相互博弈的结果,其本质形式是将公司的控制权利和所有权益进行剥离,形成同股不同权的双层股权形式。放开双层股权结构的限制条件,势必会引发一些乱象,尤其是针对中小股东在双层股权结构下的权益保护问题。因此本文将从双层股权结构下中小股东与