【摘 要】
:
近年来,电子病历因具有高效、简便等优势得到广泛使用.这些电子病历蕴含了大量的医学信息,对其进行实体识别,可以提取出疾病部位、药物治疗等关键信息,有利于构建更完备的智能化电子病历系统,推动智慧医疗的建设.对中文电子病历进行命名实体识别主要存在技术和数据两方面的问题.技术层面上,目前对电子病历进行实体识别大多是从通用的预训练语言模型获得文本的向量表征,无法充分提取中文的偏旁部首等字形结构信息.数据层面
论文部分内容阅读
近年来,电子病历因具有高效、简便等优势得到广泛使用.这些电子病历蕴含了大量的医学信息,对其进行实体识别,可以提取出疾病部位、药物治疗等关键信息,有利于构建更完备的智能化电子病历系统,推动智慧医疗的建设.对中文电子病历进行命名实体识别主要存在技术和数据两方面的问题.技术层面上,目前对电子病历进行实体识别大多是从通用的预训练语言模型获得文本的向量表征,无法充分提取中文的偏旁部首等字形结构信息.数据层面上,由于电子病历涉及到大量的专业知识以及出于对患者隐私考虑等原因,导致公开标注语料库较为缺乏,限制了NER模型的性能.针对中文字形结构信息提取不充分问题,构建Radical-Transformer-CRF实体识别模型.结合中文电子病历数据特点,采用CNN提取字符的偏旁部首等字形结构特征,利用Transformer的注意力机制提取上下文语义信息.在两个中文电子病历数据集上进行实验,结果表明加入中文的字形结构信息能显著提高电子病历的命名实体识别效果.针对中文电子病历数据匮乏影响实体识别效果这一问题,提出使用多任务学习方法来联合训练模型.采用私有-共享方式下的多任务学习框架,选用关系抽取作为辅助任务.实验结果表明多任务学习框架能进一步提高实体识别效果,缓解中文电子病历数据匮乏带来的影响.全文结构安排如下.第一章论述研究背景、意义和综述.第二章介绍后续研究涉及的理论技术.第三章提出基于Radical-Transformer-CRF的中文电子病历命名实体识别模型.第四章提出基于多任务学习的中文电子病历命名实体识别模型.第五章对全文进行总结和展望.
其他文献
随着我国资本市场的日臻完善,市场中投资者对于高质量审计服务的需求与日俱增,而会计师事务所作为“经济警察”的重要性也日益凸显。自中注协全面推动会计师事务所做大做强至今,国内会计师事务所发展向好,规模不断扩大,在维护资本市场秩序和社会公众利益、提升会计信息质量和经济效率等方面发挥了重要作用。然而,随着上市公司数量不断增加,财务信息失真、财务舞弊乱象时有发生,审计失败案例也层出不穷。审计失败的发生会降低
为了逐渐提高我国准则与国际准则的趋同程度,提高审计报告的信息质量,我国财政部在国际审计报告改革的基础上,在2016年12月23日颁布了《中国注册会计师审计准则第1504号——在审计报告中沟通关键审计事项》,新准则要求在审计报告中增加关键审计事项的披露。关键审计事项的增加有助于提高审计工作的透明度,提高审计报告内容的信息含量,以维护金融市场稳定和资本市场健康运行。随着我国市场的发展,上市公司事务所更
近年来,随着现代信息网络持续搭建,以信息通信技术为代表的数字技术高速发展,数字经济逐渐成为各个国家与地区经济增长的主要形态。其中,A省是我国数字经济发展较早的省域之一,数字经济更作为A省经济发展工作的“一号工程”,彰显出A省对数字经济的重视与信心。而以政策落实跟踪审计为主导的审计工作,能够进一步保障数字经济政策平稳落地,通过发挥政策落实跟踪审计的力量,有利于将A省数字经济“一号工程”向纵深推进,发
自十四五规划以来,中央首次提出“构建国内国际双循环相互促进的新发展格局”,坚持以供给侧结构性改革为主线,以高质量供给引领创造新需求。然而新冠肺炎疫情的影响使其受到严重影响,各行各业产生一定衰退,民众消费信心降低,扩内需促消费势在必行。基于此,各级政府积极出台政策措施和实施工作要求,致力于化解负面影响,推动经济发展。A省在全国率先组织7个设区市审计局,实施了双循环扩内需促消费推进情况审计调查,为其他
习总书记在党的十九大工作报告中作出重要指示:“加强社会保障体系建设、全面实施全民参保计划。”作为确保公共资源平稳运行、查处违法违规问题的一种手段,审计理应承担保障医疗保险基金安全完整的责任,维护国家民生目标的实现。2015年10月,国务院在十三五规划之际,提出大数据战略,倡议国家审计机关通过利用大数据技术提高审计效率,变革数据共享方式,增强审计质量。同年12月,国家工信部发布了《大数据产业发展规划
为实现我国在2030年前实现“碳达峰”,2060年前实现“碳中和”的目标,必须将ESG作为路径支持,将环境、社会及治理与企业商业策略深度融合。ESG绩效与信息披露质量在逻辑上存在联系:首先,ESG信息作为文本信息本身理解难度较大,而通过简洁明了的表述可以提高此类信息的可理解性;其次,ESG绩效通常代表着财务绩效与投资价值,高质量的信息披露可以将该积极信号更加清晰地传递给投资者;最后,ESG绩效因其
随着移动互联网的发展,企业与用户之间的距离越来越近。在线社区讨论逐渐打破传统的消费模式,成为用户消费决策的关键驱动因素。用户在购买商品或服务时会从商品评论社区搜寻关于该类商品关键词的在线评论,进行比较分析,进而衡量商品或服务是否能够满足需求。另外用户还可通过发表评论表达商品使用体验。事实上,用户发表的在线评论蕴含着其偏好或需求等有价值的信息。同时,企业通过对用户的需求或者偏好研究,传统的营销模式已
随着传统审计报告弊端地显露,增强审计报告的信息含量已成当务之急。国际社会自2013年起开始对审计报告进行改革,我国财政部也积极响应国际号召,于2016年发布了第1504号准则,即在审计报告中沟通关键审计事项,其目的是希望通过审计师披露具有个性化的信息,来提升审计工作的透明度和审计报告的信息含量。但随着新准则的实践应用,关键审计事项的披露问题逐渐显现,比如同行业间或前后年间披露的事项内容趋于同质化、
在医疗、金融和其他学科领域,研究者们经常会遇到如何评估处理方式对个体影响的问题,最为主流的是用条件平均处理效果(CATE)作为衡量。而实际研究中由于实验参与者的退出或是其他原因收集到的数据往往是缺失的。本文研究响应变量随机缺失下的k近邻核方法估计CATE并证明了估计量的几乎一致收敛性及其渐近正态性,给出了其区间估计。本文采用Neyman-Rubin潜在结果框架,在响应变量随机缺失的情况下,用k近邻
在数理统计中,常常会涉及到非参数回归,非参数回归能够在不知道总体分布的情况下较好地利用样本数据体现的非线性特征从而来推断总体。并且非参数回归还具有回归函数受约束少、稳健性高,尤其是对于非线性问题有非常好的效果,因而非参数回归在统计推断中有着至关重要的作用。目前对于非参数回归的研究和应用也有着许多方法,例如核估计、局部多项式估计、样条估计、M估计等等。删失数据一直受到国内外众多学者的研究。因为在实际