【摘 要】
:
针对面向电子病历的疾病辅助诊断问题,文中将词向量和文本判别方法应用到电子病历的文本语义解析任务中.具体地,采用预训练语言模型作为字符的语义表征,从而对文本特征进行准确表达,在卷积神经网络中提取N元特征后,使用胶囊单元对特征进行聚类,从而更好地捕获文本的高层语义特征,同时减少对数据量的需求.实验发现,基于ERNIE+CNN+Capsule的组合模型在真实的电子病历数据集上取得了良好的效果.此外,受图像风格迁移的启发,文中训练了从电子病历文本到病情自述文本的风格转换模型,利用非平行数据,在风格转换模型的基础上
【机 构】
:
中国政法大学科学技术教学部 北京 102249;北京大学软件与微电子学院 北京 102600;湘潭大学计算机学院 湖南 湘潭411105
论文部分内容阅读
针对面向电子病历的疾病辅助诊断问题,文中将词向量和文本判别方法应用到电子病历的文本语义解析任务中.具体地,采用预训练语言模型作为字符的语义表征,从而对文本特征进行准确表达,在卷积神经网络中提取N元特征后,使用胶囊单元对特征进行聚类,从而更好地捕获文本的高层语义特征,同时减少对数据量的需求.实验发现,基于ERNIE+CNN+Capsule的组合模型在真实的电子病历数据集上取得了良好的效果.此外,受图像风格迁移的启发,文中训练了从电子病历文本到病情自述文本的风格转换模型,利用非平行数据,在风格转换模型的基础上,增加了对抗思想和困惑度评价指标,可以有效缓解训练数据和测试数据分布不一致的问题.最后,相比ALBERTtiny,BERT等模型,所提模型在病历文本上获得了86.89%的F1值,提升了1.36%~3.68%;在泛化性能任务评估中,获得了94.95%的F1值.实验证明,所提模型在保证较高准确率的前提下,可以有效适应疾病辅助诊断.
其他文献
神经机器翻译模型的训练效果在很大程度上取决于平行语料库的规模和质量.除了一些常见语言外,汉语与小语种间高质量平行语料库的建设一直处于滞后状态.现有小语种平行语料库多采用自动句子对齐技术利用网络资源构建而成,在文本质量和领域等方面有诸多局限性.采用人工翻译的方式可以构建高质量平行语料库,但是缺乏相关经验和方法.文中从机器翻译实践者和研究者角度出发,介绍了经济高效的人工构建小语种平行语料库的工作,包括其总体目标、实施过程、流程细节和最后结果.在构建过程中尝试并积累了各种经验,形成了小语种到汉语平行语料库构建方
机器翻译是利用计算机将一种语言转换成另一种语言的过程,凭借着对语义的深度理解能力,神经机器翻译已经成为目前主流的机器翻译方法,在众多拥有大规模对齐语料的翻译任务上取得了令人瞩目的成就,然而对于一些低资源语言的翻译任务效果仍不理想.蒙汉机器翻译是目前国内主要的低资源机器翻译研究之一,蒙汉两种语言的翻译并不简单地是两种语言的相互转换,更是两个民族之间的交流,因此受到国内外的广泛关注.文中主要对蒙汉神经机器翻译的发展历程和研究现状进行阐述,随后选取了近年来蒙汉神经机器翻译研究的前沿方法,包括基于无监督学习和半监