自然语言预训练模型知识增强方法综述

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:guxingyiren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
将知识引入到依靠数据驱动的人工智能模型中是实现人机混合智能的一种重要途径。当前以BERT为代表的预训练模型在自然语言处理领域取得了显著的成功,但是由于预训练模型大多是在大规模非结构化的语料数据上训练出来的,因此可以通过引入外部知识在一定程度上弥补其在确定性和可解释性上的缺陷。该文针对预训练词嵌入和预训练上下文编码器两个预训练模型的发展阶段,分析了它们的特点和缺陷,阐述了知识增强的相关概念,提出了预训练词嵌入知识增强的分类方法,将其分为四类:词嵌入改造、层次化编解码过程、优化注意力和引入知识记忆。将预训练上
其他文献
社交媒体在信息传播中占据很重要的位置.以YouTube为例,本文通过目的抽样、文本挖掘、内容分析、情感分析等方法分析留学生对于我国的印象.留学生以较强的自媒体能力塑造自己
问题生成是给定文本,自动生成内容通顺、语义相关的自然语言问题。问题生成可应用于教育领域的阅读理解、辅助问答系统和对话系统,因此近年来引起了研究者的广泛关注和兴趣。该文对问题生成的相关研究进行了综述。首先阐释了问题生成的研究意义与应用场景,继而简略概述了基于规则的问题生成方法,然后从输入文本是句子/段落、有/无答案信息等不同角度全面阐述了基于神经网络的问题生成模型。该文还介绍了问题生成的评价方法,分析讨论了现有工作的不足,并展望了未来可能的研究方向。
目的:分析医院管理中应用纪检监察的必要性和意义.方法:回顾近年来在医院管理中纪检监察的应用情况,对其应用的价值和相关措施进行分析.结果:医院纪检监察主要从提高管理层能
为了从海量的热点事件社交媒体文本流中提取时序摘要,辅助用户快速获取热点事件的演化发展概况,该文在分析热点事件发展阶段的基础上,充分挖掘社交文本的时间特征和传播特征,提出了融合社交传播影响力的热点事件时序摘要方法。该方法抽取的摘要能完整反映事件发展演化过程,内容描述更合乎客观事实,同时在一定程度上解决了社交文本非结构化问题对文本句子权重度量造成的不利影响。实验结果显示,当时间与传播特征权重比值达到0.4时,该方法得到的摘要结果的ROUGE评测值达到最佳,ROUGE-1最优达到44.23%,ROUGE-2最优
随着我国经济的快速发展,人民的生活水平也在不断提升,因此人民开始更加注重自身的健康问题,在这个背景之下,医院的建设就显得尤为重要.每一个医院要想得到良性发展,就得从自
随着农村现代化发展进程的不断加快,人们越来越注重农业生产的规模化发展.家庭农场作为近年来新兴的农业经营主体,对于农村的农业现代化发展具有重要的作用,能够有效地提高农
我国科学技术的进步,带动了基础测绘技术的发展,这也为后期基础测绘转型服务自然资源管理提供了强大技术支撑,但这还远远不够.科技的发展是加速的,基础测绘想要更好地融入自
该文提出一种面向句子的汉英口语翻译自动评分方法,选取语义关键词、句子大意和口语流利度作为评分的主要参数。为了提高关键词评分的准确度,该文使用同义词辨析方法,识别考生答题关键词中的同义词;在句子层面,使用可伸展递归自编码(unfolding recursive auto-encoder,URAE)神经网络模型分析考生对句子大意的翻译;最后基于语速(tempo/rate)和语音的分布情况对口语流利度进行评分。综合三种参量加权评分,得到最后翻译质量的评分。实验结果表明,采用该文方法与人工评分结果具有较好的一致性
古文献的研究有助于传统文化的继承与发扬,而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节。当前互联网拥有大量古汉语文本和词典方面的数据资料,该文提出利用互联网大规模古文语料构建古文基础词典;进而通过互信息、信息熵、位置成词概率多特征融合的新词发现方法从大规模古籍文本中建立候补词典;最终将基础词典与候补词典融合,形成含有349 740个字词的集成古文词典CCIDict。在CCIDict基础上,利用多种分词算法实现古文的分词。基于CCIDict的正向最大匹配算法与开源的分词器甲言比较后,F值提高了
医院信息系统是现代化医院必须具备的,它能够保障医院的业务正常运行,能够优化就医流程,改善医院的管理质量与管理水平.医院信息系统的稳定离不开质量管理,这就对信息系统的