基于Transformer的文本语义相似度算法研究

来源 :湘潭大学 | 被引量 : 3次 | 上传用户:myhome1202
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义相似度是自然语言处理任务的核心模块,它对很多问题,例如网页检索、自动评分、自动问答、语言生成等方向都有非常重要的作用。计算机技术发展速度如此惊人,自动评分自然而然地进入人们视野,对于客观题的自动批阅已经日趋成熟,可面对变数比较大的主观题,采用传统的语义相似度计算方法经常会忽略答案中的重点,错失得分点导致评分的不准确。针对这个问题,我们提出了语义完整性分析下的Transformer-DSSM模型进行语义相似度的计算,进而提升主观题自动评分的准确度。一般而言,具有完整意义的短句在判断两句话表达意思是否一致时准确度更高,故而本文在进行语义相似度研究之前,将答案的长文本通过语义完整性分析(Semantic Integrity Analysis)方法转换为多个语义完整的中文短文本,并把其作为数据集用于语义相似度的计算。语义相似度的计算过程一般要有分词、词向量表示、提取特征、相似度计算四个步骤。在词向量表示过程中,本文引入了位置编码(Position Embedding),采用GRU网络对序列中的词语出现的位置进行编码,这样可以更好的获取词语的上下文特征。然后将特征向量和位置编码一同输入到基于Transformer编码层的网络中进行特征提取,依次经过自注意力层和前馈神经网络组成的编码层,为防止过拟合整个网络使用残差网络和归一化进行调整。在提取到词的特征后,引入全局注意力(Global-Attention)的概念,算出语句的特征向量表示。在得到两个句子的特征向量表示后,引入Attention-over-Attention(AOA)层提取两个句子的交互信息,最后根据综合的特征向量计算两个语句的余弦相似度。针对政治题目的主观题自动评分,相较于基于词移距离的方法、连续词袋模型、DSSM、CDSSM和LSTM-DSSM等,本模型在准确率上有所提升。实验结果表明,本文提出的语义完整性分析下的Transformer-DSSM在语义相似度计算方面,比传统方法的准确率更高。
其他文献
我今年48岁,已到了绝经期,可我的乳房近年来不仅没有萎缩,反而出现增大的现象。我想请问一下,这究竟是怎么回事,该怎样对待。
全省地、市县委书记会议结束后,各地都依据本地特点,发挥自身优势,大办乡镇企业,壮大村级集体经济,这无疑是件大好事。但是,必须清醒地看到,一些传统的旧观念和错误认识,还严
阐述了以本特一号、狗牙根茎枝作扦插材料,采用单品种、间作和混作方式在春、秋季扦插的草坪成活率高、成坪周期短、覆盖度大、投入成本低.省工、省料,环境、经济和社会效益
目的 :研究用不同的西医疗法联合芪参益气滴丸对老年急性心肌梗死(AMI)患者进行治疗的临床效果。方法 :选择2015年1月至2015年12月期间在我院心内科住院治疗的146例老年急性心肌
一要继续深化对乡镇企业的认识。近几年来,由于各方面的重视、支持和乡镇企业系统干群的努力,我省乡镇企业有了较快发展,但同全国特别是华东地区相比,还存在不小的差距。1989
利用1991~1993年在新疆阜康县不同草地类型上观测到的牧草产量、环境资料与地面光谱、气象卫星资料等,进行了多重相关分析。结果表明,不同类型的草地产量和环境因子与各种遥感绿度值间存在着显著相关性(P<0.05),相关系数(r)均达到0.45以上,并通过 F 检验。在对草地气候因子和牧草产量动态变化的分析基础上,探索了牧草产量形成与环境关系的机理分析与解释。进而,摸清了不同草地类型地面光谱绿度值的
无须伪装性高潮文/秋野图/王洪平国外曾报道过这样一个伪装性高潮的事例:22岁的克莉丝向性治疗专家承认,在性交时,她需同时自我刺激阴蒂才能达到高潮。即使没有达到,也要伪装出达到高
<正>目的评价睡眠认知行为疗法(CBT)对心内科住院高血压伴失眠患者睡眠质量改善的效果。方法选取2010年10月-2012年4月在我院心内科住院的90名高血压伴有失眠症状(包括入睡困
会议
国务院各部委、各直属机构:今年是中华人民共和国建国四十周年。中共中央、国务院已经决定:在国庆节前夕召开全国表彰大会,表彰各行各业、各条战线在改革和建设中作出突出贡