基于深度学习的中文句子相似度计算研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:caonimalegebicaonima
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,以及我国信息化建设的不断进步,中国网民数量与日俱增,互联网中也出现了大量中文短文本数据。而句子相似度计算作为自然语言处理中的基础任务,在信息检索、文本分类、机器翻译、智能客服问答系统等应用中都有着重要的作用,因此有着十分广阔的前景与研究价值。本文研究学习了中文句子相似度计算以及深度学习相关技术、网络模型,主要完成了以下工作:1、本文构造了丰富的中文句子数据集,并对这些中文数据都进行了大量的预处理工作,保留了部分停用词,进行了分词、词性标注、命名实体识别、依存句法分析、语义角色分析等处理。2、本文基于经典的神经网络模型,改进并提出了句子相似度模型用于中文句子相似度计算。模型将卷积神经网络与tensor layer结合,采用动态k-max池化技术,因此具有更好的特征提取能力,可以更有效的提取两个句子间的交互信息,从而提高了模型的性能。3、深度神经网络对于句子相似度计算任务是一种有效的方法,但往往需要大量的数据去训练来充分发挥模型的性能,而现有开源的中文已标注数据集比较少,且人工标注成本过高。为解决对此问题,本文基于句子相似度模型,设计并实现了深度辅助神经网络(DANN)模型,使用大量未标注数据辅助训练模型参数。训练过程中对随机梯度下降法采用了AdaDelta算法进行了优化,提高了模型训练的质量。4、为验证本文提出模型的性能,以及策略的可行性,本文设置了几组对比实验。实验结果表明,相比于目前的几种baseline模型中表现最好的MV-LSTM模型,本文提出的句子相似度模型在中文句子相似度计算工作中,有更好的性能,F1值提升了0.024。通过AdaDelta算法的优化,DANN模型训练的质量得到了提高,而且使用大量未标注数据辅助训练模型参数的方法也有效提升了小规模已标注数据集上模型的性能。相比于句子相似度模型,F1值提高了0.023且随着未标注数据数据量的提升,F1值会得到进一步的提升。
其他文献
以煤沥青为原料,KOH为活化剂制备活性炭.应用正交设计研究了制备工艺中炭化温度(A)、炭化时间(B)、活化温度(C)和活化时间(D)四因素对活性炭比表面积的的影响.结果表明:B>D>A>C,
会议
实体肿瘤的发展、侵袭和转移依赖于瘤体内的血管生成,以提供所需的各种营养物质,而瘤体内血管生成的过程则受到多种因素的调节,其中有血管内皮细胞生长因子(VEGF)、血小板源性生
目的研究肝干细胞癌变的可能性。方法取孕14d的小鼠胚胎肝细胞作为肝干细胞移植到雌性小鼠肝脏,二乙基亚硝胺诱导肝癌。6个月后取肝癌结节做连续切片,免疫组化或免疫荧光分析
目前高校在财务核算中没有进行人才培养成本核算,在管理水平不断提高,核算方式不断改进的现在,不能不说是一个缺陷,从国家宏观管理的角度和高校微观操作方面应注重高校进行人才成
目的:趋化因子受体CXCR4是趋化因子CXCL12即基质细胞衍尘因子-1α(SDF-1α)的受体,研究发现其在肿瘤细胞的增生和转移中发挥重要作用。本课题旨在探讨CXCR4在甲状腺乳头状癌组
近年来我国慈善事业呈现出了蓬勃发展的态势,政府在政策方面给予的大力支持为慈善事业的发展提供了有力保障,而广大社会公众的关注和参与是慈善事业发展的根本动力。这其中慈
万寿菊(Tagetes erecta)属一年生草本植物。从万寿菊花中提炼的天然有机色素一叶黄素,可广泛用于医药、化妆品、食品和禽类饲料中,市场前景十分广阔。近些年,吉林省东部半山区的敦
文章针对体育统计学科发展和社会发展的需求,利用计算机技术提供的有利条件,在SPSS操作教学中设置学生自主实验课程。这有利于激发学生的学习积极性,培养学生运用统计方法解决实
空气螺杆钻具作为关键的欠平衡钻井工具在油气钻井中得到广泛应用。针对煤矿井下碎软煤层高效成孔的钻进难题,提出引入空气螺杆钻具破解碎软煤层定向钻孔施工难题。结合贵州