基于深度神经网络的句子相似度研究与实现讼文答辩日期:年【月J日

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:BrokenDoor
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
判断两个文本之间的语义相似性是自然语言处理中一个很核心的任务,在查询推荐、自动问答系统以及摘要提取等都起着非常重要的作用。目前许多基于句子相似度计算的方法主要围绕在词法匹配、语义分析树及一些依赖于外部资源的结构化的语义知识来进行判断。但是词法匹配并不能很好地获取语义上的相似性特征,依赖于外部资源的语义知识又不能很通用的适用于所有的应用领域,而最近的研究表明语义分析树也只能较好地作用于语法组织良好的文本上。近年来,深度学习在图像处理和语音识别等领域上应用非常广泛,并取得令人瞩目的成绩,而最近的研究表明深度学习在自然语言处理上也有很好的表现。因此本文提出一种基于长短期记忆网络(LSTM)和卷积神经网络(CNN),并融合文本间额外特征的句子相似度计算模型,利用目前流行的word2vec和GloVe词嵌入向量表示方法对输入语句进行表征,由LSTM和CNN分别提取句子中的前后依赖信息和句子内的局部信息计算出新的句子向量表征,然后结合句子之间的额外特征进行最后句子间的相似性计算。基于深度神经网络的句子相似度计算方法克服了句子语义表示上的词汇鸿沟问题,可以让计算机识别不同表示但是相同意思的句子,同时可以从不同角度来提取句子中的信息,更加丰富的对句子进行表示,最后结合句子间额外的特征,使得计算结果更加准确。为了验证本文提出的句子相似度计算模型的性能,本文在MSRP、SICK2014和MSRVID三个常用的公开数据集上进行语义相似性和语义相关性的实验。实验结果表明,在结合词嵌入向量的LSTM和CNN的基础上,融合文本间的额外多种特征的句子相似度计算模型在各个数据集上的表现都能达到目前最先进的水平,具有较高的可用性和通用性。
其他文献
悬索桥主缆钢丝的实际应力关系到主缆的安全储备,为研究大跨度悬索桥施工过程及成桥时主缆断面的应力状态,对南京长江四桥加劲梁吊装过程中桥塔索鞍附近主缆断面的应力进行了
目的:探讨抗核抗体(ANA)阴性系统性红斑狼疮(SLE)患者的实验室指标及临床症状的特点。方法:总结近五年四川大学华西医院SLE患者39 324例,从中随机选出ANA阴性和ANA阳性SLE患
目的:探讨郑州市第七人民医院(以下简称"我院")抗菌药物致药品不良反应(adverse drug reaction,ADR)发生的特点及影响因素,为促进临床合理用药提供参考。方法:收集2014—2016
薄膜太阳能电池具有材料用量少、生产耗能低、高温弱光发电性能好、易于建筑集成等优势,是非常有竞争力的光伏发电技术之一.铜锑硫族材料价格低廉、稳定性高、绿色无毒、原料
地方大学担负着地方经济建设培养人才和发展科学文化的使命,地方职业大学的状况如何,直接关系到地方经济建设和社会发展。 党的十一届三中全会以来,随着我国经济和科学、教育
中微子振荡实验显示中微子有质量,而有质量的中微子基本性质的研究是当前粒子物理学的前沿热点.本文简要介绍反粒子的概念、马约拉纳费米子以及实验上如何检验中微子是否是其
<正> 改革开放之前,我国建筑卫生陶瓷工业十分弱小,生产设备(主要是国产)落后,产品质量低、产量小.近十几年来,随着人民生活水平的提高,建筑装饰业的发展,我国建筑卫生陶瓷工
<正> 从古至今,世界陶瓷制品生产工艺基本上走的是物料(原料)由干法变湿法又由湿法变干法(产品)的路子,即干→湿→干.尽管是绕弯路,但目前尚未找到更好的方法.此工艺以制坯原
分析新疆北疆部分地区若干种矿物、岩石在可见~近红外波段内光谱曲线,结合其化学成份、矿物成份、结构构造等特点,总结了0.4μm~2.4μm间火成岩、变质岩的光谱变化特征,并从其