基于文本检索的深度关联匹配模型算法的研究与改进

来源 :重庆理工大学 | 被引量 : 0次 | 上传用户:xiaochongcheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络通信以及电子商务的高速发展,互联网已成为人们生活与工作获取信息的重要途径。对于互联网这个巨大的资源库,若缺乏有效的检索工具,人们很难从其中检索出自身所需的信息。为了提升检索有效信息的速度,减少人们检索信息的难度,信息检索系统由此而生。文本匹配在信息检索系统中占领着重要地位。在文本匹配过程中,存在“匹配失误”问题,“匹配失误”即两段文本由不同词表示同一意义时,模型不能判断其相似意义而导致的匹配错误。针对这个问题,目前大部分的研究工作均是通过增加查询词或文档词的近义词拓展文本,用于增加查询词与文档的匹配概率,以此缓解“匹配失误”问题,该方法能够在一定程度上解决匹配失误问题,但计算量大且需要耗费巨大的资源库;在深度学习中,研究学者利用词嵌入对近义词的相似度进行计算,但词与词的相似度仍存在偏差,因此也不能够很好地缓解“匹配失误”问题。针对文本匹配中的匹配失误问题,本文提出以下两个模型:(1)A Deep Top-K Relevance Matching Model(DTMM)模型,该模型的贡献是将文档词权重加入模型,以此缓解“匹配失误”问题。由于并非所有信号量都利于文本检索,模型将着重学习相似度和文档词权重都较高的K个信号量,使输入模型的信息量更加可靠有效,随后通过多层全连接层学习出查询与文档的得分;(2)基于知识图谱词拓展的检索模型,该模型首先提取出查询和文档中的所有实体,将实体对齐到知识图谱中。由于近义实体在知识图谱中符合语言学“距离相似性“原理,即意义相似的词上下文环境相同。本文利用SkipGram模型学习出实体词的词嵌入,并将其拓展文本以丰富文本语义表示。最后将拓展之后的文本信息输入DTMM进一步缓解“匹配失误”问题。另外,本文提出的两个模型均在MQ2007数据集以及Robust04数据集上进行了验证。实验结果表明,本文提出的DTMM模型以及基于知识图谱词拓展的检索模型均能够有效缓解“匹配失误”问题。
其他文献
建设以信息化和互联化为特色的智慧城市,成为当前各地进行城市现代化建设的新方向,政府在这一过程中承担着指导者和建设者的双重角色。智慧城市的建设又可以带动政府信息化发
物流成本的管理与控制离不开物流成本的核算,物流成本核算同时构成了物流会计主体内容。在物流成本不实行单独核算的现行会计体系与方法下,管理人员无法获取企业物流成本的真
人自身现代化最本质的体现是精神领域的现代化。科学精神作为近现代西方理性文化的灵魂和精髓,不仅催生了人的启蒙,而且与人的自身现代化相契合。中国人走向现代化是不可逆转
个性和天赋是素质教育的着眼点 ,家庭教育对学生的个性和天赋的发展起着不容忽视的奠基作用。然而 ,就目前中国家庭教育的现状而言 ,家庭教育非但没有起到应有的作用 ,反而或
2011年11月—2017年5月,采用样线法、样点法和随机踏查相结合,对江西省输电线路导地线和铁塔上停留的鸟类种类、数量和生态习性进行调查.共记录到栖息在导地线或铁塔上鸟类49
目的利用NBS 14 L篮式生物反应器大规模培养乙型脑炎病毒(Japanese encephalitis virus,JEV),并对病毒收获液进行灭活和纯化,为乙型脑炎灭活疫苗(Vero细胞)的大批量生产提供
藻蓝蛋白是蓝藻的指示型色素,目前还没有标准的提取方法,特别是萃取剂的选择品种较多,对测量结果影响较大.分别以室内培养的铜绿微囊藻和巢湖夏季野生蓝藻为提取对象,运用液
近年来,电声领域的专利申请量迅速增长,各大企业和科研机构逐渐认识到,并且也开始使用专利来维护权益。专利制度运用的前提是一份有效且稳定的专利权。分析介绍了电声领域撰
水产品具有高水分、高蛋白且不饱和脂肪酸含量较高的特点,极易受微生物、内源酶及脂质氧化作用而发生腐败损失。目前水产品的保鲜方式主要以低温保藏为基础,辅以气调、辐照、
<正>近年来,变革一直是教育领域的核心主题,从应试教育到素质教育,从传统课堂到翻转课堂,从三维目标到核心素养,每一次变革都是在继承和创新中不断推进,变革的方向也日趋明晰