深度文本匹配与排序的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:zhqs1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,世界每天都产生约1.68亿张CD的信息量,信息的总存储量呈爆炸式增长。各大开放式搜索引擎,各专业领域、信息管理系统的快速搜索功能,都是为了帮助用户实现文本信息的快速匹配与召回。合理、高效的匹配与排序算法正是文本匹配的关键所在。文本匹配是自然语言处理领域中的一个核心且常见的问题,许多自然语言处理任务,例如问答系统、对话系统、以及部分推荐系统等,最终都能够抽象为文本匹配问题。在文本匹配任务中,注意力机制是当前使用最广泛的方法,现有的注意力机制存在两方面问题,一方面,传统注意力机制更注重提取词语间的相互关系,忽略了部分词语本身的特征,特征挖掘不够充分,因此模型性能会受到限制。另一方面,现存的注意力计算方法种类繁多,应用模型复杂度普遍偏高。若特征选择不合理,或特征融合方法不恰当,模型效果不增反降。因此,本文提出了一种新的词语注意力机制,并设计了一种新颖的分层特征融合模型。首先,本文针对词语自身特征设计了一种新的注意力机制——词语注意力机制。词语注意力机制在进行特征增强时,只考虑词语本身内在的含义及隐藏特征,是一种真正着眼于挖掘词语自身特征的方法,可以增强词语本身的隐含含义,从单个词语级别提取更独特的特征,从而得到蕴含信息更全面的新的文本表达。该方法计算复杂度低,计算资源消耗较少。其次,随着特征提取及增强方法变多,本文提出了一种新颖的分层注意力特征融合应用模型,根据注意力机制对文本信息的处理粒度(词级、句级)分类,分层次有针对性的将多种注意力机制加入到文本匹配模型中。经过多层注意力机制信息提取及增强后,区别地利用各层级信息,分层建模、合理融合,在语句层面最大程度避免信息损失,综合提升了匹配与排序模型的性能。该模型在多个权威数据集上的实验结果均达到了当前领域顶尖水平。针对以上创新点撰写的论文已被国际会议录用发表。最后,本论文将所研究的算法模型落地应用到了北邮教育智能化系统中,证明了本论文模型的有效应用价值。
其他文献
由于移动通信业务量的增多以及人们对通信质量要求的提高,近年来,越来越多的研究者开始将目光转移到具有大量发送与接收天线阵列的通信系统的研究中来,称之为大规模MIMO通信系统。该系统可以使得通信的过程通过分集技术获得更高的数据率,同时也使得频谱的利用率更高。但是,大规模天线阵列的使用会给系统的计算带来大量的复杂度,从而影响通信系统的效率,并产生了通信性能和复杂度之间的平衡问题。信号检测是用来提升通信性
玻璃喷墨打印是一种以玻璃为介质的喷墨打印技术,其生产制品具有抗酸碱、色泽稳定、艺术感强等优点,广泛应用于玻璃幕墙、车窗玻璃、办公室隔断等场合。目前,玻璃喷墨打印的厂商主要以国外的以色列Dip-Tech公司为代表,其制作精美但生产造价过高,在国内没有得到广泛普及。为了降低玻璃喷墨打印的生产成本,使该技术进一步得到推广和运用,本文依托实验室项目对其中的图像处理关键技术展开了相关研究。总的来说,本文的研
郡县治,则天下安。党的十六届三中全会提出要“大力发展县域经济”以来,中央政府对县域经济发展给予了较高的关注。但是由于县域层面市场经济体制尚且不完善,资金、人才、技术等生产要素缺乏,而我国的县域经济发展往往以地方政府财政支持为主导,因而财政实力相对薄弱的县级政府常常通过增加其地方政府性债务的方式推动县域经济增长。目前,我国地方政府面临地方经济增长动能转换等攻关难题,而中国县域地方政府性债务占比较高,
随着社会发展,企业面临的竞争日益激烈,企业的经营管理水平和员工素质对提高企业竞争力的作用尤为明显。本人所在的教育培训机构X部门一直希望可以升级部门培训项目管理工作,从项目过程和项目方案上整体进行更新和优化。项目整合管理则是这样一种体现综合性、系统化思维的管理方法,普遍适用于各个行业的项目管理。员工培训项目整合管理与人力资源的员工培训管理相比,管理思路和管理模块以及管理的关注点有着明显区别,员工培训
在现代化社会的发展进程中,定位服务起到了举足轻重的作用。在室外环境中GPS能够提供较好的定位精度,然而在室内环境中,建筑物的存在会影响GPS信号的传输,导致室内定位的精度无法满足需求,而室内位置服务对定位精度要求较高,因此迫切地需要寻找到易实现、低成本、高精度的室内定位方法,为人们提供可靠的室内位置服务。目前常用的室内定位技术大多需要事先布置定位锚点或采集指纹库数据,导致实现成本较高,并且对使用环
随着信息技术的不断发展,互联网银行在互联网、移动通信、物联网等技术的支持下孕育而生,借助云计算、大数据等技术为客户提供网络金融产品和服务。然而,互联网银行的发展虽然为金融消费者提供更加丰富多样的金融产品和服务,也加剧了互联网银行与金融消费者之间的信息不对称问题,金融消费者的权益保护成为需要关注的重点问题。金融消费者作为金融市场的重要参与者,保护他们的合法权益,不仅关乎消费者群体的切实利益,也关系互
当今,网络技术飞速发展,信息更迭快速频繁,社交模式日益多样化。在此背景下,短视频以其简短的篇幅、丰富的内容和快速的生产方式,极大满足了用户的需要。这一新兴行业所带来的行业特点对不断发展的理论体系进行丰富的同时,也带来一些法律层面的问题。一是短视频的内容是否属于著作权法保护的对象,若属于,其作品属性又该如何界定。二是现实中短视频侵权现象层出不穷,短视频侵权行为与合理使用行为的界限不甚清晰,导致具体适
我国是一个以“和”为贵的社会,重视人际关系的和谐,即使在企业管理实践中也不例外。挑战型组织公民行为有益于组织创新或创造力的提升,同时也伴随着关系冲突、不被管理者或者同事接受的风险。笔者在梳理国内外近几年的组织行为学理论文献时发现,代表员工挑战导向的行为一直被西方学者关注,目前国内对该方面的研究并不多,影响机制还不明确。由于中西方文化背景的差异,开展国内研究是非常有必要。因此为了让管理者更清晰的了解
近年来,困境儿童群体发生多起伤害生命事件,为保障困境儿童能够健康成长,应尽早对困境儿童进行生命教育,从而提高困境儿童的生命意识。基于以上背景,以L社区的困境儿童为小组介入对象,依据社会学习理论和优势视角理论,运用行动研究法、量表法、参与式观察法和访谈法,对困境儿童生命意识和生命教育进行小组介入。在接案与预估阶段,了解L社区困境儿童生命教育现状,总结困境儿童存在对生命认知不足、对自我认知不足以及生命
H_2/H_∞控制理论在解决建模误差和不确定扰动的难点问题时具有独到的优势。应用H_2/H_∞控制理论设计的控制器既能保证系统具有一定的鲁棒性,又能使系统获得较好的动态性能。但是由于系统的H_2性能与H_∞性能往往相互冲突,因此H_2/H_∞控制问题通常只存在Pareto最优解。LMI方法是近年来求解H_2/H_∞控制问题的主要方法。但是,在求解矩阵不等式系统时,需要增加附加条件,才能得到可行解。