基于深度学习与梯度提升树算法的问答系统重排序

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:janebudian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现如今的生活与工作中,互联网已经凭借着高可用性和便捷的可访问性,以及海量的数据来源,使得人类进入了信息获取爆炸的时代。如何从庞大的信息中准确而快速的获得自己需要的信息,变得越来越重要。问答系统就是基于此需求应运而生,在智能客服,购物推荐,知识问答,寻医问药等实际领域中,都广泛应用着问答系统。用户输入自己的问题或者关键词,系统就会返回一段知识或者排好序的一系列url或文字。但在很多问答系统的排序里,存在着问题,导致答案排序不理想,不能完全贴合用户的需求,这会降低用户的体验,也会影响从互联网中获取知识的效率。引起排序效率不够高的原因可能是特征不够精准,也可能是特征不够全面或者特征权值设置不够合理。为了优化问答系统的排序效果,本文对问答系统的特征进行了多样化深入研究,融合了传统的特征工程与深度学习的语义相似度计算,旨在结合统计学与语义寻找问题与答案之间的内在关联。在对问题与答案去除停用词后,提取特征,建立传统特征工程后,对特征做归一化,和特征筛选,消除特征之间的量级影响,减少冗余特征与噪声。然后将文本映射为向量,使用深度学习的方法,计算问题与答案之间的语义相似度特征,结合这两部分特征为输入,通过梯度提升树学习方法计算特征的增益,达到最终优化排序结果的目的。本文尝试了多种短文本语义计算方法,包括词频统计,编辑距离这样的传统方式,以及word2vec与bert这样的语言模型,对多种类型的特征进行融合建立特征工程来优化相似度计算的结果,提高准确率。考虑到精简问答系统召回时间,作者对问题进行了实体识别,对包含问题实体的答案进行了加权。在公开数据集上验证自己改良后的排序结果,证明最终排序效果是有所提升的。
其他文献
氨是现代社会重要的化学品之一,目前主要是通过“Haber-Bosch”法以N2和H2为原料在高温高压的条件下合成NH3。光催化固氮是以水和N2为原料在常温常压的条件下制备氨,因此受到
在连续空间密集采样得到的数据往往具有函数型特征,用经典的多元统计方法可以研究这些数据,但忽略了数据背后潜在的函数所包含的信息,而函数型数据分析(FDA)利用基函数将离散
解析生物分子的结构,有助于理解生物分子在生物体内的作用机制,针对不同生物分子作用机制的不同,可以进一步开展相应疾病防治、药物设计、药物控制释放等研究。最常用的解析
网络编码是在传统网络数据存储转发的基础上允许网络中间节点进行数据重编码,从而提高网络吞吐量、鲁棒性和安全性的有效方法。但是网络编码中的恶意中间节点向下游中间节点发送的污染数据包也会被下游中间节点重编码,进而污染整个网络,导致信宿节点不能正确解码出原始数据。因此设计出具备抗污染特性的网络编码安全方案相当重要。本文首先基于单源多播网络,分析了现有的基于零空间的污染数据包识别方案的一些缺陷,提出了的基于
土壤碳氮作为谷子田土壤的重要养分之一,是衡量土壤肥力特征的重要指标,也是谷子生长发育、产量和品质形成所必需的元素。土壤碳氮的传统测定主要通过实验室化学分析方法,结
动臂作为连接车架和铲斗的连接件,是装载机工作的主要承力构件。动臂为焊接件,其焊接部位由于受热不均造成焊后变形,使动臂板间的开档距和对称度发生了变化,影响动臂下道加工
历史建筑景观是城市文化的重要载体和标志,承载了一座城市繁华背后沉甸甸的历史,也记录着属于城市特有的记忆。如何最大限度发挥历史建筑保护名录的政策导向功能、延续城市历史文脉,是需要探索与总结经验的过程,更需要加强对类型学、空间分布等基础性科学问题的探讨。在此背景下,城市历史建筑景观空间分布特征是城市地理学、文化地理学等领域共同关注的重要问题。选取成都市十五批历史建筑保护名录为研究对象,在类型学研究的基
气泡动力学现象广泛存在于自然和化学工业、航海、军事等实际工程领域,对其开展研究具有十分重要的现实意义。气泡在浮力作用下上升,会产生一系列形状变化,由最初的圆形变成
在过去的几十年中,将过渡金属离子引入到半导体纳米晶中引起了研究人员的广泛关注。掺杂离子的引入会形成新的复合中心,从而使得半导体纳米晶呈现出掺杂离子相关的光学性能。这些独特的性质使得掺杂半导体纳米晶在光电器件和生物标记及光催化等众多领域有着广泛的应用前景。在众多过渡金属掺杂离子中,锰和铜离子是两种最为常见的掺杂离子。近些年来,Mn离子掺杂半导体纳米晶的材料合成、结构调控和光学性能以及光电和生物医学应
当前环境问题成为我国深化改革与可持续发展的重中之重。随着我国金融市场的不断完善,出现了“绿色金融”。在金融相关经营活动中,绿色金融更注重环保与治污,其包含绿色产业相关股票以及银行、保险、债券等业务。在绿色金融的广大业务当中,绿色信贷融资占比始终最大,但绿色信贷主要针对银行业贷款发放,其相关性讨论意义有待探究。除基本绿色信贷以外,绿色金融相关产业股票市场与债券市场的发展尤其迅速,二者融资余额多年来在