结合字面匹配与上下文交互的全文检索研究与实现

来源 :吉林大学 | 被引量 : 0次 | 上传用户:amperezh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索作为一门综合性的学科,在行业中一直具备较高的关注度。近几年,互联网规模和信息资源的迅猛发展给人们带来了信息过载的问题,人们对信息检索的依赖性逐渐增强。国内外科技公司纷纷研发了各自的全文搜索引擎,如Baidu、Google等。这些全文搜索引擎为大家降低了获取有效信息的成本,并逐渐成为了人们筛选、浏览信息时的必备工具。全文搜索引擎的目标是能在极短的时间内从海量信息中筛选出用户想要的信息并将其返回给用户。全文检索一般包含粗排和重排两个排序步骤,先使用计算简单且召回率较高的排序算法从海量的文档集合中初步筛选出相关文档,再使用一种或多种重排序的方式提高检索准确率。为了进一步提高检索的准确率,很多研究将深度神经网络模型应用于重排序中,实验表明,这些深度神经网络模型的确在重排序上取得了更好的表现,尤其是预训练的语言模型,在诸多ad-hoc检索基准上均取得了当前最优的结果。但预训练语言模型的计算复杂度是输入序列长度的二次方,当应用于ad-hoc排序任务时,预训练语言模型通常仅用于预测段落或单个句子的相关性,因此,如何在有限的计算成本内使预训练语言模型在文档级数据上表现良好成为了全文检索的关键。为了在保证检索效率的同时提升检索准确率,本文结合传统的字面匹配算法TF-IDF与向量空间模型的计算思想,对基于上下文的后期交互模型Col BERT提出了改进方案:在Col BERT模型中引入了过滤器,提取出查询项中具有较高区分度的标引项,并对交互计算的方式进行了修改,在语义匹配的基础上,增强了查询项和段落之间相关性匹配程度。在三个公开数据集上进行了段落检索的实验与分析,验证了本改进方案的有效性。为了在语义充分理解的前提下聚合段落间的顺序信号,本文模仿人类从前至后的阅读行为,在上述段落检索模型的基础上,引入了门控循环单元作为特征聚合器,在查询项与每个段落进行交互并得到交互特征表示后,使用聚合器聚合当前文档所有段落序列的交互特征表示作为整个文档的交互特征表示,进一步计算得到查询项与整篇文档的匹配分数。实验结果表明,本方法能有效聚合段落间的顺序信号,使其在全文检索上表现良好。为验证上述全文检索模型的实用性,本文基于该模型,采用编码与交互计算分离的方式,预先对文档进行编码并为其建立索引,构建了一个高查准率的全文搜索引擎。经测试,该全文搜索引擎可投入实际使用。
其他文献
目的:基于Charmaz的建构式扎根理论的质性研究的完整模式,总结反思新冠肺炎疫情中网络团体心理援助项目的培养经验与成效,从团体成员、观察员、协同领导者、领导者、督导师等角色阶段出发,研究同一场域下,不同角色阶段的成长因素。方法:通过三轮收集资料,对18名对象进行半结构式深度访谈,采用扎根理论方法,进行类属分析。结果:构建服务场、督导场、训练场于一体的网络团体领导者“体验-观察-协同-领导-督导”
学位
党的二十大报告中要求加强全媒体传播体系建设,塑造主流舆论新格局,这为全国媒体工作者指明了前进方向和奋斗目标。本文在厘清新型主流媒体内涵的基础上,探析建设新型主流媒体的必要性、打造路径和需要把握的原则,以期能为业界提供一定的参考。
期刊
21世纪,信息与通信技术的飞速发展推动产业变革,也深刻影响了科学教育发展和教学改革的前进方向。探索ICT对科学教育成效的影响机制是有效落实国家教育信息化发展战略,优化信息技术在科学教育中的临床应用,推动科学教育健康发展的必要手段。国际科学教育以科学素养的培育为变革取向,因此本研究聚焦ICT与科学素养之间的关系,利用PISA国际学生评估项目的数据,挖掘ICT对中国、日本、新加坡、芬兰四国学生科学素养
学位
应对新媒体挑战,传统主流媒体如何加快推进融合转型尤为重要。本文以潜江市网络新闻中心推动媒体融合发展的具体实践为例,浅谈对推进深度融合、打造新型主流媒体的思考与建议。
期刊
河南广播电视台的自主平台已初具规模,在坚守主业、扩大主流媒体传播力、引导主流舆论方面收效明显,尤其在《唐宫夜宴》等系列现象级文化节目生产过程中充分体现了开放性与融合创新的能力。但在主流媒体与关系型平台的双重构建、参与市场博弈和区域平台竞争等环节还存在很大探索空间。主流媒体平台的建设要综合考虑行政逻辑、技术逻辑、市场逻辑,以不断创新来解决和答复相关实践问题和理论困惑。
期刊
新《行政诉讼法》第76条“判决责令被告采取补救措施”规定了一种新的行政判决形式——责令补救判决。相较于其他判决类型而言,责令补救判决并未得到行政法学界的足够关注,但司法实践中却存在大量的责令补救判决案例。责令补救判决的立法表达十分模糊,司法解释也缺乏相应的明确,这导致司法实务中责令补救判决的适用十分混乱,法院是否责令补救、作出怎样的责令补救判决都具有很大的随意性。本文拟从责令补救判决的立法规定出发
学位
自由基是通用的反应中间体,其参与的有机化学基元反应众多。因此,发展自由基化学构建有机物分子具有极大的潜力。近十年以来,基于自由基的不同引发手段,研究者们通过广泛研究已取得众多学术成果。早期,大多数自由基的产生需要过量的自由基引发剂,不可忽视的是自由基引发剂的大量使用提高了有机合成的转化成本。研究者们逐渐发展了光化学和电化学氧化作为自由基引发的手段,并在有机合成方法学中取得了突破。通过廉价的电能或光
学位
2022年10月,党的二十大报告指出“加强全媒体传播体系建设,塑造主流舆论新格局”,对新型主流媒体提出新要求。在媒体融合发展上升为国家战略的第9个年头,如何让融合走深走实,如何在转型中巩固话语权、切实提升传播力建设,都成为新型主流媒体面对的紧迫课题。在主流传播的探索与实践中,南方+客户端坚持正确政治方向、舆论导向、价值取向,从生产革新、思维破局、质效升级、平台赋能四大方面推进高质量发展,为用户打造
期刊
<正>推进媒体融合发展,是新时代巩固宣传思想文化阵地、壮大主流思想舆论的战略之举。习近平总书记关于新闻舆论工作的一系列重要论述,科学回答了党的新闻工作长远发展的一系列根本性、战略性、全局性重大问题,为媒体守正创新、融合发展提供了根本遵循。北京市深入贯彻落实习近平总书记重要指示批示精神和党中央决策部署,坚定不移推进媒体融合发展,为新时代首都发展提供坚强舆论支持。
期刊
中国共产党自成立以来,就一直与形式主义作斗争,从革命时期的“延安整风”到建国初期的“三反运动”再到新时期的“反四风运动”,都体现出中国共产党反对形式主义的坚定决心。随着中国政治和社会的不断发展,以及社会治理重心的下移,形式主义在基层逐渐显露出长期性、多样性、复杂性等特征,愈发成为我国推进治理体系和治理能力现代化的一大障碍。自党的十九大之后,习近平总书记在多次讲话中提出各级各部门要高度重视作风建设,
学位