基于文档内位置关系的检索方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:zydolphin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的高速发展带来了信息的爆炸式增长。如何从缛繁杂乱的信息中筛选出所需信息,是一个迫切需要解决的问题。在现有的信息检索模型中,对文档和候选扩展词的评估主要依赖于词项在文档内的词频、逆文档频率以及文档长度等信息,却忽略了词项在文档内的位置信息对于检索性能的影响。近年来的研究表明利用词项的位置关系是提高检索性能的有效方法,虽然这些模型已取得了良好的效果,但如何捕获词项的位置信息以及对位置影响力的度量仍有提升的空间。因此,本文就基于文档内位置关系的信息检索方法进行研究,主要内容包括以下三个方面:第一,本文提出一种基于文档内位置关系的概率检索方法,BM25-LR。该研究背后的客观事实为,在大多数文章中,作者通常会在文档内的特定位置,例如文档的开头或结尾,总结观点并概括文章的中心内容,因此这些位置的词项与文档主题的相关度更高、更加重要。本文采用核函数的方法对词项在文档内的不同位置进行建模,对位于文档开头和结尾部分的词项赋予更高的位置权重。进而,将该位置特征融入到经典的BM25概率模型中,对查询词进行权重优化,帮助获取更有可能与查询相关的文档。在五种TREC数据集上,对本文提出的BM25-LR概率检索方法和传统的BM25模型在MAP和P@20指标下进行对比实验,结果表明,本文的方法在所有数据集上MAP值均有显著性提升,在大部分数据集上的P@20值有提升。第二,将文档内的位置特征引入到伪相关反馈方法中,提出了一种基于文档内位置关系的伪相关反馈方法,LRoc。该方法通过对候选扩展词在文档内的不同位置进行建模,对位于文档开头和结尾部分的候选词赋予更高的位置权重,进而,将候选词的位置信息引入到传统的Rocchio模型中,对候选词进行权重优化。该模型在对候选词进行选择和评估时,不仅考虑了候选词的词频重要度,同时也充分考虑词项的位置影响,进而帮助获取更有可能与原始查询相关的扩展词。在五种TREC数据集上,对本文提出的LRoc方法和传统的Rocchio模型在MAP和P@20指标下进行对比实验,结果表明,本文的方法在所有数据集上的MAP和P@20值均有显著性提升。第三,本文设计并实现了一个基于文档内位置关系的信息检索原型系统,该系统采用经典的MVC设计模式,包含六个功能模块。用户根据检索需求输入查询表示,系统将结果文档连同扩展词及其评分返回给用户,通过阅读排名靠前的文档以及扩展词,能够直观地测试模型的可行性和有效性。
其他文献
关于神经网络的分岔研究一直是神经网络动力学行为研究中的重点和难点之一,更是具有非常重要的理论和现实意义。而复数神经网络作为普通实数神经网络的一种扩展,由于其适宜处
基于机器视觉的非接触式零件尺寸检测由于具有检测速度快、精度高、适应性强等优点,已被广泛应用于自动化生产中。在制造业中,钻孔是机械加工过程中非常普遍且重要的一步。在
近年来,高频地波雷达得到了高速发展,凭借超视距、低成本、全天候、易维护等固有优势成为了目前对海监测的重要手段之一,具备非常高的军事民用价值。由于直达波干扰的存在,共
有一句俗语说过细节代表一切,细节决定成败。从古至今,不管是企业界、管理界还是艺术界等对细节都是非常重视。习近平总书记在第十三次团体进修中强调“核心价值观要在落细、
末次冰盛期以来的古气候环境变化研究一直是国际学者关注的热点之一。本研究经过细致的野外考察,选取江苏建湖冈北地层剖面(GB剖面、GB2剖面)进行研究和分析,运用年代地层学
古诗作为中小学语文教育的学习重点,无论是在应试教育还是在素质教育体系中均扮演着至关重要的角色。古诗推荐这一智能知识服务能在学生进行古诗拓展学习时主动推送相似的古
波达方向(DOA)估计是阵列信号处理的一个重要分支,传统的高分辨算法在独立信号条件下可以准确估计信号的入射角度。但在相干条件下,由于信号协方差矩阵秩的下降,导致无法准确
单光子压缩成像将单像素成像与光子计数技术相结合,可以实现极弱光下的成像,在生物医学成像、天文探测、多光谱成像等领域具有广泛的应用。由于单像素成像的采样时间受限于测
核磁共振(Magnetic Resonance,MR)技术已经成为了一种常用和重要的疾病检测技术,通过核磁共振医学影像,可以对身体重要器官及部位具有良好的诊断功能。同时,通过MR影像对人体的
很多实验与仿真结果的证明,大脑或神经网络处于临界状态时对信息处理有很多优势,比如最大的记忆容量、最广的信息多样性、最宽动态响应范围等。由于技术和实验动物的限制,以