基于潜在语义关系的伪相关反馈查询扩展技术研究

来源 :华中师范大学 | 被引量 : 3次 | 上传用户:woai6672690
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伪相关反馈与查询扩展作为信息检索领域的关键技术,能极大地提高信息检索系统的性能,一直以来深受国内外信息检索领域学者的重视。在伪相关反馈的过程中,对原始查询进行扩展是非常重要的一个环节。在选取扩展词项的时候,传统的伪相关反馈方法大都聚焦于评估候选扩展词项在伪相关文档中的词频重要性和显著性,往往会遗漏候选扩展词项与查询词项之间潜在语义关系。本文结合经典的伪相关反馈查询扩展方法,围绕候选扩展词项的语义捕获与表示,提出了若干个具有不同语义特征的伪相关反馈查询扩展方法。实验结果表明这些方法能够优化扩展词项的质量,提高信息检索的效果。
  主要的研究工作和创新点包含以下几个方面:
  (1)本文提出了一种基于词项超空间语义的伪相关反馈模型HRoc。该模型采用一种改进的超空间模拟语言算法度量查询词项与候选扩展词项之间的潜在语义关系,并在传统的Rocchio模型中融入这一语义关系完成查询扩展。在此基础上,本文为HRoc模型设计了三种不同的归一化策略。这些策略可以用来协调由不同特征生成的候选扩展词项的权重。最后,本文还引入了一个自适应函数来代替HRoc模型中的参数D,它可以根据文档长度自动选择窗口大小。在PMC2016数据集上的实验结果表明,本文所提出HRoc模型在各项评价指标上优于其他所对比的模型,能有效地提高信息检索的精度和查全率,得到比其他模型更精确的结果。同时,引入了自适应参数后的HRoc模型,在达到同等性能的情况下使用了更少的超参数,提高了模型的运行效率和适用性,有助于用户更高效地检索文档。
  (2)伪相关反馈是一种有效并被广泛采用的查询扩展技术,它假定初始检索结果集中排名最高的一部分文档是相关的,然后从这些文档中提取扩展词项。在选择扩展词项时,大多数传统模型都没有同时考虑词项的词频显著性以及候选词项与查询词项之间的共现关系。然而,直观地看,与查询词项同时出现并且频率较高的词项更有可能与查询主题相关。本文提出了一种基于核函数词项共现语义的伪相关反馈方法。该方法使用了高斯核函数来模拟基于邻近位置的查询词与候选扩展词之间的潜在语义关系,并将这一语义关系以及词频显著性特征同时引入到传统的Rocchio模型和RM3模型中分别完成查询词项扩展,由此提出了KRoc模型和KRM3模型。在9个TREC数据集上的实验结果显示,本文所提出的基于核函数词项共现语义的伪相关反馈方法在MAP和P@10两个指标方面明显优于其他重要的模型,验证了本文所提出的方法能有效地缓解查询主题漂移的现象,提高最终伪相关反馈的检索效果。
  (3)本文提出了基于深度学习技术的伪相关反馈模型。在实际查询中,句子携带了其组成词项的额外的语义信息。忽略查询句子语义信息的检索模型往往难以准确地判别查询主题中多义词项的正确含义,从而曲解用户的真实意图,导致检索效果较差。为了正确地识别用户的真实查询意图,改善信息检索系统的语义理解能力,本文对基于深度学习技术的句子语义相似度计算进行了深入研究,将词项所在句子和查询词项所在句子之间的语义相似度信息作为扩展词项的句子语义权重,并将该权重引入经典的Rocchio模型中,提出基于BERT模型句子潜在语义的伪相关反馈模型BRoc。在标准TREC数据集上的实验结果表明,本文所提出的方法能有效提取查询主题和文档中的句子语义特征,并且对词的多义性也有较好的区分能力,可以改善传统伪相关反馈模型的性能。
其他文献
目的:文献研究:运用数据挖掘技术对推拿治疗不寐的临床文献进行计量统计和分析,为临床治疗不寐提供客观依据和参考,并为本课题设计的科学性和规范性以及临床研究的可行性和创新性提供文献依据。临床研究:首先通过对比临床研究中治疗组与对照组治疗前后的各项观察指标的变化,从患者主观感觉与客观指标两方面评价醒脑开窍推拿法的临床疗效;继而运用基于血氧水平依赖(BOLD)的静息态功能磁共振技术观察醒脑开窍推拿法对不寐
目的1.多角度、全方位检索和整理骨关节炎古今文献,根据用药途径不同,深入挖掘骨关节炎内服方剂和外用方剂的临床用药规律、组方配伍特点,为其临床应用做出有益探索,为本病的防治提供一些借鉴。2.系统评价活血化瘀方治疗骨关节炎的临床有效性及安全性,为骨关节炎临床用药提供循证医学依据。  方法1.用药规律研究:全面检索中药治疗骨关节炎古今文献,采用数理统计和关联分析、聚类分析数据挖掘方法,对骨关节炎的临床用
学位
目的:观察丹参玉液汤联合缬沙坦胶囊治疗气阴两虚兼血瘀型早期糖尿病肾病的患者的临床疗效。  方法:将60例就诊于石家庄市中医院内分泌门诊及病房的且符合气阴两虚兼血瘀型早期糖尿病肾病的患者,随机分为治疗组30例与对照组30例,两组均先进行2周指标清洗治疗,使血糖、血脂等指标稳定在一定区间内,且两组患者在一般资料如性别、病程、年龄等方面无统计学差异(P>0.05),在此基础上,对照组给予缬沙坦胶囊80m
学位
该文研究了盐酸阿夫唑嗪的合成方法,考察了多条合成路线,改进了各步反应条件和后处理方法,最终确定一条较为合适大规模制备该品的路线和工艺条件.经十五步反应制得目标化合物,总收率为1.5﹪,其结构经熔点测定、质谱、H核磁共振谱和红外光谱确证.
在共享经济的时代背景下,中国产业结构发生了变革,合作者之间基于资源依赖的互利共赢成为了一种趋势,合作可以有效降低交易成本,是共享经济的直接实现方式。司机与滴滴平台的合作是共享经济下网络组织的一个缩影,但是,由于滴滴打车是近几年出现的新兴事物,发展还不够成熟,一些问题没办法得到很好的解决,其中信息不对称、合作质量差的问题尤为突出,由于合作时资源的不对称依赖对感知价值和关系风险的冲突,严重影响了合作的
党的十九大将“中等收入群体比例明显提高”纳入“两步走”战略,随着城镇化进程的快速发展,中等收入家庭占城镇人口比例不断增加,潜在中等收入者也不断增加,带来了住房需求的增加。相比高收入家庭,中等收入家庭在购房决策方面需要权衡;相比低收入家庭,中等收入家庭在购房决策方面有一定消费实力,在目前我国扩大中等收入群体、加之购房热与房价高的背景之下,中等收入家庭的购房决策倾向引起了社会广泛关注,因此,研究中等收
伴随着“大众创业,万众创新”战略提出和一系列政策文件的出台,创业环境不断改善。全球创业观察组织的微观数据显示,66.4%的中国公民认可创业并将之作为重要的就业手段,创业文化逐渐形成。创业数量的快速增长,企业孵化器和科技园区等创业服务机构数量和服务质量不断提升,一定程度上降低了创业的高风险性,但是大多数创业企业仍无法避免失败的命运,高失败率依然是创业领域的重要难题。从创业能力的角度看,产品创新能力、
学位
在创新驱动发展情境下,城市不动产结构的异质性引致创新要素向特定城市集聚,加速城市间创新活动集散分化。本文从城市物质载体-城市不动产出发,基于区域创新系统和创新环境理论,运用ArcGIS及Stata软件剖析了城市不动产结构对创新集聚影响作用机理、构建了城市不动产结构定级模型、刻画了城市不动产结构对创新集聚影响的面板数据模型。结果表明:城市宜创、基础不动产对创新集聚为正向影响作用;城市不动产结构发展呈
改革开放40年来,我国不断增加科技创新在人力、财力等方面的投入,加快建设创新型国家,为实现在2035年跻身创新型国家前列的目标而奋斗。因此,在第四次全球性的产业转移背景下,我国的高质量发展不仅要保持各个区域一定的经济发展速度,还要改变我国各区域间发展的不协调、不平衡现象,促进我国各区域间形成更加合理的产业格局。而我国要想取得经济发展的主动权,就必须将产业转移与区域自主创新能力建设紧密结合在一起,紧
学位