【摘 要】
:
信息技术的快速发展改变了人们的工作、学习与生活,如何从大量的文本数据中快速并且准确地检索到用户需要的信息成为了大数据信息时代的一大难题。传统信息检索方法是基于关键词的检索,忽略了语义信息,用户检索体验较差。本文将查询匹配方法引入查询扩展技术,并且结合改进后的排序算法和全文搜索引擎对信息检索技术进行优化,有助于改善用户查询过程中存在的“词不达意”和“文档不匹配”的问题。本论文的工作内容及主要贡献如下
论文部分内容阅读
信息技术的快速发展改变了人们的工作、学习与生活,如何从大量的文本数据中快速并且准确地检索到用户需要的信息成为了大数据信息时代的一大难题。传统信息检索方法是基于关键词的检索,忽略了语义信息,用户检索体验较差。本文将查询匹配方法引入查询扩展技术,并且结合改进后的排序算法和全文搜索引擎对信息检索技术进行优化,有助于改善用户查询过程中存在的“词不达意”和“文档不匹配”的问题。本论文的工作内容及主要贡献如下。首先,针对传统查询扩展算法忽略语义信息的缺点,在基于Word2vec查询扩展方法的基础上,结合自动阈值筛选方法和改进的LSF技术,提出基于词向量的语义扩展算法LW-TF。LW-TF算法实现的查询匹配包括两个步骤:一是结合自动阈值筛选方法和改进的LSF技术,以获取语义扩展词实现语义匹配;二是通过向量加权法获取查询向量和文档向量,实现关联匹配。实验结果表明,基于词向量的语义扩展算法相较于其他算法实现了查全率和查准率的提升,证明了算法的有效性。其次,本文结合LW-TF算法与改进后的BM25F-N排序评分算法,在全文检索的基础上,提出基于词向量扩展的语义检索算法,改善了传统搜索引擎排序算法对搜索结果评分排序时容易忽略文档重要信息的缺点。本文以财经新闻作为实验数据,将新闻的时间因素和网站知名度因素列为搜索结果排序的重要考核指标。实验结果表明,基于词向量扩展的语义检索算法的检索效果,相较于其他算法实现了语义检索查全率、查准率和F-measure的提升,达到了良好的检索效果。最后,建立了基于词向量扩展的语义检索模型,完善各个功能模块并通过实验验证。检索结果表明本文提出的语义检索模型相较于传统查询检索方法,充分考虑了查询与扩展词之间的语义关系以及查询与文档之间的匹配关系,同时引入时间因素和网站知名度因素对检索结果进行排序。希望通过本次研究可为语义检索模型的研究与设计提供一定参考价值。
其他文献
目的:探讨糖尿病早期肾损伤采用尿糖、尿微量白蛋白联合检验的临床价值。方法选取我院2012-01-2014-01收治的70例糖尿病患者,并选取同时期健康体检者70例,应用尿糖、尿微量白蛋
目的研究单极纺锤体蛋白激酶1(Mps1)对蛋白酶体α7亚基(PSMA7)蛋白稳定性的影响。方法通过重组PCR方法将663位天冬氨酸突变为丙氨酸,构建Mps1激酶活性缺失的突变体(pc DNA3-F
目的对腹腔镜微创治疗子宫肌瘤的临床效果进行观察。方法将120例子宫肌瘤患者分成对照组和治疗组,每组各60例,对照组患者给予传统开腹手术治疗,治疗组患者给予腹腔镜微创治疗
近期,打新股申购的理财产品和投资基金的FOF产品陆续发行,备受投资者的青睐。在2006年,这一类理财产品的年化收益率普遍都在10%以上,预计今年的年化收益率仍为10%,这也吸引了不少投资者认购该类理财产品。但是,与去年不同的是,近期新推的产品大都增加了报酬提取条款和提前赎回的相关规定。而这些容易被投资者忽略的细节,恰恰将直接影响投资者的实得收益。 2006年,无论是打新股申购类的理财产品,还是投
近年来,随着我国社会经济的快速发展、生活水平的日益提高,人们的疗养意识正在逐渐增强,疗养人群的数量逐年增多,群体健康状况也变得复杂化。疗养期间的膳食营养作为疗养健康
目的:轻度认知功能障碍(Mild cognitive impairment,MCI)是指有轻度记忆力损伤而没有达到痴呆临床诊断标准的一种过渡状态。我国老年人认知功能受损形势不容乐观,研究显示农
进入新世纪,中国俨然已成为世界的制造大国。但令人担忧的是,在制造业,我国同时也是一个品牌缺失的国家。据世界品牌实验室报告,2009年世界品牌500强中,只有18家是中国品牌,
通过热聚合法制备了3种不同分子量、羟值和分子结构的大豆油多元醇(Polyols1,Polyols2和Polyols3)。将它们与多亚甲基多苯基多异氰酸酯(PAPI27)反应制备了3种聚氨酯泡沫塑料(
目的探讨疗养护理工作中开展优质护理服务的措施及效果。方法总结我院开展优质护理服务的具体措施,分析应用效果。结果护理整体技术水平、综合素质得到显著提高,也提升了护理服
<正>京剧是高度综合的艺术,她以表演为中心,将文学、音乐、舞蹈、美术、武术、杂技等熔为一炉,与书、画、琴、棋、乐、园林异曲同工,与世态人生息息相通。京剧集中华传统艺术