基于位置语言模型的中文信息检索方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:s4553711
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着全球信息化进程的迅猛发展,网络上的中文信息资源变得越来越丰富,如何从这些海量数据中挖掘出有价值的中文信息,已逐渐成为信息检索领域的研究热点,信息检索技术的提高也随之变得重要起来。在现有的检索模型中,文档的得分主要都是基于词项在文档内的频率,逆文档频率以及文档长度而得到的,并没有充分考虑匹配到的查询词项在文档中所处位置的近邻性信息。虽然这些检索模型也有被应用到中文信息检索中并取得了不错的成绩,但其检索效果仍有提升的空间。因此,本文就基于位置语言模型的中文信息检索方法进行了研究。主要工作包括以下两个方面:第一,将位置语言模型引入到中文信息检索中进行建模,利用文档中词与词之间出现位置的近邻性关系,将查询词项在文档中出现的位置信息聚集在一起,以便获得与查询主题更为相关的检索文档。我们将中文文本信息采用基于词表和基于二元两种分词方法进行切分,切分后的文档词与词之间用空格区分,在建模时文档中的位置信息以词为单位进行标识,这样不仅考虑了词与词之间的位置近邻性,而且在一定程度上考虑了词间的复合关系,有助于提高检索的准确率。我们在NTCIR-5和NTCIR-6中文文档测试集上均进行了实验,实验结果表明,基于位置语言模型的中文信息检索建模方法相对于传统的检索方法来说拥有更好的检索性能。第二,在伪相关反馈方法中加入文档的位置特征,帮助原始查询获取更合适的扩展词项。该方法将反馈文档中的词项位置信息添加到相关性模型中,充分考虑了查询词项在反馈文档中出现的位置,利用位置语言模型将反馈文档中的词项与查询词项间的位置关系聚集起来,给那些靠近查询词项出现的词分配更高的权重,进而获取与查询主题更为相关的词来作为扩展词项。文中考虑了两种估计伪相关反馈的方法,独立同分布抽样方法和条件抽样方法。在文档集NTCIR5下我们基于词表索引分别验证了两种反馈方法的检索效果,实验结果表明,基于位置语言模型的中文伪相关反馈方法的检索性能要优于传统的反馈方法。
其他文献
无线Mesh网络作为一种新型的接入网技术,凭借其组网灵活,适应性强的优点,在近两年得到飞速发展,并逐渐成为下一代无线网络的关键技术之一。然而,无线Mesh网络的安全问题不容
对于导数题很多论文分别从不同的角度进行了研究和对于题型的归纳整理.由于近年内高考试卷压轴问题常常放在导数上,因为函数问题本身带有很强的抽象性,而且经常考查分类讨论
近年来,随着计算机网络的发展,网络新技术不断涌现和发展,从最开始的HTTP,FTP,SMTP到后期的HTTPS,WEB2.0;从最初的客户机/端服务器模型到后来的P2P网络模型。数据共享技术的
丽水市是浙江省少数民族主要聚居地,也是浙江省民族工作重点地区.认真贯彻落实民族优惠政策,加快少数民族群众脱贫致富奔小康的步伐,促进民族地区经济社会发展,不仅是一项经
以双8-14s、105s 为光敏感核不育基因供体,以国内外不同类型的籼稻和粳稻品种为受体亲本,采用杂交、辐射及单株系谱选育方法选育出多种类型籼稻和粳稻光敏核不育系,籼型如890
菲律宾兵变目击记(通讯) 作者:朱幸福,刊于1987年8月29日《文汇报》。百万上海市民争睹日环食(新闻) 作者:解放日报记者,刊于1987年9月24日《解放日报》。“论谈行赏”好不
移动对象数据库属于时空数据库的范畴,移动对象通常被看作运动于3维的Euclidean空间(X, Y, T)中,实际上,大部分移动对象的运动空间都是限制在2维固定网络中的,如汽车在公路上
受中共中央宣传部新闻局的委托,复旦大学新闻学院将从今年10月到12月举办第一期全国新闻干部研修班。 Entrusted by the Information Bureau of Propaganda Department of
所谓情境教学具体指的是教师有目的地在教学过程中创设亦或是引入以形象为主体的、具有一定情绪色彩的生动场景,引发学生的态度体验,进而有效的帮助学生更好的理解教材知识,
《体育强国建设纲要》颁布,全民健身公共服务仍然是重点推进的国家战略,山西省为推进“健康山西”的建设,全面提高人民的身体素质及健康水平,应进一步完善山西省全民健身公共