检索主题难易度预测

来源 :第一届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:wd070703332
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
TREC2004 Robust任务有一项新要求,就是要把检索主题按照从易到难的顺序排列.针对新要求,该文提出了基于单词歧义性大小的检索主题难易度模型.根据WordNet和它附带的Brown语料库构造了单词义项分布词典,然后把检索主题中的单词按歧义性大小分为七类,通过计算平均单词容易度来度量检索主题的难度.实验结果表明该模型有一定的预测能力.最后预测了TREC2004 Robust任务的250个检索主题的难易度.
其他文献
本文通过以主题的方式构建分布式信息检索的文档集合,将传统的按照出版时间、信息来源构造文档集合的方法作为不限,对比看出基于主题的方法在检索的效果上明显提高,原因是以主题的方式建立文档集合便查询的答案有效的凝聚在少数文档集合中,为文档集合的选择提供了有力的支持.通过和集中式信息检索的方法的比较,可以看出现在的分布式信息检索在检索的效果上和集中式信息检索有一定的差距,具有很大的提升空间.另外本文还对分布
本文提出了一种新的双语文档对齐算法,该算法用TEIDF方法进行文本特征采样和权重计算,使用统计翻译模型进行双语词汇对齐,用Dice方法的改进算法计算双语文档的相似度.实验表明,该算法可以准确地发现一种语言书写的文档在另一种语言中的译稿,可应用于双语重稿检测、跨语言相似文本检索等领域.
针对自然语言处理中利用概念空间进行自动文档处理,本文提出一种基于组合词典和语料统计来计算概念内聚度的方法;该方法融合知识库和统计处理在概念关系判断方面的各自优势,有效计算概念语义关联,提高自动文档分析的准确性.通过实验验证本方法的有效性.
本文对应用最大熵原理建立语言模型的特征选取方法提出了改进,即先利用特征模板从训练样本中获得候选特征集,再应用频次与平均互信息相结合的方法从候选特征集中选取特征.改进后的方法在选择特征时,对候选特征集中出现频次大于某一限值的特征或平均互信息很大的特征直接加入特征集,并且不是每选出一个特征都调用参数的求解过程,从而加快了特征选择的速度.将改进的算法应用于文本纠错建议的排歧,实验证明,所改进的特征选择算
本文介绍了一个同时利用词语和义项来索引和检索文档的信息检索模型,称为"义项矩阵模型"SMM(Sense Matrix Model).利用词语和义项的关联提出了一种新的文档表示,即把文档表示成为一个term×sense矩阵,由此引进或建立起一步很有效用的数据分析技术,包括基于矩阵范数的文档相似度计算、文档向量和矩阵的离散余弦变换(DCT)、多维数据正交分解(MAD)等,并提出了一种新的、无需翻译或者
在信息检索的查询反馈处理中,可以利用聚类方法进行文档进而扩展查询条件[1].这时被选择进行聚类的文档集合一般是小规模的,并且由于信息检索有限的性能,文档之间可能出现非常接近、一定程度上相似、基本无关等多种情况.本文针对信息检索的查询反馈处理中文档集合的这些特性,分析了使用聚类算法处理小规模文档集合面临的特殊问题,提出了在文档归并和孤立点分离基础上进行聚类的策略,取得了较好的聚类结果.
随着Web技术的发展,网上论坛在人们的生活中起到了越来越重要的作用,论坛中也逐渐积累内容丰富的文档资料.然而,论坛消息本身的特点使得传统的信息检索和文本分析技术无法收到良好的效果.本文在分析论坛站点内部信息组织模式和链接结构的基础上,采用信息抽取技术获得论坛中的消息,重建论坛语义结构.此外,本文引入多维索引来组织论坛消息的特征,并通过分析消息序列在多个维度上的语义漂移现象,挖掘其中的完整语义信息单
网络信息检索已经成为互联网用户获取信息的主要途径之一,如何利用有限的计算和存储资源覆盖更多更有用的网络信息则是当前研究的热点和难点.网格计算作为一种全新的资源共享协作方式,在结构化信息的获取和利用上对网络信息检索研究有一定的参考意义.虚拟组织是网格体系结构中的基本组织单元,对网页链接关系的研究发现,在网页集合中存在着类似虚拟组织的结构形式:虚拟站点.借鉴网格研究中对虚拟组织的组织特性分析和网页非内
基于WEB的推荐及个性化服务是目前智能信息检索、电子商务、远程教育等领域研究的重点,本文在分析当前远程教育系统中个性化学习其存在问题的基础上,设计了一种基于web日志挖掘的推荐系统,介绍了远程教育中数据准备和页面学习推荐过程中聚类分析技术的应用,最终实现教学过程中的按需学习和因材施教的要求.文中重点介绍了聚类分析在预测推荐页面中的设计与应用,最后对算法在运行效果进行了定性的分析.
自然语言处理就是研究如何能让计算机理解和处理人们日常所使用的(如汉语、英语)语言.例如,对用户给计算机提出的问题,通过对话的方式,用自然语言进行回答.目的在于建立起一种人与机器之间的密切而友好的关系,使之能进行高度的信息传递与认知活动.自然语言理解系统可以用作专家系统、知识工程、情报检索、办公室自动化的自然语言人机接口,有很大的实用价值.那么计算机要理解人类的语言,首先就是要明确一个句子的意义.而