Web信息检索中相关反馈等技术的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:zgz000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机和网络技术的飞速发展使Web信息的发布与共享超越了时空的限制,同时也给我们带来了“信息过载”的问题,即信息资源极大丰富,但对于每个特定的用户而言,真正有用的信息和知识却相对匮乏。绝大多数Web信息检索系统的检索返回结果与用户的信息需求毫不相干,因而为用户索取所需的Web信息资源变得非常重要。 Web信息检索的主要功能是为用户提供方便快捷准确的信息索取服务:按照用户提交的查询在Web文档库中进行查找,将符合用户需求的结果返回给用户。搜索引擎等Web激光器统虽然能够部分地满足用户的需要,但在准确率、易用性等方面仍存在诸多问题,其效果远不能使人满意。据此,本文对信息检索尤其是Web信息资源的有效检索这个既有重要理论意义又有广阔实际应用的课题进行了研究和探索。 本文在对Web信息检索现状进行剖析的基础上,采用基于统计学习的方法,探讨了Web文档内容的表示、组织、检索和主题分类等问题,对相关反馈等关键技术进行了系统深入的研究,取得了如下几个方面的成果: (1)首先系统介绍了Web信息检索的历史和系统的体系结构,并对国内外Web信息检索系统的现状进行了回顾与评价;分析了Web信息资源的特点及其导致的信息检索问题;接着探讨了Web信息检索系统的分类和基本功能;总结了Web信息检索系统涉及的若干关键技术及其存在问题。针对上述分析,确定了本文利用统计学习方法并结合相关反馈技术,对信息检索涉及的部分问题进行研究的思路。 相关反馈技术是近年来信息检索技术研究的热点之一,也是克服用户查询含义模糊、明确用户信息需求的有效手段之一。本文在介绍传统信息检索系统的基本原理和存在的问题的基础上,阐述了相关反馈技术在Web信息检索中的作用;概述了基于相关反馈技术的Web信息检索系统的原理和体系结构,详细讨论了其涉及的若干关键技术:包括相关反馈技术的分类、用户兴趣的获取、学习方式与存储位置;讨论了相关反馈技术在信息检索及其它领域中的应用;最后给出了对基于相关反馈技术的信息检索进行性能评价的标准。 (2)利用词条权值对序列的数据结构表示Web文档的内容与用户兴趣具有简单有效、预处理工作少、应用范围广等优点。在上述表示方式的基础上,本文应用相关反馈技术,结合Rocchio算法的思想,提出一种基于词条权值对序列的相关反馈算法RFAKWS。利用用户反馈的文档内容计算用户的兴趣向量,并为用户兴趣向量中每个词条引入年龄和淘汰率等参数,随着用户的反馈进行调整,模拟适应用户信息需求的变化和迁移。利用用户兴趣向量结合文档向量空间模型,对检索结果进行评价和重排,辅助用户的信息检索。该算法简单直观,计算量小,易于与基于词条索引的搜索引擎集成,便于推广应用。 (3)利用模式识别分类算法进行Web信息检索可以充分利用机器学习的研究成果和经验,在模式识别的框架下信息检索的过程是:利用机器学习算法从用户反馈的Web文档中学习有关的检索知识,然后对文档库中的Web文档进行与用户信息需求相关和不相关的分类。学习用户的反馈本质上是一个有指导的机器学习的过程,而分类则是一个传统的模式识别问题。在相关反馈的过程中,用户反馈的文档数目比较少,是一个小样本的学习过程,常规的分类器难以保证分类性能。支持向量机(SVM)具有学习和分类速度快、泛化性能好等特点,在少量的样本之下就可以获得较好的分类效果,满足检索的要求。为了满足SVM对输入向量的要求,本文利用主成分分析进行文档向量空间变换和降维,不但可以克服词条间的同义词与反义词现象对信息检索的影响,保证文档向量的各个分量之间相互独立,而且解决了Web文档内容向量的稀疏性和高维度问题,有利于SVM训练性能的提高。由于用户的信息需求随着时间推移会发生变化,而增量式SVM算法的增量学习过程可以提高训练性能,不断地学习用户新反馈的文档,拟合用户信息需求的变化,在实际的信息检索实验中获得了令人满意的效果。 (4)文档向量空间模型和Rocchio算法在信息检索中有着广泛的应用,已经成为事实上的工业标准,但Rocchio算法求得的用户兴趣向量难以保证是最优的。为了获得高质量的用户兴趣向量,本文利用主成分分析和文档的向量空间变换,将文档的向量变换到非稀疏的低维向量空间,然后对用户兴趣向量进行实数编码,通过遗传算法求解代表用户兴趣的最优向量,结合文档的向量空间模型对检索返回结果进行评价和重排,最后给出了算法的评价和实验结果。由于对用户兴趣进行了优化,检索效果获得了提高。 (5)Web文档的内容通常采用自然语言描述,因而信息检索与自然语言处理密切相关。近几年来随着计算能力的大幅度提高和电子语料获取难度的下降,基于经验主义的文档内容处理逐步取代了基于规则的方法。我们首先介绍了与信息检索有关的统计语言模型及其在文档内容处理中的应用;随后介绍了基于统计语言模型信息检索的基本原理,由于长文档的内容往往涉及多个主题,极大似然值估计的方法从整体上估计抽取特征表示文档的内容,忽视了文档内容的局部结构和上下文的关系。本文对文档内容进行章节单元的划分,模拟信息分析员按照文档内容归纳选择生成查询关键词的过程进行HMM建模,从而将信息检索的概率计算问题转变HMM的第一个问题;对于长文档,用户感兴趣的信息往往是其部分片段内容,而信息分析员按照长文档内容选择关键词时常常采用跳跃的方式进行阅读归纳,模拟该过程,基于章节的信息检索相当于HMM的第二个问题。我们利用传统的HMM算法进行计算,提出了Web文档的信息检索算法IRAH和章节检索算法PRAH应用于文档检索和章节检索,获得了良好的效果。本算法不仅体现了文档的局部内容和上下文间的联系,而且有效地消除词条间的同义词和反义词现象对信息检索的影响。 (6)“主题类别”是Web文档的重要属性,文档主题类别的确定有助于文档内容的管理和用户在信息检索时的决策,也是信息检索系统具有的基本功能之一。而传统的利用极大似然值的方法难以体现文档的局部内容和多值分类。本文通过分析文档内容的结构与主题分类的特点,结合章节单元的划分与词条的相似关系,提出了一种基于HMM的Web文档章节分类算法PTCAH,将分类过程看作是一个生成文档章节单元的改进的HMM过程,文本分类问题可以看作是该HMM过程的第一个问题;而文本章节分类过程就归结为HMM的第二个问题,从而将章节分类归结为改进的Viterbi算法的计算问题。本文提出的章节分类算法是NaiveBayesian算法的一般形式,即摒弃了NaiveBayesian文本分类算法中分类间相互独立和词条间相互独立出现的假设。算法较好地考虑了文档内容局部的内聚性和多主题特性,参考了类别间的上下文联系,弥补了词条之间相互独立出现假设的缺陷,并对文档进行基于章节的多值分类。最后进行了对比试验,并分析和评价了实验结果。
其他文献
变体测试是一种有效的测试度量技术,它提供了一种度量测试的指标及基于该指标的测试方法。基本思想是根据一定的准则(变体算子)在程序中引入缺陷来度量测试用例集。但要使变
算法重用是在算法设计中避免重复劳动的解决方案。通过算法重用,可以提高算法设计的效率和质量。可复用的算法组件是实现算法重用的关键,本文提出一种基于算法模式的算法重用
在社会需求瞬息万变,信息交流日趋频繁的今天,为了能够适应这种动态环境,大型企业或组织的业务处理需要强有力的管理和控制。应发展需求,工作流管理技术应运而生。工作流管理技
随着社会的发展与进步,土地资源的合理和有效利用变得越来越重要,直接关系到社会的可持续发展.土地利用规划工作是土地管理中的基础性工作,具有十分重要的地位,并且已经贯穿
  文章结合知识管理的基本概念,同时充分利用了目前应用比较成熟的知识工程领域的研究成果,系统的研究了建筑施工技术知识的知识表示、知识获取、知识库、推理策略及知识处理
论文包括两部分内容,第一部分通过定义分解互模拟这个概念,对规范的(normed)上下文无关进程上的互模拟做了更为简单的有限刻画,并且对我们定义的分解互模拟这个概念进行了博
开发型汽车驾驶模拟器是利用计算机,在电子、液压、控制等技术支持下,从人—车—交通环境闭环系统的整体性能出发,对汽车主动安全性能等进行仿真研究和开发的大型实验装备。
随着多媒体技术和网络的发展,人们对数字图像在质量、大小和应用方面提出了更高的要求。图像压缩技术一直是多媒体信息处理技术研究中最活跃的领域,如何利用新的技术对图像进
本文在分析Web信息分类、抽取、查询技术的基础上,设计和实现了能自动过滤Web信息的教育信息知识库系统.该系统的知识过滤器采用基于向量空间分类算法,基于本体的信息抽取算
随着经济的繁荣和发展,纸币的流通量越来越大,但是假币的存在一直是困扰着金融行业的不可忽视的一个问题.因此,纸币真伪辨识的准确率和效率尤为重要.该文介绍了一种基于DSP实