论文部分内容阅读
随着Internet技术的高速发展,Web已经成为人们获取信息的一个重要途径,由于Web上的文本信息日益增长,如何有效地检索用户所需信息成为一个非常重要的研究课题。信息检索是指信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程,是处理海量信息的重要手段。本文主要研究Web中的信息检索算法及其应用。 本文首先介绍了信息检索的发展概况和相关技术,其次分析了信息检索技术中三类典型的检索模型,系统地研究了大范围检索系统中基于内容检索算法、基于超链分析检索算法以及混合检索算法的特点,并针对目前搜索引擎的个性化、智能化趋势,介绍和分析了个性化信息检索的发展状况和几种基本模型。 针对短查询式造成的查全率高而查准率低的问题,本文将查询扩展和文本分类技术融合辅助检索,提出了一种基于查询扩展和文本分类相结合的信息检索算法。该算法引入了查询扩展和文本分类,增加了短查询式的信息,避免了传统的查询扩展算法的时间复杂度过大缺点。实验结果表明,新算法提高了检索精度和时效,并有效地克服了查询主题发生漂移的缺陷。 对于传统检索技术不能根据用户兴趣检索信息的问题,本文引入用户兴趣模型并将内容过滤和文本分类方法相结合,提出一种基于内容过滤和分类的个性化信息检索算法。该算法通过观察用户的浏览文档的行为,采用机器学习的方法不断地更新兴趣模型,从而使该模型越来越贴近用户的真实兴趣;同时,根据用户兴趣模型,算法采用内容过滤和文本分类的方法有效地检索用户感兴趣的信息。实验结果表明,该算法具有较高的查准率和查询速度。 最后,本文将提出的算法和技术相结合,实现了一个的信息检索原型系统。