论文部分内容阅读
当前Web已经成为人们获取信息的重要途径,但是随着Web上信息的迅速膨胀,再加上Web上信息存在海量性、动态性、非结构性和无序性等特点,这使得人们想要在Web上获取所需要的信息显得相当的困难。因此,如何提供一种有效的方法,以用户为中心,帮助用户有针对性地、高效地获取用户真正需要的、权威的信息就成为了研究者们所面临的重大课题。
本文在对当前搜索引擎技术、权威网页搜索技术、文本分类技术、用户兴趣建模技术、基于协作的推荐技术,还有中文分词技术、网页解析技术、信息过滤技术等相关技术的分析与研究的基础上,对各种技术进行了很好的融合,提出了一种基于文本分类与用户兴趣的个性化搜索与推荐的解决方案,并实现了该方案的系统原型Alpha。
本文研究了权威网页搜索算法HITS,并对其进行了一定的改进;构建了一个具有一定规模的文本分类语料库和较为合理的领域类别体系,并利用该语料库训练出一个文本分类器为个性化搜索结果进行分类;研究并设计了一个基于VSM的用户兴趣模型,并设计了用户长期兴趣和短期兴趣的相互转换与用户兴趣的实时更新;以用户兴趣模型为基础,根据用户多方面、多粒度的兴趣和信息获取习惯提供个性化搜索,并使用基于协作的推荐技术向用户推荐其最可能感兴趣的信息。
在系统原型Alpha中使用了多线程、数据缓冲等来缩短系统的响应时间,使用了Cookie、兴趣实时更新等来方便用户和提高用户的个性化体验。Alpha系统确实能较好的把握用户的兴趣并提供相应的个性化服务,达到了预定的目标。