论文部分内容阅读
近几年来,所谓的Web2.0网站和技术发展迅速,彻底改变了互联网的面貌。Web2.0网站强调自由创作和用户参与,数以亿计的网民在新一代的Web平台上创造了海量的生动有趣的内容。越来越丰富的互联网信息资源使得用户难以在浩如烟海的数据中找到其真正感兴趣的信息,因此,各种各样的信息检索和搜索引擎技术得到了广泛的关注和巨大的发展。
现有的Web信息检索系统主要是搜索引擎,但是已有的搜索引擎还是存在着很多不足,主要表现为:一是Web2.0网站的内容被收录的比例很少;二是给出的结果不能反映当前网络的流行信息和热点话题;三是检索结果没有针对用户的兴趣爱好来排序和筛选。针对以上几点问题,论文所要探讨的就是如何在Web2.0环境下,帮助用户根据自己的兴趣爱好从Web2.0的信息海洋里获取流行的热点话题。
论文主要针对Web信息检索中的Web2.0社区网络热点发现以及个性化推荐进行了研究,以更好地改善用户的检索体验。为了达到这个目标,论文首先提出了研究的框架,然后探讨各个重要组成模块的关键技术,并针对Web2.0网站的特点提出相应改进的算法与模型。论文的主要内容和创新之处为:
1.针对Web2.0网站信息组织和层次结构的特点,抽象出面向对象的分布式深度爬虫(Object-Oriented Distributed Deep Crawler,简称OODDC),使用较经济的带宽来与真实数据保持同步,大大提高了爬虫的工作效率和采集数据的实时性。实验结果也证实了面向对象的分布式实时深度爬虫的优点。
2.详细研究了Web2.0网站数据格式和内容标签(Tag)化的特点,在传统Web信息抽取算法基础上,结合向量空间模型(VSM)和实体识别算法,采用少数几个Tag及其权重组成的向量来描述网页、图片、视频和博客等Web对象信息本体的特征,建立了基于Tag描述的统一信息表示模型。
3.基于Tag描述的统一信息表示模型,改进了已有的话题检测与跟踪(TDT)算法,用快速的聚类算法检测和聚合网络话题;同时结合用户反馈对于信息流行程度的影响,提出一种有效的网络话题热度评估算法(Hot Rank),对所收集的话题计算其热度,作为排序和推荐的依据。实践表明,以相关度和热度共同作为检索结果的排序依据更加吸引用户。
4.针对现有用户兴趣模型的缺陷,提出一种基于主题的在线用户兴趣模型。此模型自动提取用户访问网页的主题,并随时根据用户兴趣的变化以非常小的代价更新。该用户兴趣模型可以运用到各种个性化服务中。实验证明基于此模型的个性化推荐系统具有良好的性能。