Web2.0网络热点发现与个性化检索研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:shade89
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,所谓的Web2.0网站和技术发展迅速,彻底改变了互联网的面貌。Web2.0网站强调自由创作和用户参与,数以亿计的网民在新一代的Web平台上创造了海量的生动有趣的内容。越来越丰富的互联网信息资源使得用户难以在浩如烟海的数据中找到其真正感兴趣的信息,因此,各种各样的信息检索和搜索引擎技术得到了广泛的关注和巨大的发展。   现有的Web信息检索系统主要是搜索引擎,但是已有的搜索引擎还是存在着很多不足,主要表现为:一是Web2.0网站的内容被收录的比例很少;二是给出的结果不能反映当前网络的流行信息和热点话题;三是检索结果没有针对用户的兴趣爱好来排序和筛选。针对以上几点问题,论文所要探讨的就是如何在Web2.0环境下,帮助用户根据自己的兴趣爱好从Web2.0的信息海洋里获取流行的热点话题。   论文主要针对Web信息检索中的Web2.0社区网络热点发现以及个性化推荐进行了研究,以更好地改善用户的检索体验。为了达到这个目标,论文首先提出了研究的框架,然后探讨各个重要组成模块的关键技术,并针对Web2.0网站的特点提出相应改进的算法与模型。论文的主要内容和创新之处为:   1.针对Web2.0网站信息组织和层次结构的特点,抽象出面向对象的分布式深度爬虫(Object-Oriented Distributed Deep Crawler,简称OODDC),使用较经济的带宽来与真实数据保持同步,大大提高了爬虫的工作效率和采集数据的实时性。实验结果也证实了面向对象的分布式实时深度爬虫的优点。   2.详细研究了Web2.0网站数据格式和内容标签(Tag)化的特点,在传统Web信息抽取算法基础上,结合向量空间模型(VSM)和实体识别算法,采用少数几个Tag及其权重组成的向量来描述网页、图片、视频和博客等Web对象信息本体的特征,建立了基于Tag描述的统一信息表示模型。   3.基于Tag描述的统一信息表示模型,改进了已有的话题检测与跟踪(TDT)算法,用快速的聚类算法检测和聚合网络话题;同时结合用户反馈对于信息流行程度的影响,提出一种有效的网络话题热度评估算法(Hot Rank),对所收集的话题计算其热度,作为排序和推荐的依据。实践表明,以相关度和热度共同作为检索结果的排序依据更加吸引用户。   4.针对现有用户兴趣模型的缺陷,提出一种基于主题的在线用户兴趣模型。此模型自动提取用户访问网页的主题,并随时根据用户兴趣的变化以非常小的代价更新。该用户兴趣模型可以运用到各种个性化服务中。实验证明基于此模型的个性化推荐系统具有良好的性能。
其他文献
随着移动通信技术的飞速发展和移动网络的快速演进,移动视频监控已经广泛应用于城市交通、家居安防等领域。基于移动性的优势,移动视频监控还可以应用在应急指挥、救灾抢险等对
针对频偏估计问题,本文从理论和仿真实验的角度对TD-SCDMA系统基于Midamble码的频偏估计算法、OFDM系统基于PN序列和基于循环前缀的频偏估计算法进行了研究。首先研究了频偏产
目前,图像和视频已经越来越成为多媒体的主要表现形式,如何有效地从大规模的图像视频数据中定位用户真正需要的图像块,已经成为了图像和视频处理领域比较热门的问题,感兴趣区
无线电频谱资源是信息社会发展的重要基础和战略性资源。随着信息通信业务的迅猛发展,频谱资源紧缺问题越来越突出。优化频谱资源配制、提高频谱利用效率是解决频谱紧缺问题的
随着互联网和无线移动通信技术的发展,人们对移动多媒体业务的需求越来越大。然而网络丢包及无线信道中出现的数据差错与丢失造成了接收端图像质量的下降。而多描述编码能满
现代计算机网络已经渗透到人类生活的方方面面。网络上每天充斥着海量的信息并且时时更新,如何筛选甄别网络信息成了一项日益严峻的研究任务。话题跟踪技术就是在此基础上发展
在当今信息爆炸式增长背景下,云计算技术凭借其高性能的计算能力和海量的数据存储能力,得到了各界的广泛关注及应用。然而,随着在云计算环境中开发功能越来越多的强大应用/软件,
多相流是一种复杂的流体现象,广泛存在于能源工业领域,尤其在石油工业生产过程中,任何一个环节都离不幵流量测量技术。多相流参数的准确测量,对油田生产效率的提高和合理性开釆油
随着网络信息的日益增长,人们越来越重视信息传输过程中的安全性。各种信息泄露事件层出不群,给个人和大型商业公司都带来极大的利益损害。因此,我们需要建立一个更加安全的
近年来,人脸识别技术取得了长足的发展与进步,并已经成为了计算机视觉和模式识别两大领域的研究热点。因为人脸识别能够很方便也很直观的达到身份验证的目的,同时也很容易被大众