论文部分内容阅读
随着互联网的快速发展与应用的普及,网络数据量呈级数增长。如何从海量数据中获取所需信息,已成为亟待解决的问题。个性化推荐服务提供了解决此问题的一个有效途径,而用户偏好获取则是定向推荐的前提。因此,研究网络用户偏好的分析方法以及基于偏好的推荐算法,对于更好地为用户提供信息服务有着重要意义。本文首先简要介绍了网络用户偏好分析方法和推荐技术的研究发展与现状,阐明了本论文的研究意义,说明了与本研究相关的几种关键技术。其次,本文在研究微博用户数据特点及微博社区传播特性的基础上,选定微博数据作为研究对象,并利用API接口与网络爬虫相结合的方式,实现了微博数据的自动化采集。本文针对新浪微博用户数据进行了详细的分析,从中提取出能够表示用户偏好的信息,分别从用户个人信息、微博内容、关注关系、交互行为及用户影响力5个方面来表征用户的偏好,并给出了相应的量化方法,将用户特征存储于Xml文件中。本文给出了一种基于微博网络用户偏好的推荐方法,从微博内容和用户关系两个方面完成对用户的推荐:(1)基于内容的推荐采用余弦相似度算法进行计算,以LDA话题生成算法进行改进,并通过用户影响力因子对用户进行进一步筛选;(2)基于用户关系的推荐采用PersonalRank算法计算相似度,加入用户交互行为权重对算法进行优化。然后通过加权融合的方式对二者的推荐结果进行融合,得出更加准确的推荐结果,并通过实验分析验证了算法的可行性。最后,本文采用提出的推荐方案设计了一个基于新浪微博数据的微博用户推荐系统。论文的工作得到了国家自然科学基金(No.61172072,61271308)、北京市自然科学基金(No.4112045)、高等教育博士点基金(No.W11C100030)、北京科技计划(No.Z121100000312024)和北京市教育委员会学科建设与研究生建设项目等课题的支持。