论文部分内容阅读
本文基于新浪微博平台提供的数据,对于用户兴趣模型进行了研究。首先通过对微博用户的几种行为数据进行优劣势比较分析,发现博文内容无法有效地挖掘出用户的兴趣,进而确定了用户关注分组、自定义标签和网站浏览记录作为兴趣建模的数据来源。针对这三个信息来源,又分别采用了不同的方法和规则从各渠道源数据中挖掘出标准的兴趣标签并按兴趣对用户的重要性排序。关于用户关注分组,首先利用计算相似评分和重复率的方法将广义分组归类到标准兴趣分组,通过计算兴趣红人被分组的权重情况确定该红人的兴趣,进而依据普通用户关注兴趣红人的情况来决定该普通用户的兴趣及排序,从而解决普通用户被分组次数较少、数据存在误差的问题。关于自定义标签,通过计算词语间相似度和信息熵将自定义标签归为标准的兴趣标签;关于网站浏览记录则通过域名和兴趣的匹配表挖掘出用户兴趣并按照浏览天数排序。从各兴趣来源中挖掘出标准的兴趣标签后,建立模型融合三部分兴趣,按照兴趣与用户的贴合程度排序,最终建立用户兴趣模型体系。在模型验证方面,本文采用了问卷调查和博文解析关键词的方法分别从宏观和微观角度来验证模型的有效性,并提出查全率、冗余率和查准率作为不同模型的衡量指标,得出融合后的用户兴趣模型相对最优的结果。最后,基于模型作出的结果,利用关联规则和协同推荐挖掘出用户的潜在兴趣。关联规则是从普适性地角度分析出在用户具备某一兴趣的同时具备其他兴趣的概率是多少,从而得出兴趣间的关联关系;协同过滤则是针对用户个人,基于用户兴趣偏好矩阵,为不同的用户提供不同的推荐。