【摘 要】
:
本文基于新浪微博平台提供的数据,对于用户兴趣模型进行了研究。首先通过对微博用户的几种行为数据进行优劣势比较分析,发现博文内容无法有效地挖掘出用户的兴趣,进而确定了
论文部分内容阅读
本文基于新浪微博平台提供的数据,对于用户兴趣模型进行了研究。首先通过对微博用户的几种行为数据进行优劣势比较分析,发现博文内容无法有效地挖掘出用户的兴趣,进而确定了用户关注分组、自定义标签和网站浏览记录作为兴趣建模的数据来源。针对这三个信息来源,又分别采用了不同的方法和规则从各渠道源数据中挖掘出标准的兴趣标签并按兴趣对用户的重要性排序。关于用户关注分组,首先利用计算相似评分和重复率的方法将广义分组归类到标准兴趣分组,通过计算兴趣红人被分组的权重情况确定该红人的兴趣,进而依据普通用户关注兴趣红人的情况来决定该普通用户的兴趣及排序,从而解决普通用户被分组次数较少、数据存在误差的问题。关于自定义标签,通过计算词语间相似度和信息熵将自定义标签归为标准的兴趣标签;关于网站浏览记录则通过域名和兴趣的匹配表挖掘出用户兴趣并按照浏览天数排序。从各兴趣来源中挖掘出标准的兴趣标签后,建立模型融合三部分兴趣,按照兴趣与用户的贴合程度排序,最终建立用户兴趣模型体系。在模型验证方面,本文采用了问卷调查和博文解析关键词的方法分别从宏观和微观角度来验证模型的有效性,并提出查全率、冗余率和查准率作为不同模型的衡量指标,得出融合后的用户兴趣模型相对最优的结果。最后,基于模型作出的结果,利用关联规则和协同推荐挖掘出用户的潜在兴趣。关联规则是从普适性地角度分析出在用户具备某一兴趣的同时具备其他兴趣的概率是多少,从而得出兴趣间的关联关系;协同过滤则是针对用户个人,基于用户兴趣偏好矩阵,为不同的用户提供不同的推荐。
其他文献
44岁的徐盛虎是中国石化股份有限公司九江分公司高级工程师,炼油化工专家,现任发展计划部部长,九江分公司科技创新、技术改造和发展规划部门负责人。1990年,徐盛虎从浙江大学化学
<正>众所周知,描述场有两种方式,一种是从力的角度描述,另一种是从能量的角度描述。只有从这两个角度描述场,学生对于场的学习才是完备的。以这个标准来分析高中物理教材对重
文章介绍国内外3D打印技术应用于图书馆的发展现状,分析3D打印技术对国内图书馆事业发展的意义及推广障碍并提出改进建议。
现行人教版高中物理教材在编写"自由落体运动"一节存在一定逻辑缺口,教学重点不突出。本文从物理高端备课视角出发,以显化科学方法为主线,突出实验设计,优化教学流程,对"自由
从2013年开始,上海市嘉定区科协启动了一项名为“企业科普”的行动计划,让“科普进企业”,促“企业做科普”。计划实施后,嘉定区涌现出伟翔环保、人民电器等一批“科普工厂”,逐渐
<正>一、指导思想在传统应试教育的影响下,化学教学长期存在问题,导致学生丧失对化学学习的兴趣。所以,新课程改革的终极目标是使应试教育逐步与素质教育全面接轨,即知识与能
在"国培计划"的课程设置和实施中,不能仅根据前期调研来设置课程,而应该根据政府要求和教育规律,注重学员"应然"需求。课程内容应关注教师数学素养的提升,尤其是要注重教师对
在10月11-12日举办的以“打造绿色钢铁建设生态文明”为主题的“技术创新·企业发展”论坛上,中国东方电气集团有限公司、宝钢集团有限公司、唐山钢铁集团有限责任公司、
我们正在转变“更好的钢铁,更好的生活”,是今年上海国际:台金工业展的主题。这个主题不仅道出了钢铁与生活的息息相关,也对钢铁业的发展提出了更高的要求。更好的生活.离不开更好
品牌化是旅行社业发展的一个大趋势。国内旅行社需要采取何种品牌化战略模式是由旅行社的整体经营战略所决定的。我国旅行社品牌化实施策略主要包括:树立强烈的品牌意识、努