【摘 要】
:
随着互联网技术和移动终端的发展普及,以微博为代表的社交工具产生了海量信息,从产生的信息中有效挖掘用户兴趣也愈加困难。论文从微博的内容属性出发,以主题提取为主要方式,
论文部分内容阅读
随着互联网技术和移动终端的发展普及,以微博为代表的社交工具产生了海量信息,从产生的信息中有效挖掘用户兴趣也愈加困难。论文从微博的内容属性出发,以主题提取为主要方式,建立基于内容的内容主题模型。同时,考虑到社交网络的信息传播规律特征,建立基于用户关注关系的关注主题模型,并将该模型与内容主题模型结合,从而使提取的用户兴趣的更加准确、有效。借助建立的用户兴趣分类模型解决用户兴趣分类问题,选取新浪微博作为研究对象。论文主要研究工作如下:(1)提出基于内容的CTM分类模型,用LDA模型对各类别训练数据集分别进行主题建模,通过Gibbs抽样法计算LDA模型中的相关参数,使用用户隐含主题集上的概率分布表示微博文本,得到文本集的隐含主题-文本矩阵,解决了微博文本数据量大的问题。该方法将文本数据进行简化,在文本降维方面取得了显著的效果,提高了效率。然后应用LibSVM分类算法,把具有语义信息提取优势的LDA算法和具有良好分类能力的LibSVM方法结合起来,提高分类准确率。(2)提出基于用户关注关系的FTM模型,计算用户关注者与每一类别关注者交集数的平均值,构造矩阵,通过LibSVM基于关注关系进行用户兴趣分类。(3)综合以用户微博内容为基础的CTM模型与以用户关注者关系为基础的FTM模型,建立一个综合模型对用户兴趣进行分类。同时,从整体数量和地理位置、性别、学历三个用户基本信息及关注方式三方面统计分析用户兴趣分类特征。最后,总结本文工作贡献,考虑存在的不足,并对未来研究方向进行设想。
其他文献
企业应当健全制度,加强管理,定期或者至少于每年年末对固定资产进行清查盘点,以保证固定资产核算的真实性和完整性。如果清查中发现资产的损溢应及时查明原因,在期末结账前处理完
针对某炼油厂加工原油品种繁多,且混炼比例变化大的特点,对原油蒸馏塔原模型软件系统进行了改进,使它能更好地适应炼油厂的生产.建立了该厂所加工原油的原油评价数据库及与之
文章对乙酸丁酯的合成工艺进行系统性的分析,对乙酸丁酯在合成过程中的反应进行热力学分析,考察在催化剂作用下,温度、压力、反应时间及空速等对于乙酸丁酯酯化反应所产生的
潮州陶瓷生产与潮州其它工艺美术门类相得益彰,并受到“潮文化”的薰陶,使潮州陶瓷更具“潮文化”的特性,成为潮州文化的一个重要载体、潮州朱泥壶作为潮州工艺美术的一个主要门
在信息化社会的今天,大数据时代下强大的科学力量已经影响到档案管理系统,使档案管理模式有了更多可能性。传统的档案管理方式存在很多弊端,工作难度较大且容易出现纰漏,保存
十二指肠溃疡是指肠道粘膜被胃酸和胃蛋白酶破坏而形成的溃疡,临床表现在上腹部疼痛,饥饿时加重,反复发作,迁延不愈。胃酸分泌过多、胃蛋白酶、HP感染是其发生的主要诱因,西
语言作为文化的载体,它浸透了民族的文化。词汇是语言的基础,是语言大系统赖以存在的支柱,民族文化的特征,经过历史的积淀而结晶在词汇层面上。本文从词汇与自然环境、词汇与民族
对萘、菲、蒽及芘根据不同计算方法所得的反应活性位进行总结,对苯在金属表面的催化加氢机理-芳烃交换机理进行概括,对菲在MoS2/Al2O3催化剂表面生成二氢菲的基元反应步骤和
目的探讨磷酸化表皮生长因子受体(pEGFR)表达与糖尿病皮肤病变的关系。方法80只SD大鼠随机分为对照组和模型组,在第3天、第1、2、4、8周5个时间点检测两组皮肤组织中的糖和糖
为提升"东盟国家概况"的教学效率,应多渠道收集教学资源,如充分利用东盟各高校的教学资源和文献资料、发掘在校留学师生收集课程资源的能力、充分运用慕课和微课资源拓展课程