基于多源信息的个性化微博用户推荐算法研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:ss501love
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化产业、社交网络的不断发展,社交网络的用户越来越多,微博作为社交网络中的重要信息交互平台,具有共享性、时效性和交互性等特点,迅速受到大量用户的青睐。如何在微博的海量用户中快速、准确地找到用户感兴趣的用户信息,即实现用户推荐成为当前研究的一个热点问题。针对KNN算法的分类效率随着训练集规模和特征维数的增加而逐渐降低的问题,提出了优化的文本分类算法;针对传统的协同过滤推荐算法中存在的数据稀疏性和推荐准确率不高的问题,将上述提出的分类算法应用于用户推荐中,提出了基于多源信息相似度的微博用户推荐算法。本文所做工作主要分为以下两个方面:(1)提出了基于Canopy和粗糙集的CRS-KNN文本分类算法。该算法首先将待处理的文本数据通过Canopy进行聚类,然后对得到的每个类簇运用粗糙集理论进行上、下近似分割,对于分割得到的下近似区域无需再进行分类,而通过上、下近似做差所得的边界区域数据需要通过KNN算法确定其最终类别。该方法降低了KNN算法的数据计算规模,提高了分类效率,同时准确率、召回率和F1值都有一定的提高。(2)提出了基于多源信息相似度的微博用户推荐算法。该算法首先根据微博用户的标签信息,运用CRS-KNN算法对用户进行分类处理;其次,对得到的每个类中的用户分别计算其多源信息的相似度大小;再次,引入时间权重和丰富度权重计算多源信息的综合相似度,并根据其大小进行TOP-N用户推荐;最后,搭建了Spark并行计算框架,完成了算法有效性的验证,实验表明该方法不仅在用户推荐上具有良好的有效性,而且在准确率、召回率和效率等方面都有较大幅度地提升。本文对微博用户的个性化特征进行深入分析。针对微博用户的分类算法、微博用户相似度计算相关的多源信息以及影响微博用户综合相似度的因素进行了充分研究,形成了以微博用户分类为前提,利用多源信息实现个性化微博用户推荐的算法。运用新浪微博真实的数据集验证了本文成果,效果良好。该文所做工作为研究个性化微博用户推荐算法提供了较好的借鉴价值。
其他文献
Peer-to-Peer网络打破了传统的客户机/服务器模式,在Peer-to-Peer网络中每个节点地位都是相同的,每个节点既充当服务器,为其他节点提供服务,同时也充当客户机,享用其他节点提
交互式视频技术是指以视频数据为载体,结合用户交互式操作的技术。交互式视频赋予用户获取视频目标跟多信息的一种方式。由于互联网在全球范围内普及,以及多媒体技术广泛应用在
在计算机辅助设计中,用软件设计天线网络并研究其信号覆盖情况是一项很有意义的课题。对于广播电视的规划,电台的新建都起到至关重要的作用。这样做可以极大的减少盲目性,做到心
在今天数字化、信息化的浪潮下,多媒体通信已经成为越来越重要的信息交流手段。充分利用现有的网络资源和信息处理能力,提供便捷、高效的多媒体通信平台是我们研究的重点。
随着IT技术和网络技术的蓬勃发展,各种基于网络的应用系统已在当前的商业环境中大量存在。因商业应用业务需要,用户每天可能需要登录到许多不同的应用系统。为保证安全性,通
伴随着计算机技术的迅猛发展,当前我们已经完全进入信息时代,甚至有人描述这是一个信息大爆炸的时代。随着越来越多的计算机用户接入互联网,网络也逐渐变的鱼龙混杂,各种各样的病
Internet是一个由上亿台计算机互联而成的全球性计算机网络,自二十世纪八十年代以来,随着社会经济的发展,它一直呈指数增长.伴随而来的网络技术的多样性、网络规模庞大、增长
查询执行是数据库技术的一个关键组成部分,查询执行的速度直接影响数据库管理系统的性能和效率。关系数据库系统中执行查询的方法主要有4种:基于扫描的方法,基于排序的方法,
研究蛋白质的结构预测问题,是生命科学领域的前沿课题之一.它所要解决的是蛋白质一级结构中的氨基酸序列最终如何折叠成特定的三维空间结构.在研究过程中,为了计算的可行,人
针对构件软件的混杂性、源码不可用性以及版本不确定性等给软件测试带来的困难,该文通过对MIME文件格式及多种构件标准中元数据定义的研究,提出了一种通用的构件测试元数据表