基于聚类的知乎用户划分方法研究

来源 :北京交通大学 | 被引量 : 4次 | 上传用户:sjzafei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答式社交网络,作为一种新兴的社交网络,由于其专业性与知识性,近年来受到了广大学者的关注。知乎作为最大的中文问答社区,自然也吸引了大量研究者的目光。与传统社交网络不同,知乎用户往往根据共同兴趣话题相互关注,且倾向于关注高质量内容的创作者,因此知乎网络具有重内容、轻社交的特点。对于知乎用户进行划分,有助于知乎运营者对用户的精准定位,区分专家型用户与普通用户,并可优化内容推送与优质内容提供者推荐,促进知识付费活动的开展。根据知乎网络特点,本文从两方面出发进行用户划分:第一,对具有不同行为特征的用户进行划分;第二,对关注领域不同的用户进行划分。行为特征包括用户的创作特征、浏览特征、用户影响力等。在创作特征中,用户创作内容质量评估是难点之一,通常采用其他用户对创作内容的评判来反映其质量高低,但该方法往往受到创作内容主题受关注程度的影响。对用户关注领域的划分,用户创作内容是最重要的依据之一,在根据文本内容进行用户划分的方法中,概率主题模型往往不能有效处理短文本问题,通常的文本聚类方法将每个用户划分到一个聚簇当中,而用户创作内容往往具有多于一个主题,使每个用户属于一个聚簇并不符合实际情况。本文的主要贡献如下:(1)本文通过网络爬虫,爬取了知乎网络的大量数据,构建了一个时新、全面的大规模知乎数据集,为研究工作打下了基础。(2)本文分析了知乎用户行为数据特征,提出从知乎行为数据入手,将用户划分为多种类型,并分析不同类型用户对提供付费知识和消费付费知识的倾向。本文提出了一种回答质量评估方法,该方法削弱了所属话题差异对回答质量评估产生的影响,并利用该方法提取出一种用于用户划分的行为特征。(3)本文提出针对用户回答内容,构建用户关键词重要度向量,采用聚类方法对知乎用户回答内容进行聚类分析,并根据每个聚簇用户的关键词特征,确定每个聚簇用户的关注领域;在聚类结果的基础上,提出可在一定文本相似度阈值内,寻找用户的多级标签。根据标注数据对用户划分结果进行了评估,发现本文提出方法效果要优于LDA模型与AT模型,而次级标签在参数值较小时准确率较高。(4)本文设计并实现了知乎用户分析原型系统,该系统可在线爬取目标知乎用户数据,进行分析并将结果进行可视化;可根据目标用户回答内容计算关注领域标签;可根据目标用户点赞回答内容与数据库中已有用户回答内容的文本相似度计算结果给出推荐关注用户。
其他文献
本文重点阐述了中国石化西南石油局在贯彻落实中国石化企业文化落地生根,促进员工自觉行为规范方面的主要做法和几点体会。
论蒋介石在台湾社会发展中的作用李松林纵观蒋介石晚年在台湾的所作所为,其对历史的作用充满了二元色彩,这种二元色彩在以下几方面表现尤为突出:第一,蒋介石退台后认真总结国民党
期刊
以云烟87为对照,对自育烤烟新品种湘烟5号在湖南省永州烟区进行大田生产示范。结果表明:湘烟5号的田间生长势强,综合抗性较好,烘烤特性较好,外观质量较好,表现出了较好的经济
在"中国制造2025"大背景下,我国职业院校现代学徒制试点的实施,需要借鉴德国"工业4.0"背景下的双元学徒制做法,应从探索完善职业教育法律保障体系,建构现代学徒制发展的内生
吴印咸是于1932年在上海进入电影界的。在此之前,他曾就读于刘海粟创办的上海美专,接受了正规的绘画训练。与此同时,他又十分喜爱照相,通过自学,掌握了摄影、冲洗和印放的技
我们知道,反证法是一种很重要的证明问题的方法,特别是在平面几何中用的较多。本文就反证法的基本思想、基本规律、理论依据及证题的基本能力等方面,谈一点粗浅的体会及认识
TNFα对暴发性肝衰竭小鼠脑组织中AQP4蛋白表达的影响 前言 重型肝炎很容易并发肝性脑病,有超过80%的患者发生脑水肿,是重型肝炎患者的直接死亡原因,脑水肿的发生机制不很
运用文献资料研究法,概述了我国城镇居民余暇文化生活的基本现状和特点。分析论证了体育应充实人们余暇文化生活的必要性和可行性。指出体育是一种积极健康的休闲方式,是当前人
在"人文北京、科技北京、绿色北京"发展战略的指引下,发展"科技北京"这一城市品牌具有重要的理论和现实意义。本文从城市品牌成长机理和培育路径两个方面分析了"科技北京"品
3s技术即遥感技术(RS)、地理信息系统(GIS)、全球定位系统(GPS),作为遥感和信息技术领域的3大高新技术,在各方面都有广泛的运用,尤其在林业资源调查方面取到了巨大的作用。本文主要对3