基于机器学习的社交网络用户特征分析

被引量 : 4次 | 上传用户:wwjnb2009888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0时代的到来使得社交网络日益普及,社交网络中的海量数据蕴藏了无限宝藏等待挖掘。社交网络形态多样且技术日新月异,大数据趋势成为必然,运用先进技术手段对网络中的数据进行训练学习是现实的要求。由于社交网络发展迅猛,传统的网络研究方法、成果等不再适用。在对社交网络用户进行分析时,大多数研究仅集中于用户某一方面的特征,如行为时间间隔特征等。鉴于此,本文着眼于个体用户的属性、信息、关系三方面特征对社交网络中的用户特征进行了全面的分析。进一步借助机器学习中较为先进的谱聚类算法对所采集的微博实际数据进行了无监督学习。论文基于社交网络研究多学科交叉结合的特点,采用机器学习、文本处理等手段对以微博为代表的社交网络平台整体特性、用户信息传播特征、用户行为特征、属性特征、关系特征、文本特征进行综合研究。可视化分析是大数据时代对数据进行分析的必然要求,本文对社交网络用户特征分析时实现了网络特性的可视化。论文完成的主要工作包括:在图论、复杂网络研究、经典病毒传播模型、人类动力学传播模型等理论基础上研究了社交网络特性;利用Gephi实现了社交网络特征可视化;建立了SEIR微博信息传播模型;为微博用户建立了兴趣驱动的用户交互动力学模型;同时,论文采集了微博平台中用户的实际数据,利用LDA主题向量模型对采集的数据进行了处理,再进一步得到了用户之间的相似矩阵,在此基础上利用优于K-means聚类等传统聚类方法的谱聚类算法对样本数据进行了兴趣社区挖掘。通过理论推导和实证分析,论文全面地分析了微博社交平台中用户信息、属性、关系、行为特征,对采集到的样本用户进行了基于兴趣相似度的聚类,采用谱聚类对用户相似兴趣进行聚类时取得了较好的聚类效果。
其他文献
<正>欧盟智库Bruegel于4月28日发布的最新一期工作论文《中国的货币政策——引人注目的案例》在回顾近期有关中国货币政策争论后,认为无须将主动的需求支持措施和供给面上强
中国社会不断在发展的过程中,同时也带动了许多行业的发展,其中就包含了建设行业,如今,建设行业也开始发光发热,主要就体现在承包模式上,有着多种多样的承包模式。随着现代社
目的:探讨益气升陷活血方及其拆方对心梗后心衰低血压大鼠心肌Ⅰ、Ⅲ型胶原的影响。方法:采用大鼠心脏左冠状动脉结扎术,建立心衰模型,将LVEF值≤50%、尾动脉收缩压≤90 mm H
创造性叛逆是必然存在于翻译过程中的现象。法国社会学家埃斯卡皮最早提出创造性叛逆,将一切翻译活动都视为一种创造性的叛逆。我国学者谢天振将此概念引入中国,他将创造性叛
现代农业技术是农业产量和品质提高的引擎,是农民收入进一步提高的源泉。甘肃省武威市凉州区以农业为主要产业,但近年来农民的经济收入增长乏力。为推动当地农业经济发展,以
体态语是交际中一种常见的非语言交际手段,它在很多情况下比有声语言能够更加直接、准确地传达意义。在对外汉语课堂中,教师合理运用体态语,可以帮助学生准确理解授课内容,达
泗州水母传奇源于上古巫支祁神话,"禹伏巫支祁"始见于古本《山海经》,经唐人传奇之增饰,后世流传甚广,宋元以来演绎为"僧伽锁水母"这样富有宗教色彩的民间传说。上古神话和中
自二十世纪末期,伴随着全球化和信息化的浪潮,正式进入了知识经济时代,社会经济和人们生活都发生了翻天覆地的变革,而知识资本作为企业资本的重要组成部分,首次在世界上被提出。知
难治性高血压(RH)是一种特殊类型的高血压,常伴有较严重的心、脑、肾及血管等靶器官损害,预后较差。早期筛查、寻找RH病因、针对病因选择合理有效的个体化治疗方案是RH治疗的
中国财政转移支付最主要的目标是基本公共服务均等化,均等化的基本公共服务范围和服务水平应与中国经济发展水平相适应,影响人们生存和发展的公共服务应优先提供,影响人们起