在线社交网络用户的分类及采样研究

来源 :电子科技大学 | 被引量 : 5次 | 上传用户:zhongtianlang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着越来越多的网络在线服务的出现,大量以网络形式相互关联的数据在互联网中涌现。这些数据包括:在线社交网络的用户交互信息、论文检索库中的引用信息、电子商务网站上的消费评论信息等。此外,还存在一些非互联网络中产生的,但是同样具有相互关联特性的数据,比如:生物医学界中的蛋白质和基因组合数据、电信行业的用户通信数据等等。所有这些网络数据都具有如下显著特征:数据样本间不独立;数据样本的属性之间存在概率相关性;数据量十分巨大。针对网络数据的上述特性,以网络数据的分类问题为核心,对网络数据的在线采集、模型建立、特征提取和分类应用等方面展开了一系列研究。主要研究内容和创新点如下:1.研究如何对网络数据建立普适的模型,并基于该模型总结了一套通用的网络数据分类策略框架。该框架由本地分类器(Local Classifier)、关系分类器(Relational Classifier)和联合推理(Collective Inference)三部分组成。详细对比了各部分对应的算法,以及各种算法组合后的分类性能。针对网络数据中小占比类别样本的数据缺失问题,提出了在样本权重中引入误分代价的方式,对网络数据的初始化操作进行了优化,使得小占比样本的数据缺失在本地分类(Local Classifier)阶段得以补足,为后续的关系分类和联合推理提供了更多分类依据。2.针对在线社交网络用户分类问题中训练集和测试集的类别占比不一致的问题,以Na ve Bayes算法为例,运用迁移学习的方法,将测试集中的信息迁移到训练集中,获得了更好的预测效果。3.讨论了影响关系分类器(Relational Classifier)的预测精度的主要因素。大多数关系分类器都基于网络数据的一个普遍特征:同质性(Homophily)对数据进行分类。大多数同质性指标都仅仅对整个网络数据集进行同质性度量。然而,就分类问题而言,需要对数据集中的各个类别分别进行同质性度量。因此,尝试性地定义了多个同质性指标(Edge-centered indexes和Node-centeredindexes以及E-Index)专门对网络数据集中的任一给定类别的同质性进行量化。实验表明,E-Index指标的度量效果最好。研究同时发现,对关系数据分类问题而言,给定类别的分类预测精度仅和该类别自身的同质性有关,和其余类别的同质性无关。4.以推特(Twitter)在线社交网络为研究实例,设计了一个基于用户交互行为的分级采样爬虫系统,详细介绍了该系统的模块架构和资源优化策略。为实时锁定当前最有影响力的用户,重点优化了系统的用户采样模块:在用户分级算法——TunkRank算法中,引入了基于用户交互信息的,可调制的转发率因子p。使得系统能够实时的基于用户当前的信息交互状态对用户进行分级。实验表明,引入转发率因子p的TunkRank算法相较于传统的分级算法:PageRank算法和HITS算法,在采样时,更有助于对重要用户的信息更新进行实时跟进。5.基于上述研究结果,对比了推特(Twitter)在线社交网络中的两个重要用户关系:关注(Follow)关系和转发(Retweet)关系,并分析了两者在传播用户影响力和提升用户分类精度这两个方面的作用。定义了两个变量Vf和Vr,分别度量关注关系和转发关系对传播用户影响力的作用。实验对比发现:转发关系在传播用户影响力方面所起的作用更大。分别依据关注关系和转发关系对Twitter用户进行分类后发现:基于关注关系的分类效果更好,但是转发关系也有助于理解用户的信息交互行为;此外,隶属于不同类别的用户,其信息交互行为习惯间存在着差异。
其他文献
随着市场经济的快速发展,人们的生活水平和质量得到提升的同时,对美好环境获得感的需求也逐渐增高,为了使辐射环境监测数据更加真实可靠有效,就需要核与辐射安全中心积极构建完善的辐射环境监测工作流程和内容,制定相应的质保方案和措施。因此,本文主要阐述辐射环境监测相关内容,分析辐射环境监测数据合理性中的问题,并探究提高数据合理性的应对措施,以供参考。
随着我国经济的不断发展,越来越多的环境问题暴露在人们的视野中,针对环境问题各省市相继颁布了各项治理措施,例如北京、上海等超一线城市的汽车限号限行工作以及鼓励市民选择新能源汽车,倡导企业提高新能源的应用开发等。
误区一:教师讲得清,学生就听得懂.讲,是教师传授知识的主要方式;听,是学生获取知识的主要渠道.教师清晰透彻且带有启发性的讲解是学生掌握所学知识的先决条件.然而教师讲得清
期刊
随着近些年我国农村城镇化进程不断加快与社会经济迅猛发展,使得农村生态环境呈现逐渐恶化状态。各地也都先后颁布一系列政策性措施,重点治理和解决农村生活污水问题,并充分
根据2011~2018年河北省海洋生态环境监测数据,研究沧州黄骅港海域水质要素变化特征及其海水自净能力,运用单因子标准指数法、营养指数法、有机污染评价指数法及PSR框架富营养
高锰酸盐指数是地表水水质测定必测指标之一,但在实际监测工作中涉及检测样品量多、采用国标测定方法存在耗时长、药品用量多等问题。为提高检测效率,节省样品测定时间和节约
素质教育提倡学校教育要面向全体学生,即鼓励优等生冒尖,促进中间状态学生争先,帮助后进生过关。爱护优等生,是大多数教师容易做到的,因为优等生的各方面表现,特别是学习成绩
实现对污水的处理具有重要的实际意义,污水处理的效果以及经济性都与污水处理工艺密不可分,所以要保证污水处理工艺的科学合理性。处理效率不高而成本却很高是污水处理工艺普
随着经济快速发展,给予环境的压力日益增加,在我国对环保事业建设的逐渐重视下,环境检测工作具有重要的意义。本文结合环境检测的研究对象以及相关内容进行分析,进而提出环境