论文部分内容阅读
近年来,随着越来越多的网络在线服务的出现,大量以网络形式相互关联的数据在互联网中涌现。这些数据包括:在线社交网络的用户交互信息、论文检索库中的引用信息、电子商务网站上的消费评论信息等。此外,还存在一些非互联网络中产生的,但是同样具有相互关联特性的数据,比如:生物医学界中的蛋白质和基因组合数据、电信行业的用户通信数据等等。所有这些网络数据都具有如下显著特征:数据样本间不独立;数据样本的属性之间存在概率相关性;数据量十分巨大。针对网络数据的上述特性,以网络数据的分类问题为核心,对网络数据的在线采集、模型建立、特征提取和分类应用等方面展开了一系列研究。主要研究内容和创新点如下:1.研究如何对网络数据建立普适的模型,并基于该模型总结了一套通用的网络数据分类策略框架。该框架由本地分类器(Local Classifier)、关系分类器(Relational Classifier)和联合推理(Collective Inference)三部分组成。详细对比了各部分对应的算法,以及各种算法组合后的分类性能。针对网络数据中小占比类别样本的数据缺失问题,提出了在样本权重中引入误分代价的方式,对网络数据的初始化操作进行了优化,使得小占比样本的数据缺失在本地分类(Local Classifier)阶段得以补足,为后续的关系分类和联合推理提供了更多分类依据。2.针对在线社交网络用户分类问题中训练集和测试集的类别占比不一致的问题,以Na ve Bayes算法为例,运用迁移学习的方法,将测试集中的信息迁移到训练集中,获得了更好的预测效果。3.讨论了影响关系分类器(Relational Classifier)的预测精度的主要因素。大多数关系分类器都基于网络数据的一个普遍特征:同质性(Homophily)对数据进行分类。大多数同质性指标都仅仅对整个网络数据集进行同质性度量。然而,就分类问题而言,需要对数据集中的各个类别分别进行同质性度量。因此,尝试性地定义了多个同质性指标(Edge-centered indexes和Node-centeredindexes以及E-Index)专门对网络数据集中的任一给定类别的同质性进行量化。实验表明,E-Index指标的度量效果最好。研究同时发现,对关系数据分类问题而言,给定类别的分类预测精度仅和该类别自身的同质性有关,和其余类别的同质性无关。4.以推特(Twitter)在线社交网络为研究实例,设计了一个基于用户交互行为的分级采样爬虫系统,详细介绍了该系统的模块架构和资源优化策略。为实时锁定当前最有影响力的用户,重点优化了系统的用户采样模块:在用户分级算法——TunkRank算法中,引入了基于用户交互信息的,可调制的转发率因子p。使得系统能够实时的基于用户当前的信息交互状态对用户进行分级。实验表明,引入转发率因子p的TunkRank算法相较于传统的分级算法:PageRank算法和HITS算法,在采样时,更有助于对重要用户的信息更新进行实时跟进。5.基于上述研究结果,对比了推特(Twitter)在线社交网络中的两个重要用户关系:关注(Follow)关系和转发(Retweet)关系,并分析了两者在传播用户影响力和提升用户分类精度这两个方面的作用。定义了两个变量Vf和Vr,分别度量关注关系和转发关系对传播用户影响力的作用。实验对比发现:转发关系在传播用户影响力方面所起的作用更大。分别依据关注关系和转发关系对Twitter用户进行分类后发现:基于关注关系的分类效果更好,但是转发关系也有助于理解用户的信息交互行为;此外,隶属于不同类别的用户,其信息交互行为习惯间存在着差异。