基于网络表示学习的社区发现技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:bujifangzong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着在线社交网络的日趋复杂,网络节点逐渐成为负载多源信息的富节点,除了网络的拓扑结构信息,节点本身的其他信息也是重要的数据源,譬如,社交网络中用户的属性资料和生成文本。现有的社区发现算法多数是针对网络拓扑结构实现社区划分的,并没有充分利用用户特征,检测得到的社区结构不能准确反映社交网络的组织机理,对现实世界社区发现问题的研究提出不小的挑战。针对上述问题,本文从如何融合多源信息来准确刻画用户特征及如何基于用户的特征表示实现社区划分两个问题展开研究,主要的研究工作包括以下两个方面:第一,为了更准确地刻画复杂多源网络的用户特征,研究了一种基于网络表示学习的用户表示模型User2vec。首先,建立三个独立的特征表示向量。其中,从用户的属性信息提取特征并建立属性表示向量info2vec;从用户生成文本分离出多粒度的文本内容,采用TF-IDF、LDA、Doc2vec多种算法从不同文本内容提取特征并生成文本表示向量blog2vec;从用户的文本内容扩展稀疏的网络结构,并将网络表示学习技术应用到扩展网络结构中,建立增强网络表示向量graph2vec。然后,提出两种融合多源信息的用户表示模型User2vec-m1和User2vec-m2,从而生成用户表示向量user2vec。最后,针对性别推理和年龄推理两个评测任务,设计多组实验来验证独立表示向量与融合表示向量user2vec在特征表示能力上的性能差异,实验结果表明,模型user2vec在分类准确率上得到了显著的提高,进而证明融合多源信息的用户表示向量user2vec在用户特征刻画中的性能优势。第二,基于用户表示向量user2vec,设计了一种三段式的社区发现算法3SComs。首先,针对图聚类算法K-Means的初始化K值选择问题,将模块度指标作为优化目标,通过启发式K-Means算法,实现初步社区结构的检测。其次,采用随机欠采样构建每个社区标签的训练样本,并采用Adaboost分类器,建立多标签预测模型,从而生成每个用户对所有社区标签的隶属度矩阵,并根据给定的隶属度阈值提取所有用户的标签列表。然后,考虑不同权重边的传播能力不同,为加权无向网络制定多标签传播规则,通过一种基于多标签传播的重叠社区发现算法wMLPA实现复杂多源网络的社区划分。最后,从不同阶段的实验结果,验证各阶段算法的性能优势,并基于新浪微博数据生成社区划分结果,通过与真实群体特征的比较,进而证明算法3SComs的合理性。总之,本文结合网络表示学习技术给出复杂网络的用户特征表示,进而实现重叠社区的发现,为社交网络拓扑结构的研究提供新的思路。
其他文献
近年来,随着高速铁路的不断发展与壮大,高速列车的运营速度不断提升,与此同时,各种列车空气动力学问题也越来越突出。由于列车气动性能与列车头型外形之间有着非常密切关系,利用优化算法将参数化列车几何模型与计算流体力学仿真相结合是列车设计研究的一个新方向。现有高速列车参数化几何模型设计变量偏多、模型表述复杂,设计变量的增多使计算流体力学的计算量成几何级数增加,这在工程上难以忍受。在近十多年内,基于偏微分方
本文根据县级人影作业实际情况,以提高作业实效为目的,通过建立操作规程、提升作业人员的技术水平、建立巡视机制等手段,从而提高作业效能,体现促进经济社会发展、为农服务的
无监督图像翻译是近年来的研究热点,它在没有成对图像作为训练数据的前提下将图像的一种域表达转换为另一种域表达,在图像风格化,域自适应学习等领域有着广泛的应用。目前的
砷是地下水中最危险的有毒污染物之一,严重威胁着全世界数百万人的健康。在中国13个省区的饮用水中已检测到较高含量的砷。水溶液中砷的污染对人类健康和生态健康具有重要影响。长期接触含砷废水可导致癌症、皮肤病,并可对血管、肝肾和中枢神经系统造成严重损害。因此,迫切需要通过适当的方法从废水中去除砷。与其它处理方法相比较,吸附法具有成本低、效率高、操作简单和环境友好等优点,是去除水溶液中砷的最有效方法之一。因
本文以串置翼布局炮射无人机为研究背景,针对低雷诺数下串置翼布局气动特性采用计算流体力学方法进行了数值模拟,对影响串置翼布局气动特性的前后翼水平相对距离、垂直相对距离、翼差角,展长差共4个设计变量进行了分析;以R-90炮射无人机为原型,固定前后翼翼差角,在小攻角范围内对二维串置翼布局进行单点和多点气动优化设计。本文主要研究内容如下:(1)对E387翼型建立二维计算模型并进行流场分析,将数值结果与UI
在计算机视觉研究领域的迅速发展中,显著性目标检测不仅能够提高图像检测的准确性,而且能够进一步加快图像检测的速度。针对现阶段显著性目标检测算法存在的纹理细节信息刻画
近年来,双焦成像在航天遥感领域和智能手机应用领域发挥着举足轻重的作用。双焦成像技术(特别是双分辨率相机)比传统光学变焦相机占用了更小的体积和重量,结合图像处理技术可
当下,恶意代码的肆意传播给网络空间安全带来了巨大的威胁。基于机器学习算法对恶意代码进行自动分析是目前恶意代码分析技术的一种研究趋势。由于从恶意代码分类研究中可以
航天器观测任务作为航天任务的重要组成部分,在人类社会、经济生活和科学研究中发挥着重要的作用。但随着航天器数量的增加和观测任务的复杂化,传统航天器观测任务规划方式带来地面站管控困难、观测任务执行效率低下和关键数据缺失等问题,需要赋予航天器在轨自主观测能力来解决上述问题。本文结合与中科院创新研究院上海微小卫星工程中心合作的民用科研项目“近地观测卫星的自主管理单元”,对航天器自主观测任务规划技术进行了研
2018年湖北省新高考改革采用“3+1+2”模式后,高中生普遍课业负担加重,疲于应对各种大考小考和“题海战术”,学生试卷做了,学习能力却没有明显提高。此外,笔者所在学校地理教