【摘 要】
:
随着互联网的发展,社交网络成为人们信息获取、知识学习、观点分享以及交流互动的平台。社交网络蕴含海量用户数据,利用这些数据对用户聚类分析可以全面了解用户群体,对用户个性化服务、平台内容推荐、商业精准营销、网络舆情治理等有重要意义。目前,人群聚类分析方面的研究广泛,但大多数研究局限于某类或某几维特征,如使用兴趣主题行为等几类特征构建用户画像,使用网络结构特征检测社区结构等,没有使用多种多类特征对社交网
论文部分内容阅读
随着互联网的发展,社交网络成为人们信息获取、知识学习、观点分享以及交流互动的平台。社交网络蕴含海量用户数据,利用这些数据对用户聚类分析可以全面了解用户群体,对用户个性化服务、平台内容推荐、商业精准营销、网络舆情治理等有重要意义。目前,人群聚类分析方面的研究广泛,但大多数研究局限于某类或某几维特征,如使用兴趣主题行为等几类特征构建用户画像,使用网络结构特征检测社区结构等,没有使用多种多类特征对社交网络人群聚类分析,用户表征维度低,聚类分析的全面性、精准性有所欠缺,因此基于高维细粒度特征进行社交网络人群聚类分析,构建更加全面的用户群体画像意义重大。社交网络中的用户特征包括用户属性特征、网络结构特征以及关系语义特征。根据特征区别,本文从三方面对人群进行聚类分析。第一,使用属性特征对用户进行聚类分析,得到特征相似的用户群体,构建用户群体画像。第二,使用属性特征和网络结构特征进行社区发现,检测网络中真实存在的社区结构,得到联系紧密的人群。第三,使用属性特征、网络结构特征以及语义特征进行异构图嵌入表示,并将节点嵌入结果用于分类、聚类任务中。本文的主要研究工作如下:(1)本文提出了基于高维细粒度属性特征的用户群体画像模型,提取基本特征、内容特征、统计特征、行为特征4大类20小类用户属性特征,从兴趣主题、位置偏好、发文习惯、表情符使用等方面全面刻画用户,聚类分析得到用户群体,构建较为完善全面的用户群体画像。经过分析,得到机构团体官方账号、时政类认证男性用户、精英类认证女性等17个具有代表意义的用户群体。与现有工作相比,本文的用户群体画像模型涉及的特征粒度细、种类多、范围广。(2)本文提出了节点属性特征增强的快速社区发现方法(Attribute Feature Enhancement Louvain,AE-Louvain),使用节点属性特征和网络结构特征,通过优化模块度增量和节点属性特征相似度来检测社区结构。实验验证了AE-Louvain方法的有效性。同时表明,与模块度增量作用类似,节点属性特征相似度也可以决定节点的社区划分。(3)本文提出了异构图注意力自编码器(Heterogeneous Graph Attention Auto-Encoders,HGATE),综合考虑节点属性特征、网络结构特征以及异构图的语义特征,使用层次注意力机制,通过堆叠编/解码器实现异构图数据的无监督表示学习。HGATE适用于直推学习和归纳学习。在两种公开异构数据集上进行节点分类实验,与最新的8种图表示模型对比,实验表明HGATE性能比最新的无监督图嵌入模型好,与最新的有监督模型持平。(4)本文设计并开发了用户画像展示系统。系统可爬取目标微博用户主页、博文、社交关系等数据,提取用户属性特征,聚类分析并展示用户个体及群体画像。
其他文献
高光谱图像的光谱波段数目一般达到上百个,可以提供较为丰富的光谱信息,图像中的每个像素都可以看成是一个高维度的向量。虽然数百个维度的光谱信息可以允许更精细的地物分类,但过高维度和样本数量之间的不平衡问题也制约了高光谱影像分类方法的发展。如何解决高维小样本遥感影像分类问题、如何实现同物异谱的地物精细分类问题等仍然是高光谱图像处理的难点。本论文深入分析了高光谱遥感图像空间上下文信息与邻域像素的联系,提出
深度卷积神经网络(DCNN)的基本运算单元为卷积计算,这种计算具有局部连接与平移不变等特性,可以有效提取图像数据的特征,但是卷积计算不具有尺度不变性,这导致DCNN存在对目标尺度变化不适应的问题,无法同时提取到对多个尺度目标均有效的特征。目前,解决DCNN对目标尺度变化不适应的一种有效方法是多尺度特征融合。本文研究现有的多尺度特征融合方法,在人头检测与计数任务中进行应用与改进,提升卷积神经网络的性
航运在全球大宗商品贸易中占据着最重要的地位,80%以上的大宗商品贸易都要通过航运来进行运输。船舶自动识别系统(Automatic Identification System,简称AIS系统),每天都能产生数以亿计的航行数据。通过对于航行数据的分析,可以实时掌握各种货物的流量和流向,以及各港口泊位的变化情况。将这类信息运用于实际的商品贸易中,无疑会为用户带来巨大的经济利益。本文的内容是设计并实现基于
甲醛对人体的危害极大,短期接触甲醛会引起人体不适,刺激呼吸器官,长期暴露于甲醛超标的环境中将会引发肝、肾中毒,增加癌症、白血病甚至死亡的可能性。偏锡酸锌(Zn Sn O_3)作为典型的钙钛矿结构的多元金属氧化物,与单一金属氧化物相比,在甲醛的检测中表现出良好的气敏性能,但目前这方面的研究中大多需要较高的工作温度。本文以海藻酸钠辅助合成的Zn Sn O_3为主要研究对象,在此基础上对其进行修饰制备出
棚户区的改造建设项目本身就是一项重大的政治民生建设任务,并且常常伴随着棚改项目筹集的资金难度特别大、资金的投入使用非常的多等特点,而且居民住宅的拆迁难度非常大、改造的楼房的施工质量和施工工期等等面临的影响因素特别多。无论是其开始的选址,以及后来的规划、设计和施工,到最后的棚改项目竣工验收,改造户的居民正式使用,整个项目建设过程都可能存在着各类不可预测的因素和风险,譬如项目面临的各类自然灾害风险以及
本文采用发展方程有限元方法求解具有Dirichlet-Neumann混合边界的非傅里叶热传导问题.该问题采用双曲-抛物型方程描述激光辐照下固体材料中的非傅里叶热传导现象.本文先给出了该问题的Galerkin半离散格式,证明了半离散格式稳定性和收敛性.进而,在时间方向采用Du Fort-Frankel差分得到全离散格式,分析了全离散格式的收敛性.本文对不同类型的模型问题进行了数值实验,实验结果证明本
石墨烯,是一种具有单层碳原子厚度的以sp2轨道杂化形成的二维蜂巢状晶体,于2004年首次在实验中成功制备。因其独特的结构和性质,广泛地应用在电子器件、光子器件、能源获得和
工业是我国经济发展的重要方面,同时工业生产与消费消耗了大量资源,对环境造成严重污染,寻求一条资源节约、环境友好的工业绿色发展道路对人类生存与发展至关重要。开展安徽省工业绿色发展水平评价及影响因素的研究,对于丰富工业绿色发展理论体系具有一定的理论意义,对于区域工业可持续发展具有重要的实践意义。目前,国内外对工业绿色发展尚未形成完整的研究体系,关于工业绿色发展水平的评价指标体系缺乏更全面的视角,评价方
近年来成像遥感技术的快速进步促进了高光谱遥感领域方向的蓬勃发展。高光谱遥感数据集不仅具有较高的光谱分辨率和广泛的光谱范围,并且数据集波段众多且波段间关联性强,这使得高光谱遥感数据包含有丰富的地物信息,为高光谱图像分类在众多领域的应用提供了可能。但是在实际高光谱图像分类中用于分类的训练样本数据集通常难以获取,维度灾难问题影响图像的分类精度和效果。高光谱遥感数据本身类内的光谱变化较大,普遍性存在“同物
全民健身是自2008年北京奥运会举办以来我国提出的体育发展目标,同时也是一种发展的大趋势。近几年来,随着我国经济的大飞跃,以及各类体育赛事在我国陆续的举办,我国群众体育