基于社团结构的主题建模

来源 :南京大学 | 被引量 : 0次 | 上传用户:wxtncxmmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网技术蓬勃发展,涌现出大量的在线社交平台,人们每天在这些社交平台上交流和互动会产生出海量的数据。社交网络俨然已经成为了一个对舆情分析、情报研判有重要价值的数据源。针对此类数据,使用主题模型来进行文本信息挖掘是一种有效的方式。但是社交类的数据通常具有短文本的特性,如果直接用传统的主题建模算法作用在上面,生成的主题效果一般。经过分析可以发现,传统主题模型在处理此类数据时,仅考虑文本数据本身的内容而忽略了数据内部蕴含的社会网络。本文在研究LDA主题模型、短文本扩充和相关社团发现算法的基础上,提出一种针对此类内部蕴含社会网络的数据集(下文简称社交型数据集)上的主题模型实现。在此模型中,通过对社交型数据集进行社团发现并以此为依据进行短文本的合并和扩充,用生成的长文本代替原数据进行主题建模。提出的模型在有效的缓解数据稀疏问题的同时充分利用了源数据的社交属性,提高了主题模型的质量。本文的主要工作有以下几个方面:1.提出一种基于社团发现的短文本扩充方案。根据社交型数据中包含的社会网络,以基于标签传播、谱分析、探索策略等多种方式进行社团的发现和划分,再在此基础上,运用传统的短文本处理方式(如拼接等)对文本进行处理,生成具有丰富词汇的长文本,进而进行主题挖掘。2.针对此场景下基于谱分析社团发现算法的主题模型做相关改进和优化:考虑基于探索策略的Potts模型算法在计算过程中存在的收敛速度慢、可能收敛到局部最小点等问题,提出二次降温的Potts模型算法。把迭代过程分为两个阶段,高温阶段采用全局扰动的方式;低温阶段采用有限的扰动,使模型更快收敛,同时采用回温策略,使算法更有可能跳出局部最优解。通过实验验证改进算法的结果优于直接收敛的结果。3.针对此场景下基于标签传播社团发现算法的主题模型做相关改进和优化:考虑到社交网络中各个结点具有不同的影响度,并且部分核心节点可能对多个社团网络都较大影响,提出COLPA算法。该算法是在COPRA算法基础上做的改进。在COLPA算法中,采用了新的更新策略并引入了标签衰减因子和邻接结点影响力因子进行迭代控制,并提出了新的终止策略,使模型更快达到收敛。通过实验验证采用COLPA算法聚类后的数据进行挖掘能产生质量高于运用LPA的产生的主题模型。
其他文献
随着互联网的普及和发展,网站的数量和规模越来越大,用户在站内寻找自己想要的信息变得越来越麻烦,如何实现一个智能的个性化推荐网站成为当前的一个研究热点。 针对目前Web
随着计算机性能的不断提高和计算机技术的不断发展,真实场景的三维模型越来越多地出现在各种计算机软件中,成为计算机软件表现现实世界的一种重要手段。本文研究了基于图像的
近几年来,卫星网络通信技术受到了越来越多的重视,世界各国都加紧进行卫星网络技术的研究和开发,对卫星的轨道设计、星座设计、通信信道技术、路由交换技术、卫星网络管理等各项
随着因特网的迅猛发展,如何更合理、有效地利用有限的网络资源,逐渐成为网络运营者和Internet接入用户所共同关心的问题。网络计费管理工作在整个网络运营中起到重要的杠杆调节
网络技术的发展使得电信网,互联网,广播电视网三网融合已成为必然趋势。在驻地网范围内实现三网融合具有多种技术方案。以太网组网方式具有成本低廉、技术成熟、适合密集环境等
本文系统地研究了敏捷(Agile)软件方法中的极限编程(XP)方法,讲解了XP的理论知识以及它的十二种实践方法,并且对十二种实践方法在实际系统中进行了研究与应用,都给出了详细、系
颜色恒常性关系到生活的各个方面,人眼视觉系统因为具有颜色恒常性而能感知物体的颜色和识别物体。不幸的是,电子成像设备尚不具备人眼这种特殊感知能力,因此越来越多的科研工作
Multi-Protocol Label Switching(MPLS)是未来网络的重要技术,它吸收了ATM和IP的优点,将ATM的面向连接和IP的选路结合在一起。在提供IP业务时,能够保证QoS和安全性,同时也增强了
信息时代为我们带来了大量数据,也提出了“人们被数据淹没,人们却饥饿于知识”的挑战。面对这样的挑战,数据挖掘和知识发现技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命
今天的Internet已经不仅是一个用来共享和交换数据的信息网络,同时也是一个最大规模的网络应用平台。其上许多应用系统的构建依赖于对分布于网络中的各种异构的、自治的资源实