非负矩阵分解及在社区检测和搜索结果聚类中的应用

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:erikwg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一方面,随着互联网上数据和信息的迅速增长,人们被淹没在数据的海洋里。如何从这些海量的数据中获取人们想要的信息,成为当今数据挖掘和机器学习面临的主要任务。由于大数据的4V特征(Volume、Variety、Value、Velocity),使得如何对这些海量的数据进行降维处理成为人们关心的主要问题之一。非负矩阵分解由于其能发现数据内在的维度和结构、具有较好的可解释性、可以直接对数据进行聚类分析等优点,受到了人们的广泛关注。另一方面,现实世界的诸多系统都可以表示为复杂网络的形式,而从复杂网络中发现连接紧密的社区结构(即对节点进行聚类分析)具有重要的意义。近年来,复杂网络社区检测引起了人们极大的兴趣,随着复杂网络社区检测方法研究的深入,涌现出许多基于非负矩阵分解方法的社区发现模型,并取得了一些鼓舞人心的结果。但基于非负矩阵分解的社区发现模型仍然存在以下问题:(1)非负矩阵分解模型本身对初值敏感,面对网络社区检测问题需要考虑网络自身结构特性设计有效的初值选择策略。(2)现有的用于网络社区检测的非负矩阵分解模型的有效性还有待进一步提高,已有模型没有考虑对分解出的基向量进行正交约束,以增强分解结果的稀疏性。(3)现有的基于网络社区检测的非负矩阵分解方法没有考虑节点自身的特性,如当网络表示视频之间的共观看关系时,节点上的属性即是视频的标题短文本,需要研究基于非负矩阵分解的社会媒体短文本聚类及网络和节点属性相结合的非负矩阵分解方法。针对以上问题,本论文的贡献如下:(1)提出了一种新的矩阵分解初始化方法(CALS),该方法使用Pagerank方法对原始矩阵进行排序,考虑节点的重要性和节点间的距离双重因素选取k(社区个数)个初始值对基矩阵进行初始化。然后,使用最小二乘方法求解出隶属度矩阵。在人工和真实数据集上的实验结果表明:CALS不仅可以提高算法的稳定性,而且提高了非负矩阵分解方法用于社区检测的精度。(2)提出了一种基于正交约束的非负矩阵分解模型(ALSOC),正交约束的引入实现了分解的低秩性、稀疏性。基于最小二乘的方法的迭代求解方法在真实数据集和人工合成数据集上的都表现出较好的性能。相关实验结果证明了:ALSOC方法不仅可以保证结果的稀疏性,还可以提高算法的准确性。(3)本文初步尝试了非负矩阵分解方法在短文本聚类上的效果,并将非负矩阵分解方法用于优酷UGC(User Generated Content)数据的搜索结果聚类。在优酷内部搭建一个视频主题分析原型系统,以便对搜索结果进行二次整理,提高搜索结果的多样性并为用户提供多层次的选择。
其他文献
随着城市轨道交通网络逐渐成型,城市轨道运输组织呈现日益复杂化,对客流管理要求愈加智能化、动态化和精细化。掌握客流的实时变化规律现已成为轨道运营关注的一个重点,而客
王国其非法买卖、运输枪支案作为一起典型的仿真枪被认定为枪支的案件,引起了广泛的争议。一审被判处10年有期徒刑与最终获得无罪认定,社会公众的认识与判决的巨大反差,以及对于认定标准的适用成为此案研究的焦点。本案的一审判决及最终认定结果,反应出我国司法机关在处理涉枪类案件时,对法律的认识和判据使用不当,忽略了违法性认识是犯罪故意存在的必要前提。如果行为人不具有违法性认识,则不应当认为存在犯罪故意。在对事
卷积神经网络已无处不在,其应用范围从计算机视觉到语音识别、自然语言处理。卷积神经网络需要大量计算,占用大量内存,难以在嵌入式系统上部署,其使用受到极大限制。本文以目
低维度上的磁性存在着许多有趣的物理学性质,这些可能的新奇特性已在理论上被讨论了数十年。然而,长期以来,通过实验去验证这些理论所预测的性质是十分困难的,这是由于研究者一直无法获得稳定的低维体系材料。因此,在使用机械剥离的方法成功制备了单层石墨烯后,对各类可能具有磁性的低维维材料的研究得到了科研人员的大量关注。有研究表明,FePS_3,Cr_2GeTe_6,CrI_3,VSe_2、Fe_3GeTe_2
办公室的小周选择Chrome作为自己的主力浏览器,由于交换数据的需要,她经常来往于办公室和档案室,虽然Googte早就介绍说Chrome可以同步正在浏览的标签页,但遗憾的是这个版本至今尚
非负矩阵分解算法自被提出到现在将近20年,正因为其具有可提取部分特征来感知整体的智能数据描述的特殊能力,它迅速吸引了大量学者、专家对其进行更深的研究和分析。事实上,
随着我国改革开放四十年来取得的举世瞩目的成就,以及我国“一带一路”战略的实施,越来越多的中国建筑承包企业选择走出去,开拓海外建筑市场。我国建筑承包企业在非洲地区承建了越来越多的项目,随之而来的国际竞争也越来越大,各参建企业对于单位投资回报率的要求,也越来越高。同时,由于非洲地区不同国家的情况迥异,项目实施也面临着众多不确定性因素。而非洲地区的建筑工程风险管理的研究相对较少,这些建设工程具有投资大、
目的探讨甲状腺癌(甲癌)的超声学特点及诊断符合率并复习文献。方法回顾性分析近两年来超声诊断为甲癌者.并经手术病理证实后计算其诊断符合率。结果超声诊断甲癌9例,经手术病理
随着大量的高速公路建成通车,社会大众对高速公路服务区在功能、服务等方面要求也在逐步提高,而高速公路运营所存在的问题与日益增长的社会需求产生矛盾。做好高速公路服务区
目的:设计一种基于P2P-SIP技术的手术直播系统。方法:分析P2P-SIP网络系统的结构及功能,结合流媒体播放系统的特点对手术直播系统结构进行设计,对关键技术进行详细分析。结果:P2