【摘 要】
:
社团检测即机器学习中的聚类问题一直是机器学习的一大热点问题。随着数据规模日渐庞大,数据结构也变得纷繁复杂,传统的聚类方法由于对某种特定结构的数据有强依赖性而导致普适性偏低。谱聚类算法(Spectral clustering,SC)将降维的思想与k-means算法相结合,特别是对于高维数据(如文本数据)来说,谱聚类算法比k-means算法计算复杂度要小,聚类准确率更高。目前,谱聚类算法已经成为了机器
论文部分内容阅读
社团检测即机器学习中的聚类问题一直是机器学习的一大热点问题。随着数据规模日渐庞大,数据结构也变得纷繁复杂,传统的聚类方法由于对某种特定结构的数据有强依赖性而导致普适性偏低。谱聚类算法(Spectral clustering,SC)将降维的思想与k-means算法相结合,特别是对于高维数据(如文本数据)来说,谱聚类算法比k-means算法计算复杂度要小,聚类准确率更高。目前,谱聚类算法已经成为了机器学习、通信等领域最为流行的聚类算法之一。谱方法因为其易于实现,适用范围广的优点受到了学者们的广泛关注。然而,大量的实验结果表明:如果数据集中存在噪声,那么谱方法往往不能给出令人满意的聚类结果。与此同时,现实世界中的数据又不可避免地存在有噪声,因此如何减小噪声对谱方法的影响是谱方法在真实数据集上应用的关键,也是本文的研究重点。针对这一问题,本文从谱方法的核心——特征谱的研究入手来构建模型,本篇论文的主要工作包括以下三个方面:1)模型框架;鉴于正则化的方法能够有效地提高算法的抗噪性。本文在传统的正则化谱聚类框架之上,通过引入信息熵的概念构建出了基于熵扰动的正则化谱聚类模型,该模型不仅解放了正则化参数固定的问题,同时还提高了谱聚类算法的抗噪性能。2)理论推导;本文算法是基于矩阵扰动理论提出的一类正则方法,通过矩阵扰动分析以及Davis-Kahan理论,笔者推导出了本文算法在扰动迭代过程中的理论阈值,提高了算法的普适性,完善了算法的理论基础。3)重叠社团检测;在本文最后,笔者将所提出的算法应用于重叠社团检测,在DBLP、Youtube等数据集上的实验结果证明了本文算法的有效性。
其他文献
对新的经济形势和施工技术条件下的湿陷性黄土地基处理的常用方法(灰土垫层法、挤密桩法、强夯法和桩基础)的优缺点和适用条件进行了对比分析,对黄土深基坑开挖边坡稳定性的分析
采用保留和去掉茎叶两种处理方法,模拟测定了黄土高原几种常见的天然草本植物根系提高表层土壤抗冲刷的能力,定量研究了土壤冲刷过程中土壤冲刷量与冲刷历时的关系。研究表明
林庚是典型的诗人型学者、才子型学者,是20世纪楚辞学界以“诗心”治骚的代表人物。其所著《诗人屈原及其作品研究》《〈天问〉论笺》,研究时间均长达数十年,但篇幅皆极简洁。林庚在极简洁的论述中,辨析楚辞之“体”、校释楚辞之“文”、考证楚辞之“史”、破译楚辞之“义”、阐释楚辞之“美”,涉及了楚辞研究的多个层面,且新意频现、创见迭出。贯通此二著来看,林庚建构了其楚辞研究的独家坐标系。其楚辞研究坐标系的最初建
前不久,某市市长在微博上与群众互动的新闻引发热议。“各位亲,欢迎反映问题,但注意留下联系方式,否则又是我失礼了,不能及时服务您”“市长,袁家大桥变危桥已经几年,希望您处理一下
目的:观察电刺激耳穴神门对原发性高血压患者中心动脉压的即时降压效果,为临床应用耳穴疗法治疗高血压提供客观依据。方法:选取2019年07月-2020年01月在江苏省中西医结合医院
当今时代,教育教学事业不断发展,新课程改革的深入,要求在小学阶段注重学生综合能力的培养。小学数学的教学,计算是最基础也是最重要的一个部分,本文主要分析了计算对小学数
采用二阶等距抽样调查法,对河龙区间晋西北地区8 条一级入黄支流水土保持措施的保存情况进行了详细调查和核实,结合1996年各县土地面积变更调查资料,分析确定了各流域的水土保持措施
<正>历经几番苦苦追寻,我终于找到了中国共产党,接受了马克思列宁主义的启蒙,受到了共产主义思想理论的教育,实现了由民主主义者到共产主义者的根本转变,并且光荣加入了中国
在我国的企业制度发展的新时期,企业必须要坚持将党的宣传教育工作充分的做好,作为党的工作的基本内容,党务工作在企业中具有十分重要的作用。因此企业必须要致力于党务工作力度
陈仅,字余山,一字渔珊,号涣山,浙江鄞县人,生于清乾隆五十二年(1787),卒于清同治七年(1868)。一生历经清乾隆、嘉庆、道光、咸丰、同治五朝,阅世既深,初心不改,勤于吏事,政声