【摘 要】
:
网络型数据作为数据挖掘领域最常见的研究对象之一,在我们的生活中无处不在,现实世界中的许多关系都可以抽象成网络的形式进行表现,其中的节点表示数据对象、边表示数据对象之间的关系。随着信息技术的不断发展和数据规模快速增长,如何将大规模网络在低维稠密的空间进行表示是网络数据存储和处理的关键共性问题,逐渐成为研究者们关注的核心和热点。近年来,网络表示学习的相关工作取得了很大进展,各类方法相继涌现。从网络表示
论文部分内容阅读
网络型数据作为数据挖掘领域最常见的研究对象之一,在我们的生活中无处不在,现实世界中的许多关系都可以抽象成网络的形式进行表现,其中的节点表示数据对象、边表示数据对象之间的关系。随着信息技术的不断发展和数据规模快速增长,如何将大规模网络在低维稠密的空间进行表示是网络数据存储和处理的关键共性问题,逐渐成为研究者们关注的核心和热点。近年来,网络表示学习的相关工作取得了很大进展,各类方法相继涌现。从网络表示方法上分,有基于特征向量流形不变性的方法和基于神经网络学习的方法,也有基于非负矩阵分解的方法;从保持网络性质的角度来看,有保持网络微观特性(如节点近邻、网络三角结构等)的方法,也有保持网络中观结构(如社区结构)的方法。但是,在网络的诸多中观结构中,除社区结构外,还存在二分结构、星型结构、核心外围结构、混合结构等其它广义结构。因此如何针对网络广义结构进行保持、提出有效的表示学习方法值得深入研究。并且,网络的节点间不仅存在全局的拓扑关系,节点上还常伴随着丰富的属性信息,如何使得网络表示学习的结果具有保持网络中观结构和节点间属性相似程度不变性的能力,值得我们进一步关注。针对以上两个问题,本论文的研究工作主要有:(1)提出一种能够保持广义结构的网络表示学习方法GS-NMF。该方法是一种基于非负矩阵分解的模型,在模型中将原M-NMF模型中的社区结构模块度最大化约束调整为网络结构三因子分解模型。由于三因子分解模型具有网络广义结构学习的能力,因此本文提出方法具有克服原有方法普适性较弱的优点。在含有多种广义结构(社区、二分、混合结构等)的人工和真实网络数据上,通过实验验证了本文提出方法GS-NMF在网络节点聚类、分类及可视化任务上的有效性。(2)在保持广义结构的网络表示学习模型基础上,融合节点属性信息,提出了一种保持网络广义结构的属性网络表示方法GS-ATTR。该方法在模型GS-NMF的基础上,增加了对节点属性相似性的不变性约束。通过与已有属性网络表示学习方法在多个不同结构(社区、混合结构等)网络数据上的对比研究,本文提出的方法不但保持了网络的中观广义结构,相比同类方法在节点分类、聚类任务上都具有较好的效果。且所给方法较之于原有的GS-NMF模型在表示效果上有明显的提升,这也进一步印证了融入节点属性有助于提升后期网络分析任务的有效性。
其他文献
无线通信、嵌入式技术和微电子系统的发展推动着无线传感网络(Wireless Sensor Networks,WSNs)的不断进步,使得WSNs的应用场景从最初的军事战场逐步扩展到环境监测、现代医疗和智能家居等领域。传感器节点能量有限,无法进行大量的数据操作,通常采用数据聚合(Data Aggregation,DA)技术去除冗余信息,减少数据传输量,缓解网络的能耗压力。然而,在聚合过程中大量的数据被
本文主要研究并设计了一种用于射频前端电路的温度和工艺检测补偿技术。该温度和工艺检测补偿技术,分别包括了温度传感器和工艺检测器来实现温度和工艺偏差的检测,以及与射频
为补充尚未建成实体科技馆县(市)的科普资源,带动基层科普的建设和发展,提升老少边穷地区公民的科学素养,缩小城镇劳动者和农村劳动者科学素养水平的差距,中国科协于2010年正式启动了“中国流动科技馆”项目。流动科技馆是在保留实体科技馆的基本功能上,结合科普大篷车的形式和优点,采用小型化、模块化的展品在各县(市)间巡回展出的公益性科普设施。流动科技馆受到当地群众尤其是青少年的喜爱。但流动科技馆运行年限尚
如今社会信息技术的蓬勃发展,给我们的生活以及工作带来了各种各样的便利。各种自动化系统,大数据分析等信息化办公的解决方案广泛应用于各种企业以及行政机关单位,信息技术的广泛发展,推动着企业和行政机关单位服务不断向前,基于科学建立的自动化协同工作的软件成为企业的核心竞争力。基因产业带动全球生物科技产业的发展,具有非常广泛的前景,我国的基因产业相对于西方发达国家来说起步较晚,特别是基因检测技术远远落后于西
作为高中英语语法中的重点和难点,情态助动词的用法备受历年高考的青睐。然而,英语情态助动词大多一词多义且词义相互重叠,学生要想较好地掌握情态助动词并非易事,使用过程中
为了维护电力系统的正常运行,需要用到电磁暂态仿真系统对电网中的节点进行实时监测。电磁暂态仿真系统的实现方式主要分为软件语言实现的软件仿真系统和基于硬件描述语言在F
随着互联网技术的发展,以及云计算的兴起,越来越多的用户选择将信息存储到第三方云存储平台上。这其中包含大量的图像、文本等信息。众所周知这些图像和文本中通常将用户的隐私包含在其中,将隐私性的图像和文本存储在完全不可信的第三方云平台上,这种操作无疑增加了用户隐私泄露的风险。为了保护用户的个人图像和文本信息不被泄露,并且数据在传输过程中不被篡改,通常需要在将文本和图像上传到云服务器前,先对其进行加密处理。
几十年来,随着科技的进步和互联网的飞速发展,带来的就是数据量的井喷式增长。为了承载这些数据,在工程层面我们经历了从单机到分布式的演变。而在逐步走向信息化的社会中,任何数据都显得弥足珍贵,所以任何能够对大数据进行分析处理的算法都具有一定的科学研究价值。聚类算法是数据处理过程中很常见的一种无监督学习算法,近些年来在算法领域也获得了很大范围的关注。但是,聚类算法分为多种类型,不同聚类算法可以处理的数据类
蒋智由(1866-1929),旧名国亮,后改名为智由(又称知游),字性侪、性才、性遂、惺斋、心斋等,号观云、愿云、因明子等,浙江绍兴诸暨人。是我国清末民初著名的政治活动家、民俗学家、诗人。蒋智由一生经历十分复杂,既是戊戌维新的支持者,也是清末革命浪潮的参与者,更是清末立宪运动的谋划者,同时也是辛亥革命后民主共和的坚定支持者。蒋智由多变的一生是中国近代政治思潮更迭的一个缩影,因此研究蒋智由政治活动历
随着网络技术的发展和普及,各种电子设备上也配备了多个网络接口方便上网,但现阶段电子设备上使用的网络主流协议还是TCP,该协议只能使用一个端口进行数据传输,其他端口处于空闲状态,为了提高网络端口的利用率,研究者提出了MPTCP(Multi-Path TCP)协议。然而,在网络传输过程中,MPTCP对长流传输具有明显优势,短流由于数据量小的原因,有时完成时间反而会增加。因此,如何在保证网络整体性能的前