基于张量分解的异构信息网络聚类分析方法

来源 :国防科技大学 | 被引量 : 1次 | 上传用户:sfol001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实际应用中信息网络随处可见,例如社交媒体网络、电子商务网络、生物信息网络、健康医疗信息系统、以及大量的结构化数据库系统等等。如何从信息网络中挖掘出有用的知识是一项意义重大且充满挑战的任务。在最近的十几年里,信息网络的挖掘俨然成为了数据挖掘和信息检索领域的一个新的研究热点。最初的信息网络挖掘基本上都是将传统的数据挖掘方法扩展到同构信息网络中,即假设信息网络中只包含一种类型的对象,且对象之间只存在一种类型的链接。然而,在实际情况中,信息网络基本上都是异构的,即网络中包含多种类型的对象,且对象之间可能存在多种类型的链接关系。聚类分析是数据挖掘中的一种最常见的无监督学习方法,也是机器学习和人工智能领域的一项基本数据分析手段。聚类分析主要用于无标签数据的自动分类问题,聚类分析能够有效地发现海量数据中隐含的数据模式和结构特征。然而,许多现有的聚类方法,如谱聚类等,都是为了离散点集或只包含一种关系的同构信息网络而设计的。对于异构信息网络中包含的多种类型的对象和丰富的语义关系,必须经过投影转换等手段将异构信息网络转换为同构信息网络才能处理。这种转换忽视了对象和链接类型之间的相关性,一般都会导致异构信息网络中的语义信息的丢失或者网络结构的损坏。由于传统聚类方法的局限性,最近的一些研究开始关注于异构信息网络的挖掘并取得了一些成就,例如RankClus和NetClus。虽然这些研究在一定程度上克服了传统方法在处理异构信息网络时不可避免地造成语义信息丢失和网络结构不完整等问题,但是由于各种要求严格的使用条件和强假设条件,使得目前关于异构信息网络挖掘方法的使用也面临着很大的局限性。例如RankClus要求异构信息网络符合二元网络模式,而NetClus只能分析星型网络模式的异构信息网络,并且这些方法每次只能对网络中的一种类型的对象进行聚类分析。然而,在实际情况中,一般很难遇到这些具有完美的网络模式的异构信息网络。本文针对传统经典的聚类方法对异构信息网络分析的局限性和目前关于异构信息网络的聚类方法的不足,基于张量分解工具对异构信息网络的聚类问题进行研究。提出了基于张量的异构信息网络建模方法、一般网络模式的异构信息网络聚类模型、稀疏性约束下的异构信息网络聚类模型、动态异构信息网络中的混合多类型社团发现模型。论文的主要研究内容及创新点包括:1.结合异构信息网络挖掘的研究现状,分析了异构信息网络的聚类所面临的挑战,提出了一种异构信息网络张量表示模型,能够描述异构信息网络中存在于多类型对象之间的复杂语义关系的分布情况,同时利用稀疏张量来压缩异构信息网络的存储规模等。2.提出了基于张量分解的一般网络模式的异构信息网络聚类框架,并设计了稀疏张量分解算法。该聚类框架不受具体的网络模式限制,不需要定义对象之间的距离函数,并且一次运行可以同时得到异构信息网络中多种类型对象的聚类结果。3.提出了两种高效的随机张量梯度下降算法,利用张量的稀疏性进行加速计算,较好地解决了异构信息网络聚类结果中特征矩阵的稀疏性约束问题。4.设计了动态异构信息网络中混合多类型社团发现模型。根据动态异构信息网络中混合多类型社团的特点,利用秩一张量对混合多类型社团进行建模,并提出了动态异构信息网络中混合多类型社团数量自适应学习的方法,较好地解决了异构信息网络中混合多类型社团的发现问题。
其他文献
目的深入探讨小儿过敏性耳鼻咽喉疾病的诊疗方法,以为今后临床实践提供科学有效的数据支持。方法以我院2014年11月至2015年2月收治的60例过敏性耳鼻咽喉疾病患儿作为本次研究
在建筑电气工程项目当中,雷电灾害是主要的一种自然灾害,会对建筑造成很大的影响。一旦有雷电情况发生,其会在非常短的时间之内释放大量的电压与电流,然后产生非常强大的热效
随着现代多媒体技术广泛应用于语言教学中,传统文本注解型教材正面临巨大的挑战。教材不仅仅是教师教学的蓝本,更应该是学生学习的素材来源和自学策略指导范例。二语习得理论
本文介绍了居住室内手工模型制作的教学过程,并通过实践教学法探讨如何提高高等教育质量。
<正>一、研究目标1、开发"小学生综合性学习"的课程资源,结合学校的教学实际和社区的基本情况,选择适合小学生年龄和心理特征的活动项目,作为语文听说读写能力训练的载体,达
会议
本文以经济全球化以及转型期中国的社会现实为背景,立足价值认同理念所蕴含的理论和实践张力,在一元与多元、自我与他者、生成与发展的辩证关系中初步探讨了建构现代中国社会
全球定位系统(GPS)能全天候全天时提供高精度的位置、速度和时间信息,在军事和民用上显示出越来越重要的用途,应用前景十分广阔。GPS应用范围的扩展给GPS接收机的性能和精度
目的本实验的目的是试图通过探究在低氧条件下280nm发光二极管紫外线(Light Emitting Diode-Ultraviolet,LED UV)对急性早幼粒白血病细胞标准细胞株(HL-60)细胞增殖的影响并研究其相应的机制。方法1.取对数生长期HL-60细胞株作为研究对象,280nm LED UV作为光源,氯化钴(CoCl_2)模拟低氧;2.将实验分为六组(对照组A及实验组B、C、D、E、F
骨组织损的修复和重建是骨组织工程学的重要课题。生物陶瓷支架材料,固性能稳定,生物相各性好等优点。已被越来越多的应用于骨组织的修复和重建。理想的生物陶瓷支架材料不仅
维生素类物质作为生物体所需要的微量营养成分,对生物体的新陈代谢起着重要的调节作用,维生素含量的异常会影响正常的生理代谢过程,导致各种疾病的产生。因此,开发一种高效快速、方便实用的监测方法就显得尤为必要。分子印迹电化学传感器是电化学传感技术与分子印迹技术的结合,不仅具有强特异性识别能力、灵敏度高以及抗恶劣环境等特点,还具有操作简单、检测快速、低成本以及实时监测等优点。同传统的电化学传感器相比,分子印