【摘 要】
:
信息网络中的数据挖掘被广泛的研究,从过去开始,信息网络挖掘中的一些研究主要针对由单类型对象和链接构成的同质信息网络而设计。这些基于同质信息网络的方法不适用于由多类型对象和链接构成的异质信息网络(HIN)。毫无疑问,大多数现实世界的网络基本上以复杂的异质方式组成。相似性度量被视为异质信息网络中其它重要挖掘任务的基础任务,已经在相似性搜索、信息检索和机器学习算法中得到广泛的应用。对于具有丰富语义的异质
论文部分内容阅读
信息网络中的数据挖掘被广泛的研究,从过去开始,信息网络挖掘中的一些研究主要针对由单类型对象和链接构成的同质信息网络而设计。这些基于同质信息网络的方法不适用于由多类型对象和链接构成的异质信息网络(HIN)。毫无疑问,大多数现实世界的网络基本上以复杂的异质方式组成。相似性度量被视为异质信息网络中其它重要挖掘任务的基础任务,已经在相似性搜索、信息检索和机器学习算法中得到广泛的应用。对于具有丰富语义的异质信息网络,相似性度量需要考虑关系语义。然而,现有大多数的异质网信息网络中的相似性度量都是基于单个语义。因此怎么捕获这些网络中的复杂语义成为直接影响系统性能的最具挑战性的问题之一,并在基于复杂语义下怎么设计对象之间的相似性度量成为测量对象之间的相关性的一个重要环节。由于基于相似性度量的应用要在现实生活中进行应用,所以用户的满意程度是必须考虑的一个因素。因此在充分考虑语义关系的情况下,还要考虑网络中其他信息来度量对象之间的相似性。本文主要围绕这些问题展开研究,主要工作如下:(1)针对大多数异质信息网络中的相似性搜索算法只考虑单一的关系语义问题,提出一种基于元图的异质信息网络相似性搜索算法GraphSim,该算法能够捕获复杂关系语义。该算法首先通过关系矩阵计算出与查询对象通过元图相连的候选对象的图计数,候选对象与查询对象是相同类型的,图计数是该元图所对应的元图实例的总数。再通过GraphSim度量分别计算对象之间的相似性值,最后返回前k个与查询对象最相似对象。由于是在线连接矩阵,所以计算时耗会较大。因此根据对象在关系矩阵计算不相连的特性,提出剪枝算法GraphSim-pruning,从而提高计算性能。实验结果表明了GraphSim比基于元路径的相似性搜索算法的性能更好。(2)针对基于元图的相似性搜索算法只关注了对象之间的复杂关系语义,没有考虑异质信息网络中对象本身其他信息的问题,提出一种融合了外部支持性信息与元图的相似性搜索算法GraphSimExt。该算法不仅考虑了相同类型对象之间的图计数,还考虑了元图的外部支持信息,也就是对象自身的信息。该算法首先计算对象在给定元图下所对应的图计数,再计算对象之间通过本身信息的所具有的相似性。在整合它们共同的相似性之后,该算法可以得到同时包含语义信息和对象特征信息的最终相似性。由于计算对象之间的的相关性的侧重点不同,实验表明GraphSimExt算法在排序质量和聚类精度等方面的性能都比GraphSim算法要好,并且也优于基于元路径的相似性算法。
其他文献
强场超快原子分子物理动力学的超快成像研究是领域前沿的研究课题,多原子分子与强飞秒激光相互作用后发生多次电离及库仑爆炸,基于其碎片动量相关性,可重构分子超快结构变化,称为分子库仑爆炸成像。应用时间分辨的库仑爆炸成像方法对光诱导分子动力学过程进行超快研究,揭示分子及离子的超快结构变化,进而实现在原子距离尺度上拍摄分子电影,有重要的研究意义。本论文针对复杂的环形有机分子苯、1,3环己二烯、环己烯和环己烷
碳化硅纤维复合材料为航空航天装备的制造和性能提升提供了广泛的成长空间。但其材料的本征特性却带来了在高温环境服役发生严重氧化、烧蚀等隐患,尤其是容易在高温水蒸气环
激光热应力控制断裂切割技术(激光热裂切割技术)是利用激光局部照射产生不均匀的热膨胀,进而产生特殊的拉、压应力场来控制裂纹的扩展过程。由于切割过程中热影响区小,切割材料
随着现代企业制度的产生和演变,公司治理相关课题也应运而生,并且逐步丰富和完善,目前已经成为全球性的课题。近十几年来,中国互联网企业高速发展,互联网公司的治理问题既有普通企业的共性,也呈现一定的特殊性。有研究数据表明,中国互联网企业的寿命普遍在3年左右。J公司是一家成立于2018年的新型互联网公司,由于股东意见分歧、公司管理层频繁变动等原因,公司业务拓展遇到极大的障碍。本文正是在这样的背景下展开对J
近年来随着经济飞速增长,在改善人民生活质量的同时,中国每年排放的生活和工业污水都触目惊心,对于污水高效准确地测量已成为目前亟待解决的重要课题。污水是一种典型液固两相流的流体,污染物的尺度分布广且不规则,其微观的流动机理充满复杂性和随机性。超声多普勒技术不受固相颗粒、气泡等杂质的影响,是一种精准、稳定、快速的测量方法,非常适用于液固两相流流速、流量测量的研究。本文根据超声多普勒技术测量原理,在频谱分
在非合作通信中,对侦察方来说,获取被侦察方的情报信息非常重要。但交织技术的引入,给侦察方的识别分析工作带来了巨大困难。交织识别是信道编码参数分析中的关键难点,交织识
在一些实际应用中随着时间不断产生的数据可以看作是非平稳环境下的数据流,即数据的分布是演变的,数据流中的这一现象又被称为概念漂移。研究中通常采用集成分类算法对数据流进行分类,因为在处理数据过程中所构建的集成分类器自身的模块化结构能够很好的应对数据流中数据分布的变化。在构建集成分类器时通常有两种方式对数据进行处理,一种是使用在线学习方式对数据逐个处理,另一种是将数据划分成相同大小的数据块,以数据块为单
具阻尼的等熵Euler方程是一类非常典型的非线性双曲守恒律方程,这类方程描述了可压流体穿过多孔介质的运动,具有丰富的物理意义.我们利用能量方法和细致的分析,得到了等熵Eul
众包模式得益于互联网的快速发展,通过互联网将现实社会中闲置的资源和未被得到满足的需求进行效率和质量最大化的匹配。各种各样的任务不在仅限于线下环境或者孤立的任务群体,而是突破了时空和组织结构的限制,形成不同个体之间相互协同的工作形式。然而在众包模式下也存在一些问题,如工人间任务的抄袭,这极大的影响了众包任务的完成质量。本文提出了基于独立性的众包工人选择,从而有效的避免了我这一情况的发生。本文通过借鉴
近年来,随着经济快速发展和城市化步伐的加快,越来越多的土地被征用,农民失去赖以生存的土地后,形成一个介于农民与城市居民之间的边缘群体,称之为“失地农民”。由于农民思