异质信息网络中离群点检测方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:EDI0920
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异质信息网络是无处不在的。挖掘隐藏在异质网络中偏离正常数据对象的离群点是数据挖掘领域的重要任务之一。离群点检测在入侵检测、欺诈检测、预测恐怖袭击、预测可疑事件和数据去噪等领域都有着广泛的应用。研究表明,挖掘偏离正常对象的离群点比挖掘周期性出现的数据更能给用户带来有价值的信息。本文从静态网络离群点检测、动态网络离群点检测和挖掘离群点对等方面对离群点检测技术进行深入研究,具体研究工作如下:1)针对静态异质信息网络提出了一种基于元路径的离群点检测方法。该方法通过分析网络结构中的链接关系得到源对象与目标对象特征间的相关程度,进而计算对象间的语义相似度。结合元路径及对象间的相关程度度量不同类型对象之间的可达概率,最后通过可达概率和路径长度计算任意两个节点间的离群程度。另外,每个节点都被赋予了一个可信度权值来提高准确率。我们在真实数据集和模拟数据集上对该算法进行测试,实验结果表明,该方法在结合节点语义信息的前提下,能够有效地识别静态网络中的离群点;2)聚类作为数据挖掘领域最重要的信息获取方法之一,在异质网络离群点检测中也有广泛的应用。大多数传统的聚类方法在插入新数据的过程中需要重新计算整个数据集而不是增量更新一部分数据。针对上述不足,本文提出了一种自底向上的增量聚类方法并将其用于异质网络的动态离群点检测过程中。进行聚类前,每个节点都作为单独的聚簇。此外,定义了一个新的度量标准CV(comparison variation),来迭代判断距离最近的两个聚簇是否能进行合并或当聚簇发生变化时已有聚簇是否能被分裂,并通过调节参数λ来动态控制聚类的严格程度。该度量标准不需要提前确定聚类个数,可以根据不同的数据集大小和数据质量动态确定最适合的聚类个数。实验结果表明,该聚类方法可以有效地进行聚类并且增量地更新数据;3)针对动态异质信息网络提出了一种基于张量表示的离群点检测方法。该方法根据张量表示的高阶数据构建张量索引树。通过搜索张量索引树,将特征加入到直接项集和间接项集中。根据基于短文本相关性的聚类方法判断数据集中的数据对象是否偏离其原本所在聚簇来动态检测网络中的离群点。该模型能够在充分降低时间和空间复杂度的情况下保留异质网络中的语义信息。实验结果表明,该方法能够快速有效地进行动态网络环境下的离群点检测;4)为了深入研究并分析异质网络中链接结构相似度与语义关系相似度间的差异带来的影响,本文还提出了一种基于链接结构与语义关系的差异性来检测离群点对(outlier pair)的方法。首先,构造目标对象间的链接结构相似度与语义关系相似度的邻接矩阵,分别通过分析链接结构和语义关系来得到对象间的相似程度。分析对象在结构上的关联关系,得到目标对象的链接结构相似度。提出k-步索引方法来得到目标对象的特征表示,从语义关系的角度计算目标对象的相似度。最后,利用矩阵的线性变换得到任意目标对象对在链接结构和语义关系上的差异,较高差异值对应的对象对被视为离群点对。实验结果表明,该方法可以有效地识别异质网络中存在的离群点对;5)为了能够增量检测离群点对,本文还提出了一种基于元组的增量离群点对检测方法。利用三元组的形式来表示异质网络中的数据,存储了目标对象以及对象间的链接权值,通过合并及镜像过程得到对象间的结构相似度。定义了前驱节点、后继节点以及覆盖率的概念,在减少参数个数的同时可以高效计算基于内容的相似度。结合基于结构相似度与基于内容相似度来计算离群分数。最后,说明了如何通过对三元组进行插入和删除操作来更新对象对的结构相似度以及内容相似度,进而更新对象对间的离群分数。增量更新离群分数可以有效降低时间及空间复杂度。实验结果表明,用元组形式表示异质网络中的数据可以动态更新离群分数,很大程度上提高了效率。本文对离群点检测的研究主要包含两个方面,首先,是对于单个离群点检测的研究;其次,是对于离群点对检测的研究。对于这两方面的工作,本文分别提出了两种检测方法:1)对于单个离群点检测,分别在静态网络、动态网络的环境下通过基于元路径和基于张量表示的方法对异质网络中的离群点检测进行深入研究;2)对于离群点对检测,分别提出了基于链接结构和语义关系的离群点对检测方法以及基于元组的增量离群点对检测方法。另外,在进行动态网络离群点检测的过程中,提出了一种增量的聚类方法。在异质网络的环境下进行离群点检测研究是一个新的尝试,具有一定实际意义。
其他文献
目的分析超早期神经康复护理对高血压脑出血患者预后的影响。方法选取2017年5月-2018年5月在我院接受治疗的重症高血压脑出血患者共80例分为观察组和对照组,其中对照组采用常
文章运用2009年我国证券市场数据资料,分析了公允价值变动损益的价值相关性,结果发现,市场无法区分高持续性经营收益和低持续性公允价值变动收益在证券估值中的作用,建议通过
钢丝绳的可靠性计算本钢工学院殷宏1引言钢丝绳是一种常用的起重零件,由于它是由钢丝捻制而成的,内部钢丝的受力情况很复杂,因此,迄今为止的钢丝绳选择方法仍然采用静拉力安全系数
目的分析并探讨腹腔镜辅助经肛内镜结直肠癌根治术的临床效果及安全性。方法选取2009年3月至2014年4月结直肠癌患者80例。根据治疗方法将患者分为腹腔镜伴肛内镜组和传统开腹
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的 探讨3D腹腔镜根治术治疗右半结肠癌的临床疗效及安全性。方法 回顾性分析2014年1月至2016年1月接受治疗的53例右半结肠癌患者的临床资料,根据手术方式分为3D组28例和2D
螺旋锥齿轮啮合时产生的附加动载荷是螺旋锥齿轮传动产生振动,噪声的主要原因。本文根据国家提出了以附加动载荷和振最小为双目标的模糊优化数学模型。在充分考虑影响螺旋锥齿
¥南京建筑工程学院@张元元@王强@严骏多年来,在机械设备的预防维修过程中,油液分析技术被用来预测即将到来的机械故障。油液分析的基本依据是,所有机械系统在运转过程中均同时经历着
近些年,微博由于其短文本性、即时性和裂变式传播特性,已成为当前最重要的社交网络媒体之一。它亦成为人类获取新闻时事、人际交往、自我表达、社会分享以及社会参与的重要媒
习水县是典型的山区农业大县,发展山地农业机械化对全县经济发展和社会稳定具有重要支撑作用。由于地形复杂、土地破碎,山地占全县耕地面积的85%,非常适合发展山地农机。因山