带权不确定图的K最近邻查询算法

来源 :上海海洋大学 | 被引量 : 0次 | 上传用户:ch32918
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在社会经济迅速发展的时代背景下,以生物技术、信息技术等为代表的高科技产业取得了令人瞩目的成就,其成果广泛应用于社会各个角落。社会朝数字化、信息化的方向发展,产生了大量的数据。由于归纳统计、隐私保护等原因,衍生出了不确定数据。不确定数据结构复杂、数量巨大、表现形式多样。在生物技术领域,需要进行实验计算的蛋白质的数量往往达到指数级,蛋白质间发生不同的化学反应,蛋白质的形态各式各样,实验中通常需要寻找与指定蛋白质关系最密切的蛋白质群;在移动通信领域中,持有手机终端的人数高达数十亿之多,设备的地理位置不断变化,之间通过网络连接的通道方式不一,在两个设备之间寻找最便捷的通信网路是该领域的关键应用;在虚拟社交领域中,注册用户产生的信息量巨大,信息种类繁多且不尽真实,用户间互动产生的信息量繁杂浩大,用户经常需要查找与自己关系最亲密的好友。因此,如何对复杂、海量、多样的不确定数据进行有效准确的查询成为当前复杂网络亟需解决的问题。  在复杂网络中,图是一种良好的数据建模工具。随着数据中融入了不确定性,对应的数据建模工具也由传统的确定图衍变为不确定图,不确定图是在图中加入不确定因素。然而在当前的不确定图研究中,只是片面考虑边概率,而没有考虑边的权重,这会降低不确定数据查询的准确度。以往不确定数据查询具体体现在生物领域时,只考虑蛋白质发生化学反应概率而不考虑反应次数;在移动通信领域只关心连接通路的可能性而没有考虑通信带宽的大小;在社交网路领域只考虑用户间好友关系成立的概率却没有关注彼此互动的频率。因此本文给出了加入了权重变量的不确定图定义。带权不确定图是一个包括权重和概率的四元组,兼顾了数据的不确定性和权重因素,并把带权不确定图细分为不同的带权不确定子图,去除无用的边,进一步明确图中顶点之间的关系,能够有效准确地存储复杂网络中的不确定数据。  本文采用带权不确定图来存储复杂网络中的不确定数据,并针对复杂网络中的不确定数据查询问题,提出了针对带权不确定图的KNN查询定义:GrapKDist查询。通过定义带权不确定图的路径步、源顶点层和层半径等概念以区分图中不同顶点的关系;通过推导出两个查询定理:邻步定理和层次局部性定理,明确了查询过程中ProWeiDist距离与路径步、源顶点层的联系。本文提出了实现GrapKDist查询的SubDistK算法,并从准确度和效率方面对算法进行了优化。实例分析和实验结果证明查询算法能够有效、准确地查询复杂网络的不确定数据。  本文主要创新点如下:  1.针对复杂网络中的不确定数据,指出传统建模方式只考虑概率不考虑权重的缺陷,提出了兼顾概率和权重的不确定图建模方式,实现了复杂、多样、海量的不确定数据的有效存储;  2.针对传统不确定图中顶点关系和距离不明确的问题,首次提出了带权不确定图中的路径步、ProWeiDist距离、源顶点层和层半径概念,区分了图中不同顶点的层次关系,并给出了不同顶点的距离计算方法,实现了带权不确定图的简化;  3.针对不确定数据在复杂网络中的查询难题,定义了基于带权不确定图的K最近邻查询,并给解决该查询的SubDistK算法。从实例分析和多组实验证明了算法的准确性和高效性。
其他文献
近年来,随着计算机技术和三维扫描技术的发展,出现的一种新的多媒体数据类型——三维几何模型。三维网格模型成为表示数字几何模型的重要手段,并且在娱乐、网络以及制造业中
近年来,我国高等院校招生规模不断扩大,但同时也出现了如生源质量下降,办学经费紧张,师资力量不足等新问题。如何提高管理水平和办学质量,是很多高校亟待解决的问题。目前多数高校
近年来,随着科技的不断进步,越来越多的国家和地区加入了开发极地资源、海洋资源的行列,特别是极地科学考察及研究方面已经成为研究热点。在极地科学考察及研究方面,我国科学考察
“全天时、全天候”海洋监测立体网的建立,使得海洋数据的量急剧增长,同时不同监测手段的使用,海洋数据的监测频率、数据格式等都存在各异性。目前,海洋数据呈现多样、多维、多时
随着网络的发展及企业的信息化,企业内部网的信息管理也越来越复杂。尤其在涉密企业中,敏感信息需要不同级别的保护,工作流技术的普遍应用也加大了对数据安全控制的复杂性。
图像修复是图像复原研究中的一个重要内容,也是当前图像处理和计算机视觉领域中的一个研究热点。图像修复是对图像上信息缺损区域进行信息填充的过程,其目的是恢复有信息缺损的
信息技术的迅猛发展,特别是互联网技术的普及应用,使得电子政务、电子商务成为当今信息化发展最重要的领域之一。网络上的信息安全是电子政务、电子商务健康持续发展的重要保
随着网络应用的不断发展,互联网用户对业务服务质量的要求在进一步提高,相关网络技术也随之逐步成熟。作为网络管理的重要组成部分,计费也随着这些发展而不断改进。在多业务
计算机支持的协同设计,是一种基于网络的、由异地专家参与的、以产品性能为中心的开发技术。它能够支持多学科专家的共同工作,从而提高工作效率,缩短设计周期,增强产品的市场
随着计算机技术在各个行业的普及应用,承载信息的数据随着时间的推移而不断增长,人们已经不再满足于日常操作型的事务处理,而是更加关注能否从纷繁复杂、大量沉淀的数据环境