面向不确定图的kNN查询研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:DFHGFD43
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种重要的且具有代表性的数据结构,图通常可以用来描述不同领域的事物之间的繁杂关系。在信息化时代,快速增长的数据中的不确定性越来越普遍。如何对具有不确定性的图数据进行有效的处理,是一项巨大的工程。对于不确定图的研究,有很多想法都来源于确定图,因为确定图可以看作是边的存在概率为1的特殊不确定图。关于图的研究,在很多情况下都无法避开距离问题,但是由于不确定图自身的特性,使得其距离的计算变得更加复杂。在本文的研究中,主要以距离与效率问题作为切入点,对相关问题进行了研究。首先,对现有的关于距离的研究进行分析,指出在不确定图上进行相关研究所遇到的主要问题,其一是精确计算是NP难问题,其二是最短距离相同的路径之间在很多情况下都是不独立的。其次,在结合已有的关于距离的相关计算方法的基础上,提出了不确定图上可达距离的一种计算方法。当不确定图中给定的两点之间可达的概率超过0.5的时候,就用期望最短距离来度量它们之间的可达距离;相反,虽然它们之间不可达的概率比较大,但是只要最短距离不是无穷,说明他们之间是存在可达路径的,这时就用最大可能路径的长度来度量它们之间的可达距离。在现有的关于不确定图的距离的研究中,大都使用采样法作为核心处理方法,但是取样次数对结果的影响很大,而且结果也不一定固定。为了避开采样,提出了两种近似方法,分别是基于算术平均的近似方法与基于加权平均的近似方法。在算法复杂度方面,通过理论与实验相结合的方式验证了在可能世界中寻找可达的最短距离的时候,与最受欢迎的Dijsktra方法相比较而言,BFS方法的优势更加突出。最后,在将可达距离应用于kNN查询处理的时候,基本算法中仅考虑到了距离,而忽略了不确定图重要的特性,距离存在的几率。为了充分利用距离与概率的相互关系,引入了指数函数,巧妙地将两者融合在一起。在此基础上,加入侧重因子,使得那些可达距离与可达概率都非常相近的节点更易于区分。为了在大规模图上能加快算法的执行效率,节点剪裁的方法被用来缩减待查询的图的规模。最后的实验结果表明该方法具有较强的可操作性。
其他文献
随着Web信息的激增,Web服务器维护的数据库即Deep Web存储的信息越来越多,以尽可能自动的方式实现对在线数据库中信息的有效访问是目前Deep Web数据集成的主要目标。目前互联
近年来随着网络技术的不断发展,Internet上的业务种类在不断增加,业务对服务质量(QoS)保证的需求也越来越高。传统的IP网络在业务对网络带宽、传输速率方面的需求显得力不从
近年来,随着计算机技术和网络技术的发展及普遍推广,全国城建档案馆顺应时代发展潮流,不断加大自身信息化建设,并在这一信息化过程中取得了一定程度的成果与经验."数字城市"
无线AD HOC网络是一种非集中式的无线网络。它不依赖于预先部署的基础设施,不使用带有接入点的那种集中式网络方式。相反,每个节点都具有路由功能、为其它节点转发数据。数据
当前,全球主要金融市场特别是外汇交易市场已经实现了网络化和计算机化。金融市场每天都在数据库中积累下海量的交易数据。如何利用计算机对这些数据进行有效的分析和研究,并加
伴随着信息时代信息量的膨胀,无论是网络信息、观测数据以及生物信息都存在着大量相似程度很高的数据。然而传统的压缩方法对于这种数据项之间差异量很小的数据没能够利用这
Web服务由于具有良好的封装性、松耦合性和高度的跨平台集成能力等优势,在网络上的应用越来越广泛。但是基于UDDI的服务发布与发现机制,仅提供语法层次的查找和匹配,很难满足
近年来,无线传感器网络(WSN)被认为是本世纪最具有发展前景的信息互联网络,不仅实现了物—物互相连接的信息通信,而且带动了网络智能化发展趋向。因此,研究无线传感器网络的
随着Web的发展,可供用户选择的Web服务越来越多。传统Web服务的组织和管理方法对服务质量缺乏有效支持,用户难以从众多候选服务中按质量选取最佳服务。现有的Web服务QoS (Qua
十九世纪九十年代初,人们开始对多媒体信息检索领域进行探索。其中,基于内容的多媒体信息检索成为了当时该领域上一个新兴的热点课题。同时也成为了计算机视觉领域中一个备受