高维数据流上的K近邻问题研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:RSH1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和网络技术的发展,数据收集变得越来越容易,数据的规模和复杂性越来越高,数据的维度(属性)也越来越高。通常情况下各种类型的数据,如Web文档、图片、基因表达数据及多媒体数据等,可以通过一些特征抽取的方法被表示成高维的向量(或者高维空间中的点)。数据库、信息检索和数据挖掘等领域的一个常见操作,就是在一个对象集中找到某个查询(或某个查询集中所有查询)的最相似的K个对象,如果用一个距离度量(如欧式距离)来衡量相似度,这个操作就可以转化为求高维空间K近邻(或K近邻连接)的问题,即在一个对象集中查找离查询点(或一个查询集中的每个点)距离最近的K个对象。目前高维空间中的K近邻和K近邻连接算法主要针对静态的数据集,而越来越多的应用需要在数据流上连续不断地获得查询结果,这就对高维K近邻(及连接)问题提出了新的挑战。本文对高维数据流上的K近邻相关问题进行了研究。首先,我们研究了高维数据流上的连续K近邻连接问题。由于被查询点集在数据流上会不断发生变化,因此查询集的K近邻连接结果需要实时更新。本文提出采用增量更新策略:先求解更新点的反向K近邻结果,即查询集中K近邻结果会受更新点影响的那些查询,然后只更新这一部分查询的K近邻结果,以避免重复计算。本文提出了一种新的索引结——HDR-树,来提高求解更新点的反向K近邻结果的效率。HDR-树主要利用主成分分析(PCA)降维和聚类划分的技术来提高查询效率。进一步地,由于在大多数的应用下,求得近似K近邻连接查询结果也是可以接受的,本文研究了在高维数据流上近似地得到K近邻连接结果的方法,以进一步减少处理时间。本文提出了两种近似K近邻连接的索引结构和算法:HDR*-树和LSH-M。HDR*-树结合了随机投影降维和聚类技术,由于随机投影降维后的数据能够近似保留原数据点之间的距离关系,HDR*-树在求解受更新点影响的查询点时具有更高的效率。LSH-M则利用了局部敏感哈希的思想来构建索引,并提供有准确率保障的快速检索。本文分析了两种方法的查询准确率,并用实验结果验证了它们的效率。最后,为了进一步提高查询效率和可扩展性,本文研究了高维数据流上的分布式K近邻(及连接)查询的问题,并设计了分布式索引和查询算法来提高查询效率。本文提出了一个新的索引结构,叫作动态环索引(Dynamic Bounded Rings Index),它首先找到一个参照点集,把数据流上的点分配到最近的参照点,然后对每个参照点上的数据子集按照到参照点的距离进一步划分到更细粒度的有界环型内,环的边界可以动态维护以适应数据流上点的不断更新,并且由于每个动态环可以分配到不同的节点上处理,它可以很容易地应用到分布式环境中。在动态环索引的基础上,本文设计了分布式高维K近邻查询算法,该算法的主要优点是在只进行两次迭代的情况下就能得到准确的K近邻结果,减少了在分布式环境中进行K近邻查询的通信代价和计算代价。本文将提出的索引和算法在开源的分布式流处理平台Apache Storm上进行了实现,在真实数据集和模拟数据集上的实验结果都显示我们的算法对比已有的基准方法在查询效率上有很大提升。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的探讨并比较动态心电图与冠状动脉造影诊断冠心病临床价值。方法回顾性分析某院2009年2月~2011年8月收治临床确诊冠心病患者95例动态心电图及冠状动脉造影检查资料,比较两
医疗机构是否属于公共场所,关系到相关行政部门对医患矛盾的处置,且对医务人员的安全保障有着十分重要的意义。本文梳理和研究了相关法律法规,对"医疗机构"是否应该界定为"公共
自从Woodham首次提出光度立体视觉后,该技术在表面三维重建中得到了广泛应用。在光度立体视觉中,物体表面由多个方向光依次照射并由一个视线方向固定的相机采集。为了更好地
青藏高原对气候变化十分敏感,为探讨气候变化对藏北高寒草甸土壤线虫群落的影响,以开顶式气室(open top chamber,OTC)模拟增温3个月,利用高通量测序技术分析OTC内外不同深度
近年来,地方党报中,经济新闻报道的篇幅逐渐增多。及时、准确、客观的经济新闻报道可为当地党委政府、公众和经济行业领域作参谋。但如何让经济报道既准确权威又让读者爱读,
改革开放40多年以来,我国在经济高速增长的同时,也付出了生态环境恶化的沉重代价,水质污染属于比较典型的生态问题。由于水资源自身流动性的特点,水污染也常常是跨区域的现象
中国的古典园林享誉世界,除了雄浑大气的北方园林、精致小巧的江南园林、活泼秀丽的岭南园林这三大园林外,还有古朴淳厚的西蜀园林。西蜀园林是根植于成都平原土壤上的地方性
恶性实体肿瘤远处转移是导致肿瘤患者死亡的主要原因。目前,恶性肿瘤的诊断主要依赖影像学检查、病理学检查及肿瘤标志物等。随着精准医疗时代的到来,循环肿瘤细胞(CTC)检测技
文章通过医方因篡改病历而被推定诊疗行为有过错的一个案例,详细阐述医疗过错的认定标准、认定过程和鉴定与举证责任规则的博弈,以及医务人员病历记载的法律义务,并建议医务