基于密度聚类的空间文本查询

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:xiaok131
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基于位置服务的应用发展迅速。用户可以基于位置进行信息检索,从而得到更加符合现实需求的检索结果。作为基于位置的信息检索的基础,空间文本查询越来越受到学者的关注。在空间文本查询领域,学者提出了多种查询方式解决现实场景中的问题,但现有的查询方式鲜有考虑到周围兴趣点对返回结果的影响。基于Top-k空间文本聚集查询,本文提出了基于密度聚类的空间文本查询。该查询方式为用户返回符合密度要求的结果簇集,即为用户推荐符合查询条件且空间文本对象密集的区域。本文提出的查询方式解决了Top-k空间文本聚集查询中系统IO开销大和索引结构参数敏感等问题。该方法首先使用IR~2树索引结构对空间文本对象进行索引。然后,根据查询关键字和最大可接受距离对IR~2树进行搜索,并返回相关空间文本对象集。最后,使用基于密度的聚类算法对相关对象集进行聚类,并返回最终的结果簇集。这样可以避免对整个数据集进行遍历,降低了系统IO开销和查询时间。本文将IR~2树索引结构与传统的DBSCAN算法相结合,设计了基于DBSCAN的聚类空间文本查询算法。然而,DBSCAN算法时间复杂度高,影响查询效率。针对这一问题,本文提出了两种不同的改进算法:(1)基于规则的聚类空间文本查询改进算法。该算法使用规则策略减少了DBSCAN算法中对于核心对象的?邻域中对象的扩展数量,从而降低聚类时间。(2)基于快速DBSCAN的聚类空间文本查询改进算法。该算法根据用户输入的查询条件建立网格结构,并结合快速DBSCAN算法,降低了算法的时间复杂度。通过对IR~2树索引结构和本文查询方式的分析,本文发现搜索IR~2树时,可以去除掉包含明显异常对象的节点。针对这一问题,本文提出了基于剪枝策略的聚类空间文本近似查询算法。首先,本文通过增加IR~2树中签名文件的标志位改进了IR~2树索引结构。其次,本文设计了具体的剪枝策略,对改进后的IR~2树的搜索过程进行剪枝,实现了近似查询算法。近似查询算法对改进的IR~2树进行搜索时能在树的高层及时去掉包含明显异常对象的节点,降低了系统IO开销和IR~2树搜索时间。为了验证不同查询参数对各个算法运行时间和系统IO开销的影响,本文在两个不同规模的数据集上对本文所设计算法进行对比实验。实验结果表明,在相同实验条件下,基于快速DBSCAN的改进算法较本文其他精准算法相比效果最好。此外,本文提出的近似查询算法能够有效识别到包含异常对象的节点,并对其进行剪枝,进一步提升了算法性能。
其他文献
研究政策过程是考察我国政府内部运作逻辑的重要窗口,有利于政府服务能力和治理能力的提升。政策过程中,由于部分环节是在政府内部进行,公众并不能直接观察、了解其内部结构
随着信息技术在人们日常生活中的广泛应用,文本信息正以指数形式增长,如何对海量文本信息进行有效管理,进而快速了解文本信息的价值成为了研究的焦点。其中,文本表示和文本分
干净的图像可以为视频监控、目标追踪、目标检测、自动驾驶提供有保证的输入信号,保证这些任务可以正常运行。然而,雨是日常生活中常见的天气,在雨天拍摄的图像严重降低了视
“一花一世界,一叶一追寻”,在中国古代文学中,浪漫多愁的文人墨客总会在植物身上埋藏下自己当时的情思,赋予植物很多象征意义,因此书中花叶总有情。清代文学家张潮在《幽梦
随着移动互联网、人工智能等新技术的发展,如何安全、高效地对用户身份进行认证已变得日益重要。现有的移动端身份认证方法,如基于口令,指纹和人脸的身份认证,均属于一次身份验证方法。这些认证方法只在登录时认证一次用户身份,无法在用户后续访问期间提供连续认证。持续认证方法能够对用户身份进行持续地认证,能够有效地解决上述安全隐患。本文提出了两种持续认证方法,为满足用户在线认证需求,我们提出了基于长短记忆网络的
土地是人类生活的空间和载体,是生产发展的基本和源泉。我国城镇化的快速发展需要进行土地扩张,在城市土地资源供不应求的情况下,部分乡村建设用地由于缺乏约束机制出现土地粗放利用的问题。为确保常态有序地管理用地,昭化区在各乡镇开展城乡建设用地增减挂钩项目工作。本文通过对昭化区虎跳镇城乡建设用地增减挂钩土地整理项目的实际情况调研,同时借鉴国内外土地复垦适宜性评价研究成果,以第二次全国土地调查数据为基础,对虎
随着科技的发展,人们对天线辐射性能的要求越来越高,这种要求不仅体现在军事上也体现在我们的日常生活之中。目前的多波束天线大多数通过切换端口来获得多个波束,可以同时产
随着计算机技术的普及和生物领域的高速发展,生物医学领域文献的增长呈现指数级。如何从海量数据中快速高效地获取生物医学知识,这就涉及到信息抽取技术。问题蕴含识别是信息
椭圆曲线密码ECC(Elliptic Curve Cryptography)具有安全强度高、功耗低、存储空间小等优点,因此被广泛应用于身份认证、快速加密、数字签名等领域。但常见的ECC系统由于所基于的有限域、椭圆曲线及不可约多项式各不相同,所以无法避免互通问题,而设计一款支持双域运算的ECC协处理器可以有效的解决这一问题。本论文主要针对双域ECC协处理器设计中的关键问题进行研究。椭圆曲线加密的核心
物联网的发展促使海量实体接入到网络中,为其赋予了“智慧”,使物理空间与信息空间的融合加深,同时,将人与物、物与物紧密的联系在一起。然而,物联网环境中传感设备呈指数级