面向文本和空间数据的相似性搜索关键技术研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:nm100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化时代的来临,利用搜索引擎、办公自动化系统、基于地理位置的服务(LBS)等系统来处理日常工作变得越来越普及化,而这些系统所解决的最根本问题就是如何处理数据,特别是数据搜索问题。在大规模数据集中,存在着拼写错误、类型多样化等问题,因此如何高效的找出与查询相匹配的结果是当下最重要的研究挑战。针对这一挑战,本文研究了面向文本和空间的相似性搜索问题,并提出了相应的搜索算法,具体包括:1.基于硬盘的大规模文本数据相似性搜索算法:针对大规模文本数据集上的相似性搜索问题,本文提出了基于硬盘的搜索算法。在该算法中,首先设计了一个基于文本长度的二分搜索树索引结构,并利用该结构设计了基于阈值和top-k的文本相似性搜索算法。基于上述方法,本文进一步扩展并提出了基于硬盘的搜索算法以处理大规模数据集。实验表明,上述算法均能有效的处理文本数据的过滤、校验工作,并较现有算法比其搜索性能得到了提高。2.基于Rt-树的空间文本相似性搜索算法:针对基于地理位置的发布/订阅问题,本文提出了基于Rt-树的过滤算法。算法通过将文本整合到R-树中构建了索引结构。同时为了进一步提高文本部分的过滤效率,算法对各节点中的文本内容进一步优化缩减,选取代表关键字代表各订阅存储于R-树节点中。除此之外,算法还进一步扩展,从而支持语义相似性的搜索问题。实验证明,利用上述索引结构能够有效的根据消息中的文本描述和空间信息进行过滤,并且能够快速的推送消息。3.自适应的空间文本相似性搜索算法:为了能够在发布/订阅系统中对各类消息都能够进行快速的推送,本文提出了基于计算成本的相似性搜索算法从而能自适应于不同的消息类型。该算法首先提出了将空间信息整合到词典树中和将文本信息整合到四分树中的两个索引结构,并针对两个索引分别设计了不同的基于地理位置的发布/订阅算法。由于在现实生活中需要处理数据的种类多样化,因此提出了基于计算成本的算法。该算法基于上述两种算法的复杂度,自适应的选择效率更高的策略来处理消息的过滤和检验。实验证明,该算法由于总是选取最合适的过滤校验算法来处理不同类型的数据,与现有算法相比较时总能取得最优的性能。
其他文献
电路基础是一门概念比较抽象,知识点难以理解、实践性很强的一门课程。为调动学生的学习积极性,提高教学效果,就要求教师在教学实践中,不断总结教学经验,采取灵活多样的教学方式,精
藏政办发[2019]34号各地(市)行署(人民政府),自治区各委、办、厅、局:2018年以来,在以习近平同志为核心的党中央坚强领导下,自治区党委、政府团结带领全区各级各部门和各族干
教师对学生的指导和学生向教师的学习,构成基本教学活动。导学流程通过整合教师的指导方式和学生的学习方式,从操作层面改进师生合作行为。它将教师的指导融入到学生执行学习
建立一个什么样的高等教育发展程度考察指标体系对高等教育发展具有重要意义,因为该指标实际上在指引着高等教育的发展.如果考察指标不科学、不合理就容易在实践中产生误导作
我厂安装的WZG1-8型锅炉,长期以来采用炼油厂供应的脱腊油,油质低劣,使用的喷嘴出油不均,燃烧不良,造成雾化不好,出气量小而无力,锅炉升不起压,烟囱冒黑烟,严重时从烟囱内排
卢梭不是天资聪颖之人,并且缺乏后天的正规教育,即便如此,他仍然成为了享誉世界的大思想家。卢梭的成才之路与良好的学习习惯、正确的学习方法和坚定的学术理想直接关联。卢梭成
据对全国20个主要省、自治区、直辖市的水产品产量统计,2003年1—9月份水产品总产量2886.49万吨,比去年同期增加137.34万吨,增长4.99%。其中,海洋捕捞产量929.9万吨,同比降低0.56%;海水
<正>现代汉语中,程度副词应用十分广泛,充分表达着人们的情感,然而对于程度副词的研究却很稀少。本文将从不同角度,对程度副词"很、挺、怪"做出辨析。在现代汉语普通话中,"很
会议
藏薪联字[2019]27号各地(市)行署(人民政府)、联席会议成员单位:为进一步推动我区保障农民工工资支付法律援助工作,现将《西藏自治区被欠薪农民工法律援助工作制度》印发给你