个人数据空间管理系统查询与索引机制的研究与实现

来源 :北京交通大学 | 被引量 : 6次 | 上传用户:fymgxlj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,个人数据呈现出了新的特点,即海量的规模、异构的数据形式和复杂多变的关联关系。与此同时,用户对数据管理的要求越来越高,传统的数据管理技术已不能满足新形势下数据管理的需要,如何有效地管理海量的个人异构数据成为重要的研究课题。近年来,数据空间作为新的数据管理技术,因其不依赖于严格的数据模式,并采用逐步集成的构建方式,能够满足日益复杂的个人数据管理需求。本文研究个人数据空间管理系统的查询与索引机制,主要工作如下:1.提出功能更为强大的查询语言E-iQL。与iMeMex系统的查询语言iQL相比,E-iQL能有效地支持路径和联系相结合的查询方式。论文在广义资源视图的基础上给出E-iQL的逻辑代数操作,作为查询优化的基础。2.提出基于核心句子抽取的部分索引机制。本文将自然语言处理领域中的分词、句子相似度计算、核心句子的选择等相关技术引入索引构建过程,只对核心句子构建索引,以避免全文索引带来的高索引维护成本,同时能提高关键词查询效率。在具体实现过程中,对典型的基于语义词典计算句子相似度的算法进行了简化,大大降低了计算复杂度;在聚类个数的确定、初始K个聚类中心的选定两个方面对K-Medoids聚类算法进行了改进,从而使基于质心的核心句子选取的准确性更高。结果表明,E-iQL语言能更方便有效地表达用户的查询需求。同时,通过对比全文索引和部分索引机制下关键词查询的查全率、查准率等指标,也证明了部分索引机制的有效性。
其他文献
在机器学习领域,有监督学习和无监督学习是两种常用的学习算法。有监督学习中学习器通过对大量有标签数据的学习,从而建立起用于预测无标签数据标签的模型;无监督学习则是在没
随着Internet和流媒体技术的飞速发展,流媒体技术彻底改变了以往Internet只能表现文字和图像的缺陷,它可以集语音、视频、图字于一体。然而,实时流媒体传输不同于传统的单一
无线网络编码能极大地提升无线网络吞吐量、减少端到端时延、降低能耗和减少数据传输次数。基于无线网络的媒介开放性,无线侦听与网络编码的结合,进一步提升无线网络编码的效率
随着计算机通信技术、嵌入式计算与控制技术、分布式技术和无线传感器技术等技术的发展与进步,推动了无线传感器网络的诞生。无线传感器网络(Wireless Sensor Networks,WSN)
二维流场可视化是海洋信息可视化应用研究领域中的重要课题之一,近年来,随着海洋观测技术和科学计算技术的发展,海洋流场数据量越来越庞大,单机计算远远不能满足大规模可视化
网格是分布式计算领域中的一个新兴研究方向,在未来社会中发挥着越来越重要的作用,吸引了大批专家致力于网格的研究。网格是一个集成的计算与信息服务环境,它借助网络连接地
随着无线网络的发展,人们对基于定位的服务需求越来越多,尤其对室内定位的需求。但很多定位技术无法实现室内定位,再加上室内环境复杂,定位精度受很多因素的影响,如障碍物、
房地产作为我国的支柱产业之一,在我国的国民经济中占有重要的地位。而我国目前的房地产基本现状是楼盘分布广,房产价格变化快,因此对于一个购房者来说,如何及时方便地获取关
近年来设备状态检测和故障诊断技术迅猛发展,有效地保证了设备运行的可靠性,并在设备预知维修中发挥越来越重要的作用。计算机与嵌入式技术的不断发展又为状态监测与故障诊断
在网络技术日新月异变化的今天,网络已经应用到各个领域,网络安全成为一个全新的研究热点,如何快速、有效的针对层出不穷的攻击作出响应,对于保护网络系统和资源的安全变得更