数据库中关键词的查询扩展研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:arthurpzl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据库关键词的语义检索作为数据库关键词查找的一个重要研究方向,在近几年已经得到了广泛关注。与精确查询相比,语义检索能够发现潜在的检索结果,给用户返回更多的查询结果,用户也能够提供更加灵活的查询方式。潜在语义分析(LSA)是一种广泛使用的近似查询处理技术手段,这种方法采用奇异值分解(SVD)的方法分解词与文档的关联矩阵,通过低阶近似矩阵挖掘词与词之间的潜在关系,利用余弦相似度来衡量查询语句(或文档)与文档之间的相似度。LSA不仅满足了用户近似查询的需求,而且能够解决一义多词的问题,然而,LSA离线奇异值分解时间和在线查询处理的执行时间非常高,并随着文档集规模增加而显著增大,难以满足大规模数据集的需求。本文围绕LSA离线处理效率以及在线查询处理效率问题展开研究,并提出相应的解决措施,主要工作概括如下:1.分析了影响在线查询处理效率的主要因素,基于分析结果文档的稀疏特征提出了一种索引结构,用于存储SVD分解后词与文档在降维空间的紧密度。基于结构索引,提出一种快速在线查询处理算法(IndexLSA)。理论分析表明,对于相同的查询,IndexLSA与LSA能够返回相同的结果序列。2.通过设置阂值来减少索引规模,生成一种剪枝索引。基于剪枝索引,进而提出一种基于索引结构的在线查询处理剪枝算法。IndexLSA的在线查询时间受索引规模的影响,通过设置阈值,剪枝索引可以将与词之间联系不够紧密的文档从索引中“剪去”,从而大规模地减少候选集的规模,达到提高在线查询效率的目的。理论分析表明,剪枝索引虽然带来了部分误差,但是误差对结果的影响在可以预见的范围之内。真实数据集上的实验结果表明,IndexLSA不仅可以大幅度地减少LSA的在线查询时间,而且具有较好的查询效果。3.结合链接聚类算法,提出了Link-LSA算法,并且将其与剪枝索引结合,提出了Link-IndexLSA算法。Link-LSA考察异构空间中不同数据实体之间的链接关系,通过链接对文档实体进行相似度的衡量并将文档聚类成簇。Link-LSA使用簇进行LSA处理。真实数据集上的实验结果表明,Link-LSA不仅大幅度地减少了奇异值分解的时间,并且能够有效地提高LSA的召回率。Link-IndexLSA则在在线查询处理上对Link-LSA进行了改进。
其他文献
谈判是多方展开商务合作、进行业务往来过程中一个必不可少且十分重要的环节。自动谈判的研究吸引了来自学术界以及业界等多方面的注意力。自动谈判的机制可以通过利用计算机
无线传感器网络WSN是由大量随机部署在监测区域的微小传感器节点通过自组织方式构成的分布式智能网络系统,一般用于在无人监管的情况下对周围感兴趣的环境变量或者事件对象进
在计算机技术的发展过程中,仿真一直是一个重要的研究领域。在设计一个新的嵌入式系统时,有效地测试和验证新系统的功能和性能是十分重要的。采用软/硬件协同设计的方法能有
三维重构是计算机图形学的重要分支,有着广泛的应用。目前还没有比较通用的技术可以解决所有问题。本文所介绍的系统,致力于满足廉价的家用建模的需求,是一种基于侧面图的静
网络扩展性是移动自组织网络中的一个重要问题,利用分群的方法可以增强网络扩展性,是移动自组网被广泛使用,和实现网络管理、提高传输效率、提供各种应用服务的基础。在本文中,我
随着计算机技术特别是互联网技术的迅猛增长,软件已经成为人们生活、个人以及组织跨越地理边界进行有效地协作的一部分。这些技术的发展和提高需要用软件来满足其不断增加的需
随着互联网技术的高速发展,我们已经步入了大数据时代。在与日俱增的数据规模面前,传统的关系型数据库显得无能无力,而分布式计算和分布式存储技术受到广泛关注。分布式存储
目前,随着对外贸易的飞速发展,上海正在成为全球的航运枢纽、物流中心以及国际供应链的重要环节,这对于快件物流的速度和效率提出了更高的要求。同时,在国家打造电子检验检疫,实施
作为自然语言理解的一项基础工作,词义消歧(WSD)一直是研究的重点。在信息检索、机器翻译等应用中都存在一词多义的问题。50多年来,词义消歧的研究进展并不顺利,消歧算法离实用
无线通信实际上覆盖了目前存在的每一种通信方法。目前,有100多个研究机构和10000多个研究者从事这项工作,并且这些研究大多数是专有的,使得本文在该领域的研究成为可能。 RF