Xsemantic:基于语义扩展的XML关键字检索技术研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:yang97yang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着关键字检索在Web搜索领域取得巨大成功,XML数据上的关键字检索技术也得到了广泛的关注。为了提高检索结果的有效性和性能,检索系统需要综合考虑以下问题:理解查询语义、定义查询结果、设计高效的查询算法、合理的打分排序。SLCA作为XML数据检索的返回结果已经得到了认可,IMS算法以锚结点为基础,设计了高效的多路SLCA求解算法。这些工作有效解决了XML数据关键字检索的重要问题,但作为检索前提的理解查询关键字的真实语义问题却几乎无相关工作涉及;另外,已有的XML检索系统基本都以Dewey编码为基础,编码比较和计算LCA的效率低下,而IMS算法也仍然存在相当的冗余计算。  本文分析了关键字语义扩展问题,提出了基于WikiKeywords语义网络和XML文档统计信息的复合关键字扩展技术。WikiKeywords语义网络是分析Wikipedia数据集得出的反映关键字相互关联的语义网络,我们以此为基础对用户查询关键字进行扩展,并给出了扩展关键字可信度的计算方法。为了克服WikiKeywords网络的冗余扩展问题,本文还利用XML,文档集的统计特征,建立了XMLKeywords语义网络,并综合WikiKeywords,提出了复合关键字扩展技术。  针对Dewey编码在计算SLCA时的低效问题和IMS算法存在的冗余计算问题,本文提出了基于区间编码的SLCA求解算法MMPS。MMPS以迭代的方式寻找那些在候选列表里不存在后代结点且离匹配中最右边结点最近的那些匹配(Smatch),计算其LCA,并根据Smatch的下一匹配(Nmatch),判断当前LCA是否为SLCA。MMPS有效的过滤掉那些对最终结果无用的匹配,减少了LCA的计算,同时以迭代的方式寻找Smatch,减少了候选结果集很大时的I/O开销,更适合基于语义扩展的SLCA计算;另外,算法以区间编码为基础,将编码比较和LCA计算的开销降到了O(1)。  由于MMPS算法是一种阻塞式算法,存在用户体验问题,文章进一步对其进行了改进,给出了基于可信度的PipelineMMPS算法。PipelineMMPS是一种非阻塞式的算法,算法根据扩展关键字的可信度制定计算计划,优先计算可信度高的SLCA,并直接输出,提高了用户体验。
其他文献
无线射频识别技术(简称RFID)是一种非接触式的自动识别技术,它利用无线射频信号实现物体识别与信息传递功能。与传统的识别技术相比,由于具有多目标识别、快速识别等优点,在
随着计算机技术和成像技术的发展,数字图像处理技术在日常生活、军事、工业和医疗等许多领域得到了广泛的应用。提高图像处理的速度,使图像处理过程更加可视化,是设计基于图
随着科技尤其是电子技术的发展,以及制造业的更进一步,无线传感器网络技术有了很大的发展。为了得到人们感兴趣的数据,要在一些地区大量部署传感器,因而要求传感器成本更低廉
随着云计算的迅速发展,越来越多的企业和个人用户倾向于将自己的应用和数据托管给云服务商。然而云计算环境中数据存储服务由半可信的云服务器提供,传统的访问控制方案难以直
随着计算机科学技术的不断进步,计算机监控系统也被越来越广泛地应用到各个科学领域。尤其是在一些无人值守的工业生产现场,计算机控制系统发挥出了它无与伦比的功能。为了响
传统的储层参数预测方法有很多,比如经验公式、回归分析等,其中大部分方法都是基于线性的、单变量的;而地质参数具有数量多、维数高,且存在较大随机性和不确定性等特点,所以常
模式分类是机器学习领域重要的研究内容,也是计算机应用领域中普遍存在的问题。支持向量机作为经典的模式分类算法,基于VC维理论和结构风险最小化原理,克服了传统机器学习分
P2P网络是一种分布式网络,是目前复杂网络研究的热点,建立体现P2P网络真实特征的网络模型对研究网络的结构和行为有重要的意义。目前对P2P网络模型的研究主要集中在P2P的路由
多水下机器人协调机制是水下机器人研究的重要组成部分,编队控制是多水下机器人协调中的一个典型问题,具有重要的研究意义和实用价值。针对水声通信的相关特点,本文以多AUV编
随着网络的发展,它使得网络资源变得丰富的同时也为互联网自身的安全带来了隐患。网络入侵行为隐秘性强,不受时间与地域上的限制,所以其经常发生在正常网络的行为活动中。主