基于语义相似度计算的Deep Web数据库检索方案研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:lhyhh123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网行业的快速发展,我们正处在一个信息快速增长的年代,并且在海量增长的信息中往往蕴含着大量有价值的数据。虽然在日常生活中,我们可以通过各种搜索引擎解决我们的需求,但是有时候搜索出来的信息,往往在信息相关的程度和精度上,与我们期望的存在着差异,从而不能够完全满足我们的搜索需求。通常我们使用的一些搜索引擎,比如Baidu、Google、Yahoo等等,往往都是通过网络爬虫技术,将相关的网站页面首先抓取到自身的服务器上。我们在对关键词进行搜索的时候,实际上是直接查询本地相关文件,反映给我们的往往也是一些静态的网页数据。日常范围内的搜索,我们很难通过关键词的简单查询完全获得Deep Web DB的数据,从而损失丁海量有价值数据信息。本文提出了基于语义相似度计算的Deep Web数据库检索力法,该力法的目的在于将语义相似度的计算方法运用于数据库检索当中去,最终将该方法同传统搜索引擎有效结合,更加满足用户搜索需求。本文首先简要的介绍了几种常见的语义相似度的计算方法,最后结合各自的优点,将同义词词林(哈工大版)和知网(HowNet)有效结合,提出了一种改进的语义相似度的计算方法。通过计算关键词和属性词典对应属性列之间的相关联度,在基于阀值的匹配算法的基础上,确定当前关键词的查询的搜索范围,挖掘出潜在于Deep Web数据库中与关键词有关联的信息。通过对Deep Web数据库的相应查询,最终将查询的结果通过有效的形式反馈给当前用户由丁当前Deep Web下中文测试数据库相对较少,我们采用的是某校信息管理系统的后台数据库作为数据源进行测试。实验部分举例验证和测试了本文中所提出的方法的可行性和正确性,不仅避免了数据库均全表扫描的代价,同时也尽可能的精确当前关键词的查询范围,并且后期通过与搜索引擎的无缝集合,提供给用户高效、稳定的查询体验。
其他文献
在数据挖掘领域,聚类分析是一个重要且备受关注的研究方法,其中包含的基于密度的聚类算法由于可以有效的排除噪声数据,发现任意形状的簇而被广泛的研究。当今处于信息时代,从网络
地面智能机器人是一种可以脱离人的直接控制在地面实时地自主运行的机器人。对地面智能机器人的研究关注的主要问题是自主导航,而自主导航的关键技术是道路场景分割。地面智
无线射频识别技术(Radio Frequency Identification,RFID)是一种非接触式自动识别技术,通常采用电感耦合及电磁反向散射耦合两种方式进行数据交换。由于其同时能够读取多个标签,且
随着互联网交互技术的发展,网络成为了新的交流平台,随之产生了海量的文本数据,针对这些数据的情感分析工作因此而迅速发展。经过十多年的发展,情感分析的研究工作变得更加细
支持向量机(Support Vector Machine,简称SW)是一种解决模式分类和线性回归问题的机器学习方法。近年来,因其坚实的理论基础和良好的泛化能力而被广泛用于模式识别、医疗诊断和预
医学影像成像技术现已成为医疗诊断中必不可少的工具之一。各种成像技术提供的全方位的数据信息方便了病情的诊断,也极大的提高了病情诊断的正确性。在各种成像技术中,核磁共
感应电机具有结构简单、易于制造和维护、价格便宜的优点,但是感应电机的调速性能比较差,控制方法复杂,因此需要一种先进的调速技术对感应电机进行有效的控制。直接转矩控制(DTC)技术的控制方法直接、控制量明确、动静态性能优越,省去了复杂的坐标变换,减少了对电机参数的依赖性,鲁棒性好。其简单有效的控制策略,使其非常适合于应用到感应电机的控制上。本文的工作主要集中在以下三个方面:(1)首先,对感应电机的数学
磁共振成像(Magnetic resonance imaging,MRI)是一个重要的医疗成像工具,但是其采集数据的过程十分缓慢。应用压缩感知(Compressed Sensing,CS)理论到磁共振成像中可提供潜在的显著
随着软件结构复杂性的快速增长,传统的开发模式已经不能满足用户对处理速度以及易用性的要求,在这种情况下,面向服务的架构SOA(service-orientedarchitecture)应运而生。由于具有
随着信息技术的飞速发展,人们越来越偏向于在网上进行信息的交流与资源互享,这就需要研究人员研究如何在网络上进行安全的信息交流与资源互享。因此如何安全高效的实现跨域访问