Deep Web查询接口模式匹配与结果标注方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:myxiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,隐藏在Web后台数据库中的信息资源因为其数据量大、结构完整而受到了广泛关注,这些信息通常需要用户提交查询请求才能访问而且不能被传统搜索引擎所索引,进而形成了Deep Web。目前Deep Web信息成为人们获取互联网信息的主要来源之一,快速、准确、方便地从Deep Web站点获取信息,即Deep Web信息集成处理已成为Deep Web研究领域的重要研究方向。Deep Web查询接口集成和Deep Web语义标注是Deep Web信息集成研究中的两个关键问题。集成查询接口的建立方便了用户以统一的查询界面来查询DeepWeb信息,是Deep Web集成研究中的首要步骤,而查询结果语义标注则让计算机正确理解查询结果信息的语义,进而以更友好的方式呈现给用户。本文分别对这两方面的问题进行了研究和探讨,并提出了相应的方法,并进行了充分的实验验证。本文的主要研究工作如下:①介绍了Deep Web信息集成系统框架,对Deep Web模式匹配和语义标注方法进行了国内外研究现状综述,然后研究分析了传统模式匹配方法和语义标注方法的缺点和不足。②在分析概念相似性计算算法和WordNet词典基础上,提出了一种基于概念间最短路径边权重的语义相似性计算方法,解决了现有方法准确性和适用性方面的问题。该方法通过给概念间最短路径按其边包含信息量不同而赋予不同权重,然后采用非线性方程的方式融合加权最短路径和最小上层父概念内容的信息量。通过在M&C数据集上进行实验,表明新方法的结果能取得比人工方法更高的相关性。③提出一种结合匹配度和概念间语义相似性的Deep Web查询接口模式匹配方法,解决了现有方法匹配效率不高和发现复杂匹配困难的问题。该方法采用匹配度来衡量接口属性间的相关关系,根据相关系数的取值来判断属性间的组合和同义两种关系,最后给同义关系进行语义相似性计算得到模式匹配关系。实验结果表明,该方法能有效提高匹配的准确率。④为了准确完整的对结果记录进行标注,提出一种基于D-S证据理论的语义标注方法。该方法把标注词汇建立在D-S证据理论的识别框架中,然后采用不同标注方法在识别框架下对待标注结果记录进行语义标注,最后采用改进的合成方法合成各标注方法的结果。实验表明新方法能高效的标注查询结果记录信息。
其他文献
基于视觉的手势识别是当前人机交互研究中的一个重点和热点。本文总结了典型视觉手势识别即包括图像采集、图像预处理、手势分割、手势建模、特征提取和分类识别数个步骤的工
在生物信息、电子商务等领域,随着离散无序(non-ordered discrete)数据规模的不断增长,有效的离散无序数据空间(non-ordered discrete data space,NDDS)索引技术正逐渐成为关注的热
网络流理论是运筹学领域取得迅速发展的理论之一。到目前为止,应该说,无论从理论上还是实际应用中,网络流模型都是一个很成熟的模型。它的建立和求解算法的不断改进,为解决很多实
近几十年来,无线传感器网络以低廉的价格、独特的性能和灵活性带来了广阔的应用前景,当前,一种特殊的无线传感器网络——移动传感器网络正以它移动灵活、快速部署的优势迅速
随着通信和互联网技术的不断发展,无线传感器网络(WSN)早已可以解决大规模数据的采集和传输问题,但是已有的接入网技术仍制约着无线传感器网络与互联网等主干网络的互连。无源光
近年来,随着信息技术的飞速发展及多媒体应用的广泛普及,信息资源呈爆炸式增长。如何对数据信息进行安全高效存储,成为学术界和工业界的研究热点。分布式存储系统利用网络连接将
深度万维网蕴藏着海量的信息,由于其隐藏性,现有的搜索引擎很难搜索到其中的内容。目前还没有研究出很好的方法和模型来捕获其内容,很大程度上制约了人们获取更多、更有价值
机器学习的方法在生产和科研中都有着广泛的应用,而集成学习则是机器学习领域中一门重要的研究分支。集成学习是把一系列基学习器结合在一起再做预测的一种方法。在理论和实践
图像分割是图像处理、分析与理解、图像识别和计算机视觉研究领域的一个重要组成部分,也是一个经典难题,特别是对于普遍存在的复杂图像(如医学、自然)分割问题,目前并没有统
随着Twitter、新浪微博、腾讯微博等的普及和流行,微博已经逐渐融入人们的日常生活中,成为人们日常生活交流的工具之一。微博的广泛使用产生了大量的数据。这些数据既包含了有