论文部分内容阅读
随着互联网的快速发展,隐藏在Web后台数据库中的信息资源因为其数据量大、结构完整而受到了广泛关注,这些信息通常需要用户提交查询请求才能访问而且不能被传统搜索引擎所索引,进而形成了Deep Web。目前Deep Web信息成为人们获取互联网信息的主要来源之一,快速、准确、方便地从Deep Web站点获取信息,即Deep Web信息集成处理已成为Deep Web研究领域的重要研究方向。Deep Web查询接口集成和Deep Web语义标注是Deep Web信息集成研究中的两个关键问题。集成查询接口的建立方便了用户以统一的查询界面来查询DeepWeb信息,是Deep Web集成研究中的首要步骤,而查询结果语义标注则让计算机正确理解查询结果信息的语义,进而以更友好的方式呈现给用户。本文分别对这两方面的问题进行了研究和探讨,并提出了相应的方法,并进行了充分的实验验证。本文的主要研究工作如下:①介绍了Deep Web信息集成系统框架,对Deep Web模式匹配和语义标注方法进行了国内外研究现状综述,然后研究分析了传统模式匹配方法和语义标注方法的缺点和不足。②在分析概念相似性计算算法和WordNet词典基础上,提出了一种基于概念间最短路径边权重的语义相似性计算方法,解决了现有方法准确性和适用性方面的问题。该方法通过给概念间最短路径按其边包含信息量不同而赋予不同权重,然后采用非线性方程的方式融合加权最短路径和最小上层父概念内容的信息量。通过在M&C数据集上进行实验,表明新方法的结果能取得比人工方法更高的相关性。③提出一种结合匹配度和概念间语义相似性的Deep Web查询接口模式匹配方法,解决了现有方法匹配效率不高和发现复杂匹配困难的问题。该方法采用匹配度来衡量接口属性间的相关关系,根据相关系数的取值来判断属性间的组合和同义两种关系,最后给同义关系进行语义相似性计算得到模式匹配关系。实验结果表明,该方法能有效提高匹配的准确率。④为了准确完整的对结果记录进行标注,提出一种基于D-S证据理论的语义标注方法。该方法把标注词汇建立在D-S证据理论的识别框架中,然后采用不同标注方法在识别框架下对待标注结果记录进行语义标注,最后采用改进的合成方法合成各标注方法的结果。实验表明新方法能高效的标注查询结果记录信息。