论文部分内容阅读
随着Web信息的激增,越来越多的信息开始由静态网页存储的方式向Web服务器维护的数据库即Deep Web转移。与Surface Web相比,Deep Web包含的信息具有数量大、质量高、增长快等特征。近年来,对Deep Web的研究已成为Web搜索领域的热点。Deep Web数据集成研究的目的是实现对各领域Deep Web信息的搜索,Deep Web数据源发现和查询结果页面的数据提取是该研究的两个关键点。有学者提出了基于本体的数据源发现框架和数据提取算法,目前主流的Deep Web数据源发现框架中,本体不能自动扩展,框架缺乏自适应性;运用目前的DeepWeb数据提取算法对查询结果页面进行数据提取,存在查全率和查准率较低的问题。针对上述问题,本课题在Deep Web数据源发现框架中引入了本体的自动扩展,增加框架的自适应性;采用索引相似度相结合的算法,提高对查询结果页面进行数据提取的查全查准率。本文的研究工作包括以下几个方面:1.研究基于本体的Deep Web数据源发现,采用网页分类、表单内容分类和表单结构分类来确定符合某领域的Deep Web查询接口,在网页分类和表单内容分类中增加本体的半自动构建和自动扩展模块。在数据源发现的过程中,以领域专家构建的核心本体为基础,通过提取网页中与本体相似度较高词汇作为预扩展词汇,再结合本体扩展策略对核心本体进行扩展。2.研究Deep Web对查询结果页面的数据提取,提出了索引相似度相结合的数据抽取算法。通过记录查询结果页面中含有关键字的索引,并找到索引最大公共节点,确定查询结果网页的主数据区域;通过计算数据块之间和总的平均相似度,过滤掉平均相似度较小的数据块,舍弃总平均相似度较小的数据抽取结果,完成对主数据区域中数据块的提取。3.实验证明:上述框架和方法具有一定的可行性。该Deep Web数据源发现框架具有了一定的自适应性,可以减少框架中人工构建与扩展本体的资源浪费,索引相似度相结合算法提高了对Deep Web查询结果页面中实体抽取的查全率和查准率。