论文部分内容阅读
随着网络的快速发展,因特网上的信息急剧膨胀,且正在加速深化。按其所蕴含信息的深度可以将Web划分为Surface Web和Deep Web两类。与Surface Web相比,Deep Web信息不仅领域性强,主题专一,而且信息的质量和结构化更好,增长速度也更快。因此,Deep Web数据集成研究正逐渐成为互联网信息检索领域的研究热点。
Deep Web数据源发现是指在Web中发现可访问的Web数据库,它是DeepWeb数据集成的前提和基础。这一过程涉及许多关键技术,如网页分类、查询接口判定等。
本文以Deep Web数据源发现为重点,对其所涉及的一些关键技术进行深入研究,并结合所研究的成果,开发了一个面向图书领域的Deep Web垂直搜索引擎原型系统。所做的工作和取得的成果主要体现在以下三个方面:
(1)网页分类技术。针对网页分类中关联分类方法存在的不足:一、仪把网页当成纯文本处理,忽略了网页的标签信息;二、仅用网页中的特征词作为关联规则的项,没有考虑特征词的权重,或仅以词频来量化权重,忽略了特征词位置特征的影响,提出一种基于特征词复合权重的关联网页分类方法。实验结果表明,考虑网页的标签信息,并以特征词的复合权重为基础建立分类规则,可以提高网页分类的准确率,是一种比传统关联分类方法更好的分类方法。
(2)查询接口判定技术。针对目前查询接口判定方法误判较多,无法有效区分搜索引擎类接口的不足,提出一种基于决策树和链接相似的Deep Web查询接口判定方法。实验结果表明,该方法能有效区分搜索引擎类接口,在准确率和查全率上取得了比传统接口判定方法更好的效果。
(3)在上述关键技术研究的基础上,设计并实现了一个面向图书领域的DeepWeb垂直搜索引擎原型系统。实际应用表明,该系统能够为用户提供来自多个Web数据库的图书信息检索,具有一定的实用价值。