Deep Web数据源发现及Deep Web垂直搜索引擎设计

来源 :江苏大学 | 被引量 : 0次 | 上传用户:fightwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的快速发展,因特网上的信息急剧膨胀,且正在加速深化。按其所蕴含信息的深度可以将Web划分为Surface Web和Deep Web两类。与Surface Web相比,Deep Web信息不仅领域性强,主题专一,而且信息的质量和结构化更好,增长速度也更快。因此,Deep Web数据集成研究正逐渐成为互联网信息检索领域的研究热点。   Deep Web数据源发现是指在Web中发现可访问的Web数据库,它是DeepWeb数据集成的前提和基础。这一过程涉及许多关键技术,如网页分类、查询接口判定等。   本文以Deep Web数据源发现为重点,对其所涉及的一些关键技术进行深入研究,并结合所研究的成果,开发了一个面向图书领域的Deep Web垂直搜索引擎原型系统。所做的工作和取得的成果主要体现在以下三个方面:   (1)网页分类技术。针对网页分类中关联分类方法存在的不足:一、仪把网页当成纯文本处理,忽略了网页的标签信息;二、仅用网页中的特征词作为关联规则的项,没有考虑特征词的权重,或仅以词频来量化权重,忽略了特征词位置特征的影响,提出一种基于特征词复合权重的关联网页分类方法。实验结果表明,考虑网页的标签信息,并以特征词的复合权重为基础建立分类规则,可以提高网页分类的准确率,是一种比传统关联分类方法更好的分类方法。   (2)查询接口判定技术。针对目前查询接口判定方法误判较多,无法有效区分搜索引擎类接口的不足,提出一种基于决策树和链接相似的Deep Web查询接口判定方法。实验结果表明,该方法能有效区分搜索引擎类接口,在准确率和查全率上取得了比传统接口判定方法更好的效果。   (3)在上述关键技术研究的基础上,设计并实现了一个面向图书领域的DeepWeb垂直搜索引擎原型系统。实际应用表明,该系统能够为用户提供来自多个Web数据库的图书信息检索,具有一定的实用价值。
其他文献
随着互联网规模的急剧膨胀以及互联网新业务的大量涌现,使得网络拥塞不可避免。在网络研究领域,拥塞控制已经引起了越来越多研究人员的关注。路由器中采用主动队列管理(AQM,A
随着互联网技术迅猛发展,XML文档由于其自身的自描述性、半结构化、可扩展性等特点,已经成为当今网络时代的信息载体与交换方式,一个高效、快速的XML文档聚类机制将会极大缩
对等网络(P2P Network)技术发展十分迅速,各种基于对等网络技术的应用软件层出不穷,已经广泛应用到文件共享,分布式计算,边界服务等各个方面。据德国互联网调研机构ipoque称,
随着互联网和信息服务技术的高速发展,不同信息系统之间的互联互通,乃至整合集成已经成为一种迫切的需求,网格技术是解决这一需求非常有效的手段。网格技术提供了一个架构平
用户界面是软件系统的重要组成部分,占用了软件系统大量的开发时间。加之,信息技术的不断发展,以及计算机在人们的日常生活、工作与科研活动中的广泛应用,人们对用户界面的要求也
通过对Web日志进行挖掘,站点管理者可以发现用户的浏览模式,了解不同用户的兴趣和整个站点页面的访问情况,从而可以通过调整网站的逻辑组织结构来优化其拓扑结构。目前,一些
在高等院校理工科教学中,实验教学是整个教学过程中的重要环节,特别是基础课、专业基础课的实验教学在本科教学中尤为重要,它对学生的专业知识起着有效的支撑作用。   本论文
半监督学习是近几年来机器学习的一大研究热点,相比于传统的无监督和监督学习,半监督学习同时利用有标记和无标记样本来提高学习效果。其中,半监督聚类是半监督学习的一个重
在序列模式挖掘过程中,隐私保护是一个必须要考虑的前提,尤其在分布式环境下更加值得关注。现有的分布式数据挖掘隐私保护问题研究主要集中在关联规则挖掘方面,而对于分布式
机器学习在人工智能领域中扮演着极为重要的角色,它使得机器能够对各种事物构建模型,通过这些模型,机器就能够对我们的世界形成“认识”。近年来,机器学习能力得到了突飞猛进的发