Deep Web数据源发现与分类技术研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:heyunhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从因特网的“深度”将其分为Deep Web 和 Surface Web两类。Deep Web中蕴含有极其丰富的信息,并且比Surface Web所蕴含的信息更加具有利用价值。然而,由于DeepWeb信息是以相互独立的形态分散在因特网的各个角落里,并且这些信息一直处于种动态的、不断变化的状态,这就使获取Deep Web信息的工作变得非常困难。因此,为了用户能够更好地获取到这些有价值的信息,就必须使用Deep Web数据集成的方法去达到这一目的。Deep Web查询接口的判定是Deep Web数据集成的首要工作,是为了用户可以通过真正的Deep Web查询接口获取到真正的Deep Web信息。首先根据页面的URL对页面进行初步的筛选,在对页面表单进行特征提取之前运用启发式判定规则对网页表单进行进一步的筛选。利用Adaboost算法对多个弱贝叶斯分类器融合最终形成一个强贝叶斯分类器,对原有的朴素贝叶斯进行加强,降低了朴素贝叶斯算法对独立性属性要求预先进行假设过度依赖的缺点,根据每个贝叶斯分类器相互间存在的差异性来提升整个分类器的效率。在上一步工作的基础上,抓取到真正的Deep Web数据源,然后再对Deep Web数据源进行分类。利用朴素贝叶斯算法将那些对最后分类结果影响不大的属性进行简约,从而可以减少一部分KNN分类过程中的一些不必要的判定操作,实现对KNN分类算法的优化改进。
其他文献
企业信息化的投资已经成为当今企业管理的一个严峻问题。一方面,企业信息化规模的增大促使其逐渐成为提高企业价值和发展潜力、提高企业核心竞争能力的有效手段和途径。另一方
广域网下充斥着大量复杂的数据和大量复杂的用户访问行为。传统的网络文件系统一般采用中心化的文件系统服务器,可扩展性差,导致局部出现性能瓶颈。另一方面,广域网中存在大
在多媒体信息量飞速增长的今天,从包含有汉字信息的图片、视频等媒介中,进行汉字笔迹的自动识别,成为目前研究的热点。笔划提取是汉字笔迹识别的一个重要步骤。由于手写汉字
随着(电子商务)办公自动化系统在各大企事业单位的普及应用和发展,企业处理业务的传统模式正面临着极大的挑战。标准业务系统正是在这种情况下,根据质监局标准化的业务需求所
随着搜索引擎用户量大规模的增长,对于搜索引擎服务质量和性能提出了挑战。基于用户搜索行为过程中产生的大量搜索日志,相继展开了优化搜索引擎的多方向研究。其中,查询推荐是其
随着软件系统的不断发展演化,其规模和复杂性逐渐增长,同时软件质量持续降低,开发和维护成本日益加大,长期以来便形成了支撑企业核心业务的遗产系统,针对这种情况便有人提出了代码
频繁项集的挖掘技术在如今的数据“爆炸”时代,有着越来越重要的地位,它是解决实际问题的一种非常重要的手段。很多学者在最近20年中提出了许多有关挖掘频繁项集的相关算法以
随着海量的、面向广域网的存储系统的出现,其内部存储资源的复杂性远远超过传统的存储系统。它拥有更多的存储资源、资源异构性突出,并且资源分布更广泛。因此构建面向广域网
在保证软件产品质量方面,软件测试是一种非常重要的手段,其可以增强软件产品的可靠性,但同时它也非常耗费人力和时间。类簇级测试又称集成测试,它是面向对象软件测试中不可或
流媒体是现今Internet上最为流行的网络应用之一。通过流媒体技术,用户不需要下载完成全部的多媒体信息(包括音频和视频),就可以边接收数据流边播放,这不仅可大大缩减系统对用户