Web隐藏数据库抽取及其Skyline查询算法

来源 :沈阳建筑大学 | 被引量 : 0次 | 上传用户:yangqun0215
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今互联网已经成为21世纪的重要标志之一,全球的互联网用户也在急剧增多,互联网上的信息资源变得日益丰富。互联网是一个巨大的具有共享性的信息空间,同时具有全球性、分布性。在各大网站的后台数据库中存储着越来越多的信息数据,供互联网用户查询使用。网络逐渐成为了信息查询和发布的平台,同时海量的信息被隐藏在查询受限的Web后台数据库(又被称为Web隐藏数据库)中,使得用户们无法有效地获取这些有较高质量的信息数据记录。针对此问题,我们提出本课题的研究,即帮助用户高效地从大规模的数据集中提取有用信息,并将其感兴趣的信息返回,为用户提供便捷的服务。不同于常规量级数据,大规模数据的提取存在很多问题和困难。尤其是针对Deep Web数据的抽取问题,受到网页的免费查询次数限制和对返回结果数量的限制。面对以上问题,我们需要考虑工具与程序的使用,系统资源的分配,数据挖掘方法和技巧以及如何进行数据的存储访问等方面。其中最主要的难题是如何对查询次数做出预估和控制,实现对整个后台数据库的提取。当前Web数据挖掘领域已把该问题作为一个研究热点。针对Web数据抽取问题,可以使用的方法非常多。本文对Web隐藏数据库中数据的特征进行了深入分析,对现有的抽取算法进行了研究和改进,并在实验部分验证了改进算法的有效性和优越性。本文的主要研究内容包括以下几个方面:(1)本文在前人的研究基础上,将Web隐藏数据库分为数值型属性、分类型属性和混合型属性三个类别,并分别从此三方面对Web隐藏数据库抽取和Skyline元组求解问题进行了深入的研究。(2)针对基于数值属性的Web隐藏数据库数据抽取问题:针对数值型数据集空间的划分方法,提出基于分布的多维动态划分算法(MDPA)。(3)针对基于分类属性的Web隐藏数据库数据抽取的问题:提出改进启发式切片查询算法(AHSCA),对由所有分类属性数据点构成的空间进行划分。算法能够灵活的选择下次划分的属性对象,从而降低查询成本,提高算法效率。并将AHSCA算法和MDPA算法相结合,提出一种基于混合属性的混合抽取算法。(4)求解基于隐藏Web数据库的Skyline元组,本文依据相交元组查询分解树的定义和Skyline元组的完全相交性质提出启发式查询分解方法。通过深度优先遍历或广度优先遍历的方式建立相交元组查询分解树,获得隐藏Web数据库D的Skyline元组集。(5)通过实验,验证了上述算法的有效性和优越性。
其他文献
《2016年普通高等学校招生全国统一考试大纲》已正式下发,让我们高三的教师的复习教学有章可循,有标可依。认真对比全国卷和重庆卷发现:同中有异,考点大多相同,但有一些新的考点或
“材料成型综合实验” 是材料成型及控制工程专业开设的一门专业实验课程. 分析了该课程实验教学过程中存在的问题与不足, 根据实验教学计划和要求, 提出了实验教学改革新思
将全部仪器设备和实验器材进行系统分类,根据具体用途采取相应的管理办法,对使用及保养的每一个环节制定相应的管理制度,使仪器设备和实验器材条理分明,摆放有序,使用高效,保
结合多年数字电路实验教学实践,对于数字电路实验采用现代Quartus II仿真工具进行了实际研究并与传统实验方法进行了系统对比研究,包括从实验过程的复杂程度、实验效率、实验
【摘 要】 数学美源于数学,是数学的本质属性.数学的美育价值也愈来愈被教育界所注目.培养学生的数学美感,也是数学审美教育的目的之所在.而审美主体(学生)从审美对象(数学)中获得美感的“桥梁”就是数学教师.所以,在数学审美教育中充分认识和肯定数学教师的作用和明确对数学教师的需求是十分必要的。  【关键词】 审美;姿态美;语言美;才识美  【中图分类号】G63.21【文献标识码】A【文章编号】2095
【摘 要】当今信息社会知识激增,教师不可能在有限的课堂教学中教给学生终生受用的知识,因此,授人以鱼,不如授人以渔,教会学生学会学习,语文教学需要开放性。对文本开放、对学生生活实际开放,要面向每个学生的个性发展,面向学生的整个世界,关注语文与生活的沟通、人与社会的联系,让学生始终处于动态的而不是静止的、开放的而不是封闭的、主动的而不是被动的、多元的而不是单一的学习环境中,以适应开放性社会的发展趋势。
【摘要】在小学数学教学中,有些资源的利用我们可以在课前预设,但更多的、灵动的资源根本无法预测。所以,在设计时,对可能出现的生成性资源要充分估计,有的放矢的开发。同时,必须正确处理预设与生成的矛盾,使预设与生成动态平衡,从而提高数学教学的实效性。  【关键词】预设 生成 资源 发散 质疑  【基金项目】本文为2014年度福建省基础教育课程教学研究立项课题(重点课题)《小学数学课堂教学中预设与生成动态
计算机技术与教学活动的结合推动了教学改革的深入发展,有利于教学目标的实现。本文结合化学教学过程中的具体环节.讨论了将计算机技术应用于化学教学的必要性和可行性;提出了从
大数据时代,各个群体间交换和发布数据变得越来越重要。为了保证数据发布中的隐私安全,隐私策略对数据进行抽象描述,用一个大区间去替换数据属性的某个具体值。例如:将医疗数
【摘要】随着信息化时代的发展,翻转课堂这一新兴教育模式逐渐进入人们的视线。这一起源于美国的教育模式,以建构主义为指导核心,现代化信息技术为媒介的教育模式,正以其先进以及独特的优势慢慢取代传统课堂教学,受到我国教育界的赞赏以及重视。本文通过其在民办高校大学英语教学中的应用,进而来阐述其理念,以及该教育模式的可行性,分析其优势并结合具体教学案例进行说明。  【关键词】翻转课堂 大学英语教学 应用  【