遗传算法在Web数据同步抽取中的分析应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:sxyzx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着在线结构化数据库的出现,与日俱增的要求大规模的信息集成,对于不同的领域,网络上存在着大量的并且不断更新的数据资源。那么,要有效地,系统地访问这些数据就需要处理庞大的数据资源,显然,大规模的信息综合需要更加自动化和精确的托管。对于每一个新增数据源,都将自动产生一个网络数据包装器对其进行处理。而现有的技术并不完善。本文将提出一种方法来改进现有的网络数据提取算法.互联网的发展到今天,Deep Web提供了大量的动态信息。在对这些数据的抽取和进行上下文相关的数据包装的过程中,遇到了诸多的问题。我们这里关注三个问题:1.大量的同等数据资源如何被应用于提高一个web数据包装器的准确率。2.多个平行的网络数据包装器怎样被应用于加强web数据包装的准确率。3.对现有的同步web数据抽取方法进行怎样的改进以加强web数据包装的准确率和算法效率。这些问题看起来没有什么联系,实际上根源都在于web数据的包装缺乏上下文相关性。目前的包装器只针对其中的一个数据资源进行包装,在对于内容的处理上缺乏多个同等资源的一致性和域规则的一致性。本文将提出一种基于遗传算法的web数据同步抽取算法,来产生一个上下文相关的Web数据包装器,能够利用多个同等数据资源和域规则找到更加精确的匹配。它能够利用上下文相关性对同等数据资源的待处理内容找到协同一致的匹配。我们将利用遗传算法来制造一个螺旋解码机制,建立各个平行包装器之间的联系。本文的主要工作在于:1.对Deep Web在线结构化数据库的信息抽取以及Web数据包装器进行深入的研究,并提出一种基于上下文相关性的包装。2.应用遗传算法给出一种Web数据同步抽取的算法来实现螺旋解码的上下文相关性包装。3.算法利用多个同等数据源和平行数据包装器以及域规则实现了上下文相关性数据包装,提高了包装器的抽数据取精确度。本文工作的意义是应用遗传算法给出了实现上下文相关性Web数据包装的一套完整方案,具体体现在以下方面:利用大量的同等数据资源提高了一个web数据包装器的准确率。利用多个平行的网络数据包装器加强了web数据包装的准确率。应用遗传算法改进了Web数据同步抽取的方法,提高了算法的效率。
其他文献
3D打印是一种通过堆积材料来形成模型的技术。其中一种3D打印的一般过程是:首先通过三维激光扫描设备获取模型点云数据,其次通过一定的分层算法将点云模型划分成层片信息,最
自上世纪70年代Internet诞生以来,因特网迅速发展。随着TCP/IP技术的发展和人们需求的增加,Internet的应用逐渐由最初仅限于军事应用普及到民用。这使得Internet的规模越来越
目前,大多数搜索引擎以线性列表的形式为用户返回搜索结果,而搜索结果往往数以万计,这就使得用户可能需要花费很长时间才能找到自己需要的结果。如果能够将搜索结果按照不同的主
关于教师教学能力的鉴定评估研究已经持续了近一个世纪,在这期间涌现出了许多成熟的教学能力鉴定评估方法,这些鉴定评估方法被广泛用于高校的教师教学能力鉴定工作,为提高高
随着网格技术与Web服务的结合,新型的企业应用系统将更多的参照新的技术标准,特别是以GT4为代表的网格构造套件更多的被应用在构造企业网格中。虽然网格与Web服务已经成功的
随着快速测序技术的发展,基因组重组排序已经成为计算生物学的一个重要研究领域。其研究的目标是寻找最短的重组操作序列,将一种基因组转变为另一种基因组。基于分子生物学家
近年来,机器人在军工产业、工业生产上的应用越来越广泛,很多科研人员投入大量的精力去研究它,让它更加满足人们的各种技术需求。在实时环境中,机器人进行路径规划时是否遇到
平安城市综合性信息平台是一个集成化、多功能、综合性的治安防控处理一体化信息平台。当前平安城市建设已经成为城市基础建设的重要组成部分,信息技术成为支撑平安城市创建
视觉是人类获取信息的一个重要来源。科学研究表明,人类所获取的信息中,四分之三以上的信息是视觉图像信息。同时,随时技术的发展,视频类的信息越来越多,能够理解视频中的内
本文论述了采用了数据库应用技术,设计和开发的一个体育课程管理系统。该系统包括:体育课程的选修,学生体育课程成绩的管理,体育课程的编排,体育课程课表的查看,体育课程安排的查询