基于包装器模型的信息抽取算法研究

来源 :东北师范大学 | 被引量 : 17次 | 上传用户:xiao531313486
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的普及和网络技术的发展, Web己经发展为一个巨大的信息仓库,成为日益重要和最具潜力的全球信息传递与共享的资源。然而,想要快速、准确地从海量的资源中找到所需要的信息并被其他程序所应用,就成为了一大难题。因此,需要应用信息抽取技术从大量的半结构化信息中抽取出结构化的、符合主题的数据。由于HTML网页主要是供浏览的,并不是用来供操纵和使用的,其中的数据很难被应用程序直接使用。因此,将数据从网页中抽取出来并且将它们传递给应用程序使用依然是一个复杂、困难但又有意义的任务。本文对Web信息抽取的一些基本概念做简要介绍,并简述Web信息抽取技术的产生和发展。在此基础上,详细介绍当前Web信息抽取技术的一些常用方法,并对这些方法进行分类,进而对这些方法进行对比分析,指出各种方法的优缺点。作者的工作主要体现在两个方面:一、在WEB页面匹配算法的基础上,采用了先去除噪声的分析与设计思想,对抽取的内容先进行去除噪声处理,将基于视觉的算法与基于DOM树匹配的算法相结合,提出基于视觉的DOM树去噪方法,从而达到提高抽取的效率。二、针对去噪后的页面,研究基于页面树的包装器自动生成方法,结合实例给出发现并解决页面中的选择模式和迭代模式的不匹配方法。通过实验,提出页面匹配树算法。具体分步匹配方法中,先处理字符不匹配和选择不匹配生成初级模板,再处理迭代不匹配后生成终极模板。本文所研究的解决不匹配问题,发现抽象有序树并生成包装器的算法,能够自动地抽取数据,不需要人为干预。
其他文献
随着信息技术的飞速发展,在E-Learning的研究领域中,个性化服务已逐渐成为该领域内一个活跃的研究方向。它的目的是要通过分析学习者的个性化信息,进一步分析学习者的个人需
随着社会的发展,人们对居住的社区环境要求也越来越智能。为了实现这些要求,需要在社区中架设无线传感器网络,但为了充分发挥无线传感器网络的作用,就必须将传感器网络采集的
随着生活水平的提高,人们越来越注重生活品质提升,传统的家用电器已经无法满足现代家庭的需要,因此集信息化、网络化和智能化为一体的信息家电以其特有的优势进入未来家庭将是一个必然的趋势。目前国内对信息家电内部结构的研究很少,本文正是在这样的背景下,研究一种信息家电内部结构并予以论证和实现。本文分析了信息家电的主要功能,提出了一种基于XML(Extensible Markup Language)描述的信息
随着生物信息学的发展,全基因组序列不断被测序,对于转录的研究变得越来越重要,转录因子,作为一种重要的转录调控元件,它与DNA序列的结合位点——转录因子结合位点的识别已经成为
J2EE是一种简化企业解决方案的开发、部署和管理复杂性的体系结构。在信息化时代的Web应用程序开发中,J2EE以其良好的可移植性和可扩展性,占有强大的竞争力优势。J2EE体系架
在人的视觉感知、识别和理解中,形状足一个重要的表达物体信息的参数。从图像中提取目标形状是大多数目标识别算法需要进行的一个重要步骤。角点是图像的一种重要的局部特征,是
无线传感器网络是一种由大量具有无线通信功能的传感器构成的动态、分布式、自组织网络,其目的是通过协作的方式感知、采集和处理网络覆盖区域中感知对象的信息,并发送给观察
计算机网络在生产生活中扮演着越来越重要的角色,而网络需要有网络设备的支持,使用网络设备构成网络后,才能运行各种专用服务和终端。随着信息时代的发展,网络设备的种类繁多
有关调查表明,P2P业务已悄然占据了互联网业务总量的60%-80%,成为杀手级宽带互联网应用。P2P业务流量在对互联网业务起巨大推动作用的同时,也带来了因资源过度占用而引起的网
Deep Web数据源的发现及其领域相关性越来越引起人们的关注和兴趣。针对在判别查询接口时,提取精度低和忽略领域相关性的问题,提出了一种采用多分类器对Deep Web数据源进行自动