基于DOM的Web信息自动抽取技术的研究

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:handong007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,Web成为各种应用与研究的重要数据源之一,为信息检索、数据挖掘等领域提供高质量的数据。Web中一类重要的数据保存在可搜索网络数据库中,只有通过提交查询请求,网站背后的数据才能按照一定的模板被扩展在网页上,如电子商务网站的商品信息网页,这类动态页面称为DeepWeb。Deep Web数据量大、发展迅猛、领域覆盖全面、主题性强、信息结构化程度高,具有很高的应用价值。因此,如何从Deep Web中有效地抽取信息,帮助人们快速、准确、有效的利用这些海量数据,具有重要的现实意义和广阔的应用前景。Internet上的各个网站的信息相互独立,Deep Web数据收集起来十分困难,在这种情况下,通常的搜索引擎发挥的作用微乎其微。通过手工书写规则完成信息抽取的方式虽然准确率高,技术门槛低,但是由于信息源的多样化和潜在的改版风险,手工方式无法满足人们对信息获取的需求。结合上述背景,可以发现Web信息自动抽取技术的研究与实现是一个非常迫切需要解决的问题。针对这一问题,本文在Web信息自动抽取技术方面,包括查询接口判定的机器学习方法、Web数据自动抽取、数据项对齐等方面,进行了深入而系统的研究,同时开发了Web信息自动抽取系统。本文具体的研究工作和研究成果如下:(1)采用基于决策树的查询接口自动判定方法。自动提取网页标签的特征,形成特征集合,根据几种分类算法的准确率的比较和分析,选择使用决策树分类器对网页标签进行分类。(2)在基于DOM相似度匹配的Web数据抽取算法的基础上,提出针对抽取结果的过滤算法,提高抽取结果的准确率。首先通过DOM相似度匹配算法抽取列表页面,但是由于这种算法仅仅挖掘网页的重复结构,导致抽取的准确率不高。在这个基础上,提出基于熵的过滤算法过滤抽取结果,并通过k-means聚类算法判断噪音的熵值。(3)在基于部分树对齐的数据项对齐算法的基础上,提出有效的对齐规则,提高数据项对齐的准确率。(4)在以上研究内容的基础上,设计开发了Web信息自动抽取系统,系统实现功能包括:1)给定多个数据源的情况下,自动判定查询接口,并能自动填充并提交查询请求。2)对查询请求返回的列表页面实现自动抽取,并对结果进行过滤,提高了抽取的准确率。3)将从列表页面中抽取的数据记录的数据项对齐,并保存。4)在存在分页导航的情况下,实现分页导航的自动连续抽取并将抽取结果保存。论文创新点如下:(1)采用基于决策树的查询接口自动判定方法,使用决策树分类模型自动判定查询接口,达到较高的准确率。(2)提出一种改进的列表页面数据自动抽取算法。在目前已有的基于DOM相似度的Web信息自动抽取算法的基础上,提出基于熵的过滤算法,达到更高的准确率。(3)提出一种改进的数据项对齐算法,在已有的部分树对齐算法的基础上,增加对齐规则,使得数据项的对齐达到更高的准确率。实现表明,本文提出的技术方法可以在基本无人工干预下快速、自动地抽取列表页面的丰富数据。
其他文献
随着互联网技术的蓬勃发展,网络安全问题层出不穷。网络钓鱼是一种典型的在线欺诈行为,它以互联网为载体,通过伪装成信誉良好的合法网站欺骗用户以获得用户的敏感信息,被欺骗
随着传感器技术的发展,监测系统被广泛应用于人们的生产生活中,对工业生产自动化、环境保护、安全防卫和医疗卫生等方面都产生了重要的影响。监测系统能够提高监测数据的可靠性
云计算是近些年新出的一个热门名词,它从提出到现在一直受到了各大企业、高校以及政府的重视并很快成为众多厂商竞相研究的技术。随着云技术的日益成熟,越来越多的云产品开始问
射频识别(Radio Frequency IDentification)系统是一种非接触式的自动识别系统,它通过射频信号自动识别目标对象并获取相关数据。射频系统主要由标签、阅读器和后台服务器三
互联网从诞生到现在,已经聚集了海量的信息资源,然而这些信息在网络中的存放杂乱无章,使人们在获取信息的时候遇到困难,搜索引擎是的产生就是为了帮助人们更好地从互联网中检索信
随着互联网技术的飞速发展,各种Web应用系统的需求日新月异,复杂度也越来越高,因此对Web应用系统的开发提出了新的要求。在当前Web开发技术中,最著名的莫过于MVC架构了,MVC架
随着无线通信技术的快速发展,无线传感器网络(WSN)得到了国内外学者越来越多的关注。而节点定位技术作为其主要支撑技术,已经成为WSN的研究热点之一。由于利用静态锚节点的定位
图像获取和存储技术、以及互联网技术的发展,使社会生活中的各个领域都积累了大量的历史车牌图像和实时车牌图像,这些数据大部分是自然场景下自动获取的,呈现获取场景不受限
随着农业科学技术的发展与种植结构的调整,设施化农业得到了前所未有的发展,温室作为设施化农业的典型代表,改变了传统农业的生产模式,打破了植物生长的地域和时空限制,提高
随着电子技术的快速成长,身份认证技术至关重要。掌纹识别技术,作为一种新兴的生物特征识别技术。相对其它的,具有难以伪装,比较稳定、不具侵犯性以及难以隐藏和非接触等特性