基于视觉信息的Deep Web信息自动抽取技术的研究

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:ccqccqccq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术日新月异的发展,web已经成为一个巨大的信息源,拥有着海量的重要数据。目前数据挖掘在许多领域应用广泛,如:金融、医疗保险、市场分析等。通过分析挖掘得到的数据,可以获得许多有用知识,最大程度的进行辅助决策。然而,Web数据的特点是数量多,形式异构,自治的,分布存储,这使得Web数据挖掘的分析工作变得尤为困难,所以当务之急是对数据进行集成,为高质量数据分析奠定基础。根据web中所蕴含信息的“深度”,可以将web分为Surface Web和DeepWeb。在数量和质量上,Deep Web远远超过了Surface Web,具有较高的应用价值。因此,如何进行抽取Deep Web中的数据,以便于更有效的分析,具有重要的现实意义和广阔的应用前景。Internet上的各个网站的信息相互独立,Deep Web数据收集起来十分困难,在这种情况下,通常的搜索引擎发挥的作用微乎其微。虽然手工编写信息的抽取规则准确率较高,但技术门槛低,而且由于信息源的多元性和改版的潜在风险,手工方法无法满足人们对信息获取的需求。在这样的背景下,可以发现Deep Web信息自动提取技术的实现与研究是一个非常重要的问题。针对这一问题,本文在Deep Web信息自动抽取技术方面,包括基于网页视觉信息、机器学习训练模型、Deep Web数据区域定位、数据项的对齐等方面,进行了深入而系统的研究,同时开发了Web信息自动抽取系统。本文具体的研究工作和研究成果如下:(1)基于页面中的视觉信息,分割网页得到视觉块树,然后在视觉块树上,整合数据区域判定所需的视觉属性,得到进行实验的训练集。(2)使用机器学习的有效工具进行训练,结合人工编写的规则进行去重去噪,准确地完成了Deep Web数据区域的查找和定位。(3)提出了有效的对齐规则,大大提高了数据项的对齐准确率。(4)在以上研究内容的基础上,设计开发了Deep Web信息自动抽取系统,系统实现功能包括:1)网页视觉块树的转换;2)数据区域的自动定位;3)数据项的完整抽取与对齐;4)生成Wrapper;5)实现了自动翻页功能实现表明,本文提出的技术方法可以在基本无人工干预下快速、自动地抽取列表页面的丰富数据。
其他文献
针对印染企业配色的现状,与天津一家印染企业合作研制了一套具有开放性、适应性和智能性的实验室自动配色系统。首先以机电一体化的设计思路研制了一台能够处理100种母液的自
移动通信和互联网是当今信息产业发展的两个热点,计算机技术、移动通信技术、互联网技术的飞速发展,为移动互联网增值服务创造了广阔的发展空间。 移动增值业务平台为当前众
软件体系结构在20世纪70年代的时候由于人们利用一些程序模块的集合来组合成一个软件系统而被人们所认识(这有别于以往程序的语句级设计),80年代软件体系结构作为一个计算机术
目前,大量的数据存储在数据库服务器之中,成千上万的用户访问和分析这些数据。缓存技术通过在本地缓存数据,并使用缓存数据回答查询,缓减数据库服务器以及网络的负担。在众多
近年来对等网络(Peer-to-peernetwork,简称P2P)发展迅速,在文件共享、普及计算、协同工作、搜索引擎以及广域网络存储等方面有了广泛的应用。但随着对等网络规模的不断扩大,目前
当今社会中数字图像的应用已经变得非常普遍。数字图像的易于存储,复制,修改,这既是它的优点,又是它的缺点。一方面,数字图像在保证高质量,高稳定性的前提下,大幅降低了使用的成本;而
随着现代IT技术的发展、嵌入式技术已经被广发的应用到日常生活中。从我们日常使用的手机,照相机,打印机中都可以看到嵌入式技术应用的例子。嵌入式处理器在嵌入式系统中扮演
该论文是软件实现技术型工程论文.项目基于广州菲奈特软件公司的商业智能平台产品BI.Office3.O,采用了Java技术,基于B/S结构实现了BI前端展示企业信息门户模块.项目采用了开
现在外山参观游览已经成为人们不可或缺的休闲和度假方式。但是许多有深刻文化内涵的名胜古迹,往往被旅游者走马观花所忽略,请导游,花钱多,并且给每位游客配置导游是不现实的,而且
随着分布式数据应用的日益增长,对建立一种能够有效验证分布式数据真实性方法的需求也更加强烈。比如,一个Internet门户站点,从不同的数据源收集信息(比如,天气、新闻、股票