基于视觉信息的Deep Web信息自动抽取技术的研究

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户：ccqccqccq

【摘要】

：

随着互联网技术日新月异的发展，web已经成为一个巨大的信息源，拥有着海量的重要数据。目前数据挖掘在许多领域应用广泛，如：金融、医疗保险、市场分析等。通过分析挖掘得到的数据，

【作者】

：

谈凤真

【机构】

：

中国海洋大学

【出处】

：

中国海洋大学

【发表日期】

：

2014年期

【关键词】

：

deep web 信息抽取视觉信息机器学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术日新月异的发展，web已经成为一个巨大的信息源，拥有着海量的重要数据。目前数据挖掘在许多领域应用广泛，如：金融、医疗保险、市场分析等。通过分析挖掘得到的数据，可以获得许多有用知识，最大程度的进行辅助决策。然而，Web数据的特点是数量多，形式异构，自治的，分布存储，这使得Web数据挖掘的分析工作变得尤为困难，所以当务之急是对数据进行集成，为高质量数据分析奠定基础。根据web中所蕴含信息的“深度”，可以将web分为Surface Web和DeepWeb。在数量和质量上，Deep Web远远超过了Surface Web，具有较高的应用价值。因此，如何进行抽取Deep Web中的数据，以便于更有效的分析，具有重要的现实意义和广阔的应用前景。Internet上的各个网站的信息相互独立，Deep Web数据收集起来十分困难，在这种情况下，通常的搜索引擎发挥的作用微乎其微。虽然手工编写信息的抽取规则准确率较高，但技术门槛低，而且由于信息源的多元性和改版的潜在风险，手工方法无法满足人们对信息获取的需求。在这样的背景下，可以发现Deep Web信息自动提取技术的实现与研究是一个非常重要的问题。针对这一问题，本文在Deep Web信息自动抽取技术方面，包括基于网页视觉信息、机器学习训练模型、Deep Web数据区域定位、数据项的对齐等方面，进行了深入而系统的研究，同时开发了Web信息自动抽取系统。本文具体的研究工作和研究成果如下：(1)基于页面中的视觉信息，分割网页得到视觉块树，然后在视觉块树上，整合数据区域判定所需的视觉属性，得到进行实验的训练集。(2)使用机器学习的有效工具进行训练，结合人工编写的规则进行去重去噪，准确地完成了Deep Web数据区域的查找和定位。(3)提出了有效的对齐规则，大大提高了数据项的对齐准确率。(4)在以上研究内容的基础上，设计开发了Deep Web信息自动抽取系统，系统实现功能包括：1)网页视觉块树的转换；2)数据区域的自动定位；3)数据项的完整抽取与对齐；4)生成Wrapper；5)实现了自动翻页功能实现表明，本文提出的技术方法可以在基本无人工干预下快速、自动地抽取列表页面的丰富数据。

其他文献

无管路配色滴液机及计算机控制系统设计

针对印染企业配色的现状，与天津一家印染企业合作研制了一套具有开放性、适应性和智能性的实验室自动配色系统。首先以机电一体化的设计思路研制了一台能够处理100种母液的自

学位

PMAC卡专家系统印染企业自动配色系统滴液配色机

移动增值业务平台网管表示层的设计与实现

移动通信和互联网是当今信息产业发展的两个热点，计算机技术、移动通信技术、互联网技术的飞速发展，为移动互联网增值服务创造了广阔的发展空间。移动增值业务平台为当前众

学位

移动增值业务网络管理网管表示层组件技术软件复用

软件体系结构及基于软件体系结构的系统开发

软件体系结构在20世纪70年代的时候由于人们利用一些程序模块的集合来组合成一个软件系统而被人们所认识(这有别于以往程序的语句级设计)，80年代软件体系结构作为一个计算机术

学位

软件体系结构UML形式化描述Web Services构件

基于三层架构的语义缓存技术的研究

目前,大量的数据存储在数据库服务器之中,成千上万的用户访问和分析这些数据。缓存技术通过在本地缓存数据,并使用缓存数据回答查询,缓减数据库服务器以及网络的负担。在众多

学位

缓存语义缓存三层架构聚集视图查询导出

对等网络信息检索中若干关键问题研究

近年来对等网络(Peer-to-peernetwork，简称P2P)发展迅速，在文件共享、普及计算、协同工作、搜索引擎以及广域网络存储等方面有了广泛的应用。但随着对等网络规模的不断扩大，目前

学位

对等网络信息检索资源划分粒度路由优化文档分类

面向彩色高分辨率图像的鲁棒水印系统

当今社会中数字图像的应用已经变得非常普遍。数字图像的易于存储，复制，修改，这既是它的优点，又是它的缺点。一方面，数字图像在保证高质量，高稳定性的前提下，大幅降低了使用的成本；而

学位

数字图像水印盲水印鲁棒水印JND模型

PXA250软件仿真器的设计与实现

随着现代IT技术的发展、嵌入式技术已经被广发的应用到日常生活中。从我们日常使用的手机,照相机,打印机中都可以看到嵌入式技术应用的例子。嵌入式处理器在嵌入式系统中扮演

学位

ARMPXA25O应用处理器处理器仿真器嵌入式系统调试系统

商业智能前端展示工具的设计与实现

该论文是软件实现技术型工程论文.项目基于广州菲奈特软件公司的商业智能平台产品BI.Office3.O,采用了Java技术,基于B/S结构实现了BI前端展示企业信息门户模块.项目采用了开

学位

企业信息门户LDAP商业智能多维数据集Portlet

基于Intel XScale PXA255手持电子导游系统的设计与实现

现在外山参观游览已经成为人们不可或缺的休闲和度假方式。但是许多有深刻文化内涵的名胜古迹，往往被旅游者走马观花所忽略，请导游，花钱多，并且给每位游客配置导游是不现实的，而且

学位

手持电子导游系统SitsangLinuxIrDAQT嵌入式操作系统U盘存储器单片机

基于Web Services技术的认证字典的设计与实现

随着分布式数据应用的日益增长,对建立一种能够有效验证分布式数据真实性方法的需求也更加强烈。比如,一个Internet门户站点,从不同的数据源收集信息(比如,天气、新闻、股票

学位

认证字典Web ServicesXML数字签名跳表数据结构

基于视觉信息的Deep Web信息自动抽取技术的研究

与本文相关的学术论文