松散的结构化数据的提取及整合研究

来源 :云南大学 | 被引量 : 0次 | 上传用户：sunyulong378

【摘要】

：

松散的结构化数据的提取和整合方法在很多方面都得到了应用，例如基于论坛的模式识别，博客数据分析，书评分析和新闻评论分析。但是目前的方法都只是针对刚性的结构化数据，还没有一

【作者】

：

吴一璞

【机构】

：

云南大学

【出处】

：

云南大学

【发表日期】

：

2007年期

【关键词】

：

Deep Web 半结构化数据结构化数据数据提取数据整合

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

松散的结构化数据的提取和整合方法在很多方面都得到了应用，例如基于论坛的模式识别，博客数据分析，书评分析和新闻评论分析。但是目前的方法都只是针对刚性的结构化数据，还没有一种方法是为了松散的结构化数据而设计的，也没有一种方法可以很容易地就扩展到处理松散的结构化数据，这样极大地限制了这些基于松散的结构化数据的应用。本文就是关于自动的松散的结构化数据的提取和整合问题的研究。在第二章，我们对结构化数据的提取方法进行了综述，很多的方法都是基于树边界距离和基于视觉上的内容特征的。在第三章，我们提出了一种全自动的松散的结构化数据的提取方法。在使用内容特征和Dom树特征来识别松散的结构化数据的前提下，我们的方法是通过找寻一个严格的约束来实现的。第四章主要是综述结构化数据的整合方法和对一些特定属性的提取的方法。然后，在第五章，主要是描述我们提出的一个全自动的松散的结构化数据的的整合方法。这个方法的目标是为了找寻每一个松散的结构化数据记录都会存在的四个属性：标题，回复时间，用户属性和回复内容。我们的方法的基本思路是：先找寻这四个属性的初步区域，再总体上优化这些区域，从而得到较为准确的属性的区域。根据松散的结构化数据的特点，我们确定了这四个属性的提取顺序，分别是回复内容，回复时间，标题和回复内容。使用我们的方法，我们实现了一个原型系统，其中的Dom树的建立是通过一个叫HTML Tidy的开源工具实现的。为了测试我们的算法的性能，我们通过一定的规则从Internet网上随机取一些实际数据组成了三个数据集。实验结果表明，我们的方法在实际的情况下是很强壮和有效的。我们的方法易于实现，训练的时候非常有效和强壮，在找寻和整合松散的结构化数据时的准确率都很高。

其他文献

嫦娥探月计划地面应用中心信道数据处理软件设计

绕月探测工程的科学目标是:获取月球表面三维影像；分析月球表面有用元素及物质类型的含量和分布等。嫦娥探月工程包括运行管理,数据接收,数据预处理,数据管理和科学应用与研究

学位

基于可扩展固件接口（EFI）的高安全BIOS的研究与实现

随着计算机软硬件技术近年来的迅猛发展,特别是计算机芯片以摩尔定律的速度不停更新换代,以及现代操作系统技术的发展,传统的BIOS固件技术已经暴露出较大的缺陷.一种新的BIOS

学位

可扩展固件接口BIOS安全性可信计算完整性度量

下一代移动通信网络资源预留关键技术研究

下一代移动通信网络将是一个多种接入方式融合的全IP网络,虽然该网络具有IP网络所固有的简单性、灵活性等优势,然而IP网络尽力而为的服务方式却使其难以满足下一代移动通信业

学位

下一代移动通信网络资源预留服务质量

异步数据传输机制理论及应用研究

目前,随着集成电路设计等技术的发展、应用系统复杂性的增加,传统的同步系统设计方法将面临巨大的技术挑战。另一方面,在设计具有分布、并发等特点的实时控制系统时,对系统的

学位

异步系统设计异步数据传输机制有限状态机建模Matlab仿真

判别式拼写校正及其在机器翻译中的应用

拼写错误是很多语言中常见的问题，也是很多自然语言处理任务中的一个重要模块。网络的普及让信息泛滥，人们被大量的信息淹没，变得只注重效率，而不注重拼写的是否正确。在这样的背

学位

信息加工拼写错误判别式校正技术序列标注

SAR图像相干斑的抑制方法

合成孔径雷达(SAR,Synthetic Aperture Radar)图像中相干斑噪声的存在降低了图像的质量,影响了图像的解译和后续处理。因此相干斑抑制技术是SAR应用的重要课题之一。　　相

学位

双目三维重建技术研究及其在体育科学中的应用

伴随着信息技术的高速发展，三维重建技术逐渐应用到各行各业。比如利用3D打印进行工业设计以及改造传统制造业，而其第一步就需要获得稳定可靠的三维模型。电商行业也有三维重建

学位

体育科研工作运动录像双目三维重建技术立体视觉

3G移动位置服务增值业务设计与实现

移动位置服务(LBS-Location Based Service),是通过通信网络获取移动终端用户的位置信息(经纬度),在电子地图平台的支持下,为用户提供相应服务的一种增值业务。3G网络所提供

学位

移动位置服务增值业务矢量地图第三代移动通信

基于对象表达的图像模式识别框架研究

随着信息技术的发展，图像模式识别在工农业生产、医疗、交通等领域中的应用越来越广泛，成为各智能自主系统中的重要部分。图像模式识别系统能够模拟人类完成特定任务，它利用成像

学位

数字图像图像处理模式识别图像分割细化算法

面向桌面云的分布式文件系统的主机端缓存策略研究

桌面云作为云计算的一个典型应用，能够缓解传统实验室机房的诸多弊端:硬件成本高、资源利用率低、管理维护成本高、噪音辐射大等。本质上，桌面云成本的降低和资源利用率的提高

学位

桌面云分布式文件系统缓存策略虚拟机替换算法

松散的结构化数据的提取及整合研究

与本文相关的学术论文