松散的结构化数据的提取及整合研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:sunyulong378
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
松散的结构化数据的提取和整合方法在很多方面都得到了应用,例如基于论坛的模式识别,博客数据分析,书评分析和新闻评论分析。但是目前的方法都只是针对刚性的结构化数据,还没有一种方法是为了松散的结构化数据而设计的,也没有一种方法可以很容易地就扩展到处理松散的结构化数据,这样极大地限制了这些基于松散的结构化数据的应用。本文就是关于自动的松散的结构化数据的提取和整合问题的研究。 在第二章,我们对结构化数据的提取方法进行了综述,很多的方法都是基于树边界距离和基于视觉上的内容特征的。在第三章,我们提出了一种全自动的松散的结构化数据的提取方法。在使用内容特征和Dom树特征来识别松散的结构化数据的前提下,我们的方法是通过找寻一个严格的约束来实现的。 第四章主要是综述结构化数据的整合方法和对一些特定属性的提取的方法。然后,在第五章,主要是描述我们提出的一个全自动的松散的结构化数据的的整合方法。这个方法的目标是为了找寻每一个松散的结构化数据记录都会存在的四个属性:标题,回复时间,用户属性和回复内容。我们的方法的基本思路是:先找寻这四个属性的初步区域,再总体上优化这些区域,从而得到较为准确的属性的区域。根据松散的结构化数据的特点,我们确定了这四个属性的提取顺序,分别是回复内容,回复时间,标题和回复内容。 使用我们的方法,我们实现了一个原型系统,其中的Dom树的建立是通过一个叫HTML Tidy的开源工具实现的。为了测试我们的算法的性能,我们通过一定的规则从Internet网上随机取一些实际数据组成了三个数据集。实验结果表明,我们的方法在实际的情况下是很强壮和有效的。 我们的方法易于实现,训练的时候非常有效和强壮,在找寻和整合松散的结构化数据时的准确率都很高。
其他文献
绕月探测工程的科学目标是:获取月球表面三维影像;分析月球表面有用元素及物质类型的含量和分布等。嫦娥探月工程包括运行管理,数据接收,数据预处理,数据管理和科学应用与研究
学位
随着计算机软硬件技术近年来的迅猛发展,特别是计算机芯片以摩尔定律的速度不停更新换代,以及现代操作系统技术的发展,传统的BIOS固件技术已经暴露出较大的缺陷.一种新的BIOS
下一代移动通信网络将是一个多种接入方式融合的全IP网络,虽然该网络具有IP网络所固有的简单性、灵活性等优势,然而IP网络尽力而为的服务方式却使其难以满足下一代移动通信业
目前,随着集成电路设计等技术的发展、应用系统复杂性的增加,传统的同步系统设计方法将面临巨大的技术挑战。另一方面,在设计具有分布、并发等特点的实时控制系统时,对系统的
拼写错误是很多语言中常见的问题,也是很多自然语言处理任务中的一个重要模块。网络的普及让信息泛滥,人们被大量的信息淹没,变得只注重效率,而不注重拼写的是否正确。在这样的背
合成孔径雷达(SAR,Synthetic Aperture Radar)图像中相干斑噪声的存在降低了图像的质量,影响了图像的解译和后续处理。因此相干斑抑制技术是SAR应用的重要课题之一。   相
学位
伴随着信息技术的高速发展,三维重建技术逐渐应用到各行各业。比如利用3D打印进行工业设计以及改造传统制造业,而其第一步就需要获得稳定可靠的三维模型。电商行业也有三维重建
移动位置服务(LBS-Location Based Service),是通过通信网络获取移动终端用户的位置信息(经纬度),在电子地图平台的支持下,为用户提供相应服务的一种增值业务。3G网络所提供
随着信息技术的发展,图像模式识别在工农业生产、医疗、交通等领域中的应用越来越广泛,成为各智能自主系统中的重要部分。图像模式识别系统能够模拟人类完成特定任务,它利用成像
桌面云作为云计算的一个典型应用,能够缓解传统实验室机房的诸多弊端:硬件成本高、资源利用率低、管理维护成本高、噪音辐射大等。本质上,桌面云成本的降低和资源利用率的提高