基于表格结构的Web信息提取技术研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:yy13720
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
表格结构作为一种简洁有效的数据信息表达方式,在各种领域的Web页中都得到了广泛的应用。但因其形式及功能的多样性,给基于表格结构的Web信息提取带来了巨大的挑战,主要体现在基于表格结构的Web信息的理解、定位及提取上。本文从标记和视觉特征的角度出发,将基于表格结构的Web信息划分为列表和表格,然后针对不同结构分别研究出一种具有领域独立性的信息提取方法。首先,针对具有各种不同标记的列表信息定位困难与单条列表信息提取繁琐问题,提出了基于HTML结构树的一体化解决方案。该方案集列表信息的定位与提取于一个统一的算法中,易于实现。其次,提出了一种基于特征向量机器学习算法的Web表格识别方法,重点研究了表格特征的构建。针对各种数据对特征的表征能力不同及特征向量维数过高等问题,提出了利用统计计算的方法仅从布局和内容结构方面构建表格的特征。最后,针对传统的二维条件随机场模型难以处理标注元素间复杂依赖关系的问题,结合表格的结构特征,提出一种融合多阶的二维条件随机场模型,并给出了适合该模型的计算公式及训练算法。将该模型应用于Web表格信息的提取中,实现对表格单元格粒度的标注。
其他文献
针对目前交通运输领域出现的交通拥挤、交通堵塞、交通事故和交通污染等问题,人们提出了很多解决方案,其中,智能交通系统(ITS)越来越受到重视,已经成为目前公认的最佳解决途径。而
本文以某日资公司三家汽车配件生产厂商的收益计划系统开发为研究背景,分析并解决了三家公司编制预算时存在的问题,提升了其预算管理的信息化水平,为指导中小型企业设计方便、有
网格是采用标准的、开放的、通用的协议和接口来协作分布式资源提供最好的服务质量的系统。虽然经过二十多年的研究和发展,网格计算技术取得了一系列重大的突破,但是对它的许多
随着宽带多媒体网络技术的不断发展,各种宽带网络应用层出不穷,如IPTV、多媒体视频会议、在线网络游戏、远程教学、计费视频点播等。这些应用通常采用一对多或者多对多的传输方
RFID已广泛的应用于企业信息自动化中,随着应用不断深入,所涉及的业务过程和所依赖的应用框架技术也更加复杂,业务逻辑的变化更显频繁,但传统意义上的RFID中间件对上层应用的支持
目前垃圾邮件泛滥的情况极为严重。垃圾邮件占用了大量的传输,存储和运算资源,造成邮件服务器拥堵,还被用来传播色情,发布反动言论,骗人钱财,妖言惑众,已经对现实社会安全造成了危害
网格作为一种建立在互联网之上的新一代基础设施,在国内外的学术界和工业界都引起了广泛的关注。目前以网格为基础的分布式应用已经遍布商务、政务和科学活动等各个领域。随着
随着信息化建设工作的推进,现在存在着大量的网络科技资源数据库和应用系统,但是由于管理体制等原因造成数据库和系统结构迥异,各数据库和应用系统彼此孤立,相互之间难以实现资源
随着信息时代的到来,数据集增长和更新更快、数据维度更高、非结构化性更突出。面对大量真实的高维数据,人们渴求通过有效的降维而在低维很好的处理利用,如分类、基于内容检索、
随着计算机的普及和计算机网络的使用,计算机越来越多地服务于人们的生产和生活。计算机的应用对于企业来说是一把双刃剑,一方面,企业利用计算机提高了工作效率:另一方面计算机的