半结构化数据到结构化数据转换技术研究与实现

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:JohnWaken19
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Intent技术的发展及计算机技术在各个行业中的广泛应用,大量有价值的数据都散乱在Web和Word等半结构化数据中,难于实现数据高效查询、检索和处理。目前,对半结构化数据的抽取与转换已取得了不少研究成果,但仍然存在噪音清除不彻底、数据抽取的准确率及效率低、交互性差等问题。  本文针对以上半结构化数据抽取与转换存在的问题,采用div分块、Word样式与模板等技术,重点研究Web和Word主流半结构化数据的结构化转换技术和方法,主要取得了以下研究成果。  (1)研究HTML文件数据抽取方法,提出了一种HTML文件噪声数据清理方法。该方法利用源网页文件中的div标签对HTML文件进行划分,考察每个div标签中包含的图片标签、文本标签、超链接标签,根据这三类标签的数量,确定div标签的类别,删除其中导航和图片div,对待抽取的HTML文件进行噪声清理。将新方法与原有方法通过实验进行对比,证明了该方法能有效提高数据抽取效率及准确率。  (2)研究半结构化Word文档数据抽取与转换的方法,提出了样式三要素、文档样式序列等概念,并利用基于样式的Word文档数据抽取与转换方法对有格式的Word文档进行数据抽取与转换,将抽取的数据以XML文件保存,实现了Word文档中数据的抽取与转换。  (3)研究基于模板的Word文档交互式数据抽取方法,实现了在数据抽取时指定域名称与字段的映射关系,提高了数据抽取与转换的灵活性。  (4)在以上研究的基础上,设计并实现了主要半结构化数据到结构化数据转换的原型系统。  本文对Web数据抽取的研究成果对主要半结构化数据进行结构化转换的研究具有一定的参考价值。本文对Word文档数据抽取的研究成果具有较高的实用价值。  
其他文献
随着云计算技术的迅速发展,在各个领域都出现了云计算应用系统。而且大多数的云计算系统都选择Hadoop平台进行开发和测试。Hadoop是一个开源的代码框架,它实现了对大型数据的并
医学图像分割是医学图像处理中一项非常重要的工作,是由医学图像处理到分析的关键步骤,是目标分离、特征提取和参数测量的基础和前提,使得更高层的医学图像诊断与理解成为了可能
当今科技日新月异,因特网的发展也是十分的迅速,诸如图片文件、音频文件、视频文件等不同格式的文件,以这类文件作为数字内容的商品充满了整个因特网。由于这些数字内容商品
本文给出了U型钢刚性支架和可缩性支架内力及其位移的计算方法,对于可缩性U型钢支架,本文认为在计算支架内力时除应考虑围岩作用对支架产生的弹性抗力影响,同时还应考虑支架缩动
大型机加工件在生产和加工过程中,由于加工机器自身以及人为装配原因,零件必然会产生一定的形位误差,既工件的实际形状和位置相对于设计所要求的理想形状和位置会产生偏离,其偏离
由于单个的Web服务已经无法满足服务请求者的复杂功能需求,因此如何将已有的、运行在异构平台的Web服务组合起来,提供给用户更为强大和增值的功能,成为Web服务领域研究的一个
随着世界经济一体化进程速度的进一步加快和我国改革开放的不断深化,被称为企业“第三利润源泉”的物流对经济活动的影响日益明显,引起人们越来越高的重视。物流企业能否快速、
随着信息技术的快速发展,人们获取和产生数据的方式越来越先进,越来越多的结构化数据被存储下来,数据量达到了TB级别,甚至PB级别,这些数据具有规模大、处理速度快、蕴含价值高等特
Web服务是一种新型的分布式的计算模型,可以在多种异构平台的基础上构建一个通用的、无关平台的、无关语言的技术层,使得不同平台之上的应用更为方便地进行连接和集成,具有更好
数字图像水印技术是信息隐藏领域的一个重要分支,它是在不影响图像质量的前提下,将具有特定意义的标记水印嵌入到被保护图像之中,以此达到认证内容和保护版权的目的。早期的