面向结构理解的流式文档语料库构建方法研究

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:lovemy521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,流式文档广泛地应用在社交、媒体、办公以及出版等领域。面对海量的流式文档,如何使计算机自动、准确地理解文档成为了各行各业开展其他应用研究的基础。其中对流式文档结构的理解,一方面可为文档检查优化、文档自动排版、结构化检索等应用奠定基础,另一方面也可辅助篇章层次分析、文章主题抽取等更高层次的语义研究,有较大的应用价值。由于流式文档格式的复杂性、排版风格的差异性等因素,导致计算机自动理解其结构较为困难。传统的基于规则的文档结构理解技术已较为成熟,但使用规则匹配文档结构时,存在制定规则费时费力、方法可移植性差的问题。基于机器学习的文档逻辑结构识别方法有较好的通用性与扩展性,然而流式文档格式复杂、标注困难、过去积累的成果较少,导致机器学习方法用于流式文档结构理解面临着标注成本过高、语料库稀缺的问题。本文针对上述问题,研究面向结构理解的流式文档语料库构建理论与方法,包括流式文档逻辑结构标注体系的确立与标注方法的研究、流式文档逻辑结构语料库的构建与评价方法等关键问题,研究内容和创新成果包括:1、针对采用机器学习方法识别流式文档结构时,语料库稀少,语料标注复杂的问题,借鉴自然语言语料库构建的成熟经验,探索面向机器学习的流式文档语料库构建理论与研究方法,在此基础上完成对语料库的总体设计。面向机器学习的流式文档语料库总体设计中,涉及分析文档逻辑结构识别的需求,明确文档逻辑结构标注语料库类型、语料采集原则、语料标注原则、语料存储方式,以及提出文档逻辑结构标注语料库构建的总体框架。2、针对目前的文档结构描述架构应用于文档结构理解研究中颗粒度过细、流式文档结构中特征提取不全面的问题,在分析流式文档的逻辑结构与编辑语义特征的基础上,确立了流式文档逻辑结构标注体系。在该标注体系中,首先基于DocBook标准,确立了较为通用、易于扩展的文档逻辑结构描述架构;其次深入分析了流式文档排版样式与写作风格,选取了包括文档内容特征、样式特征、对象特征的22种流式文档编辑语义特征,组成用于文档逻辑结构识别的特征向量;最后提出了流式文档逻辑结构标注模型。3、针对流式文档标注体系复杂,人工标注工作量大,机器自动标注困难的问题,结合流式文档自身特性与文档自动化处理技术,提出了一种三段式的半自动化文档逻辑结构标注方法。该方法中,第一阶段以机助人工的方法,添加分离式的文档结构元数据标签;第二阶段基于XSLT模板自动重建文档逻辑结构;第三阶段基于Word对象模型编程,自动提取并填充特征向量。此外,设计并实现语料标注工具,用以辅助人工标注、实现半自动化的语料标注。4、构建流式文档逻辑结构标注语料库、统计分析语料库数据,并对构建的语料库进行评价。本文给出了文档逻辑结构标注语料库的语料来源、语料标注流程,对语料库总体数据进行了统计分析。并从语料标注、语料库有效性以及语料库规模方面设计了实验,对所构建的语料库进行评价。实验结果表明,1)本文提出的三段式文档逻辑结构半自动化标注方法,能够节省人工成本,提高标注结果的正确率;2)本文确立的流式文档逻辑结构标注体系,有助于机器学习算法获取更有效的文档编辑语义特征、更好地学习到文档逻辑结构关系,提高对文档结构识别的准确率与召回率;3)本文构建的流式文档结构标注语料库在样本规模上能够满足基于机器学习算法的文档结构识别模型的需求,并达到较好的性能。
其他文献
在物联网时代,大量的移动设备收集了大量的个人移动数据,使得学习到人类的显性和隐性移动模式成为可能。挖掘人类的移动模式不仅可以使许多商业应用受益,还可以加速智能城市的建设。挖掘人类移动模式的两个重要方向就是轨迹用户链接问题(以下简称TUL),即如识别不同匿名用户留下的运动轨迹,和下一个兴趣点预测问题。虽然许多现存的模型都在解决上述两个问题时取得了不错的结果,但是这些模型均需要大量的有标签数据用于训练
互联网的飞速发展使图像数据也迅速增长,图像是承载信息的重要载体,图像和文本信息相比内容更加具体,信息也更加丰富,但是在庞大的图像数据中如何寻找人们想要的图像,如何找
我国第一例上市公司管理层收购事件发生在1997年,在此后的二十几年里,管理层收购在我国经历了过渡和发展的阶段,学者关于管理层收购对我国企业绩效影响的研究,经历从定性研究阶段发展到定量研究阶段。另一方面,学者关于高管政治背景对企业绩效的影响研究逐步细化,分析了不同类型和不同行业高管政治背景对企业绩效的影响,直到最近有学者提出,拥有政治背景的高管会因为股权比例的不同对企业绩效产生不同的影响,而管理层收
目标检测是智能穿戴式设备等诸多实际应用平台的基础需求任务。然而,穿戴式设备所拍摄的视频图像存在场景瞬时移动,前景和背景剧烈变化的特性(动态场景),导致传统目标检测方法在解决动态场景检测任务时存在误检和漏检的难题。为此本文针对动态场景建立了目标检测数据集,并开展了针对动态场景下的目标检测方法的研究。具体研究内容如下:1.本文研究了动态场景下目标检测数据集的建立方法。本文分析了原有数据的缺陷和不足,更
随着人类社会的发展,城镇化是人类社会发展的必然趋势,而随着村落的消失,与之相关的自然景观和文化都在逐步缺少。在这一背景下,作为村落传统文化的组成部分,将面临着传承和
如何通过恰当的宏观财政手段,实现提升农地利用效率、农村经济发展水平和农民收入的目的,是急需研究的关键问题。近年来,农业补贴政策已经成为中央政府强农惠农政策的最重要
以往的决策研究关注的大多是个体如何在可选项间立即做出选择,却忽略了决策领域另一个普遍现象——延迟选择。近年来,有关延迟选择的研究得到了广泛的关注。已有的研究分别从认知、情绪和个体差异特征的角度探究延迟选择的影响因素。此外,有研究表明决策风格这一个体差异特征在决策中发挥着重要的作用。而关于最优化、满意型决策风格和延迟选择的关系,目前少有研究。因此,本研究重点探究最优化、满意型决策风格和延迟选择的关系
中国的煤炭产量占世界总煤炭产量的近45%,而且煤炭开采破坏大量土地产生巨大的碳排放,所以低碳减排已成为中国等世界采煤大国的责任和共识。科学研究表明土地利用优化能在很大程度上增加碳汇,对促进区域乃至全球低碳减排具有重要意义。但是目前国内外对井工煤矿区低碳土地利用优化的研究很少,也缺乏响应的理论来指导井工煤矿区低碳土地利用的规划和实践。本文以晋煤集团大型煤炭基地内的集中连片井工煤矿区为研究对象,首先以
基于标记点的谱聚类算法降低了谱聚类算法的计算复杂度,避免了传统谱聚类算法计算时间长的应用局限。但是,使用聚类准确性和标准化互信息衡量聚类有效性,基于标记点的谱聚类算法的聚类有效性较低。如何平衡聚类有效性和聚类时间成为了基于标记点的谱聚类算法面对的难题。针对此问题,提出了一种基于KD标记点的谱聚类算法。首先,提出一种KD标记点选取方法,该方法使用超平面将样本空间不均等划分为p个子块,超平面垂直于样本
为了遏制囤积商标等恶意注册行为,2019年新修订的商标法明确将“不以使用为目的的恶意商标注册申请”列为驳回注册或宣告无效的绝对事由,不受申请主体和期限的限制。商标注册阶段“使用意图”或者“使用目的”要求第一次在我国商标立法中被提及,其制度定位、调整范围、判断标准等关键问题有待论证。2019年10月,国家市场监督管理总局发布的《规范商标申请注册行为若干规定》将缺乏使用意图的恶意注册行为类型化为五类情