面向机器学习的流式文档逻辑结构标注方法研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:bloneedu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对采用机器学习方法识别流式文档结构时语料库稀少、语料标注复杂的问题,该文在研究文档的逻辑结构和编辑语义特征的基础上,确立流式文档逻辑结构标注体系,并提出一种三段式的半自动文档逻辑结构标注方法:第一阶段通过机助人工实现文档元数据的分离式标注,第二阶段自动重建逻辑结构,第三阶段自动填充特征向量。实验结果表明,该文提出的文档逻辑结构标注方法能够节省人工成本、提高机器学习算法对文档结构识别的准确率与召回率,F值达到97.5%。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
随着海洋经济的发展,传统海产品作业模式与周边环境之间的矛盾日益突出。目前传统的海产品晾晒方式主要依靠人力,当海水养殖产品到了收获季节,需将其置于平整的晾晒场地,经太阳光和风的双重作用进行晾晒,达到合适的晾干程度之后再由人工捡拾,收集到加工点进行后期的再加工等处理工序。传统晾晒方式由于晾晒场地的长期反复使用,造成大面积的土地盐碱化,对环境造成严重的影响。为此,有必要对传统的海产品晾晒方式进行深入研究
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
话轮意识教学法是一种采用以现实生活、以学生为中心的任务型教学法,话轮意识的树立能够塑造更符合实际交际需求的课堂环境。话轮转换技能则能引导学生把握话轮的开始、延续
喀斯特石漠化作为一类严重的生态环境退化问题,正在逐渐受到社会的广泛关注。随着对喀斯特石漠化治理的深入开展,石漠化地区将产生大面积的人工生态经济林。由于喀斯特环境的
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
无盘网络服务器需处理大量I/O操作,导致其存储子系统成为系统性能提升的瓶颈。为解决该问题,提出基于固态硬盘(SSD)和硬盘驱动器(HDD)混合存储的数据分布方法,使工作站共享的操作
柴油机功率越大,缸内燃油燃烧产生的热负荷及及机械负荷越大,缸内温度也越高。高温将使燃烧室部件抗疲劳性能大大降低,同时破坏活塞与缸套间的润滑油膜,产生过大的摩擦损失,继而大
据税务部门介绍,企业为全体雇员按国务院或省级人民政府规定比例或标准补缴的基本或补充养老、医疗和失业保险,可在补缴当期直接扣除,金额较大的,主管税务机关可要求企业在不低于
各位代表:受全国人大常委会委托,我向大会报告工作,请予审议。关于过去一年的主要工作十三届全国人大及其常委会履职正逢“两个一百年”历史交汇期,使命光荣,责任重大。一年