学术型论文文档元数据抽取工具的设计与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户：zxypost

【摘要】

：

随着计算机技术在各个领域的不断普及应用,各个企业机构也不断开始实现信息化管理的转型。在实现信息化管理的过程中,所管理的数据对象主要以电子文档的形式作为数据信息的主

【作者】

：

邓英才

【出处】

：

东南大学

【发表日期】

：

2017年01期

【关键词】

：

元数据抽取特征向量 BP神经网络支持向量机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机技术在各个领域的不断普及应用,各个企业机构也不断开始实现信息化管理的转型。在实现信息化管理的过程中,所管理的数据对象主要以电子文档的形式作为数据信息的主要承载介质,而其中存在很多以学术型论文格式存在的文档。随着这类文档数量的不断增加以及人们对文档检索,分类和统计的精确度要求越来越高,针对论文文档元数据的提取质量要求也越来越高。本文针对这类中文论文文档的相关文本内容元数据信息的提取,提出了一种基于BP神经网络和支持向量机(SVM)的混合模型进行提取,并对该模型的提取性能进行了测试验证。针对现有元数据提取方法准确率不高以及适应性不强的缺陷,提出了一种基于BP神经网络和支持向量机混合模型的提取方法。将论文文档元数据提取的问题转化为对文本块的分类问题,通过对常用的几种分类方法进行分析比较,得出了 BP神经网络和支持向量机方法的可行性。对于所要进行分类识别的文本块,根据文本所具有的特征规则进行预处理,通过规则匹配的方法对摘要元数据和关键词元数据进行提取。对预处理后的文本,为了提高模型抽取的精确度,结合文本具有的局部特征以及其上下文本块具有的特征建立特征向量;利用经过训练集样本数据训练后的BP神经网络模型对输入的文本块特征向量进行分类识别,得出相应的元数据标记值,从而得出文本所属元数据类型。针对作者与单位地址元数据信息混合的文本块,利用文本块所具有的分隔符进行预处理后,结合通过语料库获取的常用人名和地名统计信息,构建所得子文本对应的特征向量。利用支持向量机模型对文本特征向量进行分类识别,得出文本所属元数据类型。采用Java语言和libsvm库,对基于BP神经网络和支持向量机混合模型的元数据抽取工具进行了实现,通过测试验证,结合现有方法进行分析对比,该混合模型具有更好的提取效果。

其他文献

加强稳岗补贴专项资金管理使用的对策分析

稳岗补贴是国家在调整优化产业结构中为了更好地发挥失业保险预防失业、促进就业的作用,激励企业进一步做好职工安置工作,出台的一项国家政策。2014年,《国务院关于进一步优

期刊

失业保险基金失业金社会保险费企业社会保险专项资金管理对策分析

炭气凝胶微球的合成工艺调控及其吸附性能研究

采用反相乳液聚合法成功制备炭气凝胶微球,研究了合成条件对凝胶时间的影响。利用所得产品吸附氯化钯溶液,探讨炭气凝胶微球对Pd2+的吸附性能。结果表明,通过调控合成条件可

期刊

炭气凝胶微球合成吸附钯

管理控制系统与实施生态环境可持续发展战略研究

本研究同时研究了管理控制系统和管理团队的组合如何帮助组织成功实施环境可持续发展战略。与此同时,研究还分析了环境可持续发展战略对短期和长期绩效的影响。研究收集到了1

期刊

环境可持续发展战略管理控制系统管理团队短期和长期绩效

油脂工程真空系统中空气渗漏量的计算方法

叙述了一种测定油脂工程设备真空系统空气渗漏量的计算方法。

期刊

空气渗漏量真空系统计算方法

高压电力电缆竣工验收试验方法研究

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

学位

高压电缆局部放电耐压和分布式局放一体化检测

课堂趣事三则

1对话1.1狼与羊相互选择在学习＂共同进化＂时,为了更好地让学生理解,我将这一知识设计成一个学生感兴趣的爱情故事,达到了爆笑课堂的效果。师：狼和羊是什么种间关系？生：捕食。师：是

期刊

共同进化

应用于泵站的双馈电机非线性控制研究

介绍了应用于泵站的双馈电机数学模型和背靠背变换器的基本工作原理。研究了神经网络在双馈电机矢量控制系统中的应用,分别对采用比例积分控制器和神经网络控制器的仿真结果

期刊

双馈电机泵站神经网络仿真doubly-fed machine pumping station neural network simulation

会计人员能力评价指标体系构建

会计人员能力评价指标体系构建有利于会计人才培养模式的完善,会计人员能力考核方式的改善,会计人员后续教育体系的健全,会计人员良好职业价值观的培养。会计人员能力评价指

期刊

会计人员能力评价指标体系

学术型论文文档元数据抽取工具的设计与实现

与本文相关的学术论文