学术型论文文档元数据抽取工具的设计与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:zxypost
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术在各个领域的不断普及应用,各个企业机构也不断开始实现信息化管理的转型。在实现信息化管理的过程中,所管理的数据对象主要以电子文档的形式作为数据信息的主要承载介质,而其中存在很多以学术型论文格式存在的文档。随着这类文档数量的不断增加以及人们对文档检索,分类和统计的精确度要求越来越高,针对论文文档元数据的提取质量要求也越来越高。本文针对这类中文论文文档的相关文本内容元数据信息的提取,提出了一种基于BP神经网络和支持向量机(SVM)的混合模型进行提取,并对该模型的提取性能进行了测试验证。针对现有元数据提取方法准确率不高以及适应性不强的缺陷,提出了一种基于BP神经网络和支持向量机混合模型的提取方法。将论文文档元数据提取的问题转化为对文本块的分类问题,通过对常用的几种分类方法进行分析比较,得出了 BP神经网络和支持向量机方法的可行性。对于所要进行分类识别的文本块,根据文本所具有的特征规则进行预处理,通过规则匹配的方法对摘要元数据和关键词元数据进行提取。对预处理后的文本,为了提高模型抽取的精确度,结合文本具有的局部特征以及其上下文本块具有的特征建立特征向量;利用经过训练集样本数据训练后的BP神经网络模型对输入的文本块特征向量进行分类识别,得出相应的元数据标记值,从而得出文本所属元数据类型。针对作者与单位地址元数据信息混合的文本块,利用文本块所具有的分隔符进行预处理后,结合通过语料库获取的常用人名和地名统计信息,构建所得子文本对应的特征向量。利用支持向量机模型对文本特征向量进行分类识别,得出文本所属元数据类型。采用Java语言和libsvm库,对基于BP神经网络和支持向量机混合模型的元数据抽取工具进行了实现,通过测试验证,结合现有方法进行分析对比,该混合模型具有更好的提取效果。
其他文献
稳岗补贴是国家在调整优化产业结构中为了更好地发挥失业保险预防失业、促进就业的作用,激励企业进一步做好职工安置工作,出台的一项国家政策。2014年,《国务院关于进一步优
采用反相乳液聚合法成功制备炭气凝胶微球,研究了合成条件对凝胶时间的影响。利用所得产品吸附氯化钯溶液,探讨炭气凝胶微球对Pd2+的吸附性能。结果表明,通过调控合成条件可
本研究同时研究了管理控制系统和管理团队的组合如何帮助组织成功实施环境可持续发展战略。与此同时,研究还分析了环境可持续发展战略对短期和长期绩效的影响。研究收集到了1
叙述了一种测定油脂工程设备真空系统空气渗漏量的计算方法。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
1对话1.1狼与羊相互选择在学习"共同进化"时,为了更好地让学生理解,我将这一知识设计成一个学生感兴趣的爱情故事,达到了爆笑课堂的效果。师:狼和羊是什么种间关系?生:捕食。师:是
期刊
介绍了应用于泵站的双馈电机数学模型和背靠背变换器的基本工作原理。研究了神经网络在双馈电机矢量控制系统中的应用,分别对采用比例积分控制器和神经网络控制器的仿真结果
会计人员能力评价指标体系构建有利于会计人才培养模式的完善,会计人员能力考核方式的改善,会计人员后续教育体系的健全,会计人员良好职业价值观的培养。会计人员能力评价指