论文部分内容阅读
随着计算机技术在各个领域的不断普及应用,各个企业机构也不断开始实现信息化管理的转型。在实现信息化管理的过程中,所管理的数据对象主要以电子文档的形式作为数据信息的主要承载介质,而其中存在很多以学术型论文格式存在的文档。随着这类文档数量的不断增加以及人们对文档检索,分类和统计的精确度要求越来越高,针对论文文档元数据的提取质量要求也越来越高。本文针对这类中文论文文档的相关文本内容元数据信息的提取,提出了一种基于BP神经网络和支持向量机(SVM)的混合模型进行提取,并对该模型的提取性能进行了测试验证。针对现有元数据提取方法准确率不高以及适应性不强的缺陷,提出了一种基于BP神经网络和支持向量机混合模型的提取方法。将论文文档元数据提取的问题转化为对文本块的分类问题,通过对常用的几种分类方法进行分析比较,得出了 BP神经网络和支持向量机方法的可行性。对于所要进行分类识别的文本块,根据文本所具有的特征规则进行预处理,通过规则匹配的方法对摘要元数据和关键词元数据进行提取。对预处理后的文本,为了提高模型抽取的精确度,结合文本具有的局部特征以及其上下文本块具有的特征建立特征向量;利用经过训练集样本数据训练后的BP神经网络模型对输入的文本块特征向量进行分类识别,得出相应的元数据标记值,从而得出文本所属元数据类型。针对作者与单位地址元数据信息混合的文本块,利用文本块所具有的分隔符进行预处理后,结合通过语料库获取的常用人名和地名统计信息,构建所得子文本对应的特征向量。利用支持向量机模型对文本特征向量进行分类识别,得出文本所属元数据类型。采用Java语言和libsvm库,对基于BP神经网络和支持向量机混合模型的元数据抽取工具进行了实现,通过测试验证,结合现有方法进行分析对比,该混合模型具有更好的提取效果。