论文部分内容阅读
在建设图书馆数字资源库时,需要利用互联网上的开放存取(Open Access,OA)期刊论文作为图书馆数字资源库建设的信息源,利用论文元数据信息可以提高论文在图书馆数字资源库中检索的准确率和检索速度。因此,如何准确和快速地提取OA期刊论文的元数据是实现图书馆数字资源库建设的关键。本文在对国内外论文元数据提取方法综合研究分析基础上,结合集成学习的思想,从个体学习器的结论合成和个体生成方法两方面出发,对论文元数据提取方法进行了研究。首先,针对现有的单一元数据提取模型提取精度和泛化能力不高的问题,从集成学习的个体学习器结论合成方面考虑,提出一种基于贝叶斯融合的论文元数据提取方法。基层个体学习器分别采用HMM、SVM和CRF三种机器学习算法,对训练集学习生成提取模型,利用已生成的模型提取论文元数据并计算提取的样本属于每个元数据类别的后验概率,并对每个模型的后验概率加权计算,结合贝叶斯理论对产生的后验概率融合决策,最终提取论文的元数据。其次,从集成学习个体学习器生成方面考虑,提出一种基于元学习的论文元数据提取方法。先是提出一种基分类器构造方法,按照期刊类别构建不同的基层训练集,通过基层SVM学习这些构造好的训练集生成基分类器,增大了集成学习中基层分类器之间的差异性;元层SVM通过对基分类器的学习结果进行再学习生成元分类器,元分类器综合决策基分类器的输出结果,从而得到最终的提取结果,提高论文元数据模型的提取精度和泛化能力。最后,对本文提出的方法进行实验验证,实验结果表明,本文所提的方法提高了论文元数据提取的精度,具有较好的泛化能力,同时结合研究成果对今后的研究工作进行了展望。