基于集成学习的OA期刊论文元数据提取方法研究

被引量 : 0次 | 上传用户:shining321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在建设图书馆数字资源库时,需要利用互联网上的开放存取(Open Access,OA)期刊论文作为图书馆数字资源库建设的信息源,利用论文元数据信息可以提高论文在图书馆数字资源库中检索的准确率和检索速度。因此,如何准确和快速地提取OA期刊论文的元数据是实现图书馆数字资源库建设的关键。本文在对国内外论文元数据提取方法综合研究分析基础上,结合集成学习的思想,从个体学习器的结论合成和个体生成方法两方面出发,对论文元数据提取方法进行了研究。首先,针对现有的单一元数据提取模型提取精度和泛化能力不高的问题,从集成学习的个体学习器结论合成方面考虑,提出一种基于贝叶斯融合的论文元数据提取方法。基层个体学习器分别采用HMM、SVM和CRF三种机器学习算法,对训练集学习生成提取模型,利用已生成的模型提取论文元数据并计算提取的样本属于每个元数据类别的后验概率,并对每个模型的后验概率加权计算,结合贝叶斯理论对产生的后验概率融合决策,最终提取论文的元数据。其次,从集成学习个体学习器生成方面考虑,提出一种基于元学习的论文元数据提取方法。先是提出一种基分类器构造方法,按照期刊类别构建不同的基层训练集,通过基层SVM学习这些构造好的训练集生成基分类器,增大了集成学习中基层分类器之间的差异性;元层SVM通过对基分类器的学习结果进行再学习生成元分类器,元分类器综合决策基分类器的输出结果,从而得到最终的提取结果,提高论文元数据模型的提取精度和泛化能力。最后,对本文提出的方法进行实验验证,实验结果表明,本文所提的方法提高了论文元数据提取的精度,具有较好的泛化能力,同时结合研究成果对今后的研究工作进行了展望。
其他文献
自从二十世纪七十年代中叶,伴随着左派政治的挫落、右翼势力在西方国家的复兴、保守政策的回归,结构主义的马克思主义的衰退,在这种大背景中,正是对科学社会主义普遍怀疑的强化引
局灶性光热作用是一种新型的激光照射方法,通过点阵激光烧蚀部分皮肤,修复和重建皮肤表层和真皮层,达到激光美容的疗效。与传统激光美容方法相比,它减少了水肿、瘢痕、红斑或色素
新疆文化中心工程六大场馆外立面为"花瓣"造型,主体结构造型复杂,场馆平面外围悬挑大量钢结构、钢-混凝土组合结构以及钢结构加层,大量斜向悬挑、大跨度桁架和四周外立面无外
金融危机以来,各国政府普遍采用加大基础设施等公共项目的投资来拉动经济,为追求透明和高效,越来越多的公共项目都趋向于通过招标选择合适的供应商。招标代理公司虽然面临前所未
随着信息技术的高速发展和数字媒体技术的广泛应用,以图像和视频为主的可视媒体日益成为信息获取、处理和传播的最重要载体之一。近年来,可视媒体交互与合成逐渐成为计算机多媒
甲硫醚是天然气中最难脱除的有机硫化物之一,因此近年来成为精脱硫领域的一个难点。阴离子模板介孔二氧化硅材料表面积大,孔径分布均一,孔径大小具有可调整性,同时其表面载有大量
京杭大运河是我国古代一项堪与长城并称的宏伟工程,也是世界上修建最早、里程最长、工程量最大的运河之一。一方面,它历经2500多年历史,目睹了我国政治、社会的起伏更迭及价值观
后现代符号经济《达·芬奇密码》,通过瑰丽奇特的符号解码和文化寻根,将被现代性所打压的深厚的女神文化资源成功转化为巨大的生产资本。本文通过对物象符号、图形符号、地点
科技的发展是促进社会进步的有效驱动力,每一项技术的发明都有可能重组社会结构。互联网的出现把人类紧密的联系在一起,使得人们的生活方式发生了巨大的变化,教育也在这一伟大的变革中努力寻求可持续发展的方向。以MOOC为例的互联网时代教学模式已经发展得如火如荼,也给音乐教育者们带来了新的视角,它以关联主义学习理论为理论基础,打破了音乐教育的传统教学模式,摆脱了地域的限制、提供丰富的学习资源、促进了教育平衡发
随着科学技术的发展,人们越来越重视生活的品质。从台式机到笔记本,再到平板电脑,无不完美体现了科技发展带来的好处。与此同时,全球竞争变得更加激烈,对于OEM平板电脑行业,更是如