基于机器学习的中文期刊论文自动分类研究

被引量 : 0次 | 上传用户:weifeng151
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子期刊的不断增加,电子期刊论文的数量在与日俱增,电子期刊论文的合理分类成为了一个亟待解决的问题。传统的人工分类在大数据环境下已经显得力不从心,在期刊论文分类方面人工分类也存在这个问题,将自动分类的方法应用于期刊论文分类方面能有效解决这个问题。机器学习理念的出现让自动分类快速发展起来,本文将机器学习的思想运用到期刊论文的自动分类领域,选用中国知网的期刊论文数据作为实验样本,对样本进行预处理后分为训练样本和测试样本,采用机器学习中的监督学习“先学习,后测试”的理念,先对训练样本进行学习,然后利用学习到的分类器对测试样本进行分类,对比真实的类别和测试实验给出的类别,分析机器学习在期刊论文自动分类方面的可行性。本文的自动分类实验选用的分类算法是支持向量机算法和BP神经网络算法,通过对这两个算法在正确率、训练量和实验时间方面进行比较实验,选择出相对更加适合本文研究对象的机器学习算法——支持向量机算法,同时通过对比实验选择出适合本文研究对象的支持向量机算法参数,为机器学习实验提供了最佳环境。在良好的机器学习环境下,本文的实验样本来源于中国知网的电子期刊论文数据,包括论文的题名、关键词和摘要等主要信息,通过对比分析知道综合这三种特征来源更加能够提高期刊论文自动分类的实验效果,并且通过对比实验找到了一组相对合适的加权比重。期刊论文的传统分类方法是中国图书馆分类法,简称中图法,但是中图法存在分类繁杂、类目较多的特点,这显然不是自动分类的体系,本文利用层次分类法的理念将中图法转化为一个三层的分类体系,分别进行分类实验,从第一层到第三层的实验正确率分别达到了95.05%、92.89%和89.02%,三层的综合正确率也接近80%,这是一个比较可观的实验结果,证明了机器学习在期刊论文的自动分类方面的可行性,为期刊论文的分类问题提出了新的思路。
其他文献
诗是一种文学体裁,透过语言,除了表达文字的意义外,也表达情感与美感,引发共鸣。诗能够自成一格,也能与其它艺术结合,如诗剧、圣诗、歌词或散文诗,文字配上音乐则称为歌。诗
针对目前常用位同步时钟恢复电路即超前-滞后型锁相环和1位同步器两种方法的不足之处,提出了一种使用DDS原理实现的快速时钟恢复方案。该方案采用DDS技术作为高精度任意分频
精神科护士的护理对象是精神病患者,他们属于特殊人群,发病时其行为具有盲目性及不可预知性,不仅会对自身造成伤害,也会对护士的身体健康甚至是生命安全构成严重威胁。与其他
本文以北斗应用技术与电子信息技术内在一致性的分析为出发点,探讨了北斗应用的广泛性、多样性以及层次性,探讨了北斗应用技术、北斗卫星导航系统的发展规律与趋势,并就如何发展
激光脉冲沉积技术由于其灵活性强、保成分性好等优势,受到了广泛关注,非常适合原位制备氧化物异质结器件。很多氧化物材料具有非常好的光电性质,在光电器件方面有很大的应用前景
人参是中外闻名、老幼皆知的名贵中草药材,被称为“百草之王”,具有补气生津的作用,适用于扶正祛邪,能够增强体质并具有抗病能力。本文考察了三种方法对人参皂苷提取率的影响、D1
针对抗生素类饲料添加剂所带来的危害,抗生素添加剂替代品的开发与利用得到广泛关注。本试验以绿原酸为研究对象,旨在探讨其作为抗生素类饲料添加剂替代品的可行性。试验选取60
随着计算机和网络的发展,信息技术在企业的发展管理中占据着越来越重要的地位。档案作为企业的一种信息资源,是企业生产经营中不可或缺的一部分,在管理和决策中发挥重要的作用。
目的:了解2011年1月----2011年12月我院呼吸内科下呼吸道感染患者病原菌的分布及其耐药性特点,了解常见病原菌的初始经验治疗药物与体外药物敏感性实验的符合率,分析细菌培养的
润滑脂中稠化剂的种类对润滑脂的性能有着重要的影响。无机稠化剂制备的润滑脂由于具有较高的滴点和良好的使用性能而受到了人们的广泛关注。被认为是高性能润滑脂之一。介绍