【摘 要】
:
随着互联网和移动设备大规模的使用,数据呈指数式增加,对海量数据的处理是人们所要面临的一个急切且重要的问题。文本分类是自然语言处理领域的重要研究方向,它能够高效的管理数据信息,实现数据的快速定位和分类,以便对数据进行进一步处理,有效的缓解数据信息混乱的现象。在我国,信息多是以中文文本的方式呈现,因此中文文本分类具有重要研究意义。本文首先介绍了基于机器学习的中文文本分类的理论基础知识,重点研究了目前应
论文部分内容阅读
随着互联网和移动设备大规模的使用,数据呈指数式增加,对海量数据的处理是人们所要面临的一个急切且重要的问题。文本分类是自然语言处理领域的重要研究方向,它能够高效的管理数据信息,实现数据的快速定位和分类,以便对数据进行进一步处理,有效的缓解数据信息混乱的现象。在我国,信息多是以中文文本的方式呈现,因此中文文本分类具有重要研究意义。本文首先介绍了基于机器学习的中文文本分类的理论基础知识,重点研究了目前应用比较广泛的特征处理方法和分类器。深入研究了支持向量机(Support Vector Machine,SVM)算法的原理和过程,对其基本方法和核函数的选择做了讨论。针对支持向量机的惩罚因子和径向基核参数难于选择的问题,引入粒子群算法进行优化。针对粒子群算法的缺陷,通过改变惯性权重为非线性递减惯性权重、引入异步变化的学习因子、对越界粒子进行重新处理的方式进行改进,并利用机器学习UCI数据集进行对比验证试验。实验结果表明,改进粒子群算法具有更高的分类精度,验证了本文改进粒子群算法优化SVM参数的有效性。之后,对非线性递减惯性权重式子中指数n对改进算法的影响进行了分析和讨论。通过取不同n值的改进粒子群算法优化SVM模型参数,并将该参数用于训练模型。通过SVM文本分类实验结果找出本环境下的最佳指数值,从而找出本环境下改进粒子群算法的最佳状态。本文使用复旦大学提供的中文数据集,将改进的粒子群算法、线性递减惯性权重的粒子群算法和标准粒子群算法分别对SVM模型进行参数优化,优化的参数用于训练SVM模型。通过文本分类对比实验,利用测试集对训练好的分类器进行测试和评估。实验结果表明,相较于线性递减惯性权重粒子群算法和标准粒子群算法优化的SVM模型,改进粒子群算法优化的SVM模型在文本分类上的准确率、召回率和F1值有较明显的提高,证明了改进粒子群算法的SVM分类器具有更好的分类性能,以及改进粒子群算法对支持向量机模型参数优化的有效性。
其他文献
高校教师只有在科研中找到自己独特的研究领域,形成自己的学术特色,才可能形成独特的教学风格,因为科研科研帮助教师树立了学术研究的意识、兴趣与信心,促进了教学的可持续发
以植物环氧大豆油(ESBO)、玉米芯生产木糖醇所产生的副产物杂醇和甘油作为复合型起始剂,KOH为催化剂,加聚环氰丙烷(PO),合成了硬质聚氨酯(PU)泡沫用的聚醚多元醇(PPG);考察了聚合温度、水
深入分析了准噶尔盆地车排子凸起新近系沙湾组油藏特征和成藏要素后指出,该凸起中东部沙湾组油藏类型主要为断块、断块一岩性型稀油油藏,数量多、规模小,分布在沙二段;西北部主要
德里克·沃尔是当代颇具有影响力的生态社会主义者、英国左派人物。他主张用激进运动的形式反对资本主义,以彻底消灭资本主义,彻底消除资本主义对环境的破坏、对社会公平和人
2006年10月27日全国蚕桑发展情况座谈会厦组织编制“全国蚕桑优势区域发展规划”工作会议在北京召开。参加会议的有来自全国12个蚕桑主产省市蚕业管理部门的负责同志和中国农
重读乌热尔图,主旨并非迎合环保一类的时令话题;诱使笔者蓦然回望的不止是一个自然生态的保护者,更是那个古老文化的守灵人、民族生存的守望者。如果说乌热尔图的早期创作中
<正>《兴趣心理学探索》(人民教育出版社2018年版)是《外国兴趣教育名著译丛》之一。该丛书是国内第一套系统译介外国兴趣教育名著的丛书,由人民教育出版社原党委书记、现总
迷迭香属多年生常绿亚灌木,是一种高级天然芳香植物。用其茎叶提取的迷迭香精油主要成分有丙桉树脑、派烯、乙酸冰片酯、樟脑等,可用于化妆品香精、卫生用品香精及医药和芳香食
近年来,伊犁垦区制种玉米种植面积逐年扩大,在玉米制种生产过程中统一推广应用机械整地、机械精量播种、机械化防、机械去雄、机械收获、机械清选的全程机械化生产种植模式,以机
以6016铝合金为研究对象进行等速拉伸实验,使用数字图像相关方法(Digital Image Correlation,DIC)对铝合金的拉伸过程进行定性表征,实验研究全应变场变化,并进行断口组织观察。