支持向量机文本分类算法研究

被引量 : 0次 | 上传用户:liongliong441
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(SVM)作为一种基于统计学习理论的新型机器学习方法,不仅较好地解决了非线性、高维数、小样本集合、局部极小点等问题,同时相对于神经网络有更高的泛化能力,是机器学习领域新的研究热点。文本分类是一种基于内容的自动信息管理技术,其稀疏性大、维数高;支持向量机对于稀疏性不敏感,处理高维数问题具有较大优势,因此,支持向量机非常适用于文本分类问题。但是,支持向量机分类算法仍然存在不足。例如,当训练集特别是文本训练集中样本数目多、噪音点多时,支持向量机由于过学习会增加训练以及分类时间,同时还会降低分类正确率等。本文针对支持向量机分类算法特别是它在文本分类中存在的问题进行了深入的研究,主要工作如下:首先,支持向量机在处理两类分类问题时,当两类样本混杂严重时会降低分类精度。因此,在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离修剪混淆点,提出了一种改进的NN-SVM——KCNN-SVM算法。实验表明,KCNN-SVM算法与SVM以及NN-SVM相比,有着更高的分类精度和更快的训练、分类时间。其次,尽管SVM可以利用文本向量所有的特征进行分类并取得良好的性能,但是在某些特殊应用中,例如高速数据处理环境中,为了获得更高的效率,仍然需要对特征空间进行降维处理。本文通过潜在语义索引(LSI)分析文本向量各维与文本的语义联系进行特征抽取,同时利用KCNN-SVM算法对降维后的训练集进行修剪,最后用标准支持向量机建立文本分类模型。实验表明,基于潜在语义索引的支持向量机文本分类模型与标准的支持向量机相比,受到文本分词维数以及支持向量机惩罚因子选取的影响更小,其分类正确率更高。
其他文献
1、目的:研究中医肾痿理论指导下的中药肾痿复方对维持性血液透析患者的临床疗效及中医证候的作用,为保护维持性血液透析患者其残余肾功能、提高生活质量,提供新的治疗思路及
"良好的教学始于明确的目标。"教学目标是教学活动的灵魂,是贯穿教学始终、指导教学方向、衡量教学活动实效性的重要指标,它对教学过程具有导向、调控、激励和评价的功效。有效
机械制造业是国家建立独立工业体系的基础,也是衡量一个国家工业实力的重要标志。数控机床是机械制造业的战略性装备,滚珠丝杠副作为其关键功能部件,其可靠性水平直接影响数
本设计是杠杆零件的加工工艺规程及钻孔的专用夹具设计。杠杆零件的主要加工表面是平面、孔及键槽。并将孔、平面与键槽的加工明确划分成粗加工和精加工阶段以保证孔的加工精
探讨了美国房地产金融政策的特点及房地产政策和规划,分析出对我国房地产金融的借鉴意义。
王子云是中国现代艺术史学界的先驱,其艺术史学体现了中国艺术史学在现代转型时期诸多方法论和研究视野上的学科特点。以田野调查和西方现代艺术史学理论为基础的文献考证、
近年来我国大型公共建筑由于功能上的需要,尤其是超长建筑要求不设或少设伸缩缝,致使钢筋混凝土超长结构日见增多,对钢筋混凝土超长结构的温度变形、材料的收缩变形及其效应若在
<正> 经济体制、教育体制的改革,促进了高校招生体制改革的发展。我国高等学校招生体制改革,经过不断的探索,取得了一系列成果。其中,最为突出的是:从单一的指令性计划发展为
母语教学知识、文化的建构,在更高的层面上它还肩负着“实现中华民族的伟大复兴”计划的神圣使命。语文是一个国家或民族文化传承的载体。中国传统文化的精粹是每一位炎黄子孙