基于聚类算法和支持向量机算法的文本分类算法研究

被引量 : 8次 | 上传用户:jpyssy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的迅速发展,人们能获得的文本信息也急剧增长。如何快速的提取有效的信息是信息处理领域研究的重要内容,而文本分类是快速有效获取文本信息的主要方法,在文本分类过程中文本分类算法是保证分类速度和效果的关键技术之一,因此对文本分类算法的研究具有重要的意义,也是本文研究主要内容。本文首先对国内外文本分类研究现状进行了详细分析,并分析了文本分词、文本特征提取、文本表示等技术。其次对常用的聚类算法和分类算法进行了详细的研究,并重点对K-近邻算法和支持向量机算法在文本分类中的应用进行了研究。论文主要工作如下:第一,在深入研究了K-近邻算法基础上,针对K-近邻算法在文本分类过程中存在的类倾斜、存储与计算量大等问题,本文提出了支持向量数据描述(support vectordata description,简称SVDD)和改进K-近邻算法结合的分类策略。该方法首先采用SVDD方法对训练文本集中的各类进行裁剪,并形成新的训练文本集。然后通过类别标准差判断是否仍然倾斜,如果倾斜则对发生倾斜的类别进行收缩,形成调节因子。并通过调节因子对传统的K-近邻判别函数进行改进。通过实验证明,本文提出的新方法能有效的解决传统K-近邻方法的类倾斜问题,并且新方法的查全率、查准率、F1值高于传统的K-近邻方法。第二,详细研究了多类分类支持向量机在文本分类中的应用,为解决传统的一对多支持向量机存在样本不平衡性和不可分区域,本文提出相应的解决方法。该方法首先采用K-均值算法对训练集进行聚类,对每个类中不能正确聚类的文本采用一对多方法训练两类分类器,即训练对应类别的分类器,然后将训练集通过一对多SVM产生的分类器进行测试,将落在不可分区域的样本采用一对一方法进行再次训练,从而达到训练样本平衡和缩小不可分区域的目的。最后通过实验证明新方法在文本分类效果上优于传统的一对多支持向量机分类方法。本文对用于文本分类的主要分类算法进行了研究,并对K-近邻算法和支持向量机算法进行了改进,改进后的方法明显的改善了文本分类的效果,并为进一步的文本分类研究打下了基础。
其他文献
随着经济的飞速发展与科技的不断进步,建筑行业也有明显的进步趋势。无论是在建筑空间大小还是建筑质量好坏都有一定的上升空间。在建筑工程的施工整体范围内,前期的建筑设计
当今低碳发展的时代,人们对建筑的节能减排意识不断提高,既有建筑的低碳改造成为一个热门的话题。历史建筑作为既有建筑的特殊群体,改造具有其特殊性。目前我国对历史建筑的保护
为了消除系统外产生的误差因素,提高液体静压导轨的定位精度,从而使超精密数控机床的加工精度得到提高,搭建UMAC运动控制器、TRUST线性驱动器以及上位机的硬件平台。通过雷尼绍
作为在CMOS工艺与Ga As上价格与性能折衷的工艺,SiGe HBT(Hetrojunction bipolar transistor,HBT)工艺具有非常优良的应用前景。该工艺结合射频应用,依靠高性能的器件可设计
<正>为了促进禽畜的生长和预防某些疾病,某些饲养户或饲养场在饲养牛、羊、猪、鸡等禽畜时,经常在饲料中添加某种或某几种重金属元素。有关专家指出人在食用这类肉食品后,如
<正>目的:探讨中心静脉压(CVP)在危重烧伤患者救治过程中的应用价值。方法:对37例危重烧伤患者入院后立即行中心静脉置管术(股静脉,颈内静脉,锁骨下静脉)。一侧通入快速输入
会议
高容积率条件已成为当前住区建设所面临的普遍现象。而高容积率下的高层住宅不但自身建筑形体尺度庞大且建筑密度较高,以往仅仅局限于高层住宅自身的考虑难以应对高容积率下的
社会主义社会矛盾学说是马克思主义发展史上面临的重大的理论和实践课题。毛泽东同志的《关于正确处理人民内部矛盾的问题》,不仅创造性的发展了马克思主义理论,也为认识和处理
2010年,辽宁广播电视台教育青少频道推出一档访谈类栏目《成长》。该栏目的基本创意是:围绕中国家长普遍存在“望子成龙”的社会心态,以在奔向成功的路上苦苦寻觅 In 2010,
运用文献资料法、问卷调查法、观察法和数理统计法,对广东体育职业技术学院2007级体育专业学生在跨栏跑学习中存在的起跑至第一栏、腾空过栏的栏上技术和栏间跑技术三类错误