基于SVM增量学习的文本情感倾向性分类研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:ccicc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本情感倾向性分类(Text Sentiment Classification)是目前文本分类技术领域中的一个热门研究方向。它通过过滤出文本中的主观内容并进行情感倾向性分析,识别出文本所属的褒贬类别。在当今大数据的背景下,互联网上每时每刻都在生成新的用户数据,因此急需对这些不断累积的文本内容进行高效地分析处理,识别其情感倾向性。通过对互联网上的这些文本进行情感挖掘,无论是对电子商务领域中所进行的商品推荐,还是帮助政府进行舆情监管,都有着重大意义。目前对文本进行情感倾向性分类的主流研究方法是利用基于统计的机器学习技术,支持向量机(SVM)算法是一种具有相对良好的分类效果并得到广泛应用的机器学习算法。然而现实工程应用中样本却是不断积累的,传统的SVM分类算法不能够直接进行增量学习,为了减少新增样本加入后重新训练模型的时间并能适应海量数据的准确分类,本文从增量学习的角度改进传统的SVM算法,并将SVM增量学习算法引入文本情感倾向性分类领域。本文在研究了SVM算法的特点和相关增量学习算法的基础上,首先在训练集预选方面,采用构建保留集的策略,提出了一种新的样本选择方法——缩放平移选择法,弥补了样本保留的缺陷。其次,本文提出了一种新的基于组合保留集的SVM增量学习算法CRS-ISVM(Combined Reserved Set ISVM)。该算法采用了组合保留的思想,不仅选择原始训练集中部分非支持向量样本加入保留集并赋予样本权重,还对新增样本中符合KKT约束的进行部分保留,最后再依据权重挑选部分保留样本与原SV集和新增样本中违背KKT约束的合并进行训练,从而实现原有样本知识的积累和新样本知识的学习。通过将CRS-ISVM算法与另外四种类似ISVM算法进行性能对比实验,从实验结果能够看出,CRS-ISVM算法可以在一定程度上提高分类精度,并能够减少分类时间,提高分类效率。最后,本文将基于组合保留集的SVM增量学习算法应用到文本情感分类领域,在提取了不同文本特征的基础上,构建出了增量学习系统,以适应对不断新增的样本进行情感分类的处理需求。实验表明了基于SVM增量学习的文本情感分类系统在保证分类精度的前提下,能够有效减少历史数据的存储,并加快了分类速度。
其他文献
第一部分胸骨旁间隔切面在房间隔缺损封堵治疗术前筛选及术中监测中的作用目的:回顾性分析在我院就诊并通过经胸超声心动图(TTE)常规切面及胸骨旁间隔切面联合扫查后诊断为房
电解水制氢、金属-空气电池等新能源技术的发展与析氢、析氧、氧还原反应过程密切相关,而这类反应的动力学特性缓慢,因此研究开发适宜的电催化剂以提高反应效率具有重要的理论和实用意义。传统电催化剂一般均为贵金属或贵金属合金。贵金属催化剂自然储量少、成本高、催化稳定性较差,严重制约了其更为广泛的应用。本论文以钴基氧化物与纳米碳基的复合催化剂为主要研究对象,通过构建和调控催化剂的纳米结构、活性位点并进行硫化与
地表沉降又称为地表沉陷或下沉,它是目前世界各大城市建设的一个主要工程地质问题。地质灾患引起的地表位移对广大群众的生命安全造成了严峻危害。因此,研究可靠的地表形变监控方法,实现对地表位移的高效监控和防治具有十分重大的应用价值。与传统的水准测量技术相比,合成孔径雷达差分干涉测量技术(Differential Interferometric Synthetic Aperture Radar,简称D-In
第一部分 2.1版前列腺影像报告与数据系统在前列腺癌诊断中的应用价值目的:探讨基于3.0T MR设备的2.1版前列腺影像报告与数据系统(PI-RADS V2.1)对前列腺癌(PCa)的诊断价值。
目的:血清脂蛋白(a)(Lp(a))是一种存在于血液循环系统中的血浆脂质成分,研究发现血清中的Lp(a)浓度不受年龄、性别、饮食、药物等因素的影响,而主要受遗传因素影响。近年来的研究表明
本文以(S)-1,1’-联萘二酚((S)-BINOL)为原料,设计、制备了 3个系列4种含氮S-BINOL手性固定相,装填成相应的高效液相色谱柱,并对其中的(S)-CSP-MA-1、(S)-CSP-MI-1手性色谱柱
目前最常见的有限元法包括位移法、应力法和杂交应力法以及以应力和位移为基本变量的混合法。对于位移法,应力结果若不加特殊处理,其精度通常不满足工程界的要求。混合法的应力比位移法的精度高,但由于控制方程是非正定的,导致有限元结果震荡,稳定性较差。因此,研究一种同时满足精度高、稳定性好和收敛快的方法是很有意义的工作。本文基于H-R变分原理和最小势能原理,结合对偶理论和传热学理论,建立了针对三类热弹性体(热
目的:通过二代高通量测序技术,对桥本甲状腺炎(Hashimoto’s thyroiditis,HT)患者外周血单个核细胞(peripheral blood mononuclear cells,PBMCs)miRNAs的表达谱进行分析,运用
目的:黄曲霉毒素G1(Aflatoxin G1,AFG1)是一类具有致癌性的真菌毒素。我们前期实验发现模拟饮食方式经口灌胃实验小鼠AFG1,可以诱导肺腺癌的发生;而肿瘤发生前期,AFG1诱导肺组
黄姜花(Hedychium flavum Roxb.)是一种具备药用、食用及观赏价值的植物,其根茎为贵州苗药,又名夜寒苏,用于治疗寒湿白带、体虚自汗、风湿筋骨疼痛、消化不良、感冒等病症。目