基于改进特征选择方法的文本情感分类研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:houduo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着越来越多的人参与到互联网中,互联网产生了海量并有研究价值的文本信息,如何有效的对文本信息进行情感挖掘是现阶段研究的热点之一。该文通过对文本情感分类国内外现状的分析和研究,对现有的特征选择方法进行改进,设计了一种结合情感词典和改进的信息增益算法的特征选择方法,并利用优化的支持向量机分类器分辨文本的正负情感极性。首先,在现有信息增益特征选择的基础上,针对信息增益只注重特征词的文档频率和忽略语料均衡与否的影响从而影响特征有效选择的问题,对信息增益特征选择算法进行改进,添加了特征词在每个类内出现的词频分布即分布因子和均衡概率,寻求分类性能的提高。其次,对现有信息增益应用在文本情感分类中忽略情感因素的问题,将情感词典和信息增益特征选择进行结合,对文本进行情感词匹配,只选用情感词进行信息增益特征选择,实现特征大幅降维和体现情感词在文本情感分类中的重要性。再次,针对文本语料的特点,对只采用匹配情感词而导致文本数据过于稀疏从而影响分类性能的问题,采用对情感词赋权重,并对所有词语进行信息增益特征选择,既体现情感重要性,又可以改善分类性能。最后,为了进一步改善分类效果,对支持向量机分类器进行优化,采用三种寻优算法对支持向量机参数进行寻优和利用混合核函数对分类器进行优化,通过实验对比,选择最好的优化方式作为最终优化的分类器模型。
其他文献
英语阅读能力是学习者在学习中去获取和利用有用信息的一种关键能力,并对学习者其他方面英语技能的学习产生影响。阅读能力的提升能在很大程度上促进综合语言能力的提升。然而,大部分乡镇高中的英语教师仍然更多地强调词汇、语法的教学,以优化教学策略、系统改进教学方法、培养学生良好阅读习惯等方式来促进英语学习能力提升的意识还不够强。现有教学方法还有一定的局限性。同时,学生掌握的阅读方法单一,运用阅读技巧理解文章的
社会运动的发展与媒介变迁息息相关,互联网平台的崛起亦为社会运动的发展带来新的机会。互联网平台信息传播便捷、信息获取方便,为个体提供发声机会,以及其对时空限制的突破,
往复式压缩机在中、小型制冷冰箱行业占有很大的份额,也是冰箱的重要组成设备、产生噪声的源头之一。随着经济的飞速发展与科学技术提高,人们愈发追求高品质生活,同时也越来越关注冰箱的噪声水平。低噪声、高效能的冰箱更符合人们的需求,其市场占有率也日益提高。通过优化压缩机壳体声辐射,可以有效地减少压缩机的整体噪声。而声辐射结构的拓扑优化问题也是近年来结构优化领域的一个研究热点。目前的研究多集中于结构厚度分布的
2018年4月,国家主席习近平在博鳌论坛开幕式上宣布:中国决定在金融业大幅度放宽市场准入,放宽证券等行业外资持股限制等重大措施要确保落地。随着准入条件的放松,更多的外资
随着我国核电的大规模发展,核电站也将面临参与调峰的问题。一旦核电机组接入电网参与调峰运行,势必将和电网相互影响。我国目前都是带基荷运行,缺少调峰运行经验,因此有必要
“不忘本来才能开辟未来,善于继承才能更好创新”。红色文化自诞生至今,记录了中国共产党领导中国人民一路追逐中国梦的辉煌历程。同时,在中国革命、建设和改革的伟大实践中,红色文化也不断得到完善与发展。在全球化的今天,发展红色文化,将对于我们重塑民族文化自信,助力实现“两个一百年”奋斗目标具有重要意义。郑州市是华夏文明发源地之一,也是红色文化的重要发源地,特殊的历史地位和地理位置,成就了它丰富的传统文化底
近年来雾霾问题,水体富营养化问题、地下水污染问题、酸雨问题、城市黑臭水体问题在全国范围内普遍存在,严重危害了民众健康,降低了居民生活质量。我国各种污染物排放量处在
本研究从阿拉尔16团和沙湾144团连作10年以上且棉花黄萎病发病严重的棉田区采集24份棉花根际土,采用稀释平板法和平板对峙法对土样进行分离、筛选棉花黄萎病的拮抗菌,并通过P
随着软件规模及应用领域的日益复杂,软件质量安全已经成为一个至关重要的问题,在软件运行过程中会产生大量的数据,为了将其利用起来进而提升软件质量及保障软件安全,数据挖掘
学位