基于特征重构的文本情感分析关键技术研究

来源 :山东建筑大学 | 被引量 : 0次 | 上传用户:blueskyxq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感词抽取是文本分析的首要环节,其精度和范围是情感词典构造、文本情感分类和情感强度计算等应用的关键。传统的情感词抽取方法包括基于情感词典的抽取方法、基于语法规则的抽取方法以及基于统计特征的抽取方法。由于单词具有领域依赖性(domain dependent)的原因,使得基于词典的抽取方法的抽取目标范围有限,而基于语法逻辑的情感词抽取方法在一定程度上解决了领域依赖性,但这种方法却将抽取目标局限于形容词。基于统计特征的情感词抽取方法能够解决前两种情感词抽取方法的不足,因此,本文在基于统计特征的情感词抽取方法的基础上,提出了一种结合多种统计特征的情感词自动抽取方法,并且通过对连续数值进行离散化处理,实现了自动确定特征值阈值的功能,有效提高了抽取方法的性能。最后,利用现有情感词典和文本情感分类测试检验这种抽取方法的效率。实验结果显示,结合多种统计特征的关键词自动抽取方法能够有效解决情感词典的冗余现象,并且提高了分类算法的准确率。文本的数据表达形式会影响文本分类算法的执行效率和分类结果的准确率。文本分类中常用的数据表达方法包括基于词典共现频率的方法、基于隐性语义空间模型的方法和基于神经网络语言模型的方法,上述文本数据表达方法往往存在生成稀疏矩阵、造成文本特征空间维度过大以及文本特征空间的创建过程过于复杂的现象。针对现有文本数据表达方法存在的不足,本文提出了一种基于特征重构的文本数据表达方法。这种方法首先利用单词的统计特征创建词向量,再通过相关性分析保留词向量中相对独立的统计特征,最后,在词向量的基础上创建文本的特征空间。这种方法能够有效降低文本特征空间的维度,具有隐性语义空间模型(LSA/SVD)的压缩效果。本文利用支持向量机、朴素贝叶斯、决策树和随机森林对测试文本进行情感分类,并根据分类算法的复杂度和分类结果的准确率评价这种文本数据表达方法。实验结果显示,这种文本数据表达方法在保证分类结果精度的前提下有效降低了分类器的复杂度。
其他文献
对于电视栏目名称的法律保护,目前的案例、理论等大多将电视栏目名称与电视节目名称混为一谈,从而使得电视栏目名称的法律属性、归属等问题出现争论。并且,现有讨论大多将该
韩兰魁,活跃在中国当代乐坛的作曲家,现任西安音乐学院副院长,兼作曲系教授。他的创作风格多样,创作体裁以交响乐为主。作曲家音乐理念新颖,个性明显,最大的特征即:将传统音
本文研究目的是旨在通过对傅海峰里约奥运会备战中的力量训练方法和手段的选择结合训练周期模式的组合运用,总结出一套羽毛球项目备战大赛期的力量训练思路和方法。采用文献资料法、观测法、数据统计法、比较分析法,总结傅海峰夺得里约奥运会冠军的备战阶段中力量训练的训练周期模式选择、训练计划的安排和训练方法的归纳,并通过奥运会中力量训练在得失分技术应用分析,系统地阐述了羽毛球男子双打项目备战大赛阶段力量训练的训练
目的:探讨验证项痹颗粒治疗神经根型颈椎病(气滞血瘀型)的临床疗效和安全性。方法:将72例于2018年11月至2019年8月在深圳市中医院住院部骨二科住院,西医诊断为神经根型颈椎病,中医诊断为气滞血瘀型颈椎病,选择保守治疗方案并符合纳入标准的患者按照随机数字法随机分配到治疗组和对照组,每组36例,其中治疗组男18例,女18例,平均年龄(44.06±8.61)岁,平均病程(17.71 ±5.91)月;
随着各大智能手机厂商在其手机中增加了NFC(Near Field Communication,近场通信)芯片,近场通信技术正在逐渐的走进人们的生活和应用中。目前NFC还存在数据传输效率低下以及安
目前,高清视频、交互式多媒体等宽带数据业务的迅猛发展需要通信系统具有更高的传输质量和传输速率。在光纤通信系统中,相比强度调制/直接检测(Intensity Modulation and Dir
近年来,中国借壳上市市场十分活跃,但在并购重组中常出现大股东侵害上市公司和中小股东利益的现象。为了减少由于信息不对称带来的交易成本,降低经营情况生变等未来不确定因素带来的风险,证监会颁布的相关管理办法当中明文规定,交易双方在完成重大资产重组实施后,应当在3年内披露其相关资产的实际利润数与利润预计数的差异情况,并就该情况作出业绩补偿承诺。近年来业绩承诺签订数量增多,问题逐渐浮现,意味着有关制度仍有局
政府投资项目,是各级政府运用政府性资金进行固定资产投资的活动,对于推动发展国民经济、改善生态环境、促进政府的公共服务水平提升具有重要作用。政府投资项目不同于一般的投资项目,因为投资主体为政府部门,资金来源具有公共性,因此,对政府投资项目进行有效的监管,保证政府性资金使用的效率,防止腐败现象的发生,具有很强的现实意义。改革开放以来,结合各地区的实践探索,我国逐步建立起一套政府投资的行政监管体制,对于
本论文所研究的大惯性电液张力模拟绞车属于一种张力控制绞车,它可以根据需求对绞车缆绳上的张力进行控制,从而作为一种负载模拟设备来配合被试绞车或对被试缆绳进行张力控制试验。由于该绞车张力控制系统属于一个时变非线性系统,在张力控制过程中系统参数实时变化,并且张力控制时张力绞车、被试绞车以及缆绳之间存在较强的动力学耦合关系,加之张力绞车大惯性负载的影响,会导致绞车张力控制系统的张力控制精度较低、系统的动态
随着技术变革带来的产业升级以及国家对于知识产权的保护力度的加强,新媒体版权市场的规模快速扩大,新媒体版权运营这一行业也应运而生,并逐渐创造更大的价值。北京捷成世纪科技股份有限公司自2011年上市以来快速发展,2015年之前,主要发展音视频技术类业务,2015年之后以收购影视版权运营公司华视网聚为节点,公司提出以“内容版权运营”的战略核心,正式转型为新媒体版权运营的业务模式,企业规模进一步快速扩大,