中文文本情感分析关键问题的研究和优化

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:qq12433184000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,使用互联网的人数剧增,使得在互联网中产生了丰富的文本信息。将这些文本数据量化,会产生很重要的数据价值。而中文文本情感分析是对文本信息进行分析、研究的一种方法,目前主要的文本情感分析方法是语义理解和机器学习。本文从统计机器学习的角度出发,进行的研究工作主要分为以下三个方面:1、改进特征选择算法。特征选择是文本情感分类重要的步骤,可以有效的降低特征项的数量,减少无关特征项的干扰。本文在分析信息增益算法的基础上,根据算法的不足设计了相应的计算因子,提高了信息增益算法选择的特征词的分类效果。最后设计实验验证融合计算因子后算法的性能。2、对SVM的理论进行学习,发现分类器的训练时间受输入数据和支持向量数量的影响,而构建超平面时只有支持向量起重要作用,使得训练数据过大时,影响模型训练时间。根据K-means聚类算法保留原始数据分布结构的特点,将其与SVM算法结合,缩减训练数据集,加快训练时间;SVM的惩罚因子和核参数的选择影响分类结果,借助遗传算法,找到最优的参数组合,获得较好的分类效果。将上述两个算法与支持向量机融合,设计实验验证优化算法的性能。3、基于上述的算法优化,搭建文本情感分类模型,通过比较实验,检验模型的情感分类效果。
其他文献
一道计算题的错解分析福建省诏安县桥东中学(363500)张丽耿福建省96年高二化学会考有一道关于氨水浓度的计算题,考生容易做错.笔者通过调查,就考生出现的几种解法进行错因分析如下:[E目]标准状
富勒烯/高聚物组合体系是物理化学,材料等交叉学科研究的一个热点,该组合体系中电荷会对组合体系的物理,光学及非线性光学特性产生很大的影响。文章对富勒烯/高聚物组合体系中电荷
一道容易错解的题广东茂名水东开发区一中(525027)易一已知氯有两种天然同位素Cl和Cl;氯元素的平均原子量为35.5;钠元素只有一种原子Na.求10吨纯度为90%食盐(杂质为砂子)样品中含Cl多少吨?含NaCl多少吨?此题对学生
分析了锌电积过程中影响电流效率的因素,找出了提高电流效率的措施。
科研人员在有关科研活动中违背科研诚信的问题,日益受到全社会的关注。归纳分析科研失信的主要表现,阐述科研诚信体系建设的重要性和必要性,提出科研诚信体系的多维度建构策
在我们经济、社会快速发展中,事业单位的日常工作开展离不开高效、科学的规章制度。事业单位想要提升自己的运营、管理水平,对员工的管理和考核方式也需要不断改变和提升,科
服装业是购买者驱动的产业,如果不下决心建立自己的销售渠道,只能是中国品牌。永远不可能成为世界品牌。七匹狼、波司登、三枪等企业尝试走出国门,业界对此看法不一。但是将自主
信息论是改革化学教学方法,提高化学教学效果的有力工具。美国实验心理学家斯金纳所提出的程序教学就是运用信息论的结果。本文拟就化学教学中的信息方法作一初步探讨,以期抛
作为推动我国司法民主的重要制度,人民陪审员制度几经更迭,发展至今,并未实现制度设计的初衷,“陪而不审”“审而不议”等成为常见的现象。文章从人民陪审员制度的背景出发,