基于机器学习的中文微博情感分类实证研究

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:ceng0606
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
使用三种机器学习算法、三种特征选取算法以及三种特征项权重计算方法对微博进行了情感分类的实证研究。实验结果表明,针对不同的特征权重计算方法,支持向量机(SVM)和贝叶斯分类算法(Nave Bayes)各有优势,信息增益(IG)特征选取方法相比于其他的方法效果明显要好。综合考虑三种因素,采用SVM和IG,以及TF-IDF(Term Frequency-Inverse Document Frequency)作为特征项权重,三者结合对微博的情感分类效果最好。针对电影领域,比较了微博评论和普通评论之间分类模型的通用性,实验结果表明情感分类性能依赖于评论的风格。
其他文献
昆明种小鼠58只,随机分成实验组(25只)和对照组(33只)。实验组按8mg/kg·d剂量,腹腔内注射香菇多糖,连续给药16天;对照组未作任何处理。分别灌洗两组小鼠的腹腔巨噬细胞,以51Cr释放率法测定巨噬细胞对肿瘤
<正>故障现象:一辆国产奔驰E280轿车,配置W211底盘、M272型V6发动机。客户抱怨,该车行驶在不平路面时,仪表板处有"啪嗒"、"啪嗒"异响声,前来我处进行修理。故障诊断:首先出去
<正>车型:奔驰S350轿车,底盘型号为W221,发动机型号为272。故障现象:空调鼓风机不正常工作,即使关闭点火开关,鼓风机仍然工作,直到蓄电池电压降低到没电。故障诊断:首先从外
单分散纳米晶因其均一的尺寸而表现出尺寸效应、表面效应等不同于体相材料的优异性能,同时也是组装具有功能特性纳米结构材料的理想构建基元.因此,合成单分散纳米晶具有十分
K-means算法所使用的聚类准则函数是将数据集中各个簇的误差平方值直接相加而得到的,不能有效处理簇的密度不均且大小差异较大的数据集。为此,将K-means算法的聚类准则函数定
<正>海尔与国美成功合作的原因既包括双方良好的声誉、广阔的合作前景,也包括双方认知理念的转变以及组织结构的密切配合。案例海尔与国美合作关系发展历程1.交易型合作关系
偏见是一种特殊的态度,偏见现象在社会生活中无处不在。学校阶段,正是学生个体社会化过程非常关键的一个时期,而由于教师所持有的偏见对学生个体社会化所造成的负面影响,应引
在时间序列的GMBR表示的基础上,首次提出将基于距离和基于密度的时间序列检测方法结合,给出了时间序列模式异常的定义,并用"异常特征值"来衡量时间序列模式的异常程度。根据
睡虎地秦简1975年出土于湖北省云梦县睡虎地11号墓,其内容主要是秦律和秦、楚日书,抄写时间不晚于秦代。《睡简》中还存有不少方言词汇。在已有成果的基础上,依据《方言》《
边缘检测是图像处理和模式识别领域的基本课题。阐述了传统的边缘检测方法——微分算子法和现代的一些边缘检测方法——小波分析、形态学、分形、模糊学、人工智能、遗传算法