面向中文微博文本的情感分类研究

被引量 : 0次 | 上传用户:wuzhigang3481
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络媒体的迅猛发展,以微博为代表的信息发布与信息共享平台得到了普遍应用。在微博平台中包含着表明用户观点或态度的主观情感倾向性文本,主观情感倾向性微博在舆情监控、热点检测等领域具有潜在的应用价值。如何从微博中自动识别表明用户观点的主观微博文本,并判断该主观微博的情感倾向性成为本文研究的目的。本文以中文微博情感分类为主线,展开了如下研究工作:(1)对微博情感词典的构建方法进行了研究。首先对现有情感词典在微博情感分类中的适用性进行了分析,针对现有情感词典对微博中情感词覆盖度不高的问题,整合现有情感词典资源并提出了一种基于平滑的SO-PMI算法对微博情感词典进行了构建,最后对微博情感词典在微博情感分类中的分类性能进行了实验。实验结果表明,本文方法构建的微博情感词典在微博情感分类中具有较好的适用性。(2)对主客观微博文本的分类进行了研究。针对现有主客观微博文本分类准确率不高的问题,利用词典与统计分析的方法对候选主观特征进行了抽取,对抽取的候选主观特征,提出了一种基于粗糙集与概率加权的特征选择算法,通过该算法选取了观点词、感叹号、网络词、语气词、形容词、程度词作为主客观分类特征,最后利用上述特征进行主客观分类实验。实验结果表明,上述特征在微博主客观分类中能达到较好的分类效果。(3)对主观微博文本的情感特征选择进行了研究。首先通过候选情感特征词性表对候选情感特征进行了抽取,并采用微博情感词典对候选情感特征中的非情感噪音词进行过滤;然后,采用卡方(CHI)算法对过滤后的候选情感特征词进行情感特征选择,对卡方算法在进行情感特征选择时存在的局部不稳定性,提出了一种基于CHI-tfidf的情感特征选择算法,最后,进行相关实验,对算法的稳定性与有效性进行了验证。实验结果表明,本文提出的算法在进行情感特征选择时具有较好的稳定性,且当特征维数为300时,分类的准确率为0.794,较信息增益算法、基于微博情感词典的分类算法准确率要高。
其他文献
为探讨习惯性违章行为(HVB)变革规律,在分析变革路径及相关因素基础上,构建HVB变革的系统动力学(SD)模型,运用Vensim软件设计各种仿真试验,模拟HVB变革的动态过程。结果表明:
集装箱运输在各个国家的运输行业中占据着非常重要且难以取代的地位。由于装箱方案本身的问题,工业运输中多数集装箱的空间未能得到充分使用,使得实际利用率不高,并且装箱方
为深入探讨山区高速公路桥隧群行车安全机理,界定桥隧群和桥隧群行车安全的内涵。分析桥隧群行车系统运行机理和耗散结构特性。提出利用熵理论和耗散结构理论来研究山区高速
本工艺选用惰性有机溶剂为稀释剂,采用特殊的水洗条件,抑制了产品的水解,明显提高了产品的收率。
电力变压器是电力系统重要的设备之一,其运行状态直接关系到电力系统的安全、稳定和经济运行。一旦出现故障,不仅会造成大面积停电,带来巨大的经济损失,并可能引起变压器起火
清代散曲的创作虽没有元散曲那样繁盛,但清代散曲还是有值得注意和探究的地方。清代湖湘散曲是清代散曲的组成部分,还有许多值得挖掘的地方。本文从以下四个方面对其进行探讨
雌激素(estrogen)作为女性体内重要的调节类固醇激素,不仅对女性生殖系统的生长和发育至关重要,而且对维持心血管系统、骨骼系统和神经系统的正常功能发挥重要作用。女性在绝
文学是一个民族文化的重要组成部分,不同时期的文学作品能表现出不同的社会性质、经济水平以及人们的思想观念等。在藏族文学史上,从佛教后弘期至新中国成立期间,出现了很多
对外汉语教学的本质目标是培养语言学习者能使用汉语语言能力。综合国内外语言学学者的研究,对于汉语语言能力有着普遍认同的观点,即在实际对外汉语教学中,对外汉语教师一般进行
为深入研究矿工违章行为演化机理,基于复杂适应系统(CAS)理论和多主体建模与仿真(ABMS)方法,构建矿工违章行为演化模型;利用NetLogo仿真平台,并根据矿工所处的不同工作环境,