面向银行微博文本的情感分析方法研究

来源 :北京交通大学 | 被引量 : 6次 | 上传用户:q80602655
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种典型的社会化网络应用,微博对人们生活的影响与日俱增,也吸引了众多学者的研究兴趣。微博中规模庞大的用户群每天可产生海量信息,分析这些信息背后的情感倾向性具有很大的商业价值和社会价值。因此针对微博的情感分析问题,已成为当前的研究热点。微博具有短文本特征,其情感分析涉及到多个核心环节,尤其是特征选择和提取、领域知识的差异等,直接影响到情感分析的准确性。本论文以银行业务有关微博文本为对象,针对基础停用词表缺乏领域适用性的问题、传统TF-IDF缺乏词语位置分布信息和上下文语义关系问题,研究文本情感分析方法,构建银行领域停用词表,并提出一种基于LSA和改进后TF-IDF的混合算法用于特征选择与提取。论文主要工作如下:(1)提出了构建银行领域停用词表。停用词表的使用主要是为了在信息检索的过程中提高检索效率,节省时间和空间成本。然而,不同的领域对停用词表中的内容会有不同的要求,而目前已有的停用词表都不具有领域适用性。本论文在基础停用词表的基础上,采取词频法和文档频次法对其进行增补,同时采用情感词典的方法对其中部分情感词进行删减。实验结果表明,银行领域停用词表相比传统停用词表,性能良好、内容完全、具有领域性,可以很大程度的减少文本中的无意义字词,从而减少文本噪音,提高特征项的选择准确率。(2)提出了基于LSA和改进后TF-IDF公式的混合算法。传统TF-IDF主要是通过词语频率进行特征项选择,该方法的缺陷是只注重数学计算,而忽略了词语在类内和类间的分布问题以及上下文之间的语义关系。针对上述问题,本论文首先对IDF的公式进行了改进,将特征项在类内和类间的分布引入计算,从而解决了词语的位置分布问题。接着引入潜在语义分析的思想,通过标识词语间的相似性,解决了 TF-IDF忽略语义关系的问题。(3)仿真对比实验验证了本文构建的停用词表及改进的混合算法的性能。针对提取出的特征,将其分别应用于朴素贝叶斯、逻辑回归、Libsvm、Liblinear四种分类器进行模型训练,并从准确率、召回率、F值三个方面对本文提出的方法进行验证。结果表明,使用重新构建的停用词表后,特征词提取的准确率有了约1%改善。运用本文改进后的混合算法,情感分类的准确率、召回率、F值都有了 3%左右的提升。
其他文献
"教师""团队""成长"包含了两层含义:一是教师因为团队而获得成长,二是团队因为教师的成长而获得不断提升,教师与教师,团队与教师都是相辅相成,互为影响的。一个团队好比是一
随着焦平面探测器技术的发展,红外成像系统的性能评估和预测技术取得了很大进步,红外成像系统的现场性能预测模型也不断发展,成像系统性能预测考虑了欠采样、数字滤波、电子
介绍了采用颗粒活性炭和活性炭纤维二级吸附回收甲苯有机废气的工程实例。通过合理的设计,项目运行稳定可靠,甲苯去除率达97%以上,能够符合GB 16297—1996《大气污染物排放标
在小学教育之中,班主任不仅是学生们管理者和教育者,也是其引导者。由于小学生生性爱玩,自控能力不强,使得班主任的管理工作存在较大难度。因此,班主任理应深入分析早期工作
根据生产建设项目特点及监测新规程对水土保持监测的要求,分析了生产建设项目水土保持监测存在的主要问题,如监测实施相对滞后、监测依据变化较大、监测技术参差不齐、监测设
互联网时代的到来,信息技术的快速发展促使互联网与大学英语教育相结合。本文描述了“互联网 + 教育”和混合式学习的内涵及特征;阐述了“互联网 + 教育”背景下大学英语教学运
目前院校设计类专业承担着培育设计类人才的重任,然而传统教学模式下培养出的学生质量与实际就业中所需的人才质量水平差距很大,教学存在滞后现状,设计类毕业生普遍不具备足够的
本文从稳性交叉曲线出发,导出了稳性衡准的计算公式。
近年来,随着国家经济的快速发展,教育事业也不断进步,社会各界越来越重视学生的教育问题,特别是高中学生的教育。学生家长亦或是高中班主任都对教学的要求变得越来越高,因而
本文主要结合施工实践,对轨道板施工工艺进行了详细的介绍和阐述,同时也提出了一些技术控制要点,希望能对无砟轨道的施工具有一定的参考价值。