基于条件随机场的微博情感对象识别研究

被引量 : 3次 | 上传用户:snwkq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来社交网络飞速发展,越来越多的人通过微博来进行信息交换和分享。由于微博具有短小精悍,使用便捷,传播迅速等特点,使得其广受欢迎。用户乐于在微博上分享自己的观点或体验,这使得微博中存在着大量具有情感倾向的用户评论信息。随着这样的评论信息迅速膨胀,仅靠人工的方法难以应对海量信息的处理和分析。因此,如何利用计算机技术对微博中的评论数据进行有效的加工处理和分析挖掘己成为当前热门研究问题,情感对象识别研究就是用于解决这个问题的一种非常有效的途径。本文主要是针对中文微博文本进行情感对象识别研究,然而对非结构化的文本进行情感对象识别本身就是一个困难的问题,现有研究往往存在一些不足之处。一方面,微博和传统文本是有区别的,其表达简短且具有较大的自由性,通常不是规范的中文语言表达,现有的基础中文文本处理工具并不能很好的适用于微博这种特殊的文本,这为情感对象识别任务提高了难度。为了解决这个问题,本文提出对微博文本进行了规范化处理并构建了包括网络用语词典、表情词典、情感词典和否定词词典等在内的多个词典,通过这种方式不但能够改善现有文本处理工具对微博进行分词和句法依赖解析,而且还能够更加有效地结合上下文信息进行特征提取。另一方面,针对文本中显性出现的情感对象,目前一些方法已经能够有效的识别,但是面对隐性的情感对象时还是显得力不从心。因此,当情感对象直接出现在文本中时,本文采用条件随机场模型和分类模型相融合的方式进行情感对象识别;而对于情感对象并不出现在文本中时,则尝试对蕴含的情感对象进行抽象化处理,提出了一种包含隐节点的条件随机场改进模型用于识别隐藏情感对象。本课题研究的核心思想是将情感对象识别问题看成序列标记问题,利用条件随机场模型在句子级的微博文本上进行对象标注,模型综合利用多种特征改善识别准确度。在实验部分,本文在公开评测数据集和自建数据集两个数据集上进行了实验验证和评估,结果表明模型不但能够较好识别出微博中显性的情感对象,还能够识别出隐藏情感对象。
其他文献
目的:采用N-甲基-N-硝基-N-亚硝基胍(MNNG)和40%乙醇灌胃建立大鼠慢性萎缩性胃炎(CAG)模型,同时采用破气苦降,饥饱失常和疲劳的方法进一步建立CAG脾气虚证大鼠模型。观察CAG
国内现有的文献注重研究香港某个行业发展,而较少从整体上探讨香港经济增长模式。与现有文献不同,文章以转口贸易为主线研究了自20世纪60年代至今香港自由港经济发展的变化特
本文以影视服务业为例,结合"营改增"试点进行税负测算并提出相关对策,以期更好地发挥税收促进文化产业发展的积极作用。
背景与目的:西方国家关于经颅多普勒超声发泡试验诊断心脏右向左分流造影剂的研究较多,而中国相关研究很少。心脏右向左分流可以通过应用不同的造影剂和不同的操作过程来诊断。
在当代国际贸易中,国际结算方式正在悄然发生一些改变,如传统上占重要比重的信用证结算方式正在逐步衰退,让步于托收或汇款结算方式;国际结算中的混合结算方式日趋增多;国际
在当前经济全球化的背景下,国家间的贸易摩擦成为国际经济交往中的一种普遍现象。近年来,随着中美双边贸易的迅速发展,中美贸易摩擦也频繁发生。尤其是最近,中美贸易摩擦出现
数学语言是学习数学知识的基础,是解决数学问题的前提。它以严谨清晰,精练准确为特征。对学生进行数学语言能力的培养是学好数学的关键,数学语言教学直接关系到教学效果的好
本文采用文献资料法和逻辑分析方法对运动训练学作为独立学科的历史进行了研究,依据典型事件和发展的速度,将运动训练学理论研究历史分成四个阶段:运动训练理论的研究的起源
目的:建立同时测定抗感颗粒中芍药苷和绿原酸含量的方法。方法:采用反相高效液相色谱法。色谱柱为Hypersil ODS柱,流动相为甲醇.水.冰醋酸(28:72:0.5),流速为1.0mL·min,检测波长分别
针对传统管壳式换热反应器热阻大、传热系数小的缺点,采用独特设计的新型冷板作为换热元件,开发一种传热系数高、结构紧凑的冷板式换热反应器。通过数值模拟分析催化剂床层及冷