面向微博文本的情绪分析方法研究

被引量 : 0次 | 上传用户:qishanf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的普及、互联网技术的成熟以及Web2.0技术的飞速发展,微博等社交网络已经成为媒体传播、信息发布、用户情绪反馈、情感沟通的重要渠道。对微博文本中所包含的情感和情绪信息进行分析和跟踪,能够了解广大网民对特定产品、人物或者事件的关注程度和情感变化,为决策提供实时和科学的依据。因此,面向微博文本的情绪分析研究具有巨大的社会意义和商业价值。本课题主要研究对微博文本内容进行分析,从中识别和分类微博文本所包含情绪的方法。本文的主要工作包括:第一、针对微博情绪标注语料库缺乏的现状,课题首先设计面向微博文本的情绪标注规范。在这个规范下对微博文本进行微博级和句子级的多标签情绪标注。目前完成14,000条微博,45,431条句子的情绪标注语料库的构建。第二、考虑到主流的单独利用词语句内特征的分析方法对长度短、表达方式灵活的微博文本很难获得较高性能,课题提出一种结合上下文特征和篇章特征的多标签微博文本情绪分类方法。这种方法使用词语句内特征和多标签最近邻分类器作为基分类器,对每个句子进行初始情绪分类。而后引入相邻句子之间的情绪转移关系特征和微博句子与整体之间的情绪转换关系特征,利用上下文和篇章的情绪趋势迭代地修正句子情绪分类结果。在NLP&CC2013微博情绪分析评测语料库进行的实验显示,句子级分类性能相对于基线系统有22.97%的提升。第三、针对在实际应用中较多无情绪微博影响情绪分类效果的问题,课题研究了基于多分类器集成策略的两步微博情绪分类方法。首先集成梯度提升决策树和支持向量机两种分类器进行情绪有无判别,然后利用多分类器集成的方法对有情绪的微博进行情绪分类。第四、在上述工作基础上,构建了一个面向微博热门话题的情绪监控系统,实现了对微博热点话题的情绪分析和可视化。本文主要贡献包括:第一、建立了目前规模最大的中文微博情绪标注语料库。应用该语料库作为公用标准,组织了大规模评测。第二、设计实现了一种采用由粗到精策略、结合使用句内特征、上下文特征和篇章特征的微博文本情绪分类方法。该方法在NLP&CC2013微博情绪分析数据集上达到了目前已知最高性能。第三、针对大规模真实微博文本的特点,设计实现了基于多分类器集成策略的分类方法,有效提高了情绪分类的性能。
其他文献
由于工作超负荷、角色冲突、组织因素和个人因素等原因,高校辅导员存在职业倦怠问题。通过加强辅导员自我调节能力,重视其自我发展及心理健康,明确职责、引入竞争机制等方法,
目的了解广州2014年登革热发病人群分布和时空分布特征及变化趋势,探讨气候、蚊媒对广州登革热发病的影响,为登革热防控提供科学依据。方法系统收集广州2014年登革热疫情资料
本文针对高校非英语专业二年级学生四级写作设计了一份问卷调查,收集4个自然班级共130份期中考试作文为研究对象,基于错误分析理论对样本中的语言错误进行甄别、分类,进而分
首先以竞争战略、企业效率和战略执行为研究平台,探讨企业竞争战略效率的内涵与特征;然后分析我国物流企业竞争战略效率的三大影响因子,即资源、能力和环境,并据此设计物流企
长期以来,人们往往是把马克思《关于费尔巴哈的提纲》的第二条当作“实践是检验真理的标准”的意思来理解的。这种理解未免过于狭窄。笔者认为,马克思这段话的意义远不止于
以硫酸二甲酯和邻苯二酚为原料,在碱性条件及相转移催化剂的作用下合成了愈创木酚。并且对影响反应的各种因素进行了研究,确定最佳的工艺条件为邻苯二酚与硫酸二甲酯的投料比为
<正>10月21日,中国电信云计算贵州信息园奠基仪式在贵安新区电子信息产业园举行。奠基仪式的启动标志着中国电信云计算贵州信息园正式动工建设。中国电信云计算贵州信息园旨
期刊
本试验旨在研究饲料胆碱水平对凡纳滨对虾(Litopenaeus vannamei)幼虾生长性能、体成分、组织胆碱含量、血清生化指标及肝胰腺抗氧化能力的影响,以确定凡纳滨对虾幼虾胆碱适
西伯利亚鲟具有味道鲜美、药用价值高、市场前景广阔等优点,成为了很受欢迎的养殖品种之一。结合景谷县实际,对西伯利亚鲟的养殖技术进行介绍,以供养殖户参考。
1高质量发展提出的背景2017年10月18日,党的十九大开幕,习近平总书记在大会上总结了十八大以来中国的重要变化和下一阶段工作思路,指出了我国经济发展阶段面临新的变化,即由&