社交网络热点话题公众情感极性实时计算研究

被引量 : 0次 | 上传用户:wangyuange
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网不断发展,如今数以亿计的网民可以通过微博、论坛、贴吧等社交平台对热点问题发表意见和建议,时刻都在产生海量的数据。这些数据具有增长迅速、结构多样、动态更新、范围广泛等特点,蕴含着社会各个阶层的公众情感信息。进行公众情感信息数据挖掘研究,对于信息检索、电子商务、舆情监控等领域具有重要意义。社交网络公众情感信息挖掘已经进入海量数据处理阶段,并且实时性需求越来越迫切。目前针对海量公众情感信息挖掘通常采用非实时性的批处理计算方式,且挖掘研究较少涉及到实时计算业务及互联网短文本情感极性特征。因此针对社交网络公众情感极性实时计算课题,本文分别从文本情感计算和流式实时计算两个方面展开研究:(1)文本情感计算的准确性将直接影响社交网络公众情感挖掘效果。由于社交网络公众信息,通常具有语句结构不规整、上下文语境复杂多变、网络词汇及情感符号丰富等特征,于是文本情感计算容易发生较大偏差。通过研究文本情感计算构建情感词典及模板匹配方法,本文提出一种综合两者特征且结合其它情感极性影响因素的规则匹配方式短文本情感极性计算方法。首先,将情感本体词语区分为单极性词语与多极性词语。接着,单极性词语根据相应的情感词典进行情感极性及强度标注,而多极性词语则运用结构规则匹配与关键词规则匹配进行词语情感极性计算。在完成词语级别的情感极性值计算之后,然后结合修饰词、句子语气及表情符号情感影响因素,最后进行语句及短文本层面的情感极性值计算。(2)针对社交网络中公众情感信息实时挖掘的业务需求,且结合社交网络中流式短文本数据的特征,本文提出关于流式短文本数据的一种通用实时计算模型,即RUBP模型。其中RUBP模型的核心实时计算模块是依托于Twitter Storm框架实现,因此RUBP计算特征与Storm框架计算特征类似。基于通用实时计算模型,研究与业务挖掘相关的流式计算方法,其中包括顺序计算方法和趋势计算方法,并对于RUBP模型进行性能优化,提出基于拓扑结构和基于通信量的两种不同调度改进方式。(3)结合上述研究内容,本文进行了社交网络公众情感极性实时计算实验与分析。针对某一热点事件的微博数据,运用RUBP模型与基于规则匹配的短文本情感极性计算方法,进行模拟实时计算实验,并通过批处理实验进行比对。实验结果表明RUBP模型与基于规则匹配的短文本情感极性计算方法具有较好的可行性,且两者结合可以进行社交网络公众情感极性实时计算研究工作。
其他文献
2010年4月16日,中国正式启动沪深300股票指数期货,它的引入标志着中国金融市场进入良好的发展阶段,为市场提供了新的规避风险工具,对推进中国金融市场稳定、健康发展具有深远意义
随着社会经济的发展、人民生活水平的提高,出租车已经成为城镇居民普遍的出行方式。出租车因安全、舒适、快捷的运营特点深受大众的欢迎。但是近年来人们对出租车行业运营服务
处于不同发展水平和不同收入阶段的国家,由于经济社会发展特征不一致,城市化对能源强度的影响也可能不同。采用52个国家1980—2010年的数据,利用面板门限回归计量方法,以人均
手动间歇式家用低压喷雾器由于使用安全,绿色环保等特性受到了越来越多人的青睐,这类喷雾器的手动间歇工作方式,难以产生高的压力,要获得好的喷射效果,主要取决于喷嘴的雾化
本文以政府促进竞争与限制竞争为基础,以反垄断制度与政府管制制度的协调互动为主线,在此基础上充分借鉴发达国家的制度优势,分析研究我国在反垄断制度与政府管制方面存在的
高效卷取作为一种衡量酸洗机组卷取性能的重要技术指标,正逐渐被企业所重视,他不仅能够提高生产效率而且是提高产品成材率的重要保障。本文依托莱钢冷轧薄板推拉式酸洗机组的现
目的:分析局限性急性牙髓炎行活髓保存术治疗中予以患者生物陶瓷iroot bp PLUS的治疗效果及影响。方法:将2015年9月~2018年9月本院综合急诊科接诊局限性急性牙髓炎患者共84例
文章通过文献资料、专家访谈、问卷调查等方法对武术套路作为选修课在卑尔根联合大学开设的可行性进行调查研究,对现存在的问题进行概括,并试图构建理论和实践的课程框架,为
迅速发展的科技引发了一次次教育变革,云计算作为一种新型计算模式,它的兴起与广泛应用将为教育领域注入新的活力。随着云时代的到来,移动学习与云计算的结合势不可挡。本文
<正>改革呈现调定位、划范围、控风险三大亮点。中国政府网4月12日公布了国务院对国家开发银行、中国进出口银行和中国农业发展银行改革方案的批复。专家表示,这次改革呈现调