基于TH-LDA模型的中文微博热点事件检测及情感分析

来源 :西南大学 | 被引量 : 0次 | 上传用户:tmac0000000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在微博平台上,涉及生活、人际交往等各种信息以前所未有的速度增长,并呈几何级增长式传播。社会上许多突发性话题,往往在微博平台上首发,并快速传播,迅速成为热点,引起广泛的社会共鸣,进而波及传统媒体,产生巨大的社会影响。微博平台上的热点事件检测技术,对于最新社会热点发现、网络民意及时感知、舆情检测、应急处理等方面都具有积极的现实意义。用户通过微博平台对热点事件表达自己的观点和抒发自己的情感,互相交流讨论,形成了海量情感文本信息,通过对这些情感文本信息进行分析处理,可以挖掘出其背后隐藏的有价值信息。本文对现有关于微博热点事件检测和情感分析的研究进行分析,指出了微博上进行相关研究所遇到的问题,其一是利用微博标签属性建模来获取热点事件时,对不含标签的微博文本处理和子事件检测问题;其二是微博情感分析中网络流行语获取和其情感极性判定的问题。在此基础上,本文提出了TH-LDA模型来解决微博热点事件检测,基于词典和网络流行语情感极性特征的情感分析方法,研究工作主要包含以下内容:(1)提出了TH-LDA模型,将微博中可用于检测和分析微博文本主题的话题标签(Hashtag)、时间因素(Time)与主题模型LDA相结合,实现热点事件检测,利用此模型对同属于一个热点事件的不含标签的微博文本进行检索,得到更为全面的同一热点事件的微博文本集合,同时实现热点事件中子事件的检测,进而能够更好地对事件的演化发展进行追踪。(2)提出了网络流行语过滤规则(Network Catchwords Filter Rule,简称NCF规则)来构建网络流行语词典和网络流行语情感词典。根据网络流行语词典获取微博文本中的网络流行语,利用网络流行语情感词典对网络流行语的情感极性进行判定。(3)实现微博的情感分析。结合已构建的基础情感词典、表情符号词典和网络流行语情感词典,并融合网络流行语的情感极性特征对微博情感极性进行判定。实验结果表明,TH-LDA模型能够更准确地获取同一事件中不含标签的微博文本信息,实现了热点事件中子事件的检测,也能更好地追踪热点事件演化发展;NCF规则能够构建较完善的网络流行语词典,网络流行语的情感极性特征对微博的情感极性判定起到了很好的矫正作用,实验验证了该方法的有效性。
其他文献
最佳混合范数逼近@王建东...
在近代大众媒介兴起前,文献传播的途径仍相当狭窄。带有组织机构性质的官方藏书存在明显的封闭性,商业化的图书市场则偏重于蒙学读物、生活用书及文艺作品,因而人际网络成为
现代医学的发展使急诊医学成为一门独立的医学学科。急诊医学是反映临床医学科学水平的重要标志之一。传统的临床医学教育方法存在着一定的缺点和不足,尤其是不适合急诊的临
我国档案社交媒体运营面临功能定位失衡、运营管理模式滞后、内容生产路径狭窄、服务模式僵化等制约因素,需要明确基于诉求平衡的档案社交媒体功能定位、推动基于多元协作的
以污水处理厂脱水污泥和废塑料为主要原料,通过污泥处理、聚合物改性,采用热塑复合法可以制备出聚合物复合材料及对应的微孔材料,影响材料性能的主要因素有污泥形态、废塑料
罗非鱼6月下旬,海南地区,规格在500g以上的罗非鱼价格为4(赊账)元/500g,价格与上个月同期相比基本持平,现金走货3.9元/500g,价格与上个月同期相比基本持平。规格在500g以下基本
电力电缆接口在线温度监测系统与电缆的安装、表面温度以及负载电流有很大关系。为了更好地保持电力电缆的稳定性,需经过周密的计算和温度监控,一旦发现情况,及时处理解决。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的探讨不典型带状疱疹的早期诊断。方法收集5例带状疱疹病例对其进行临床诊疗研究,对其给予抗病毒、止痛、营养神经及预防感染等治疗,局部用阿昔洛韦乳膏、六神丸碾粉末调
随着新教改的全面推广,中学英语新课程标准的实施和新版教材的推行使用,在中、高考比较突出的,就是直接考查语法知识的题目少了,相应的分值也小得多了。因此在英语教学中,语