面向微博评论的LDA短文本聚类算法研究

来源 :河北工程大学 | 被引量 : 1次 | 上传用户:yhch157
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博因其评论的便捷性得到了广大民众的喜爱,成为国内最受欢迎的社交媒体平台之一。微博评论具有语义稀疏和高维性等特点,其中往往带有强烈的情感色彩,对微博评论的情感分析是获取用户观点态度的重要途径。目前,LDA主题模型成为微博评论分析领域的研究热点。本论文针对传统LDA在微博评论情感分析方面准确率欠佳的问题,利用特征提取与词共现技术,通过情感主题特征词加权,深入进行了面向微博评论的LDA短文本聚类算法研究,提高语义信息质量,优化微博评论的情感分析聚类效果。主要研究内容如下:第一,介绍LDA主题模型短文本聚类关键技术,主要内容包括LDA主题模型基本原理、特征提取技术、词共现模型。第二,针对传统LDA在主题情感分析和语义提取两方面能力欠佳问题,提出基于情感词共现和知识对特征提取的LDA短文本聚类算法。首先,定义基于情感词共现的词袋,充分考虑情感词在不同短文本间的共现情况,对微博短文本赋予情感极性;然后,分别设计主题特征词和主题关联词构建算法,通过提取主题特征词和主题关联词的知识对集,将其注入到LDA主题模型中进行一次聚类,进而发现更准确的语义信息;最后,对LDA主题模型一次聚类获得的Top30主题特征词集,采用K-means算法进行二次聚类,迭代地优化聚类中心。第三,针对微博评论的情感分析准确率不高的问题,提出基于情感主题特征词加权的微博评论聚类算法。首先,通过定义情感主题词袋提取出情感主题词;然后,利用语义相似度计算获得情感主题特征词,通过定义情感主题特征词重要度和分布度两个参数对其进行加权,提高表达能力强的情感主题特征词的权值;最后,通过LDA对加权的情感主题特征词进行聚类。实验结果表明,本文设计的基于情感词共现和知识对特征提取的LDA短文本聚类算法,表现出较好的语义分析能力和情感主题聚类效果。另外,本文提出的基于情感主题特征词加权的微博评论聚类算法,也表现出较好的情感分析聚类效果,提高微博评论情感分析的准确率。
其他文献
分析了影响农民工工资变化的宏观因素,发现中低层管理人员与规模较大企业的工资优势随时间段靠近而减弱,城镇居民消费水平逐年增加与农民工平均受教育水平的逐年缓慢增加,均对农
2月24日,“顺丰控股”亮相A股,并在深交所敲钟上市,这也意味着其正式亮相资本市场。至此,占据中国快递市场最大份额的“通达系”(三通一达)四家企业均已完成上市,中国快递行业站上新
伴随居民消费的不断升级,我国居民参与体育锻炼的热情日益高涨。根据2l世纪经济研究院、21世纪报系、京尔联合调查出品的《2016中国体育消费生态报告》可见,中国的年轻一代也正
我国的房地产行业作为当前经济发展的支柱型产业对国家经济发展有重要的推动作用。但是在房地产行业快速发展的同时也出现了很多问题,文章根据当前国家政策,对房地产问题产生
随着国民经济的飞速发展,国民收入水平的普遍提高,汽车保有量也在迅速增长。据不完全统计,截至2016年年底,全国机动车保有量已达2.9亿辆,机动车驾驶人3.6亿人。一线城市的汽
基层是社会经济发展的基础,基层治理一直是我们党面临的重大课题。在当下,它又是全面建成小康社会的短板。在此背景下,习近平将基层作为我党治国理政的重点方向,审时度势地强调基层发展与治理,开拓了中国共产党基层建设新领域,勾画了治国理政的现代化理想蓝图,提出了具有中国特色的基层观。从来源上来看,习近平基层观继承发展了马克思主义关于基层的理论,中国共产党历代领导人的基层思想,吸纳了中国传统的基层治理智慧,奠
以"中国企业-雇员匹配调查"(CEES)数据库中2014年的数据为样本,利用多元线性回归方法,研究我国制造业企业的产品质量信号,是否与其融资成本存在相关关系。研究以通过问卷调查所获
分析国际能源对粮食价格传导的生产成本渠道,并采取VAR模型进行了实证分析,得出结论:能源价格波动通过生产成本渠道导致粮食价格发生同向变化,能源投入要素的产出弹性、粮食生
本文总结了湖南农业大学茶学专业在国家教育部和湖南省教育厅的大力支持下,在教学改革、师资队伍、实验室和实践基地、人才培养、科学研究和社会服务等方面均取得的建设成绩,籍
选择盲是指,人们无法注意到他们的选择偏好和被呈现结果之间的不同,但却赞同与他们的最初的选择相反的结果,并为相反的结果提供了选择理由的现象。在日常购物,消费者从几个相