基于维度判别的文本情感聚类方法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:windlam
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着新兴电子商务平台和微博、微信等社交媒体的广泛使用,人们在享受互联网技术带来种种便利的同时,也用文字记载了自己的心情、状态、评价和观点,通过挖掘海量微博和评论文本等社会媒体数据,可以获得用户对产品的情感倾向(褒扬或者贬斥),从而指导企业的决策以及个人的消费行为。使用有监督的机器学习方法需要大量的带标签的文本数据,而无监督的文本聚类方法可以克服这一不足。针文本情感聚类问题,本文从情感聚类维度挖掘和文本语义相似性度量两个方面开展研究,主要研究内容和结论如下:(1)语料分析为了探索影响文本倾向性聚类性能的潜在因素,本文选取英文的产品评论数据和中文的微博数据作为实验语料,通过对数据集的统计以及对评论文本语言特点的分析,发现文本表示的高维、稀疏,情感的隐式表达是影响文本倾向性聚类的重要因素。(2)文本情感聚类的维度判别方法研究针对文本情感聚类问题,提出一种自动引导生成情感聚类结果的方法(DIMSC),该方法包括“特征空间压缩”和“情感维度构建”两个阶段。首先对维度进行特征化表示,然后采用观点词识别技术抽取语料中的观点词,根据维度特征词中观点词的个数,自动判别情感维度。在中、英文不同领域的评论数据上进行实验,结果表明,DIMSC在自动识别情感聚类维度中是有效的,与其他聚类算法相比获得了更高的纯度和F值。(3)基于语义子空间的文本相似度计算方法针对情感聚类中文本-特征向量的高维和稀疏问题,以及对评论文本潜在情感因素的表示问题,提出一种基于子空间的文本语义相似度计算方法(RESS),并探讨基于RESS与DIMSC融合的方法对文本情感聚类效果的影响。实验结果表明,基于RESS的文本相似度计算方法,有效地解决了文本向量的高维问题,并获得较好的聚类结果。基于RESS与DIMSC融合的聚类方法取得的纯度和F值均优于单独使用RESS或DIMSC。该方法也适用于非平衡数据集。
其他文献
随着网络的普及,电子邮件与人们的工作生活联系日趋紧密,随之而来的垃圾邮件问题日益严重。在分布式垃圾邮件处理领域,基于Nilsimsa摘要的垃圾邮件识别技术和基于信誉机制的垃圾
图像配准是对不同时间、不同角度所获得的同一场景的多幅图像进行最佳匹配的过程,即将图像对齐后,明确图像空间位置变化与强度变化,然后确定图像序列之间位置映射关系或强度
随着互联网的快速发展,人们已经从信息匮乏时代进入了大数据时代,和搜索引擎一样,个性化推荐系统也是一种帮助用户在信息过载的情况下快速发现有用信息的工具,它依据用户的特
进销存管理是企业经营管理中的核心环节,中小企业的进货、销售和库存信息量非常庞大,如果能对这些数据进行统计分析,就可以利用这些分析结果进行相关的决策。在企业建立一套完善
随着民航信息化程度日益加深,各航空公司的订票系统中都积累了大量的旅客订座记录(Passenger Name Record,PNR)数据信息。在常旅客VIP会员制度不能对旅客出行形成有效吸引力
短信防火墙的基本功能是对新到短信进行过滤,根据用户设置作出相应的处理,以避免垃圾短信的骚扰。本文从用户需求角度出发,提出短信防火墙在基础性的短信过滤功能之外,还应提供以
人事管理部门在任何企业都是一个非常重要的部门,在高校也不例外。因此人事管理的好坏对判断一个企业或者一所高校它未来的发展有着很重要的作用。目前在高校人事部门中有办公
英特网上的信息与日剧增,蕴藏着巨大的信息量。对产品的各种评价出现在各大论坛、电子公告板以及门户网站上,厂商需要了解顾客使用其产品的反馈意见,潜在的购买者也需要做出
语音是语言信息的载体,是人类交流信息最自然、最有效、最方便的手段。在许多情况下,人们所关心的语音信号不可避免地被其他信号所污染,影响了人们的听辨。小波变换在当今信
车间作业调度问题是多任务作业调度问题的一个重要内容,它是指在车间生产过程中对共同使用的资源实行时间分配从而达到某一最优目的。作为一个NP难题(Non-deterministic Polyn