网络产品评论中情感分析技术的研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:xinlingbing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0技术在过去几年的快速发展极大地改变了人们的生活模式,其中最为显著的改变之一就是购物模式的改变。随着电子商务的蓬勃发展以及各种Blog、BBS、虚拟社区等网络媒介的兴起,使得人们在购物后可以方便地通过这些媒介发表个人见解或评论。挖掘这些已有的产品评论信息,不仅可给潜在的消费者提供必要的购物参考,而且还有助于商家及时跟踪产品使用者的回馈信息,使得商家在后续的市场战略中继续保持优势产品的特性并及时改进劣势产品,最终提高自身的市场竞争力。然而,随着网络评论数量的急剧增长,评论内容的千差万别及其质量的良莠不齐,因此如何从海量评论中获取有效的信息又是一大难题。在此背景下兴起的“评论情感分析”或“评论意见挖掘”吸引了广大研究人员的关注。评论情感分析的研究内容主要涉及评论整体的意见倾向分析、评论中的产品特征挖掘、评论中的主客观内容识别及垃圾评论检测等。   本文以中文网络产品评论为研究对象,重点研究了文本情感分析涉及的两个主要领域:即基于文档级的评论整体褒贬分类,以及更细粒度的基于产品特征的情感分析。论文所做的研究工作和创新点如下:   ■提出了一种基于无监督学习的方法--APSWE来自动挖掘产品评论中的情感词,并基于提取出的情感词对评论进行整体的情感倾向判断。该方法无需对评论进行中文分词预处理,借助少量的种子情感词和一些语言特征,然后利用固定长度的滑动窗口就可提取候选情感词。实验表明与朴素贝叶斯分类法、支持向量机分类法等有监督学习的方法相比,多数情况下本文提出的无监督学习方案的性能超过了监督学习方案,同时该方法也优于现有针对中文评论的无监督学习方案。   ■针对细粒度的基于产品特征的情感分析,提出了利用Apriori关联规则算法来对产品评论进行特征提取,并用基于统计的方法调整k项集中各特征之间的顺序;为进一步筛选出有意义的产品特征,本文改进了经典的PMI计算公式,以便于计算候选特征与产品的语义关联;最后在已获取产品特征的基础上结合HowNet提供的情感词典,对各特征上进行观点倾向性分析。实验结果表明,该方法能有效提取评论中的产品特征。  
其他文献
频繁模式挖掘的目的是从数据中找出出现频率较高的内容,它是数据挖掘领域众多研究方向中最重要的其中一个。按照数据集的不同,频繁模式分为频繁项集和频繁子序列。由于挖掘频
由于IPv4的地址资源在2012年左右将要耗尽,以及现有的基于IPv4的网络对流媒体、安全性等的支持不够,所以IETF很早就制定了下一代网络协议IPv6。IPv6吸收了IPv4的优点并在此基础
随着互联网的快速发展,语义Web服务将成为下一代网络计算的重要发展方向,基于语义的Web服务发现是语义Web服务中的研究热点之一。目前,语义Web服务发现的研究大多数是基于同
随着社交媒体特别是微博的飞速发展,越来越多的民众开始习惯于在互联网上发表自己对于热点时事的观点。如何充分利用这些海量的关于热点事件的数据,对热点事件及其中的民众舆
工作流是业务流程的一个计算机实现,工作流管理系统则是工作流技术的软件实现载体,由于工作流安全方面的研究还不够成熟,本课题希望通过日渐成熟的工作流技术和完善的访问控制解
可视密码方案(VCS)是一种新的秘密共享机制,与传统的密码学相比,加密与解密的过程无需运用复杂的数学运算,而且参与者也无需密码学知识;实现不需要很高的技术,实现成本较低,只需一
不平衡学习问题是机器学习领域的难题之一,其困难主要是由于不平衡数据集本身的特点造成的。比如,某类样本数量严重不足,样本分布不能很好地反映实际分布。而目前现有的学习
移动AdH oc网络是不依赖于任何固定基础设施而通过移动节点间的相互协作来进行网络互联的移动网络。由于没有固定基站,缺乏足够的物理保护、动态的拓扑结构和开放的无线信道、
图像去噪和图像分解是图像处理领域中比较重要的两大课题。自上世纪八十年代以来,基于偏微分方程的图像处理方法逐渐成为研究的热点,并取得了迅速的发展。论文主要对基于偏微
手势识别是近些年来比较热门的一项人机交互技术,它属于机器学习范畴。作为一项对用户限制较小的人机交互技术,世界各地的研究人员们正在进行着将手势识别技术用于各个领域的研