基于CRFs的产品评论情感分类

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:fever1879
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网用户数量的急剧增加和电子商务的迅猛发展,网络上涌现出许多B2B、B2C网站(如京东商城、淘宝、当当网等)。这些网站有一个共同的特点,就是在产品销售的同时,还为消费者提供了一个发表产品评论的平台。消费者能及时的把自己对商品的评价展现出来,这些评论信息能反馈给商家和潜在的消费者。商家能根据反馈改进商品或调整销售策略,潜在的消费者通过参考别人对商品的评论,做出正确的购物选择。但是互联网的信息数量巨大,如何在大量的评论信息中找到有价值的信息,并全部阅读这些评论做出正确的决策,这是十分困难的,所以急需一种快速、精准的文本信息挖掘方法对海量的评论信息进行分析。另外,伴随着网络语言的变迁,这种挖掘方法必须具有机器学习的能力,实时更新词汇,这样才能得到正确的分析结果。情感分类是文本挖掘的一个应用,是目前人工智能研究领域的热门的课题,很多学者致力于语言和图像的情感表现方面的研究,研究出熟谙并能准确分析汉语情感的人工智能机器学习方法。本文简述了文本挖掘的概念和相关技术,然后着重介绍了在进行评论情感挖掘时涉及的技术,包括序列标注技术、条件随机场(CRFs)算法以及评价指标。在本文的第三章,我们利于上述技术对评论文本情感分类进行深入探讨,我们采用文本分类领域的特征选择确定特征模板,然后通过字标注系统,将评论文本情感分类问题转换为序列标注任务,最后采用CRFs机器学习的方法对其情感分类。另外,我们提出了一种情感强弱的评分机制对情感分类结果进行排名。实验结果表明基于CRFs的评论情感分类能达到较高的准确率,对于分类结果的情感强弱排名也比较符合客观事实。本文的主要贡献在于以下几个方面:1.基于传统的正反两种情感倾向的情感词典基础上,采用《知网》的计算词语相似度方法,考虑了情感词的词性、程度副词、否定词对情感倾向的影响,构建了一个较为完备的情感词典。2.采用序列标注技术,将CRFs机器学习方法引入到评论文本情感分类中,得到了较高准确度分类结果。3.提出了一种基于最大熵的排名算法对情感倾向的强弱进行排名,使得分类结果更加客观。最后,本文构建了一个基于互联网的产品评论信息情感分类系统,该系统将情感分类结果以列表的形式展现出来,用户可以从中得到有价值的信息。
其他文献
物联网是近年来新兴的网络技术,该技术在产品供应链,库存管理等等领域倍受关注。在物联网构架中,网络压力有很大一部分会集中在后端物品编码解析服务器上,如果在EPC解析过程中,ONS
在当今的互联网时代,Web是信息的重要来源,网页则是展示信息的重要媒介。网页传递着各种信息,但是其中有大量噪音信息严重影响了 Web信息的自动化挖掘和采集。如何准确的识别
在信号的时频分析过程中,Gabor变换作为一种有力的分析工具,克服了傅里叶变换不能确切地描述信号频率随时间变化情况的缺点。然而,由Dennis Gabor提出的传统复值Gabor变换由
虚拟现实技术,是20世纪末兴起的一门综合性的信息技术。它融合了计算机图形学、多媒体技术、人工智能、传感器、网络等多个信息技术的分支,为我们模拟现实世界的自然景观提供了
在心电信号采集过程中存在工频干扰、运动伪迹、肌电噪声和基线漂移等,因此,为了提高诊断心血管疾病的准确性,对心电信号进行去噪研究具有非常重要的临床价值和现实意义。  
二分网络是复杂网络的一种重要的表现形式。网络中的社团定义为内部连接紧密对外连接稀疏的节点集合,发现网络中的社团结构,对于了解网络结构和分析网络特性具有重要意义。二分
本文介绍了一种新的四元数傅立叶变换(即四元数S变换)用于分析彩色图像。QS实质上是一个窗口化(局部化)的四元数傅立叶变换,该变换利用了一个圆形对称的高斯窗保证了变换的旋
随着三维数据采集技术、计算机硬件以及三维造型软件的发展,出现了大量的三维数字几何模型,并在影视制作、网络游戏、计算机动画、工业设计、科学计算和文物保护等领域得到了
软件形式化开发是大型软件开发的主要手段,能够在软件设计初期最大限度的降低错误率,节省开发时间,便于开发人员间的交流,同时还可以提高软件的可信度。形式化方法是在严格的数学
在当前社会,推荐系统已经取得了广泛的应用,从小型社区到大型电子商务网站,推荐系统无疑在扮演着十分重要的角色。如何计算用户对一个物品的感兴趣程度在推荐系统领域是一个