论文部分内容阅读
随着“互联网+”和移动互联网的发展,越来越多的用户参与到产品的线上讨论中,发表对产品的意见、看法等。大量研究数据表明,由于网络评论的易获得性和较高的可信度,网上消费者在做出购买决策前,会在各大相关网站平台搜寻产品信息,比如产品质量、性能、性价比等,进行相似产品的对比,确保买到称心如意的产品。同样,线下生产厂家和商家根据反馈评论可进行产品升级、改造,使产品与消费者的需求更加契合。然而线上评论的急速膨胀使得网络各用户面临着信息泛滥却“转化无力”的困境。用户往往需要费时费力地去阅读产品评论内容,在过滤掉不相关的噪音信息后,挑选出符合自身要求有价值的评价信息内容。事实上,细粒度层面的信息更是用户浏览、查找的重点,也更值得进一步去挖掘、分析与总结。因此,面对互联网中海量的评论内容,本文利用深度学习方法构建产品评论的意见挖掘模型,希望实现对评论文本中的评价对象和情感倾向自动识别的目标,即实现细粒度的产品意见挖掘,这样才能使用户在进行信息搜寻时更快速、更准确地发现目标内容,线下产业链上的厂家和商家也能在短时间内完善产品、优化服务内容和服务方式,线上线下逐渐融合,使得互联网服务向精细化方向发展。本文主要研究对象是意见挖掘中的产品评价对象识别和情感倾向识别两个方面,目前针对这两方面的研究方法主要集中在无监督方法(包含半监督方法)和有监督的传统机器学习模型,基于深度学习的识别研究方法相对较少。无监督方法和传统机器学习模型能够表现出良好的性能,但很大程度上依赖于专家设计的语言学规则和领域词典等先验知识,不仅成本高而且普适性差。而深度学习算法能够自动发掘底层特征到高层特征的抽象概念,利用无监督或半监督的特征学习和分层特征提取算法来代替手工获取特征。基于上述原因,本文使用长短时记忆网络(LSTM)模型以词向量作为输入,分别对评价对象和情感倾向进行识别研究,实现细粒度层面的意见挖掘。其中,由于单条评论文本中可能涉及多个不同的评价方面,因此在训练之前需对评论语料进行处理。本文提出了三种针对多标签语料处理的方法,一是随机选择其中一个标签,舍弃掉多余标签,当成单标签文本进行分析;二是根据标签数量确定语料复制次数,对复制后的语料赋予不同的标签;三是对语料按标签种子集进行拆分,赋予不同的标签。最后,利用CCF大数据与计算智能大赛公开的已标记的用户对汽车的相关评论文本作为样本数据集,验证模型在不同方法下的准确率。