论文部分内容阅读
近些年,伴随着国民经济水平的上升,汽车在居民出行上的比重越来越大。同时,由于网络的高速发展,互联网平台上出现了各种汽车评论网站,比如爱卡汽车、汽车之家和易车网等。顾客在进行购买汽车前通常会借助相关网站去了解汽车的品牌、款式、性能和价格等信息。在购买汽车后,顾客经常会主动分享购车经验到这些平台上。因此,这些平台拥有大量的汽车评论数据。各大汽车厂商越来越关注此渠道的信息挖掘分析,以期达到分析用户需求、改良已有产品不足和挖掘竞争对手信息的目的。经过大量的观察发现,网站上的汽车评论普遍存在着主观性和随意性的特点,导致很多评论反馈出的情感极性和厂商关心的汽车指标的主题句并不确切。因此,论文对汽车评论数据的挖掘研究主要包括两个方面的内容:一方面,快速识别出每条评论所表达的情感极性,有利于厂商得到顾客准确的情感倾向。另一方面,从短文本汽车简评中提取厂商关心的特定汽车评价指标的主题句,有助于提高各大厂商对评论数据检索关键信息的效率、快速提升产品的质量和实现对顾客的个性化营销。因此,本文利用爬虫技术收集了国内综合排名前五的爱卡汽车网站上两万多位顾客的汽车评论数据并对此进行挖掘研究。首先,确立针对汽车评论数据的“情感分类分析”和“主题提取分析”为两类探索分析目标。其次,通过统计学理论对获取到的数据进行处理分析和建立特征工程,为提升评论数据挖掘研究的效果打好基础。然后,针对两个分析目标分别构建相关模型。最后,进行模型的评估和研究结果的输出展示工作。具体研究内容和相关结论如下:(1)在情感分类分析中,首先进行文本数据标记、数据清洗和特征选择等工作。其次,利用XGBoost、朴素贝叶斯和正则化逻辑回归三种算法进行用户评论的“正向”或“负向”的情感二分类建模。从情感分类分析的结果可知,基于正则化逻辑回归算法所构建的模型做分类器时效果最好。(2)在主题提取分析中,首先,对爬取的文本数据进行切句、预处理之后,进行多分类正则化逻辑回归模型的建立。其次,针对每段测试文本,预判每条断句的所属类别概率。在此基础上结合合理的句子拼接规则进行包括“外观”、“内饰”、“空间”、“舒适”、“油耗”、“动力”、“操控”、“四驱”和“性价比”这九个相关的主题句提取工作。从提取的结果中发现,此种主题提取的方法准确度较高。在理论方面,本文所提出的基于汽车评论数据的分析方法在其它领域数据的挖掘研究上有一定的参考价值。在应用方面,该方法对汽车各大厂商进行消费者行为分析和实现精准营销存在很大程度上的指导作用。