基于逻辑回归模型的汽车评论挖掘研究

来源 :天津商业大学 | 被引量 : 0次 | 上传用户:piscisboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,伴随着国民经济水平的上升,汽车在居民出行上的比重越来越大。同时,由于网络的高速发展,互联网平台上出现了各种汽车评论网站,比如爱卡汽车、汽车之家和易车网等。顾客在进行购买汽车前通常会借助相关网站去了解汽车的品牌、款式、性能和价格等信息。在购买汽车后,顾客经常会主动分享购车经验到这些平台上。因此,这些平台拥有大量的汽车评论数据。各大汽车厂商越来越关注此渠道的信息挖掘分析,以期达到分析用户需求、改良已有产品不足和挖掘竞争对手信息的目的。经过大量的观察发现,网站上的汽车评论普遍存在着主观性和随意性的特点,导致很多评论反馈出的情感极性和厂商关心的汽车指标的主题句并不确切。因此,论文对汽车评论数据的挖掘研究主要包括两个方面的内容:一方面,快速识别出每条评论所表达的情感极性,有利于厂商得到顾客准确的情感倾向。另一方面,从短文本汽车简评中提取厂商关心的特定汽车评价指标的主题句,有助于提高各大厂商对评论数据检索关键信息的效率、快速提升产品的质量和实现对顾客的个性化营销。因此,本文利用爬虫技术收集了国内综合排名前五的爱卡汽车网站上两万多位顾客的汽车评论数据并对此进行挖掘研究。首先,确立针对汽车评论数据的“情感分类分析”和“主题提取分析”为两类探索分析目标。其次,通过统计学理论对获取到的数据进行处理分析和建立特征工程,为提升评论数据挖掘研究的效果打好基础。然后,针对两个分析目标分别构建相关模型。最后,进行模型的评估和研究结果的输出展示工作。具体研究内容和相关结论如下:(1)在情感分类分析中,首先进行文本数据标记、数据清洗和特征选择等工作。其次,利用XGBoost、朴素贝叶斯和正则化逻辑回归三种算法进行用户评论的“正向”或“负向”的情感二分类建模。从情感分类分析的结果可知,基于正则化逻辑回归算法所构建的模型做分类器时效果最好。(2)在主题提取分析中,首先,对爬取的文本数据进行切句、预处理之后,进行多分类正则化逻辑回归模型的建立。其次,针对每段测试文本,预判每条断句的所属类别概率。在此基础上结合合理的句子拼接规则进行包括“外观”、“内饰”、“空间”、“舒适”、“油耗”、“动力”、“操控”、“四驱”和“性价比”这九个相关的主题句提取工作。从提取的结果中发现,此种主题提取的方法准确度较高。在理论方面,本文所提出的基于汽车评论数据的分析方法在其它领域数据的挖掘研究上有一定的参考价值。在应用方面,该方法对汽车各大厂商进行消费者行为分析和实现精准营销存在很大程度上的指导作用。
其他文献
本文概括总结了教育心理学中行为主义心理学、认知主义心理学、人本主义心理学的主要理论观点,并进一步论述了这些理论对英语教学的指导作用和实际应用。
本文通过对牛羊传染性胸膜肺炎的临床症状及其病理变化进行观察分析,总结本病的诊断和治疗方法。本病可以通过患牛、羊的咳嗽、飞沫、尿、乳汁等排出,并且四季都可发作,极易
在不同的研究领域中,混沌系统中的不稳定周期轨道的稳定化问题受到越来越多的重视,若要将混沌轨道控制至周期轨道,则不稳定周期轨道的寻找就变得尤其重要,本文给出了庞加莱截面方
<正>一、研究目的随着我国社会经济的高速发展,人们对于体育的认知和需求都在逐渐深入和提高。大型体育场馆作为我国全民健身事业的重要物质基础,承担着促进体育事业与体育产
会议
电视节目的制作过程中,主持人与记者常常会在现场进行采访的工作。而怎样更好地通过主持人和记者的采访技巧应用而促进电视节目效果的提升,这是我们每个新时代下电视媒介工作
对《洛阳伽蓝记》的体例而言,陈寅恪先生提出的"合本子注"只适用于本书部分章节,整体上并非"合本子注"体。徐高阮、周祖谟、杨勇诸先生所定条例在分理中无法真正贯彻,说明不
双馈感应式风力发电机已逐步成为风力发电的主流机型,通常情况下双馈感应式发电机组采用单位功率因数运行的无功功率控制策略。电网发生故障后会导致发电机端电压下降,此时传
目的:观察针刺治疗中风后吞咽障碍的临床疗效。方法:将181例中风后吞咽障碍的患者随机分为针刺组59例,对照组60例,假针刺组62例。针刺组予以针灸治疗,对照组予以康复训练结合
在某油气处理厂改造中设计了286个电动阀的控制方案,由于设备实际情况与自控设计要求不相符,必须寻找一种既能够满足设计意图,又能符合设备现实情况的控制方案。文章在分析原
应用NIRS技术无损监测赛艇运动员在递增负荷运动时骨骼肌氧含量的相对变化,并同步监测受试者气体代谢部分指标的变化特征,分析二者之间的相关关系,以期为运动员有氧代谢能力的评