基于机器学习的电影评论有用性分类研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:jackind
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,我国电影行业飞速发展,根据有关资料表明电影网络平台上用户发表的影评越来越被其他观影者看重,而由于目前电影网络平台评论的无限制性以及用户注册账号进行评论的快捷性,使得各网络平台上充斥着大量的质量参差不齐的电影评论。因此,采用模型主动为观影者筛选掉无用的评论迫在眉睫。本文基于豆瓣网的影评特点,从评论者相关特征、评论文本表面特征、评论文本深入特征三个方面出发选取了用于影评分类的11个特征。利用LDA模型和word2vec模型获得电影特征词,并且整合情感词典和评价词词典,之后计算各个特征对应的数据。采用支持向量机算法、随机森林算法、逻辑回归算法建立模型,将准确率、召回率、auc面积作为评估模型的指标,并利用参数学习曲线、交叉验证以及调参思想确定最优模型。根据模型结果得出,三个模型的表现均较好,这表明本文选取的特征较为全面,能够实现模型对影评的分类。此外,根据模型输出还可得出对于不同的模型,特征的贡献率不同,总体而言,评论者相关特征对模型的贡献相比另外两方面特征较低。本文的创新主要表现在特征选取与处理方面,首先是将评论者相关信息加入到特征体系中,其次,在对评论内容进行特征提取时,新建了四个特征,分别是评论所含消、积极情感词数与评论所含消、积极评价词数。另外,本文是根据新颖指标选取LDA最优主题数,并非多数文章中的凭主观选取。最后,本文探讨了SVM不同核函数在不同数据类型上的表现,进而根据本文数据集的表现判断出本文数据集的类型,为后续探索数据提供了便利。
其他文献
在回归问题当中,恰当的特征变量可以提供有效的信息,提高模型的预测效果.但是过多或者无用的特征变量不仅会增加模型的复杂程度而且可能会产生过拟合等问题.因此,挑选适当有效的变量特征显得尤为重要.传统的Lasso回归模型可以将特征的回归系数完全收缩至0从而达到特征选择的目的,但是该方法被证实在很多情况下不能满足一致性.在Lasso的基础上,自适应Lasso通过对惩罚项引入自适应权重,满足Oracle性质
学位
市场环境处在不断地变化发展中,经营战略是企业增强市场竞争力的重要手段,多元化经营是企业在经营发展中跃跃欲试和经久不衰的选择,也是企业扩大经营规模的必要道路。根据当前竞争日趋激烈的市场环境,以洽洽食品为研究对象进行多元化经营状况与企业绩效分析,并得出结论与建议。
期刊
目的 探讨高尿酸血症(HUA)通过氧化损伤诱导睾丸细胞凋亡、降低小鼠生精功能和精子质量的机制。方法 36只雄性昆明小鼠随机分6组:氧嗪酸钾1 d、7 d、14 d组,对照1 d、7 d、14 d组。其中氧嗪酸钾组腹腔注射氧嗪酸钾悬液600 mg/(kg·d)。生化法检测血清尿酸(UA)、肌酐(Cre)、尿素氮(BUN)、丙氨酸转氨酶(ALT)、天冬氨酸转氨酶(AST)、黄嘌呤氧化酶(XO)和睾丸组
期刊
本文主要研究的是基于单个正态总体均值的置信区间比较问题,得到了一个介于标准正态分布与自由度为n-1的t分布之间的分布,记该分布为g分布;接着探讨了 g分布的相关性质,发现其具有比t分布更强的一致渐近正态分布性,且同样可以作为小样本理论的代表分布。本文共分为五章进行探究,首先在前两章分别介绍了研究背景和必要的理论准备知识,使文章的研究意义和内容有了一个大致的框架,一些定理的介绍不仅回顾了本文需要用到
学位
本文研究时间序列的自适应学习预测模型.自适应学习预测分为两阶段:一是利用多种基础预测模型得到预测结果,对相同时期的各种预测结果赋予权重并求和,得到平均预测;二是在平均预测的基础上进行自适应学习预测,即基于当前阶段自适应学习预测的预测误差对下一时期的平均预测进行适当修正,得到最终的预测.本文提出的新模型使用了最近两个时期的自适应学习预测的预测误差,并为相对较近时期的误差分配较大的权重,相对较远时期的
学位
马氏链蒙特卡洛方法在积分计算中占有重要地位,其在很多领域也有较为普遍的应用。本文主要基于前人提出的利用抽样数据构造最小二乘多项式逼近的方法来研究MCMC算法的应用,并进一步向机器学习方向推广来解决实际问题,希望可以提供与一些经典方法可比较的方法。由于马氏链是MCMC算法的基础,因此本文首先采用一定的篇幅来介绍马氏链的概念和相关性质,并特意介绍了一般状态空间下的马氏链的大数定律。接着本文介绍了几种经
学位
时间序列数据往往存在一定的规律性,合理使用时间序列模型可以发现其统计性质,并对其进行合理的预测。时间序列数据往往会由于节假日或特殊事件的发生而出现一定的波动,传统的ARIMA模型可以解释时间序列数据的趋势性和周期性,但对节假日或特殊事件的预测往往有较大偏差,而Prophet模型由于可以自定义节假日和突变点,对特殊日期的预测往往有更好的效果。因此,对Prophet模型进行研究,对各行业的时间序列数据
学位
随着互联网时代的发展,酒旅业务逐渐走向新的发展阶段——网络化时代,因此客户进行酒店预订形式发生了很大的改变。大部分酒店会通过与线上平台合作的方式为消费者提供网络预订服务,因此商户首先需要在线上平台进行门店信息注册获取门店资质,但在平台注册经营的商户里存在刷单、诈骗、套现、虚假门店等风险,打破了商户和用户的正常交易秩序,造成了不公平竞争,给同类商户带来了巨大损失。因传统的风控规则对于高风险商户的拦截
学位
电流体喷印技术具有分辨率高、墨水粘度适用范围广等优点,在印刷电子领域具有广泛的应用前景。当前电流体喷印主要使用单喷嘴,器件制备效率低,无法满足大规模生产需求。使用阵列化喷头是解决该问题的有效办法,然而阵列化喷头中的电场串扰现象严重影响了其打印性能,且现有独立可控方法无法适用于精密按需点喷模式打印。对此,本学位论文提出通过优化工艺参数及喷头参数、引入“哑”喷嘴、进行点火时序控制等方法降低电场串扰,提
学位
单原子阵列因其可扩展性强、量子态可初始化、相干时间较长等特点,可以将单原子阵列作为量子计算机量子比特的有效载体。利用里德堡原子的长程相互作用可以在单原子阵列上实现量子纠缠,所以里德堡单原子阵列实验的开展为量子计算机的研发奠定了良好的硬件基础,积极推动了量子信息技术的发展。该系统是从零开始的系统,本文将主要围绕里德堡单原子阵列实验所需激光系统来开展实验研究。首先介绍了真空系统的烘烤与组装,为实验提供
学位