基于派系过滤算法的虚假评论识别

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:J2EE_BOY
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息科技的发展,网络购物逐渐成为人们生活中不可或缺的一部分。网络购物虽然令消费者突破了时空的限制,但也将其束缚在大量商品信息中。因为商品信息真假难辨,在线评论成为了消费者购物抉择的重要依据,在购买前翻看商品评论更是成为一种习惯。但由于商家趋利,会雇佣水军团体发布虚假评论来提高商品口碑或诋毁竞争商家。经过专业训练的虚假评论者可以较好地隐藏于正常用户中,导致人工也很难快速准确识别虚假评论。为解决上述问题,本文基于派系过滤算法来进行虚假评论识别研究,主要研究内容如下:1.鉴于发布虚假评论较多的用户,对电商运营环境的影响较大,本文主要对YelpNYC数据集中评论数在三条及以上的用户进行分析。首先根据评论者之间的评论时间间隔和评分偏差来衡量评论者间的相似度,进而构建评论者网络。然后运用派系过滤算法来挖掘评论者网络图中的候选虚假评论用户群,并从群组和个人两个角度对检测出的群组进行虚假评论作弊特征提取。2.由于检测出的群组成员评论数据存在类别不平衡问题,本文采用两种过采样方法对数据集进行处理,并运用不同分类器分别对原始数据和过采样数据进行拟合,然后根据分类评价指标选取最优模型和对模型性能提升最大的过采样数据集进行后续分析。最后,基于最优模型对特征组合的分类效果进行分析,结果表明本文提出的群组特征和个体特征可以有效识别虚假评论,融合全部特征的模型精确率为0.9663,召回率为 0.9851。3.针对人工标注成本高且效率低的问题,本文首先将数据集随机划分为训练集和测试集,然后从训练集中随机抽取部分样本去掉标签,作为未标注样本集,将训练集中保留标签的样本视作标注样本集。当标注样本比例为10%时,利用未标注样本的Tri-training算法的模型整体分类性能得分为0.9490,相比仅利用标注样本的XGBoost模型,Tri-training模型的精确率提升1.67%,召回率提升7.73%,表明Tri-training 算法能充分利用未标注数据,训练集中仅有少部分带标注数据也能有效识别虚假评论,可减少人工标注带来的问题。
其他文献
摘要本文针对数学建模,结合国内外研究现状的已有经验和现实教育改革的要求,给出了数学建模能力的含义:(1)高中阶段涉及的数学建模内容的掌握程度;(2)高中阶段典型问题对应模型的理解和应用。进一步通过测试和问卷调查分析发现:学生的非智力因素、知识掌握程度、认知结构影响了数学建模能力的形成和发展,针对以上因素,笔者从学生层面和教师层面入手,结合高三具体实际,提出提升高三学生数学建模能力的教学建议:(1)
学位
深化产教融合,推动人才、产业、创新协调发展是人才培养的要求和趋势,校企共建产业学院为地方普通本科高校体育人才培养提供了新的路径。针对企业需求和学校实际,提出了扎根区域,面向需求,设定多层次化人才培养目标;全覆盖、多渠道人才来源;创新培养计划,探索“理论—+实践—理论—实践”的验证式多段实习方式;打造校企互动性课程体系,搭建“1+1”实践实训双平台,提升协同育人能力等方式推动普通本科高校体育人才培养
期刊
非线性Schr(?)dinger-Newton方程组是描述量子力学的线性Schr(?)dinger方程与牛顿力学的引力定律耦合而成的非线性系统.Wei 和 Yan 在(Calc.Var.Partial Differential Equations 37(2010),423-439)中证明了在N维空间中,Schr(?)dinger方程有无穷多个非径向对称正解,这些解在(y1,y2)平面有多边对称性且
学位
研究背景与目的2型糖尿病(type2diabetesmellitus,T2DM)的起因主要是胰岛素抵抗增加和/或胰岛素分泌受损导致的持续高血糖状态,并且在过去几十年已经成为一种全球流行病。目前针对T2DM的治疗主要包括手术、药物和非药物的方法。生酮饮食(ketogenic diet,KD)作为一种饮食干预方法被认为能有效改善T2DM的高血糖。但由于生酮饮食中的脂肪比例较高,也有研究指出其不良影响如
学位
农村是食品安全事故的多发区,也是食品安全监管的薄弱环节。农村的食品专业市场存在的问题一直很多,成因也是多方面的。2018年3月,我国开始进行机构改革,食品安全监管形成由市场监管部门负责,多部门协作的模式,这统一了食品安全方面的执法,有助于提高食品安全监管的水平和能力。但现阶段基层市场监管部门的食品安全监管工作,要面对机构改革后职能过渡中的依法行政、用有限的行政资源履行整合的职能和在标签化形象的认知
学位
概率与统计知识在生活中应用广泛,数据分析素养已成为现代公民需要具备的基本素养。各个国家都十分重视,将其列为数学教育的一个重要知识主题和目标。教材是数学知识的载体,体现出一个国家的数学教育理念。数学教材的国际比较研究能帮助我们对相关国家的数学教育有更清楚的认知,为我国教材的编写和修订提供参考。本文选取我国人民教育出版《普通高中课程标准实验教科书·数学(A版)》(简称PEP教材)和美国Glencoe/
学位
随着素质教育的不断推进,学生的培养模式越来越多元化,以前不被重视的艺术领域,也逐渐形成了特有的人才培养模式。在此背景下,越来越多的学生开始选择通过艺考的方式进入心仪的院校。社会各界对艺术生的关注度也越来越高,艺术生的学习需要同时兼顾专业课和文化课的学习,而文化课中的数学学科在其中又起着举足轻重的地位。所以研究高中艺术生数学学习的现状并找到有效的改善策略就显得格外重要。本文在上述背景之下,通过文献综
学位
数学是一门重要的基础性学科,如何能快速适应数学对于每个学生来说都是非常重要的,尤其是初中升高中——高一这个衔接阶段。因此用哪种教学策略进行教学,就显得很有研究价值。我国在20世纪80年代,就开始初步探索教学模式和教学设计,从而慢慢发展为教学策略,有了生成式教学策略、替代式教学策略、小组合作式教学策略等等不同的教学策略。国外在20世纪70年代也开始有关于教学策略的文章。虽然有关教学策略的研究有许多,
学位
学位
函数是高中阶段最重要的知识点之一,其贯穿整个高中年级的学习,甚至可以为学生之后的高等数学的学习打下良好的基础。数学教材在数学教学中起着关键性作用,2004年我国根据《普通高中课程实验标准(实验)》编写了六套教材,2019年根据《普通高中数学课程标准(2017年版)》重新编写了 6套教材,本研究选取两版教材中的人教B版,以函数的概念与性质、基本初等函数(一)两个内容为研究内容进行了对比研究。本文主要
学位