基于特征挖掘及数据重采样的虚假评论检测研究

来源 :浙江财经大学 | 被引量 : 0次 | 上传用户:ydaf2ut9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务的发展,在线评论变得越来越受消费者关注。消费者在进行购物前,通常需要参考大量信息来判断商品或服务的质量,而在线评论就成为了消费者了解商品或服务质量的重要途径。在线评论很大程度上影响了消费者的购买意愿,进而影响商品或服务的销量,因此,部分商家为了谋取利益而发布虚假评论。虚假评论指的是评论者对商品或服务发布的与事实不符的评论,其目的通常是为了提升或损害某一商品的信誉。虚假评论的存在降低了在线评论的可信度,影响了商家之间竞争的公平性,破坏了在线评论系统的发展。因此,如何准确、有效地检测虚假评论,就成了一项意义重大的研究课题。针对虚假评论的检测,学者们进行了广泛的研究,设计了多种虚假评论检测模型并取得了不错的结果,但目前仍有部分问题未得到解决。在特征挖掘方面,现有虚假评论检测的特征挖掘研究往往局限于某一类或某几类特征,导致其特征挖掘方案往往缺乏全面性,限制了虚假评论检测的效果。除此之外,现有研究未充分考虑数据不平衡问题对虚假评论检测模型的影响。针对上述问题,本研究致力于以信号理论和同质效应理论为支撑,提出一套较为全面的用于虚假评论检测的特征挖掘方案,并在特征挖掘研究的基础上,针对数据不平衡问题,设计数据重采样方法,进一步提升虚假评论的检测效果。在特征挖掘部分,本研究针对现有研究在特征挖掘方面存在的问题,以信号理论和同质效应理论为理论基础,提出用于虚假评论检测的文本特征、用户特征和关系特征,并设计特征挖掘方案对三类特征进行挖掘。对于文本特征,本研究运用Skip-gram模型对其进行挖掘。对于用户特征,本研究对真实评论者和虚假评论者的各个用户特征进行描述性统计分析,从数据层面证明用户特征对虚假评论检测的有效性。而关系特征涉及评论者之间的联系,其挖掘难度较大,现有研究主要运用关系特征区分虚假评论者群组中的虚假评论者和个体虚假评论者,而较少用其区分真实评论者和虚假评论者。本研究从评论时间间隔和评论文本相似性两个角度出发,构建了评论者的关系网络图,挖掘关系特征,用于区分真实评论者和虚假评论者。实验结果证明,本研究挖掘的三类虚假评论检测特征能准确地对虚假评论进行检测。在数据重采样部分,本研究在特征挖掘研究的基础上,针对虚假评论检测研究中存在的数据不平衡问题,提出了一种改进的混合采样方法对数据进行重采样,进一步提升虚假评论的检测效果。该方法包含以下步骤:数据划分与标准化、离群样本的检测和数据的混合采样。该方法首先将数据分为真实评论数据和虚假评论数据,并对其进行标准化。随后,该方法运用孤立森林算法分别检测真实评论数据和虚假评论数据中的离群样本。接着,对于离群样本,本研究提出了一种基于距离的上采样方法对其进行采样,该方法包括中心点的选取、基于距离的上采样点选取和样本的合成。对于非离群样本,本研究运用随机下采样方法对其进行采样,该方法包括下采样点的随机选取和下采样点的删除。采样后的训练数据集将被用来训练分类算法用以检测虚假评论。实验结果表明,该混合采样方法能在特征挖掘研究的基础上,进一步提升虚假评论的检测效果。而且,相比现有数据重采样方法,本研究的混合采样方法效果更好。本研究的创新点如下:第一,针对特征挖掘研究存在的问题,本研究以信号理论和同质效应理论为理论支撑,提出了用于虚假评论检测的三类特征:文本特征、用户特征和关系特征,并设计了一套特征挖掘方案对上述三类特征进行深入挖掘。实验结果证明,该特征挖掘方案包含的三类特征能有效地对虚假评论进行检测。第二,在特征挖掘研究的基础上,本研究针对数据不平衡问题,提出了一种改进的混合采样方法对数据进行重采样,进一步提升了虚假评论的检测效果。相比现有数据重采样方法,该混合采样方法考虑了离群样本和非离群样本的差异,并对其采用不同的数据重采样方法。实验结果证明,该混合采样方法能在特征挖掘研究的基础上,进一步提升虚假评论检测的效果。
其他文献
随着网络通讯技术和移动智能设备的不断发展,中国已经完全迈入互联网时代。人们在享受互联网带来便利的同时,也受到了海量数据带来的信息过载问题的困扰。推荐系统作为一种应对信息过载问题的有效工具,可以根据用户的历史行为和属性信息生成满足用户需求的个性化的推荐。目前,推荐系统技术已经全面地应用在各领域的电子商务平台中,推荐系统的性能将会直接影响用户的体验和商家的收益。然而,传统的协同过滤等推荐系统的性能容易
学位
拆迁安置社区的转型与发展不仅直接关系到征迁农民能否顺利转变为城市居民,也将间接影响中国新型城镇化道路的实施成效。但是拆迁安置社区空间特征与治理结构的“亦乡亦城”特征,给社区空间冲突治理与社区转型带来巨大挑战。现有拆迁安置社区空间冲突的相关研究大多基于理论阐述与定性分析,存在治理策略过于宏大而流于空泛或无法操作的缺陷或者个案难以反映真实冲突现状、治理策略难以匹配社区空间冲突的现实情景。拆迁安置社区空
学位
近年来,义务教育阶段的学生群体参加课外教育的内容不断丰富,课外学习时间快速增加,家庭校外教育支出不断攀升。家庭资本既是一个家庭经济状况的体现,也从侧面反映出家庭的教育观念。家庭资本对学生课外教育的影响以及如何进一步规范课外教育行为,成为了政府、社会和学者普遍关注的问题。本文通过中国教育追踪调查(CEPS)数据,从微观视角分析家庭资本对初中生参与课外教育行为的影响。首先,借鉴李春玲、薛海平等人的定义
学位
根据现行的人口老龄化标准,我国农村已经进入了深度老龄化社会。在人口出生率持续走低以及人口平均预期寿命不断延长等因素的影响下,我国农村人口老龄化进程还将进一步加快。在实现精准扶贫与共同富裕的时代新命题下,如何应对农村人口老龄化问题,补齐农村养老服务短板,值得进一步思考。机构养老不符合我国当前的村情社情,农村家庭养老服务功能弱化。鉴于此,居家养老成为解决农村养老问题的现实选择。自2002年起,城市以及
学位
后疫情时代下,互联网适老化的部署与推进已引起了社会各界的广泛关注与支持。的确,互联网福利普惠机遇与疾病风险的并存也为老年群体医养福利的增进提供了新思路。然而,老年群体中“数字鸿沟”问题的日益凸显也使得进一步整合线上线下层面,拓展老年群体的主观福利研究迫在眉睫。鉴于此,本文基于社会支持理论与马斯洛需求层次理论,旨在从线上线下双重维度切入,探究社会支持对老年人主观福利水平的作用机理。为此,本文基于中国
学位
十九届五中全会提出,实施积极应对人口老龄化的国家战略。受到社会发展的冲击,我国传统的代际关系正在逐渐改变,家庭间的资源流动由传统的子代向父代单向流动转变为子代和父代之间的双向流动。本文在积极老龄化的背景下,探讨双向代际照料对老年人健康的影响效应,为提升老年人健康、改善老年人生活质量设计对策建议。本文由健康需求理论出发,从交换动机和利他动机两条路径构建代际照料支持影响老年人健康的机制。在此基础上,依
学位
报纸
骨髓抑制为化疗常见的毒副反应,粒细胞缺乏伴发热为骨髓抑制的常见表现与并发症。粒缺伴发热为临床危急病症,中医药的论治研究现代临床报道较少。此文从血虚发热的证治理论与粒缺伴发热的中医认识入手,探讨二者的相关性。血虚发热与粒缺伴发热均以血虚为主,均可因感受外邪而出现发热表现,当归补血汤可以保护骨髓、改善外周血象、增强机体免疫力,因此以当归补血汤辨治粒缺伴发热在理论上是可行的。对于粒缺伴发热的危急病症,中
期刊
随着信息社会的发展,“互联网+”、数字治理等概念迅速席卷全球,各国政府紧跟时代潮流,大力推进政府改革。自2016年国务院提出“互联网+政务服务”后,从中央到地方都先后出台相关政策,积极推动“一网通办”、“最多跑一次”等改革,特别是地处长三角地区的浙江、江苏、安徽与上海三省一市政府凭借卓越的经济发展能力和创新活力,不断创新政务服务模式,取得不菲成绩。目前,政府数字化改革成为推进跨省域治理的重要方向,
学位
改革开放以来,各项人口政策和经济政策的推行不断冲击着中国传统家庭养老体系赖以存在的基础,加之不断提高的预期寿命和不断加深的老龄化程度,老龄人口的赡养日益成为一个重要问题。基于此,本文期望在人口老龄化加剧和代际赡养发生变化的背景下,探寻子代人口特征对赡养行为的影响,以期设计缓解家庭养老负担、提升老年群体生活质量的对策建议。本文由代际支持理论出发,从经济资源和时间资源两条路径剖析子代人口特征影响赡养行
学位