【摘 要】
:
随着互联网的迅速发展,网上购物以其方便快捷的优势代替了实体店购物,已成为时下最流行的消费方式。出于谋利的目的,电商平台中出现越来越多的虚假评论,这在一定程度上误导消费者的购买趋向,致使消费者买到的商品与描述不符,逐渐丧失对电商平台的信任。为了净化电商环境,研究学者通过提取评论文本和评论者的各项特征并利用传统分类器进行虚假评论检测,虽然这类方法取得了一定的成果,但是提取特征的过程中依赖于专家知识,而
论文部分内容阅读
随着互联网的迅速发展,网上购物以其方便快捷的优势代替了实体店购物,已成为时下最流行的消费方式。出于谋利的目的,电商平台中出现越来越多的虚假评论,这在一定程度上误导消费者的购买趋向,致使消费者买到的商品与描述不符,逐渐丧失对电商平台的信任。为了净化电商环境,研究学者通过提取评论文本和评论者的各项特征并利用传统分类器进行虚假评论检测,虽然这类方法取得了一定的成果,但是提取特征的过程中依赖于专家知识,而且没有考虑相关产品的特征,不具有广泛应用性。虚假评论一般会比真实评论使用更多情感词描述目标产品的特征,针对不同的目标产品,虚假评论者会对不同的特征进行描述,为了使得检测方法适用于不同领域,本文利用产品的相关特征,结合深度学习方法提出了两种虚假评论检测模型。第一种是融合产品相关特征的虚假评论检测方法,该方法将产品相关特征与评论文本组合,以此作为输入来训练卷积神经网络模型实现虚假评论检测,最后将该算法与两个有效的传统分类器组合,降低了过拟合问题,提高检测准确率。第二种是基于FastText的虚假评论检测方法,该方法首先使用语料库训练Word2Vec模型,基于该模型扩充了产品特征词汇集,并建立文本向量,经过卷积层、池化层提取特征后,利用FastText实现分类,解决了产品评论数据集存在的类别不均衡问题,同时提高了模型的训练速度。为了验证算法的有效性,利用Python语言爬取了亚马逊网站的商品评论数据集,并基于该数据集分别针对上述两种算法设计了多组对比实验。实验结果表明,算法一利用产品相关特征有助于提高虚假评论检测的准确度,使用模型组合的方式可以降低过拟合问题。算法二训练Word2Vec进行文本建模能够更好地表示文本的深层语义,使用FastText分类能够解决类别不均衡的问题,提高准确度,同时缩短模型在数据量较大情况下的训练时间。
其他文献
乌鲁木齐市南郊的达坂城气候条件特殊,土壤贫瘠,生态环境脆弱,是我国著名的风口地带,地区内工业生产很少,传统经济以农牧业为主,是当地主要的经济来源,农业种植结构较单一。本地区的
目的探讨血清扩散因子(SF)与隐匿性乳腺癌的关系。方法采用ELISA方法检测健康女性及隐匿性乳腺癌患者血清中SF的浓度。结果隐匿性乳腺癌组血清SF水平较正常对照组明显升高(P
1生物学特性尿酸(uric acid,UA)是嘌呤代谢的最终产物,主要由细胞代谢的核酸和其它嘌呤类化合物以及食物中的嘌呤经酶的作用分解而来.血中UA全部从肾小球滤过,其中98%在近曲
在薄壁轴承的内部超声波探伤实践中,采用双晶探头探伤存在探伤盲区,容易造成内部缺陷漏检。因此,采用了相控阵超声波技术,其具有多扫及二维显示等特点,能够增强探伤的精确度,
为了更好地均衡高阶 QAM信号,本文提出了基于改进的布谷鸟搜索算法优化的正交小波动态加权多模盲均衡算法(ICS-WT-DWMMA),利用改进了的布谷鸟搜索算法初始化均衡器的权向量,利用小
利他性偏好在经济学领域对“经济人假设”产生了深远的冲击。知识型人才不仅关注自身的利益,也关注他人、社会和国家的利益。核心价值观认同对知识型人才的技术创造力存在着
<正>辣(甜)椒分布在全世界60多个国家和地区,是重要的经济作物[1]。由于辣椒栽培面积大且品种多,所以辣椒上病毒的种类多。有报道指出,至少有45种病毒侵染辣椒,其中中国有15
国内外的公路建设已经进入了高速的发展轨道,交通量的持续增加,对公路沥青路面的使用性能和质量提出了更高的要求。施工单位应以沥青路面技术指标为基础,在施工过程中提高对
<正>奶牛生产瘫痪又称乳热症或低血钙症,是母牛分娩后突然发生的以全身肌肉无力、四肢麻痹、知觉丧失及血钙含量降低为特征的一种严重的代谢性疾病。该病是临床上的常见病,多
将WC-12Co合金粉末通过等离子喷涂预制在钛合金基体上,然后进行激光熔覆,通过耐磨性试验,分析了不同涂层材料与GCr15对滚后的磨损量。结果表明:WC-12Co等离子喷涂层经激光熔覆后