基于多视图学习的虚假评论识别研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:ylhly200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各种网络通信技术的快速发展,互联网的影响力正日益改变着人们的生活,大众消费模式逐渐由“线下”向“线上”转变,网络购物因其方便、快捷等特点逐渐成为人们消费的首要选择。通常,用户在做出购买决策前,会参考其他用户对目标商品或服务的评论做出相应判断。在线评论蕴含着丰富的观点信息,对评论使用群体具有重要利用价值,真实可信的评论能帮助消费者做出正确的消费决定,同时也是商业群体获取用户真正需求与反馈的重要途径,因此对在线评论的可信度进行衡量,识别并过滤虚假的评论信息具有重要的意义。本文围绕虚假评论识别,对其识别框架、技术方法等进行分析总结,针对当前研究在特征提取及融合、标注数据集缺失方面存在的主要问题,提出使用多视图学习的方法进行解决。本文的主要研究内容如下:1.针对标记样本数量有限的问题,提出使用半监督协同训练算法进行识别,以降低人工标注的工作量。从评论文本及评论行为两个视图构建特征集,利用主成分分析提取特征后,针对各视图特点挑选基分类器,最后将对分类结果影响较大的主要成分递交分类器进行协同训练,实验结果证明了协同训练算法能充分利用未标记样本辅助模型训练,一定程度地弥补因标注样本不足带来的局限性。2.结合以往研究中的常用特征指标,通过分析虚假评论与真实评论的不同表现形式,细化评论文本、评论行为两个视图维度,构建了一个较完整的评论可信度评价指标体系。针对以往研究中将不同视图特征直接首尾拼接组合成为新特征所带来的特征冗余、高维度等问题,提出利用典型相关分析将各视图特征投影到共享的低维子空间后,再采用两种不同的特征融合策略进行组合,最后通过对比实验证明了所选特征与所提方法的有效性。3.考虑到协同训练初始阶段基分类器的分类性能较弱,可能将错误标记的噪声样本加入训练集中,随着训练不断迭代,这种错误会逐渐累积进而影响模型的最终分类性能。针对此问题,结合一种样本标记相似度策略对样本置信度进一步评估,以减少噪声样本被引入的情况,实验结果显示,结合标记相似度进行样本挑选的协同训练算法较经典的协同训练算法在整体分类准确率、F1等指标上均有所提高。
其他文献
改革开放后,我国城市化进程井喷式推进,大城市高层建筑、工业区、商业综合体、大型地下空间的大量涌现,基础设施落后,对城市火灾应急管理提出挑战,包括政府在内的任何一个公
论文选取上饶市2006年245个住宅用地地价样点,借助Arc-GIS软件中SpatialAnalysis平台,采用地统计学中的Kriging插值法,确定了Ordinary-Kriging的球状模型(Spherical),并确定
外派员工是跨国企业在国外拓展业务的关键角色。外派员工在外派国的社会文化适应情况,不仅影响外派员工的职业计划,更会对企业的发展带来重大影响。以往研究表明,跨文化适应情况良好的员工对外派任务的满意度高,能顺利完成外派任务。而海外跨文化适应不佳的员工则出现工作表现低下的问题,有的甚至会提前回国,增加企业的外派成本。今天,“一带一路”的建设更需要众多精通文化且熟悉业务的“跨文化人才”。“一带一路”沿线覆盖
《杭州府志·藝文志》的纂修是典藏杭地文化的重要途徑,本文以明清至民國四種《杭州府志·藝文志》為探究對象,比較其中藝文志著述差異,探究其差異成因,以總結明清至民國之際
夫妻关系和家庭关系是当前我们社会中最重要的关系纽带。随着改革开放进入四十周年大关和现代化的不断发展,夫妻关系也逐渐取代了亲子关系成为我们普通百姓家庭生活的主轴,并决定和影响着家庭中其他共生关系的存在和发展。现阶段,中国正处于社会转型时期。在这一时期,婚姻和家庭也经历了巨大的冲击,我国的离婚率持续上升。根据民政部的统计,2010—2019年我国的粗离婚率年年攀升,作为我国东部重要城市的上海,离婚率也
随着经济增长速度减缓和国家经济政策的改变,政策性银行的财务风险面临着日益复杂的形势,发生财务风险的可能性日益增大。然而,当前以政策性银行为对象展开财务风险评价的研究并不多,相关理论架构、研究方法还不成熟和系统。因此,构建科学的财务风险评价体系,对政策性银行财务风险进行评价,具有一定现实意义和理论意义。本文基于金融脆弱性理论、委托代理理论、全面风险管理理论,运用文献资料法、层次分析法、功效系数法以及
近日,东北农业大学植物抗旱技术研究所成功研制开发了一种新型植物抗旱剂。据介绍,这次研制的新型抗旱制剂,是充分利用存于土壤中的水资源,使之集中起来供给植物生长所需。使
期刊
随着互联网时代Web2.0技术的快速发展,网络用户可以自主的创造评论内容,其中包含非常丰富的关于网络产品的信息。不幸的是,由于利益关系,某些商家或个人发布了具有欺骗性的(虚假评论)评论以美化自身或贬低竞争对手,这些行为也对潜在客户的消费倾向产生了误导。由于网络评论具有强烈的领域相关性,不同的评论领域不光评论文本有很大区别,甚至评论行为也有很大不同。故针对不同领域的虚假评论,必须使用不同的检测方法。
目的:从血液流变学角度进一步探讨各类阳萎的发病机制。方法:对43例各类阳萎患者(阳萎组)和20例正常对照者(对照组)进行血液流变学指标对照研究,其中包括全血低切粘度(10s-1)、全血高
随着企业之间的竞争日益激烈,每年都有不少企业被迫倒闭。究其原因,大多是管理不善使得企业整体绩效不佳以致最终无以为继。因此,企业的经营绩效对于企业的生存发展至关重要