跨平台虚假应用评论识别系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:zhlkf99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
应用市场是当前最重要的应用分发渠道之一。应用市场中的评论会直接影响用户对应用的认知,进而影响用户下载某一应用的可能性。为了提高应用下载量,部分不良应用开发商会雇佣水军在平台中发布虚假评论。这大大影响了平台中评论的客观性和公正性。近年来,虚假评论检测受到广泛关注,多种识别特征及识别模型都被研究者们应用到虚假评论检测中来。然而,现有的研究工作存在一定的局限性。首先,在特征方面,现有工作通常仅在单个应用商店进行特征提取,忽略了刷评行为在不同应用商店中带来的行为差异。其次,在模型方面,基于浅层学习的方法需要根据先验知识提取特征,然而这种方法极大程度地依赖于特征的完备性,在特征选取不全的情况下容易误报漏报,而深度学习方法能够自动从数据中提取更全面的特征,但这需要较多训练数据。针对上述问题本文提出了一种改进的跨平台虚假评论识别方法,该方法一方面充分利用研究者积累下来的先验知识,选取了识别性较强的评论特征并提出了跨平台对比特征,另一方面将人工定义特征融入深度学习方法,使其专注于提取专家先验知识以外的特征,从而使用更少的训练样本学到更全面的特征。(1)在特征方面,针对当前特征不够全面的问题,从应用、评论和用户三个维度定义了多个判别特征,并添加了跨平台对比特征。在应用维度,提取了多个跨商店对比特征;在评论维度,筛选并保留了一些神经网络难以学到的统计特征;在用户维度,对现有的特征进行了扩充。这些特征从不同角度刻画了评论行为,能够有效地帮助神经网络模型从文本语义以外的角度学习并判别虚假评论。(2)在模型方面,本文提出将特征融入神经网络的参数矩阵,从而更准确地建模评论文本和应用、用户之间的关联关系,有助于发现评论的异常行为。该方案分为三步:首先,利用改进的参数注意力机制对特征和词向量进行融合,得到融合特征向量。然后,该向量被输入双向长短记忆神经网络学习序列关系,并基于注意力机制选取关键位置的信息,组成代表整句的特征向量。最后,该特征向量被输入全连接层,进行评论识别。现有的特征融合工作通常将特征和文本向量简单拼接后送入分类器,难以学习特征与单词、短语等局部的细粒度关联关系。而本方案将特征注入模型的权重矩阵中,为特征与评论文本建立关联,能够有效提升特征融合的效果。(3)基于以上工作,本文设计实现了跨商店虚假评论识别原型系统。系统依据功能划分为三大模块:特征提取模块实现了数据的采集,预处理,数据标注以及人工定义特征的提取;分类模型模块实现了模型的构建、训练、验证和持久化等功能;评论识别模块负责部署训练好的模型,为用户提供主流应用商店的虚假评论识别服务。本文以模块化的形式实现了原型系统,并对系统进行了全面测试,验证了其检测准确性、稳定性和运行效率。实验结果表明,本文提出的方法相比于其他现有方法具有更高的识别准确率,能够满足各应用平台对于虚假评论自动化识别的需求。
其他文献
肝纤维化是慢性肝损伤发展为肝硬化的病理过程,我国肝纤维化发病率高,严重危害国民健康。目前用于研究肝纤维化的动物模型主要通过化学药物来制备,而病原微生物感染模型方法甚少。据报道,肝螺杆菌感染可诱导小鼠慢性活动性肝炎、肝癌、肝胆肿瘤,而对其中间过程肝纤维化报导较少。本课题通过BALB/c小鼠感染肝螺杆菌来建立肝纤维化动物模型,并着眼于其病理特征和致病机制的初步探究。鉴于肝螺杆菌引起肝纤维化的机制尚不清
质子交换膜燃料电池(PEMFC)具有能量转换率高、噪声低、热辐射小等优点,是AIP潜艇的理想动力源。排水问题,即避免内部氢、氧反应生成水滞留所造成的“水淹”现象,是目前影响P
科学活动发展至今,超越以往的以追寻客观真理为主要目标的单一性科学认识活动,逐渐形成以基础研究、应用研究、开发研究为架构的认识活动与社会活动的统一局势。动态模式下的科学认识、引领科学发现的大科学机构、科学实践活动引导的科学技术一体化共同组成科学活动的基本内涵;在此基础上,随着科学的持续发展和社会化的深入,科学活动到目前为止在基础架构之下又产生了新的形势,形成当代科学活动的发展现状,其中包含科学认识活
苏州作为常住人口超过千万的大城市,具有独特的水文环境,其地表河流纵横交错。为了解在科技、医疗发达的大城市中稀土元素和微量元素的特征,本文对苏州溶解态稀土元素含量、分布分异特征进行了研究,采用内梅罗指数法对重金属进行了评价,并探究了重金属与稀土元素的指示关系。得出以下主要成果:1)苏州地表水溶解态?REE含量在25.35~87.68ng/L之间,p H、DOC、岩石风化均影响到该地区稀土元素的含量。
随着行为金融理论体系的不断完善和发展,结合心理学和经济学优质理论的行为金融学已愈加成为金融学独立完整的分支学科之一。相较传统金融学,行为金融理论能更为有效地解释股市现实中频繁出现的诸如股票市场股票溢价之谜、动量效应与长期反转效应等金融异象。行为金融学认为投资者个人行为会受到情绪的影响,投资者情绪和认知偏差往往会影响投资主体的行为与决策,因而投资者情绪能够引发金融资产价格的非理性涨跌现象。本文拟将实
石墨尾矿是石墨开采过程中产生的工业废料,本试验通过质量替代法将适量石墨尾矿替代水泥砂浆中的砂子,研究石墨尾矿对水泥砂浆力学性能和电学性能的影响。为了进一步降低水泥砂浆的电阻率,在石墨尾矿(GT)最优掺量下分别复掺功能材料薄层石墨烯(TLG)、多层石墨烯(MLG)、碳纤维(CF),制备石墨尾矿薄层石墨烯(GTCM-TLG)、石墨尾矿多层石墨烯(GTCM-MLG)、石墨尾矿碳纤维(GTCM-CF)三种
普遍分布于康滇地轴中南段四川攀枝花-云南牟定地区的前震旦纪变质岩中的斜长角闪岩类是康定杂岩的重要组成部分,其研究对查明康定杂岩的成因以及康滇地轴的构造岩浆演化具有重要意义。本论文以攀枝花和牟定地区的斜长角闪岩类作为研究对象,通过实地野外地质调查、实验室岩矿鉴定、样品主微量元素分析、锆石U-Pb-Lu-Hf同位素分析,对攀枝花地区和牟定地区的斜长角闪岩类的岩石学特征、主微量元素地球化学特征及成岩时代
CuFeO2作为一种典型的p型半导体,其带隙宽度约为1.5 eV,组成它的铜铁元素有着丰富的地球储量,同时它制备简便,拥有较好的光吸收性能与稳定性等优势。然而CuFeO2材料中极易发生光生载流子的体相复合与表面复合,光生载流子分离效率低,很大程度上阻碍了它在光电化学方面的应用。本文通过构筑CuFeO2纳米薄片和CuFeO2/ZnO异质结结构两个方面来解决CuFeO2材料光生载流子复合的问题。本文的
小麦是人类重要的谷类粮食作物来源之一。有许多植物线虫可寄生小麦,危害其生长及发育。其中孢囊线虫(Heterodera spp.)系一类分布最广、危害最重的定居性内寄生线虫。本研究
近年来,随着我国木材资源的日益短缺,人造板已成为我国主要的木质家居材料。为了增加人造板产品的附加值,对人造板表面进行装饰加工是一种重要方式,由此饰面人造板也成为了人