基于隐变量模型的异常评价识别

来源 :云南大学 | 被引量 : 0次 | 上传用户:olived0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,电子商务迅速崛起。淘宝、京东、大众点评网等电子商务网站成为人们身边不可或缺的生活帮手,而参考已购买者对商品的在线评价已成为购买商品前必走的流程。客观公正的评价能够引导消费者做出理性的决定,为商家带来经济效益,而不真实、肆意夸大或诋毁商品的评价,不仅给消费者带来了困扰、抬高或损害商家的利益,也污染了整个电子商务的环境。因此,异常评价识别,即发现用户评价数据中存在的恶意评价行为,就显得尤为重要。本文从电子商务背景下用户评价数据出发,首先给出异常评价的定义,通过提取异常评价的特征,利用贝叶斯网这一传统的概率图模型,构建了反应用户异常评价行为的贝叶斯网隐变量模型,进而基于概率推理机制,完成异常评价识别过程,有利于我们得到更为真实的评价数据,从而得到一个更完备的电子商务环境。具体而言,本文的主要工作如下:(1)针对用户在评论过程中评价数据不真实、评价内容过于主观、商店购买销量、评价等现象,我们选取并定义了具有代表性的异常评价的四个特征——用户评分与实际偏离较多、用户账号异常、商店特征、情感密度。(2)为了进行异常评价识别,本文定义了包含隐变量的异常评价识别贝叶斯网模型(HSRBN,Hidden variables of Spam Reviews Bayesian Network)。针对 HSRBN 模型结构构建问题,本文采用最大互信息法将隐变量加入到模型中,用BIC评分函数挑选最优的隐变量模型结构,用EM算法对模型进行参数学习。(3)为了量化异常评价,本文采用基于变量消元法的精确推理算法,把异常评价作为查询变量,将异常评价变量后验概率最大时的取值作为评价结果,避免了计算复杂度由于变量个数的增加而成指数增长的状况,节省了运算量。(4)基于爬取的大众点评网数据作为测试数据集,本文对模型构建的效率以及异常识别的有效性进行了测试;同时,设计并实现了“基于隐变量模型的异常评价识别”原型系统,直观展示我们的研究工作。
其他文献
玉米是世界上分布最广泛的粮食作物之一,干旱是限制其产量增加的重要非生物胁迫因子。玉米的整个生长发育进程分为苗期、穗期和花粒期,其中穗期是需水关键阶段,也是玉米产量形成的关键时期。因此,研究玉米穗期干旱胁迫对营养及生殖生长的影响,能够为完善旱作栽培技术体系和选育耐旱新品系提供理论支撑。本试验首先选用14个玉米骨干自交系为材料,筛选出干旱敏感自交系PH6WC(6WC)。进一步以6WC为试验材料,在拔节
在云计算中,保持服务连续性至关重要,而断电是最常见和最严重的威胁之一。为了提高断电情况下云的恢复能力,云数据中心通常部署了紧急电能供应。由于紧急供电有限,云服务供应
随着当前网络商业运营环境规模的不断增加,对计算资源的要求也是越来越高,云计算通过虚拟化等技术将硬件抽象成虚拟服务,降低了运营成本、改进了性能、提高了数据可靠性。云
在我国社会主义现代化建设不断加快的进程中,传统文化的重要性日益凸显。随着近年来故宫相关纪录片和系列综艺、游戏等的推出,以及故宫文创的“网红化”趋势,承载着中华文明厚重历史文化底蕴的故宫文化掀起了新的热潮。在当今日益成熟的新媒体环境下,故宫博物院的社会化媒体传播是其综合传播策略中极具代表性的部分,其中尤为重要的包括微博和微信两大类。本研究以故宫博物院的社会化媒体传播作为切入,探究故宫官方微博与微信的
近年来,随着移动网络和智能终端设备的飞速发展,人们在室内环境中的位置服务需求愈加强烈。从室内定位服务的成本,稳定性等因素考虑,目前比较成熟的定位技术有Wi-Fi指纹定位
电视机的智能化水平不断提升,给人们的日常生活带来了诸多变化。当前,电视机也像PC机与智能手机一样,成为一个平台,上面可以运行多种多样的应用,承载着海量的节目与内容。这
客户机/服务器模式是互联网中最基本的交互模式,服务器是网络资源的核心所在。Web、DNS等在互联网中被广泛使用的服务器可以称为“基础服务器”。及时掌握网络中服务器相关的
对于无线城市数据中的社团发现问题中团搜索(CS)算法运行过程生成大量重复团、生成结果冗余、算法时间复杂度较高、生成团结构成员间关联度过高等问题,重新定义团,并从优化边
移动通信技术的发展为人类带来了极大便利,同时也进一步刺激了人们对于移动通信的需求。分布式大规模MIMO技术因为其系统容量大、频谱利用率高等优点在学术界获得广泛关注。
在当今信息技术高速发展的时代,计算机技术在各个领域得到了广泛的应用,产生了大量数据,例如:工业领域中的生产设备数据。这些数据往往来自多个数据源,在数据的收集、加工、