【摘 要】
:
随着信息时代的飞速发展,由此也衍生出刷垃圾评论等黑色产业.随着机器学习技术的兴起,人们研究出许多有效的方法来识别垃圾评论.传统统计机器学习方法通过人工特征工程提取能够区分垃圾评论和正常评论的评论类别特征,往往需要花费大量的精力进行特征选择;而深度学习方法利用神经网络自动学习评论特征.但是受限于标记数据的获取困难,现有的深度学习模型仍然存在较为严重的过拟合问题,另外不考虑主题信息,直接对评论文本进行训练也使得模型学习困难,泛化能力较弱.针对上述问题,本文提出一种用于垃圾评论分类的融合主题信息的生成对抗网络模
【机 构】
:
福州大学 数学与计算机科学学院,福州350116;福建省网络计算与智能信息处理重点实验室,福州350116
论文部分内容阅读
随着信息时代的飞速发展,由此也衍生出刷垃圾评论等黑色产业.随着机器学习技术的兴起,人们研究出许多有效的方法来识别垃圾评论.传统统计机器学习方法通过人工特征工程提取能够区分垃圾评论和正常评论的评论类别特征,往往需要花费大量的精力进行特征选择;而深度学习方法利用神经网络自动学习评论特征.但是受限于标记数据的获取困难,现有的深度学习模型仍然存在较为严重的过拟合问题,另外不考虑主题信息,直接对评论文本进行训练也使得模型学习困难,泛化能力较弱.针对上述问题,本文提出一种用于垃圾评论分类的融合主题信息的生成对抗网络模型Topic-SpamGAN(Topic-SpamGenera-tive Adversarial Network).为解决标记样本获取困难的问题,Topic-SpamGAN采用GAN拟合真实标记样本,提升分类器的训练效果;其次,Topic-SpamGAN使用强化学习帮助生成器训练,改善生成样本的质量;此外,Topic-SpamGAN在模型学习中引入主题信息增强生成文本的相关性,并通过主题信息引导模型进行分类学习,使模型学习更为稳定.旅馆数据集上的实验结果证明,Topic-SpamGAN能获得优于现有垃圾评论分类模型的性能.
其他文献
本文在移动平台下基于用户活跃度的结构性文档意图维护算法(MCPS2)研究的基础上,对master转移、节点编辑权限请求、删除操作的等方面执行方式进行优化,并加入支持undo操作的相关算法.此算法中涉及的网络连接模式、文档结构、复制策略延用MCPS2中的设计.在标题节点编辑引入arbitrated、readonly和locked等5类操作预设权限,以提升协作站点请求节点的反馈效率;设置master继承机制,副本占比与请求活跃度优先制,提升master转移的合理性;根据结构文档的特性,调整delete操作的执
采用开路电位、循环伏安、Tafel曲线及电化学阻抗谱等电化学测试技术手段,研究黄铁矿在pH=1.0、不同浓度的Fe2(SO4)3和FeCl3溶液中的电化学氧化机理,并讨论了在Fe3+浓度相同时,SO2-4和Cl-对黄铁矿氧化机理的影响.结果表明:Fe2(SO4)3和FeCl3能够促进黄铁矿的氧化,其中起作用的离子是Fe3+和Cl-;SO2-4不会改变黄铁矿的氧化机理,但其浓度的提高会增大电子转移电阻,从而降低黄铁矿表面氧化速率.该研究对黄铁矿氧化机理有了新的了解,对黄铁矿的实际应用具有参考价值.
乙烯响应因子(ethylene responsive factor,ERF)可以激活或者抑制下游病程相关蛋白基因的表达,在植物抗病信号转导途径中发挥着重要作用.为探究ERF-B3亚组基因GhB301在棉花抗枯萎病中的分子调控机制,本研究利用已获得的转GhB301基因棉花株系,通过孢子悬浮液蘸根的方法对转GhB301基因棉花株系(N)和野生型对照(WT)进行接菌处理,抗病性鉴定结果表明,过表达GhB301的N株系增强了对枯萎病的抗病性,其病情指数为14.77,显著低于WT(病情指数为37.50);枯萎病菌侵
某低品位铜钼矿石中主要有价元素为铜和钼,铜、钼矿物嵌布粒度细,与脉石矿物复杂共生,但辉钼矿与黄铜矿主要嵌布在脉石矿物裂隙,有利于矿物的单体解离.在矿石工艺矿物学研究的基础上,探索了铜钼选别工艺,在最佳试验条件下,采用铜钼混合浮选工艺获得的混合精矿钼品位0.4700%、铜品位3.100%,钼回收率可达76.22%、铜回收率高达89.29%;混合精矿铜钼分离,钼精矿钼品位49.3900%、钼作业回收率66.18%,铜精矿铜作业回收率99.98%.
为了研究南瓜栽培品种的遗传多样性,本研究利用43个简单序列重复(SSR)分子标记,对35份南瓜育成品种及地方品种进行了分子标记分析,并调查了农艺性状.结果表明,43个SSR标记均能扩增出多态性条带,共检测到155个等位基因,平均每个标记能检测到3.6个等位基因,多态性信息含量(PIC)为0.130 8~0.775 4,平均值为0.487 2.利用非加权组平均法(UPGMA)进行聚类分析,结果表明35份材料可分为三大类,分别与中国南瓜、印度南瓜和美洲南瓜三个种吻合,且印度南瓜与美洲南瓜之间的亲缘关系较近.农
针对共生生物搜索算法存在的易陷入局部最优及搜索停滞等缺陷,提出一种基于多角色优化策略的混合灰狼-共生生物搜索算法(MRSSOS).从算法内部结构、停止防止机制、混合智能优化算法三个方面对标准SOS算法进行改进,减少无效搜索的同时保持种群多样性,进一步平衡算法迭代过程中的探索能力与挖掘能力.实验测试结果表明,改进后的MRSSOS算法性能明显更好,选取的10个单峰函数中,9个都可在1000次迭代内收敛到理论最优解,9个多峰函数中,5个可达最优解,另外2个解优于对比算法,表明MRSSOS在收敛速度、求解精度、稳
针对短语音条件下,基于全局变异空间提取的身份向量存在估计不足导致性能下说话人识别降的问题,提出了一种基于核典型关联分析的方法融合全局变异空间和时滞神经网络的说话人嵌入向量.首先,分别训练全局变异空间和时滞神经网络模型.然后在注册和测试阶段,同时提取说话人在两者模型中嵌入向量.通过高斯核函数将其映射至高维空间分析其非线性关联关系,从中获得仿射向量,最后将其组合得到最终说话人嵌入向量.实验表明,10秒以下的短语音环境,该方法所提取出的说话人向量相比其余几种说话人嵌入向量在等误差率和最小检测代价上平均下降了16
植物果聚糖是一类重要的可溶性碳水化合物,其在植物中的积累可提高植物的抗逆性.为了解大蒜蔗糖:蔗糖1-果糖基转移酶的序列特征和功能,本研究采用TA克隆方法(Original TA Cloning Kit)得到乐都紫皮大蒜As-1-SST基因全长序列,利用BLAST、DNAMAN、ProtParam、SWISS-MODEL、MEGA等生物信息工具分析其序列特征,通过荧光定量PCR(qRT-PCR)分析As-1-SST基因在大蒜根、假茎、叶片和鳞芽中的表达差异及其对低温和干旱胁迫的响应情况.结果表明,大蒜As-
针对中国黄金工业污染场地特征、氰化物在污染场地中迁移转化规律进行探讨,并对修复技术现状与发展方向进行了系统介绍,以期为黄金工业污染场地修复治理技术的研究提供指导与参考.
番茄黄化曲叶病毒(TYLCV)严重威胁茄科蔬菜作物的生产.抗性标记Ty-1和Ty-3是一对等位基因,在番茄抗TYLCV育种中应用较为广泛.为了探究Ty-1/Ty-3抗病毒分子机制,本研究以携带Ty-1/Ty-3抗性标记的番茄Y19为材料,利用病毒诱导基因沉默(VIGS)技术,沉默RNA干扰(RNAi)机制关键基因,即番茄核糖核酸内切酶编码基因2a/b/c/d(SlDCL2)和番茄核糖核酸内切酶编码基因4(SlDCL4),初步分析其在Ty-1/Ty-3抗TYLCV中的功能.PCR与测序结果发现SlDCL2、