基于集成学习的非平衡恶意文本检测

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:guocheng19896230801
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术与人类日常生活相互渗透得日益紧密,NLP(Natural Language Processing)技术在计算机和人类活动生产之间渐渐扮演起了语言桥梁的角色,借助自然语言处理技术可以打破计算机处理和人类序列语言之间的隔阂,代替或辅助人类处理日常关于字符语言的任务,诸如文本分类,语种转译,词性标注等,并在其中取得了极其优异的成果。但在互联网的海量文本数据中,不乏有一部分恶意文本,其数量与正常文本相比是极不均衡的,仅依靠人工识别难度较高,就需要引入NLP领域的恶意文本检测技术,来对文本的性质进行解析分类。考虑到恶意文本检测存在的数据分布非均衡问题,本论文从非均衡数据分类的角度对恶意文本检测进行研究,即实质上是非均衡文本分类问题。对于文本数据杂乱、类别不均衡的数据集,已有的用于文本分类的方法并不能很好地应用于这类数据集中,极大地限制了文本分类技术在实际问题中的应用。故本文的主要目的就是研究在非均衡文本数据集上,训练出一个准确率高,鲁棒性好的模型方法,使之能够很好地进行恶意文本检测,将恶意文本与正常文本区别开来。本文首先研究了恶意文本检测的背景和意义,对非均衡文本分类及恶意文本检测的国内外研究现状进行了调研;接着会对数据非均衡的原理和影响进行深入分析和探讨,并研究了已有的能解决数据非均衡的常用文本分类方法,并重点对基于集成学习的方法进行深入研究,分析基于Boosting的集成学习方法和基于Bagging的集成学习方法的原理和优缺点,并在实验部分基于这两种传统的集成学习方法进行了一系列的对比试验,并分析对比了实验结果。最后,针对恶意文本检测中存在的数据非均衡问题,本文提出了一种新的NESTEN集成学习方法,该方法能融合Boosting和Bagging两种方法的优点,并对该方法的原理进行了详细介绍。本文针对NESTEN新型集成学习方法与传统集成学习方法设计了一套严谨的对比试验,最终实验结果中NESTEN方法要优于传统的集成学习方法,进而验证了NESTEN新型集成学习方法对于解决非均衡条件下的恶意文本分类问题是有效的。
其他文献
通过三起离心通风器的故障实例,分析了离心通风器的故障模式和对滑油系统及整个发动机可靠性的影响,并根据故障产生的原因及外场维护条件,提出了设计改进意见和外场预防故障
介绍了俄罗斯新发展的一种外涵回热式燃机ΓΤУ-18ПС,这种燃机的外涵增压空气经与内涵燃机的排气换热后驱动热空气涡轮.该涡轮与内涵燃气动力涡轮共轴输出功率18MW,轴端热
应用专业的转子动力特性分析软件SAMCEF/ROTOR,建立了燃气轮机转子的二维有限元分析模型,计算了该转子系统的临界转速,并与其它经典方法的计算结果以及试验结果进行了比较,验