论文部分内容阅读
随着计算机技术与人类日常生活相互渗透得日益紧密,NLP(Natural Language Processing)技术在计算机和人类活动生产之间渐渐扮演起了语言桥梁的角色,借助自然语言处理技术可以打破计算机处理和人类序列语言之间的隔阂,代替或辅助人类处理日常关于字符语言的任务,诸如文本分类,语种转译,词性标注等,并在其中取得了极其优异的成果。但在互联网的海量文本数据中,不乏有一部分恶意文本,其数量与正常文本相比是极不均衡的,仅依靠人工识别难度较高,就需要引入NLP领域的恶意文本检测技术,来对文本的性质进行解析分类。考虑到恶意文本检测存在的数据分布非均衡问题,本论文从非均衡数据分类的角度对恶意文本检测进行研究,即实质上是非均衡文本分类问题。对于文本数据杂乱、类别不均衡的数据集,已有的用于文本分类的方法并不能很好地应用于这类数据集中,极大地限制了文本分类技术在实际问题中的应用。故本文的主要目的就是研究在非均衡文本数据集上,训练出一个准确率高,鲁棒性好的模型方法,使之能够很好地进行恶意文本检测,将恶意文本与正常文本区别开来。本文首先研究了恶意文本检测的背景和意义,对非均衡文本分类及恶意文本检测的国内外研究现状进行了调研;接着会对数据非均衡的原理和影响进行深入分析和探讨,并研究了已有的能解决数据非均衡的常用文本分类方法,并重点对基于集成学习的方法进行深入研究,分析基于Boosting的集成学习方法和基于Bagging的集成学习方法的原理和优缺点,并在实验部分基于这两种传统的集成学习方法进行了一系列的对比试验,并分析对比了实验结果。最后,针对恶意文本检测中存在的数据非均衡问题,本文提出了一种新的NESTEN集成学习方法,该方法能融合Boosting和Bagging两种方法的优点,并对该方法的原理进行了详细介绍。本文针对NESTEN新型集成学习方法与传统集成学习方法设计了一套严谨的对比试验,最终实验结果中NESTEN方法要优于传统的集成学习方法,进而验证了NESTEN新型集成学习方法对于解决非均衡条件下的恶意文本分类问题是有效的。