基于集成学习的非平衡恶意文本检测

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:guocheng19896230801
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术与人类日常生活相互渗透得日益紧密,NLP(Natural Language Processing)技术在计算机和人类活动生产之间渐渐扮演起了语言桥梁的角色,借助自然语言处理技术可以打破计算机处理和人类序列语言之间的隔阂,代替或辅助人类处理日常关于字符语言的任务,诸如文本分类,语种转译,词性标注等,并在其中取得了极其优异的成果。但在互联网的海量文本数据中,不乏有一部分恶意文本,其数量与正常文本相比是极不均衡的,仅依靠人工识别难度较高,就需要引入NLP领域的恶意文本检测技术,来对文本的性质进行解析分类。考虑到恶意文本检测存在的数据分布非均衡问题,本论文从非均衡数据分类的角度对恶意文本检测进行研究,即实质上是非均衡文本分类问题。对于文本数据杂乱、类别不均衡的数据集,已有的用于文本分类的方法并不能很好地应用于这类数据集中,极大地限制了文本分类技术在实际问题中的应用。故本文的主要目的就是研究在非均衡文本数据集上,训练出一个准确率高,鲁棒性好的模型方法,使之能够很好地进行恶意文本检测,将恶意文本与正常文本区别开来。本文首先研究了恶意文本检测的背景和意义,对非均衡文本分类及恶意文本检测的国内外研究现状进行了调研;接着会对数据非均衡的原理和影响进行深入分析和探讨,并研究了已有的能解决数据非均衡的常用文本分类方法,并重点对基于集成学习的方法进行深入研究,分析基于Boosting的集成学习方法和基于Bagging的集成学习方法的原理和优缺点,并在实验部分基于这两种传统的集成学习方法进行了一系列的对比试验,并分析对比了实验结果。最后,针对恶意文本检测中存在的数据非均衡问题,本文提出了一种新的NESTEN集成学习方法,该方法能融合Boosting和Bagging两种方法的优点,并对该方法的原理进行了详细介绍。本文针对NESTEN新型集成学习方法与传统集成学习方法设计了一套严谨的对比试验,最终实验结果中NESTEN方法要优于传统的集成学习方法,进而验证了NESTEN新型集成学习方法对于解决非均衡条件下的恶意文本分类问题是有效的。
其他文献
通过三起离心通风器的故障实例,分析了离心通风器的故障模式和对滑油系统及整个发动机可靠性的影响,并根据故障产生的原因及外场维护条件,提出了设计改进意见和外场预防故障
介绍了俄罗斯新发展的一种外涵回热式燃机ΓΤУ-18ПС,这种燃机的外涵增压空气经与内涵燃机的排气换热后驱动热空气涡轮.该涡轮与内涵燃气动力涡轮共轴输出功率18MW,轴端热
随着汽车智能化的趋势越来越明显,消费者同时也开始要求在车中也能享受与在家时相同的信息和娱乐服务,先进的车载信息娱乐功能正在日益普及.而车载信息系统、后座娱乐和压缩
应用专业的转子动力特性分析软件SAMCEF/ROTOR,建立了燃气轮机转子的二维有限元分析模型,计算了该转子系统的临界转速,并与其它经典方法的计算结果以及试验结果进行了比较,验
依托Borland C++5.0集成开发环境和MPLAB IDE(PIC集成开发环境),使用Windows应用程序接口(API)函数和PIC单片机14位的精简指令(RISC)系统,开发了涡轮增压器监控系统和PIC单片机民控
美国军方提出以现有发动机型号F119为基础来研制第四代轻型战机JSF,既降低了新机的技术风险,缩短型号研制周期,又可大幅度地节省项目研发资金和降低型号全寿命成本,这一思路
高兴祖是中国完全意义的南京大屠杀研究第一人,他对南京大屠杀史研究的贡献已得到社会公认。本文针对杨金荣文章中与事实有出入的地方,主要澄清三点:第一,在国内首先提出“南京大
作为一个煤矿生产管理者,怎样合理并有效的拿出一套有目的性的管理思路,既提高职工的安全意识,又提高生产过程中的安全系数,如何最大限度的解决煤矿生产过程中的安全问题,提高生产