基于SVM的网络信息过滤研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:jwhyyx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展和普及利用,用户可以从网络上获取丰富的、最新的信息,同时,由于网络信息的开放性,用户不可避免地接触到色情的、种族主义的、暴力的、封建迷信或有明显意识形态倾向的信息。如何过滤掉与自己需求无关的信息,快速准确地获得所需信息并免受不良信息侵扰,已经成为当前互联网发展研究的重要课题。信息过滤(Information Filtering, IF)能够根据用户的需求,在动态的信息流中,搜索用户感兴趣的信息,屏蔽不感兴趣或不良的信息。如何获得信息、信息如何进行表示以及如何构建用户模板是信息过滤研究的主要问题,其中,用户模板(User Profiles)的构建主要通过贝叶斯、KNN、支持向量机等算法来实现。支持向量机是建立在统计学习理论的VC维(Vapnik Chervonenks Dimension)理论和结构风险最小化原理(Structural Risk Minimization Inductive Principle)基础上的一种通用机器学习方法,能够较好地解决小样本、非线性、高维数和局部极小点等实际问题,并成功地应用于文本分类、人脸识别和手写体识别等领域。本文在深入研究网络信息过滤关键技术的基础上,围绕信息过滤的过滤准确率和过滤速度两个主要指标,将SVM应用到信息过滤中,提出了基于SVM的网络信息过滤模型,设计并实现了网络信息过滤系统。本文着重从以下几个方面进行了研究、探讨和实现:1.对信息过滤一般模型及支持向量机基本理论进行了深入的研究。探讨了信息过滤的一般模型及其分类,分析了现有信息过滤系统存在的问题[0],重点研究了信息过滤中的特征选择、文本表示、分类算法和数据包的截获等关键技术;支持向量机是一种性能优良的学习方法,本文详细论述了支持向量机的训练算法和多分类方法。2.支持向量机的模型选择研究。模型选择问题是构建具有良好性能的支持向量机的关键。通过对核函数及其相关核参数的分析,给出了进行模型选择的方法,实验证明,这种方法能够寻找到最优的参数。3.提出了基于SVM的网络信息过滤模型,并对该模型中的反馈学习模块进行了分析研究。在阐述信息过滤一般模型和SVM基本理论的基础上,提出了基于SVM的网络信息过滤模型,详细分析了该模型中各个模块的应用实现;针对网络信息的动态变化性这一问题,本文分别研究了基于SVM的反馈学习机制和基于SVM的增量学习算法,进而将SVM的增量学习算法引入到反馈学习中,给出了基于SVM的反馈增量学习算法,并进行了实验,结果表明这种算法是可行的。4.设计并实现了基于SVM的网络信息过滤系统。在研究基于SVM的网络信息过滤模型的基础上,按照分层、模块化设计的思路,设计并实现了基于SVM的网络信息过滤系统;该系统实现了三级过滤机制,主要包括数据包截获及协议分析、SVM训练、系统过滤、反馈学习等模块;该系统采用SPI技术实现数据包的截获及重组,采用向量空间模型进行文本表示,利用SVM方法对训练样本进行学习,生成用户模板,利用基于SVM的反馈增量学习算法来进一步调整优化用户模板。
其他文献
行人跟踪是机器视觉领域重要的研究方向和研究热点,主要是通过对输入视频内容的智能化分析,对当前视频中存在行人进行检测,进一步对连续出现行人进行轨迹发现,最终完成行人跟
随着卫星导航定位技术的广泛应用,导航设备的研究已经成为当前嵌入式领域的研究热点。本文以北斗卫星导航定位系统为应用背景,根据“北斗一号”用户机的手柄的设计要求,提出
随着数字产品版权保护问题的日趋重要,数字水印作为解决该问题的有效手段受到普遍重视。但当前的研究大多都基于对称水印模型,算法不能公开,且只能由所有者本人提取水印。另
移动自组网(Mobile Ad Hoc Networks,简称MANET)是在不需要预先部署任何基础设施的情况下,无线终端以随机方式构成的一种分布式的自组织网络环境。作为新型的无线通信网络模
在Linux作为最主要的开放源码软件之一,使得它在嵌入式领域有着价格低廉和功能强大的巨大优势。内核模块化设计及内核的高度可裁减性使得其在嵌入式实时操作系统研究领域备受
近年来由于农业信息化的迫切需要,关于农作物病害识别的研究引起了人们的重视,对于常见的农作物病害识别问题很多学者从多个角度、利用多种方法进行了有效识别,但想要应用于
随着市场竞争的日趋激烈,每个企业都在寻求更好的生产与运作管理方案,以提高企业的生产、经营和管理效率,从而提高企业的核心竞争优势。生产与运作管理的核心是车间调度问题能否
道路空间中连续最近邻居问题(CKNN)是近年来研究领域中的热点问题,并且被广泛地应用在地理信息系统中。CKNN的初衷是找到待查询路径上任意查询点的最近邻居集,其结果是待查询
随着网络技术的不断发展,基于网络的E-Learning正在改变着人们学习知识的方式,越来越多的学员渴望通过更加个性化和智能化的方式来获取知识。在E-Learning的环境中,随着教学
随着网络的飞速发展,Web资源以指数级的速度增长,人们从互联网上可以获取的资料变得越来越多。同时,互联网也以其巨大的信息量给人们带来了前所未有的冲击。在用户利用Web搜