论文部分内容阅读
随着Internet的发展和普及利用,用户可以从网络上获取丰富的、最新的信息,同时,由于网络信息的开放性,用户不可避免地接触到色情的、种族主义的、暴力的、封建迷信或有明显意识形态倾向的信息。如何过滤掉与自己需求无关的信息,快速准确地获得所需信息并免受不良信息侵扰,已经成为当前互联网发展研究的重要课题。信息过滤(Information Filtering, IF)能够根据用户的需求,在动态的信息流中,搜索用户感兴趣的信息,屏蔽不感兴趣或不良的信息。如何获得信息、信息如何进行表示以及如何构建用户模板是信息过滤研究的主要问题,其中,用户模板(User Profiles)的构建主要通过贝叶斯、KNN、支持向量机等算法来实现。支持向量机是建立在统计学习理论的VC维(Vapnik Chervonenks Dimension)理论和结构风险最小化原理(Structural Risk Minimization Inductive Principle)基础上的一种通用机器学习方法,能够较好地解决小样本、非线性、高维数和局部极小点等实际问题,并成功地应用于文本分类、人脸识别和手写体识别等领域。本文在深入研究网络信息过滤关键技术的基础上,围绕信息过滤的过滤准确率和过滤速度两个主要指标,将SVM应用到信息过滤中,提出了基于SVM的网络信息过滤模型,设计并实现了网络信息过滤系统。本文着重从以下几个方面进行了研究、探讨和实现:1.对信息过滤一般模型及支持向量机基本理论进行了深入的研究。探讨了信息过滤的一般模型及其分类,分析了现有信息过滤系统存在的问题[0],重点研究了信息过滤中的特征选择、文本表示、分类算法和数据包的截获等关键技术;支持向量机是一种性能优良的学习方法,本文详细论述了支持向量机的训练算法和多分类方法。2.支持向量机的模型选择研究。模型选择问题是构建具有良好性能的支持向量机的关键。通过对核函数及其相关核参数的分析,给出了进行模型选择的方法,实验证明,这种方法能够寻找到最优的参数。3.提出了基于SVM的网络信息过滤模型,并对该模型中的反馈学习模块进行了分析研究。在阐述信息过滤一般模型和SVM基本理论的基础上,提出了基于SVM的网络信息过滤模型,详细分析了该模型中各个模块的应用实现;针对网络信息的动态变化性这一问题,本文分别研究了基于SVM的反馈学习机制和基于SVM的增量学习算法,进而将SVM的增量学习算法引入到反馈学习中,给出了基于SVM的反馈增量学习算法,并进行了实验,结果表明这种算法是可行的。4.设计并实现了基于SVM的网络信息过滤系统。在研究基于SVM的网络信息过滤模型的基础上,按照分层、模块化设计的思路,设计并实现了基于SVM的网络信息过滤系统;该系统实现了三级过滤机制,主要包括数据包截获及协议分析、SVM训练、系统过滤、反馈学习等模块;该系统采用SPI技术实现数据包的截获及重组,采用向量空间模型进行文本表示,利用SVM方法对训练样本进行学习,生成用户模板,利用基于SVM的反馈增量学习算法来进一步调整优化用户模板。