基于遗传算法的网络信息过滤模型研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:hjjcumt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着以因特网为主体的信息高速公路不断普及和发展,信息技术已经渗透到我们社会生活的每个角落,它正在以前所未有的速度和能力改变着我们的生活和工作方式,因特网上的数据与信息也以前所未有的速度剧烈膨胀,Internet成为当今世界上最大的分布式数据库,我们已经进入了一个“信息爆炸”的时代。信息增长带来了双面的效应。一方面,用户可以从因特网上获取丰富的、最新的信息,从而在学习、消遣的过程中充实自己、提升自己;另一方面,由于因特网信息的开放性、个人化,一些不法分子利用计算机网络复制、传播和查阅一些色情的、种族主义的、暴力的、封建迷信或有明显意识形态倾向的信息,这些信息对社会的危害极大。如何过滤掉与自己需求无关的信息,快速准确的获得所需信息并免受非法信息侵扰,已经成为当前互联网发展研究的一个重点。本文主要研究网络信息过滤问题,内容涵盖了网络信息过滤的各个处理阶段,围绕信息过滤模型的查全率和查准率两个主要技术指标,在如下几个方面进行了研究和探讨:1、对网络信息过滤的研究背景和研究现状做了分析,阐明了信息过滤同信息检索的关系,指出了信息过滤效果的评价指标。本文首先对网络信息过滤的研究背景和研究现状进行了分析,指出国内外有关信息过滤的研究目前以核心算法为主,算法研究集中在特征抽取与过滤算法。特征抽取的目的在于使用最少的特征表示出文档的含义。算法研究主要有两个趋势:第一个趋势是传统的关键词匹配方法逐渐的被较复杂地自然语言处理技术所取代。第二个趋势是用户模型的手动输入逐渐的被自动的机器学习所取代。其次指出信息过滤与信息检索如同硬币的正反面一样,既有区别,又有联系。最后对信息过滤效果的两个评价指标查全率和查准率做了研究,并指出了二者的相互关系。2、对网络信息过滤的关键技术进行了分析比较。对中文自动分词进行了研究探讨,对基于词典的分词算法和无词典的分词算法进行了介绍,研究发现基于词典的分词算法的分词效果优于无词典的分词算法。对常用的特征提取方法文档频率(DF)、信息收益(IG)、互信息(MI)、开方拟合检验(CHI)、术语强度(TS),进行了研究,指出其提取效率的高低为CHI>MI>DF>TS>IG,并阐明综合运用多种特征提取方法才能得到较好的提取效果。对常用的文本表示模型布尔逻辑模型、向量空间模型、概率推理模型进行了分析,并阐明上述模型的优缺点。对常用的文本分类算法Rocchio方法、K-元最近邻居方法以及Na?ve Bayesian方法进行了研究,通过实验发现在采用向量空间的文本表示模型中,Rocchio方法具有较好的分类效果。3、提出了基于遗传算法的网络信息过滤模型。基于遗传算法的网络信息过滤模型与传统的信息过滤模型相比较,主要有以下创新点:第一,提出了用户兴趣模型的遗传校正算法。第二,对传统的用户兴趣模型与待过滤文档的匹配算法了进行了研究改进,提出了一种新的匹配算法。第三,提出了利用相关度反馈技术修改用户兴趣文件的迭代算法。最后对四种网络信息过滤模型布尔逻辑模型、向量空间模型、概率推理模型和基于遗传算法的模型进行了实验模拟,实验结果说明基于遗传算法的信息过滤模型和传统的信息过滤模型相比在查准率和查全率方面都有了明显的提高。4、设计实现了基于遗传算法的网络信息过滤系统。该系统主要由Profile的生成模块、Profile的重建模块、数据包捕获模块、网络协议分析模块、过滤模块五个模块组成。从适当的减小分类特征向量的长度、减少系统捕获的原始数
其他文献
医学图像三维重建及其可视化技术是一种运用计算机图形学、图像处理、计算机视觉以及人机交互技术,将医学图像数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方
网格是由许多地理上分布的,异构的且动态的资源构建而成,以一种透明的方式向用户提供对可计算资源的访问。网格资源监控是网格系统中不可分割的一个重要组成部分,负责对网格范围
随着社会的发展和科技的进步,传统教学模式无法满足社会的需求。自主学习的教学模式成为了教学发展的方向。网络教学成为了自主学习的主要途径。但早期网络教学存在理论欠缺,
计算机和互联网逐渐融入人们的生活,同时,网络入侵等安全威胁层出不穷,网络安全形势十分严峻。安全审计技术,通过对系统事件等各种信息的记录并分析检查用户行为,能够防范和发现违
本文在介绍电法勘探知识的基础上详细说明了集成化电法处理解释系统的研究方法和实现过程。我们开发的解释系统能够接收常规、高密度电法仪和音频电透仪中的数据并将数据存入
随着计算机网络的不断普及和协同科学理论的形成与完善,协同计算将是新世纪全新和流行的计算方式,各行各业对使用计算机和网络来支持协同工作的要求越来越迫切。由于信息技术
无线传感器网络,尤其是移动无线传感器网络,以其感应数据高保真性,节点位置可调整,节点移动可控制,网络部署灵活等优点,被广泛应用于无人值守现场、灾难发生现场、紧急救援现场、医
随着计算机应用领域的迅速扩大,软件规模及复杂性的不断提高,软件危机日益严重,提高软件的生产效率和质量成为软件产业的当务之急。近些年来面向对象技术的发展成熟和Interne
随着计算机、多媒体技术的快速发展和普及应用,数字产品信息的交流变得更加的快捷和方便了,而在信息交流快捷的情况下,信息的获取也变得更加容易了,由此就引发了很多的问题,图像、
在实际生活中,我们经常会遇到各种各样的网络系统,如计算机网络、电网和铁路交通网等。为了方便用户监控这些网络,我们常常会提供一个人性化的图形用户界面,用户可以通过它来