基于遗传算法与模糊聚类的网络信息过滤系统的研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:wufang78
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展和应用,越来越多的商务、日常活动通过Internet进行,网络与人们的生活越来越紧密。然而,网络是双面的,人们在享受网络所带来便利的同时,不可避免地接触到大量不良信息;另外,基于Internet所固有的开放性、动态性和异构性,用户很难准确快捷地从Internet上获取所需信息。这就需要在浩如烟海的动态信息中过滤掉不符合用户信息需求的有害、无用信息,把不相关信息减至最少。因此,网络信息过滤技术已经成为当前研究的热点之一。如何获得用户的兴趣模板,并依据模板对过滤文档分类,是网络信息过滤中的关键技术。目前常采用文本分类中的相关技术来实现,如:Rocchio、K-元最近邻居、贝叶斯、支持向量机以及遗传算法(GA)等方法。GA在网络信息过滤中的应用主要是为了获得用户的兴趣模板,其效果与适应度函数相关。当前的适应度函数多采用以求个体相似度为基础的方法对种群进行评价。这种方法在评价时,重点在种群个体的相似程度评估上,没有对个体的类别属性进行评价,也没有考虑到特征的典型性及特征包含的类别信息方面的内容,所以获得的用户模型在过滤时效果不是很理想。1965年,Zadeh提出模糊集理论之后,人们开始用模糊的方法来处理聚类问题,并称之为模糊聚类分析。由于模糊聚类得到了样本属于各个类别的不确定性程度,表达了样本类属的中介性,即建立起了样本对于类别的不确定性描述,能更客观地反映现实世界。因此,在基于遗传算法的信息过滤中,引入模糊聚类技术来评价,能够更多的考虑到各特征项所属类别的非绝对性、特征的典型性及所包含的类别信息,从种群个体的类别属性上进行评价,从而可获得更准确的用户兴趣模板。本文在遗传算法中引入了模糊聚类的思想,从模糊聚类的角度对基于GA的信息过滤系统中种群个体进行评价,提出一个基于模糊聚类的遗传算法,然后将该算法应用于信息过滤中,实现了基于遗传算法与模糊聚类的信息过滤系统。最后,在该系统中对其有效性进行了验证。本文具体工作如下:1.将模糊聚类技术融入遗传算法,对个体进行评价。在计算适应度之前,先采用个体所选择的特征子集将训练文本表示成向量,然后采用模糊相似矩阵直接聚类法对其聚类,最后根据聚类的效果来计算适应度。这种评价方法从个体对文本类别的判定能力方面评价个体,更多的考虑到特征的典型性及所包含的类别信息方面的内容。2.提高了算法的抗干扰性。适应度函数通过对模糊聚类结果的正确率和紧凑程度两个方面评价的综合来计算适应度值。该函数设置了一个w参数。调整w的取值,可以降低适应度函数对训练文本集中干扰文本的敏感程度,从而提高了算法的抗干扰性。3.实现了基于遗传算法与模糊聚类的网络信息过滤系统。采用本文中所提出的基于模糊聚类的遗传算法学习训练文本,通过对种群个体进行评估,经过一定代数的迭代训练获得用户的兴趣模板,然后采用改进的Sim函数对待过滤文档比较分类,最终实现信息过滤。通过该系统验证了该方法的有效性。文中通过从模糊聚类角度评价种群个体,提出了基于模糊聚类的遗传算法。经试验验证,该算法在准确率和F1测度方面均有明显的提高。
其他文献
集群技术是分布式计算的一个重要发展方向,目前,国外对它的研究非常深入,但国内还处于起步阶段。对于该领域的研究具有非常重要的意义,因为它与国家经济建设的众多部门都有密
由于Web服务的种种优越性及广阔的应用前景,自诞生之日起就受到许多机构和公司的认可与推崇,许多组织机构已将Web服务引入他们的商业流程中,并获得了直接的经济效益。然而随
数字视频是由若干帧组成的图像序列,其中含有丰富的信息。随着计算机处理能力的提高和数字图像处理技术的发展,将数字视频中的帧分解出来并加以处理和分析,从而获得必要的信息,已
汽车类型识别是智能交通的一个重要组成部分。目前,传统的电磁线圈感应识别车型法由于对路面的破坏、维护困难、不可移动性等原因,使其发展受到了有大的限制。近几年车牌识别得
无线传感器网络是由一组传感器以Ad Hoc方式构成的无线网络,其目的是协作地感知、采集和处理网络覆盖地理区域中感知对象的信息并发送给用户。无线传感器网络具有自身的特点:
本体(Ontology)是对一个特定领域中重要概念的共享的形式化的描述,由于具有明确性和共享性,它可以作为领域内不同主体之间进行交流的语义基础:更进一步的,Ontology可以帮助机
随着Internet的迅速发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息就是当前信息科学技术领域面临的一
近几年来,XML已经成为Internet上数据表示、交换和存储方面的标准,为数据库的应用开辟了一个崭新的领域,然而由于XML数据的半结构化特性以及XML数据所特有的路径表达式查询方
近年来IT技术在企业管理中发挥的作用越来越重要,现代企业的发展速度越快,其业务流程的变化越大,企业对工作流建模技术的要求也就越高。通过对现有的一些工作流建模方法的研
数据网格是网格领域中并行和分布处理技术的一个发展方向,其目标是实现对地理上广泛分布的大量异构数据资源进行共享,其中副本管理是数据网格中一个重要的组成部分。良好的数