基于数据挖掘的信息过滤系统的设计与实现

被引量 : 0次 | 上传用户:Jingle2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网Internet的高速发展,已经使其成为覆盖范围最广、规模最大的信息网络。但是,在网络时代,人们在充分享受信息共享所带来的便利的同时,也不可避免的受到了“垃圾信息”、“有毒信息”的困扰,如何帮助人们在面对庞大的数据海洋时能够去其糟粕、取其精华,成为网络研究领域的一个重要问题。本文所设计的信息过滤系统,主要针对的是网络上的主机所接收到的Web数据,主要的研究工作如下:1.对现有的信息过滤技术进行了探讨分析。本文首先阐述了信息过滤技术的发展历程以及研究现状,介绍了其中主要的关键技术。分析了目前各种信息过滤模型所存在的不足,如过滤准确率差、处理速度慢、灵活性差等。2.对信息过滤系统的样本库提出了优化方案。对于一个信息过滤系统,组织一个完整、可靠、准确的信息样本库上其主要任务之一。因此,本文提出,使用数据挖掘中的聚类分析方法,对样本库进行自动组织、自动分类,减轻系统管理负担,提高运行效率。3.对信息过滤系统的文本归类过程进行了优化。信息过滤的最终目的是确定源信息的性质,以决定是否将其拦截。因此,过滤系统的另一个核心任务就是对比源信息与信息样本。本文提出,将对比过程划分为两个阶段,即确定主题阶段和确定性质阶段。收到源信息后,首先采用数据挖掘中的贝叶斯分类方法确定其主题,然后采用KNN文本分类方法确定其性质。通过这种策略,分阶段的处理收到的源信息,提高系统准确性和灵活性。4.建立基于数据挖掘技术的信息过滤系统框架并进行了设计和实现。以数据挖掘技术和网络信息处理的相关核心技术为基础,提出一种分层次、分策略的网络信息过滤系统框架,给出了该框架的结构。当前,对网络数据的过滤主要是针对web、网络寻呼机等网络应用。因此,本文设计了一种在传输层和应用层分别进行信息过滤的方案,并采用诸如WinsockSPI等相关技术进行了实现。实验表明,该系统能够根据用户的策略,在指定范围或级别下有效的过滤主机所接收到的网络信息。在正确性、可靠性以及过滤效率等方面,有着良好的表
其他文献
会展业是一个既古老又新颖的行业。自从有了商品经济就有了展览业,因此展览业是一个有很长历史的行业。但是,随着时代的发展,不断地被注入新的内涵,不断地获得新的生命力。有
本文调查了二语阅读学习者的性格特征与二语阅读行为的关系。具体而言,包括性格特征对二语阅读学习者在阅读过程中策略选择,态度反应以及对阅读材料偏好的影响。性格是个人固有
人类对资源的使用量急剧扩张,已经造成了对环境的破坏。以低能耗、低污染和可持续发展为理念的低碳经济正成为全球关注的热点,同时也对供应链管理提出了新的挑战。在对当前供
《西风颂》是英国诗人雪莱最重要的抒情诗之一,其思想内涵与艺术形式均堪称浪漫主义诗歌的典范。本文旨在分析《西风颂》的三个中译本中对呼告修辞格、韵律的翻译再现,探讨译
龙岩话是闽南方言的北部分支,从唐代中叶直至清初,龙岩一直隶属漳州府管辖,龙岩话在地缘及历史来源上与漳州密不可分。但因两地有高山阻隔,清代以后两地行政上也各自独立,加上龙岩
目的从诊断与病因角度对MCI进行临床观察,探讨高血压、糖尿病、血脂异常与MCI的关系,比较不同量表对不同亚型MCI的适用性。方法经神经系统查体与头部CT检查诊断的74例脑血管
本文研究了一种环保型含氟纳米复合涂料,可用于高性能外墙涂料。本研究包括以下三方面的内容。 第一是纳米颜料的制备。使用溶胶一凝胶法以钛酸丁酯为原料制备了纳米TiO2粉
养老社会保险制度中有性别利益问题 ,即养老金在两性间的分配和男女劳动就业权利问题。由于与男性相比 ,女性的劳动参与率低、工资收入低、平均寿命高 ,具体保险规定的设计就
自由的张力突显的是人的主观能动性与创造个性。马克思主义研究自由的方法论说明,不研究主体自由意志,就无从研究道德与法等问题。马克思的自由并非新自由主义所说的理性决定
大冶位于湖北省东南部,长江中游南岸,地处武汉、鄂州、黄石、九江城市带之间和湖北“冶金走廊”腹地,西北与鄂州市为邻,东北与蕲春、浠水县隔江相对,西南与武汉市、成宁市毗邻,东南