【摘 要】
:
随着信息产业的迅速发展,信息检索技术也日益成熟并得到了越来越广泛的应用。另一方面由于缺乏有效的管理手段,导致互联网上不良信息泛滥。为此,本文的研究工作是对一个现有
论文部分内容阅读
随着信息产业的迅速发展,信息检索技术也日益成熟并得到了越来越广泛的应用。另一方面由于缺乏有效的管理手段,导致互联网上不良信息泛滥。为此,本文的研究工作是对一个现有的信息检索系统――GONIA进行改造,使之能面向网络海量实时数据环境,从而为互联网信息管理提供有效的技术支持。GONIA是CERNET华东北地区网络中心早年开发的一个分布式信息检索原型系统,要将其应用到海量实时数据环境,要解决的关键问题集中在性能方面。本文通过排队论、数据挖掘等理论和双缓存、单链接、聚类等算法,对GONIA的内部算法进行了系统的分析和更新,并对数据分布存储策略进行了改良,使之可以适应于海量实时数据环境。本文第一章阐述了相关的工作背景。说明了论文研究工作的目的是为了利用信息检索技术来管理网络信息,从而使互联网能够更好、更健康地发展。第二章介绍了本文工作的基础-GONIA系统。GONIA系统的核心技术非常成熟,但不适合海量实时数据环境。在第三章主要讨论了对GONIA系统的改进。为了使得系统能够处理实时数据的搜集,系统引进了尺寸可调节的双缓存用来平滑系统入流量的随机性;为了使得系统能够处理海量数据的查询,本系统通过两段向量聚类算法构造的聚类树为查询模块提供索引,这也是本系统的核心思想;在实际中发现网络数据中垃圾邮件的比重比较大,因此本系统引入了一个重要的应用:群发邮件甄别模块,该模块和聚类模块相互合作、相互促进性能。第四章详细阐述了系统的实现。首先在GONIA的系统构架上作了新的数据分发和数据分布的策略,然后介绍了本系统的各个模块。本文工作主要集中在搜集模块和聚类模块中,因此本章着重阐述了这两个模块的实现。另外,为了进一步地提高系统的性能,本文又引入了无互斥的预处理队列内存管理机制。第五章对本系统的搜集性能、群发邮件甄别率进行了测试。最终证明了本系统基本适应海量实时数据环境。
其他文献
在信息时代的今天,互联网应用已渗透到各行各业乃至在日常生活中。在这种趋势下,电子商务高速发展,而在网络上投放广告已经成为电子商务重要的营销方式。然而目前,粗放的广告投放
Internet近年来有着飞越的发展,给人们的生活带来了前所未有的变化,一个鼠标动作就可以在瞬间完成很多以前不敢想象的事情。但是现在使用的IP协议大部分还是在1981年制定的IPv4
随着GIS技术的发展,出现了GIS与主流IT技术、无线通信技术加速融合的趋势。而无线移动位置服务技术的兴起,标志着GIS技术由面向部门级、企业级的应用转向面向大规模社会化服务
数据仓库的架构大体可以分为三部分:后台是数据存储和计算引擎,前端是数据展现分析的用户界面,还有一个重要的部分就是ETL.ETL所完成的工作主要包括三方面:首先,在数据仓库和
目前,手机短消息日益红火,SP/ICP(Service Provider/Internet Content Provider)大都开通了自己的短消息应用服务,但是,由于短消息应用有不同的接入标准和不同的接入编程接口,导致SP
在现实生活和工作中,人们经常会面临很多需要记录号码的情况,比如记录集装箱号码,摘抄车牌号码等.利用人工对这些号码进行记录,工作繁杂琐碎,效率低,且易出错.因此,设计并实
在对目前的即时消息系统进行了研究之后,提出了一种新的即时消息系统结构。这一系统采用了分布的多服务器模式,通过扩展标注语言描述消息和数据,采取端到端的方式进行客户端之间
近年来,随着网络技术和无线通信技术的飞速发展,移动Adhoc网络——MANET(MobileAdhocNetwork)正逐渐成为无线网络研究领域的热点。在网络建设中,网络管理是保证网络高效和可靠工
随着信息技术的迅速发展,计算机辅助教学逐渐成为一种流行的教学手段,但仍存在一些问题,如课程知识缺乏有效的组织,无法显示知识点之间的关系,更无法挖掘知识之间隐含的关系
对等网络P2P(Peerto Peer)是Internet网实现下一次飞跃的关键,该文首先分析了P2P网络以及它和其它传统网络模式的差别,P2P模型,P2P现有的应用各种模型的优势及不足之处.提出