基于Chord的Nilsimsa摘要相似性搜索算法

来源 :南开大学 | 被引量 : 0次 | 上传用户:ceshi110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅猛发展和流行,针对信息和资源的搜索技术,逐渐在商业应用和科研领域成为必不可少的技术之一。如:垃圾邮件过滤、图片搜索、视频搜索,以及信息检索等。目前,搜索应用技术的主要模式限于分类或关键字检索等。随着近年来使用数据内容(对象)进行搜索的应用需求不断增长,带动了相似性搜索技术的研究与发展。这一类搜索技术通常需要进行复杂的计算,而且处理的数据量巨大,所以需要可大规模扩展的、分布式的解决方案。   垃圾邮件作为商业广告、恶意程序或敏感内容的载体,对系统安全和人们的生活造成了严重的影响。本文以大规模数据资源的相似性搜索作为研究出发点,以基于Nilsimsa摘要技术的垃圾邮件过滤应用作为研究对象,提出了一种适用于大规模的、可扩展的,基于Nilsimsa摘要技术的相似性搜索问题解决方案——SSNC。   SSNC把高维的Nilsimsa摘要数据空间划分成各个子空间,在每个子空间内采用向量索引的方法,将相似性搜索问题转换为一维空间中的分段搜索问题;为了分散存储空间和并行化相似查询过程,SSNC的底层通信平台采用结构化P2P网络结构——Chord。   为了验证文中提出的摘要相似性搜索算法的有效性,本文设计并开发了一个基于MIT-Chord的仿真系统,在此基础之上通过数据发布、查询、负载均衡等实验,验证了基于Nilsimsa摘要的相似性搜索技术可以应用于分布垃圾邮件过滤领域。
其他文献
随着可编程逻辑门阵列FPGA器件成为嵌入式系统设计领域的研究热点,基于FPGA器件的新型动态局部重构技术受到学术界广泛的关注。可重构技术兼顾了系统的性能和设计的灵活性,大
随着计算机网络的发展,国民经济和社会发展对基础信息网络和重要信息系统的依赖性越来越大,信息安全问题日益突出,因此信息安全保障越来越受到全社会的广泛关注。信息系统安全评
随着信息技术的高速发展和信息资源的迅速膨胀,人们从海量数据中找到自己真正感兴趣的信息变得越来越困难,这就是著名的“信息过载问题”。推荐系统一直被认为是解决信息过载
Flash存储器是一种非易失性存储器,以其低成本、低功耗、高访问速度和高抗震性等优点,被广泛运用于便携式设备、消费电子等嵌入式系统的数据存储。不幸的是,和传统块设备不同,Fla
蜂窝概念的提出在无线移动通信发展史上具有里程碑式的意义,将无线移动通信系统划分成互相独立的小区,复用距离之外的小区可以使用同一频谱,使无线移动通讯系统的容量得到了
传统数据挖掘算法,其知识表示方式主要是命题逻辑形式,每一样例以属性-值元组的形式表示,难以表达对象内部之间的复杂关系,并且只能从单一关系中发现模式。但是,大多数现实关
人脸识别技术是计算机模式识别领域非常活跃的研究课题,在法律、商业、公安系统等领域有着广泛的应用前景。由于人脸图像的特殊性与复杂性,人脸识别问题也是模式识别领域的一
多核技术已经是现代处理器发展的主流趋势,它的诞生给软件开发技术带来了新的挑战。如何编写出高效的并行程序使之充分地利用多核的资源,这一直是学术界和工艺界致力于解决的
随着社会经济与科学技术的发展,信息技术得到了广泛的应用,许多领域积累了大量的数据,迫切需要一种新技术与工具来帮助人们快速地从海量的数据中找出重要的有价值的信息,数据挖掘
随着数字多媒体技术以及因特网技术的飞速发展,多媒体产品的安全问题成为目前一个相当重要而又富有挑战性的研究课题。各种数字作品在其传输和使用中,必然会经历各种操作或攻