论文部分内容阅读
随着信息技术的迅猛发展和流行,针对信息和资源的搜索技术,逐渐在商业应用和科研领域成为必不可少的技术之一。如:垃圾邮件过滤、图片搜索、视频搜索,以及信息检索等。目前,搜索应用技术的主要模式限于分类或关键字检索等。随着近年来使用数据内容(对象)进行搜索的应用需求不断增长,带动了相似性搜索技术的研究与发展。这一类搜索技术通常需要进行复杂的计算,而且处理的数据量巨大,所以需要可大规模扩展的、分布式的解决方案。
垃圾邮件作为商业广告、恶意程序或敏感内容的载体,对系统安全和人们的生活造成了严重的影响。本文以大规模数据资源的相似性搜索作为研究出发点,以基于Nilsimsa摘要技术的垃圾邮件过滤应用作为研究对象,提出了一种适用于大规模的、可扩展的,基于Nilsimsa摘要技术的相似性搜索问题解决方案——SSNC。
SSNC把高维的Nilsimsa摘要数据空间划分成各个子空间,在每个子空间内采用向量索引的方法,将相似性搜索问题转换为一维空间中的分段搜索问题;为了分散存储空间和并行化相似查询过程,SSNC的底层通信平台采用结构化P2P网络结构——Chord。
为了验证文中提出的摘要相似性搜索算法的有效性,本文设计并开发了一个基于MIT-Chord的仿真系统,在此基础之上通过数据发布、查询、负载均衡等实验,验证了基于Nilsimsa摘要的相似性搜索技术可以应用于分布垃圾邮件过滤领域。