基于形象特征分析的垃圾邮件过滤方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:gxfcs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子邮件的广泛应用,垃圾邮件的增长速度也越来越快。据vnunet.com报道,在未来几个月中,互联网垃圾邮件总数将足足翻一番,这将给系统的安全带来严重的威胁,给人们造成越来越多的困扰。垃圾邮件已经引起了业界的广泛关注,反垃圾邮件问题已经成为一个全球性的热门研究课题。邮件过滤技术是反垃圾邮件的重要手段,当前对垃圾邮件的过滤主要有基于IP地址、基于信封和信头的过滤、基于内容以及基于行为等过滤方法,这些方法对垃圾邮件的过滤起到了一定作用。但是,如果垃圾邮件制造者采用图像来隐藏垃圾信息,那么当前的垃圾邮件过滤方法将很难把它检测出来。通过对大量的包含图像的垃圾邮件进行分析,给出了基于形象特征分析的垃圾邮件过滤方法,它通过提取出有用的形象特征来辨别和过滤垃圾邮件,有效地识别邮件图像中隐藏垃圾信息的诡计。结合形象特征的提取方法,构建了基于形象特征分析的垃圾邮件过滤系统结构,设计了系统各个功能模块和系统工作流程。为了提高系统性能,还研究了垃圾邮件过滤所需的各种技术,包括MIME的编解码技术、图像文本定位技术、分类算法等。通过对现有图像中文本定位技术的比较分析,本文在基于与位置无关的字符特征的级联分类器的基础上,利用滑动窗口定位方法、文本区域搜索算法以及后处理技术等来提高嵌入文本的定位精度。通过比较和分析当前分类算法的优劣,采用了一类支持向量机做为垃圾邮件的分类算法。最后,利用Visual C++ 6.0作为开发工具,Libsvm-2.82作为分类算法,实现了基于形象特征分析的垃圾邮件过滤系统原型,并使用POP3协议在163信箱上进行了垃圾邮件的过滤仿真实验。从分类器性能、过滤性能以及过滤时间消耗等方面证明本方法能够有效地提高垃圾邮件的探测率和取得较低的误判率。
其他文献
科学计算可视化是计算机图形学的一个重要研究方向,它在各个领域都有着广泛的应用。在医学领域,人们利用可视化技术由二维医学断层图像序列构建特定组织或器官的三维模型,以
随着社会信息化发展步伐的加快,越来越多的企业,政府部门的日常办公、日常管理都离不开应用系统软件的支撑,而针对特定行业的应用系统的开发已经离不开工作流技术的支撑。现
一张完全空白的磁盘介质是无法使用的,需要写入伺服信号后,磁头才能通过伺服信号进行定位。尤其是今天对于高存储容量的磁盘的需求已经成为一种趋势,同时希望减小磁盘的尺寸
“软件产品线”是一个以软件工程学为基础发展起来的新兴多学科交叉的研究领域,现已成为软件工程和软件复用领域研究与实践的前沿。软件产品线体系结构描述了产品线内所有成员
随着信息技术的不断发展,人们在要求获得信息服务的同时,对隐私信息的保护也越来越重视。特别是在针对数据库中大规模数据的统计分析与分类的过程中,保护个人的隐私的同时发
近年来,随着无线通讯技术的发展,人们可以通过随身携带的智能终端获取各类网络服务。当下全球移动数据流量中视频占比约为65%,用户在移动端观看视频的行为较为频繁。这类视频
随着网络的发展,传统互联网协议IPv4因其地址空间狭小、地址分配效率不高、安全性没有保障等缺点已渐渐显得力不从心,而新一代网际协议IPv6因具有128位超大地址空间、分级地
社交云是云计算技术与社交网络发展与融合的产物。作为一种社交应用平台,其作用在于组织社交网络中的社交用户,构成一个巨大的虚拟的交易市场;通过整合社交云用户的资源供需信
计算机技术与网络技术的发展对存储系统提出了越来越高的要求,存储系统的I/O速度、存储容量、系统安全性和可用性等方面都面临极大的挑战。OBS(Object-Based Storage System,
随着信息技术的发展,人们已习惯于从互联网上获取各类信息,这得益于搜索引擎技术的发展。然而,搜索引擎仍然有一些问题没有解决。首先是用户检索时,相关信息返回太多且不精确