基于内容检索的垃圾邮件过滤器研究与实现

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:NoskyFox
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息化时代,垃圾邮件被认为是最有效和最廉价的广告形式,诱惑一些投机者采用这种新的途径传播信息。垃圾邮件严重干扰人们正常生活,浪费用户的时间、精力,更为严重的是造成信息安全隐患,损害ISP的市场形象,造成无形资产流失,而且垃圾邮件对网络资源消耗和网络安全的危害也越来越大。本文主要研究的是邮件用户代理过滤,即客户端过滤,扩展邮件代理工具Outlook的垃圾邮件过滤功能,实现用户个性化设置。目前以文字方式传播垃圾邮件还是主要的途径之一,因此本文研究的是基于内容检索的垃圾邮件过滤方法。该方法主要分两个阶段,训练阶段和分类阶段。在各个阶段中主要包括五个主要步骤:邮件预处理,文本表示,特征选择,分类预测和评价邮件过滤质量。其中重点研究了两个核心步骤——特征选择和分类预测进行研究。首先分析了八种常用的特征选择方法,如文档频率、信息增益、互信息、CHI统计法、期望交叉熵、文本证据权、优势率和相关性得分。特别是对互信息法进行深入研究后发现:当某一特征词仅在一个类别中出现时,此时互信息值彼此相等,这样导致无法区分它们之间的重要程度。从这一点出发,本文得出改进后的互信息法——利用调整后的TFIDF权重函数对这些特征词再次衡量,使得特征词有了更好的区分类别的能力。此外,本文还对两种常用分类算法进行研究:贝叶斯分类和支持向量机。在实验分析部分,本文选取常用的Ling-Spam标准邮件集。从四个方面对各种算法进行测试,即不同的特征选择方法、维数、分类算法和训练集个数,采用F1值和虚报率对结果进行评价。实验结果表明,改进后的互信息的相比其他算法的稳定性要好。最后以Outlook外接程序形式实现一个垃圾邮件过滤子系统,在实际应用中能满足垃圾邮件过滤功能。
其他文献
数据挖掘自上世纪80年代后期出现以来,经过二十多年的发展,现在已成为机器学习和人工智能这两大热门领域的重要研究内容。特征属性提取、冗余属性约简、分类精度和算法效率的
随着计算机技术和现代信息通讯技术的迅猛发展,各种在线网络系统及其相关的衍生应用层出不穷。例如互联网、在线社交网络、移动通信网络、无线传感器网络等,这些在线网络系统
随着互联网在人们日常工作生活中的普及,网络上涌现了大量稳定可靠的Web服务。然而人们工作及生活需求不断提高,由于单一的Web服务功能比较有限,已经不能满足人们多方面的要
随着技术、市场需求的发展变化,未来无线通信网络将是多种接入技术并存、协同工作的融合网络,宽带化、泛在化和异构互连将成为未来宽带无线通信发展的主旋律。无线Mesh网络(W
论文分析了我国水利信息化现状、水利工程管理自动化建设的发展状况;根据目前我国水利工程的一系列特点,分析计算机远程监控技术对水利工程管理中的重大作用。针对浙江省特殊的
作为新一代测验理论的重点,认知诊断受到国内外研究者们的广泛关注[1]。认知诊断模型的建立是为了评估被试,得到个体的详细信息,教师可以通过得到的详细信息对学生进行个性化
嵌入式Internet是嵌入式技术发展历史上的又一个里程碑。它依托于Internet技术、嵌入式技术的发展。嵌入式Internet技术是嵌入式技术和Internet技术的结合,借助嵌入式Internet
20世纪90年代以来,由于计算机技术、网络技术、空间技术、通信技术的发展以及前所未有的推广普及,使得信息服务业迅猛崛起,并成为21世纪最具潜力的产业。信息产业在整个国民
网络开发平台提供扩展网络应用所需的基本框架,包括网络数据处理的基本模块以及各种系统仿真支撑模块。平台使得用户可以根据自己的需求快速建立系统原型,并由此在早期评估系
现代汉语语气词用法的自动识别研究是面向自然语言处理的现代汉语语气词知识库的重要内容之一,本文试图采用统计与规则相结合的方式进行现代汉语语气词用法的自动识别。首先