基于改进度量尺度和阈值确定方法的马田系统及其在邮件过滤中的应用

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:Rainwave
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展和移动终端的普及,电子邮件逐渐成为一种重要的沟通方式。同时,大量的垃圾邮件给用户和服务商带来了诸多挑战,近年来电子邮件过滤逐渐成为了研究的热点问题。马田系统是面向多维变量的模式识别和分类预测的方法,该方法对数据分布类型无其他假设,可在约简特征变量后完成分类预测。本文针对传统马田系统在度量尺度和阈值计算方面的不足提出针对性的改进,将改进后的马田系统应用于电子邮件过滤研究。主要有以下三个方面的工作:(1)基于灰色关联度的马田系统新度量尺度研究。度量尺度的值反映了样品间的亲疏关系并据此判定样品的类别归属。马田系统将马氏距离用于衡量样品到基准空间距离贴近度,该统计量考虑了变量间相关性而忽视了样品与总体在空间范围内序列曲线的相似性。灰色关联模型是一种新的计算序列曲线形状相似性的方法,具有良好的通用性。为全面衡量样品间的近似度,本文通过线性加权方式将灰色关联度和马氏距离相结合,构建新的样本度量尺度,提高马田系统的准确率。(2)基于受试者工作特征曲线的马田系统阈值确定方法研究。马田系统的阈值计算方法一直备受关注,已有的众多方法均存在不同程度的局限性,难以有效地推广。受试者工作特征曲线是专门用于诊断效果分析和计算系统阈值的方法,主要应用于医学诊断领域,本文将受试者工作特征曲线用于马田系统研究,使马田系统阈值更加客观和精确。(3)基于改进马田系统的电子邮件过滤研究。将改进后的马田系统应用于电子邮件过滤研究,通过最终对比结果可以发现:相较于传统马田系统,改进后的马田系统在准确率、误报率和检出率等方面均有显著的提高,可见改进的方法是有效可行的;与其他常用的电子邮件过滤方法相比较,改进后马田系统准确率较高,同时特征变量的筛选可以大幅节约成本,提高邮件过滤的效率。
其他文献
《音乐课程标准》中明确提出:“现代教育技术极大地扩展了音乐教学的容量,丰富了教学手段和教学资源,在音乐教育中有着广阔的应用前景,教师应努力掌握现代信息技术,利用其视听结合
无论在理论上还是实践上,战略管理都是跨越当代公司经营和管理十分重要的前沿问题,是中国企业融入当代知识经济导向的国际竞争环境,提升国际竞争力的需要。宝钢股份成立以来,一直
在《一个人怎样飞起来》这篇文章中,徐敬亚对王小妮做出了全面的评价,诗人、妻子、母亲、工作者等多重身份在她身上自如地转换着.按照一种机械的说法,她像是一架配置精良、拥
课堂教学机智是扣动学生心弦的共鸣力与感染力,意味着教师在教学展开中的应变力、组织力、表现力和说服力,是在教育教学展开过程中时时刻刻对学生的反应做出相应的决断和组织力
本文通过幼儿园绘画教学中指导方式的观察、分析,探索了幼儿园绘画教学活动中教师应如何观察、发现、赞赏、肯定幼儿,才能有助于幼儿想象力、创造力的发展。
中国新诗从90年代疯狂的文化资本占位和话语权之争中来到新世纪,派别意识已经几乎淡化,诗学主张也在沸沸扬扬的口水里化为沉寂.时代风云湮没了诗歌圈子的喧嚣,诗人似乎也受此
用CPHF方法在ab initio/4-31G+pd水平上计算了四个1,2方酸衍生物分子的线性极化率,一阶和二阶超极化率.从电荷分布,跃迁偶极矩,前沿轨道性质等方面讨论了其结构与性能的关系.
流媒体数字版权保护(DRM,Digital Rights Management)技术是对流媒体数字内容的知识产权进行保护的一系列软硬件技术。本文在对流媒体DRM研究现状进行综述的基础上,提出了一
现代信息技术以开放性、综合性、及时性和高效性等优势进入课堂,打破了传统的数学课堂教学模式的束缚,使教育的内容、手段和方法发生了根本性的变革。教育信息化的实现成为各个
在我订阅和看到的报刊中,每发现有明显的差错,出于爱护的心情,我总是要投书予以指出,然而往往是石沉大海。比如,在一份全国性的月刊上刊登的《桂林山水》一文中说:“桂林是