基于贝叶斯的个性化邮件分类技术研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户：jhuihui

【摘要】

：

随着互联网的发展，电子邮件已经普及到所有使用网络的人群中，成为一种便捷、经济的通讯手段，但垃圾邮件也在同步发展，各种各样的垃圾邮件泛滥，污染网络环境。反垃圾邮件问题，已成为

【作者】

：

张俊麒

【机构】

：

重庆邮电大学

【出处】

：

重庆邮电大学

【发表日期】

：

2010年期

【关键词】

：

垃圾邮件过滤个性化服务用户兴趣贝叶斯

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的发展，电子邮件已经普及到所有使用网络的人群中，成为一种便捷、经济的通讯手段，但垃圾邮件也在同步发展，各种各样的垃圾邮件泛滥，污染网络环境。反垃圾邮件问题，已成为全世界迫切关注的重要课题。　　随着Internet上信息量的大量增加，人们对信息的需求也越来越专业化，个性化服务技术的出现，可以在一定程度上解决Internet中信息多样化与用户需求专一化之间的予盾，将个性化服务技术应用于邮件分类是一个新的研究方向。为了实现个性化服务，需要设计一种合适的表达方式来计算用户兴趣，最后根据用户对邮件的兴趣大小作为评判邮件是否为垃圾邮件的最终标准。　　不同用户对邮件是否为垃圾邮件的标准是不一样的，不同的用户对同样的邮件可能有不同的反应。目前，贝叶斯方法已广泛的应用在垃圾邮件过滤中，但一般的贝叶斯邮件过滤方法存在不能体现不同用户的兴趣差异等问题。为了解决以上问题，本文结合贝叶斯邮件过滤方法和用户兴趣度的研究，提出了一种基于用户兴趣度的改进贝叶斯邮件过滤方法，通过用户阅读邮件的时间和对邮件的操作来计算邮件的兴趣度并用于反馈学习。实验结果表明，改进后的算法能更好的利用反馈的用户兴趣度来判断用户当前的兴趣范围，从而使邮件过滤器具有更好的实时性并改善了过滤器的过滤效果。贝叶斯分类器只需在训练集的选择上反映出用户的兴趣差异，就能很容易的提供个性化服务，这是本文选择在贝叶斯邮件过滤算法基础上提供个性化服务的原因。　　最后，在基于用户兴趣和贝叶斯分类的基础上，设计完成了个性化邮件分类系统IMS(Individual Mail System)，并实现了个性化的分类功能。系统使用时会学习用户兴趣，然后根据用户兴趣对邮件进行分类，经实际验证，IMS能基本准确地实现根据用户兴趣对邮件进行个性化分类。

其他文献

Web用户访问路径聚类方法研究

随着网络技术的飞速发展，信息快速增长与人们个性化需求的矛盾在不断地增加，而Web用户访问路径聚类正是解决这一矛盾的有效手段之一。通过对Web用户访问路径聚类，可以发现用户兴

学位

Web服务用户访问路径聚类方法分布模式相似度计算

模糊时间约束角色访问控制的研究与应用

随着计算机技术的飞速发展，计算机信息安全问题越来越受关注。无论是电子商务、电子政务、企业信息平台都存在来自系统内外的安全威胁。信息安全已经成为信息时代高度受关注的

学位

模糊时间约束隶属度细粒度访问控制信息安全授权管理

基于局部线性嵌入的人脸识别方法研究

模式识别方法已经成功地应用到大量的目标识别任务中，其中人脸识别已成为模式识别和计算机视觉领域的一大研究方向。近年来的研究成果表明，人脸图像很可能位于一个非线性流形上

学位

差分图像人脸识别局部线性嵌入模式识别计算机视觉小波变换

质量管理中孤立点分析的应用研究

科学技术和工业生产的发展，对质量要求越来越高。五十年代以来，火箭、人造卫星、宇宙飞船等大型、复杂、精密的产品出现，对产品的安全性、可靠性、经济性等要求越来越高，因此产品

学位

质量管理孤立点分析数据挖掘异常数据工业生产

面向移动GIS的语音识别技术研究

随着计算机网络通信技术和多媒体技术的飞速发展，新型的人机交互(Human Computer Interaction，HCI)技术已成为当前计算机科学领域一个十分活跃的研究课题。针对移动地理信息系

学位

语音识别特征提取韵律特征移动地理信息系统人机交互

QoS约束下的网格任务调度算法研究

网格是继Internet和Web技术之后又一次重大的科技变革。在网格计算环境中,任务调度是影响系统性能和服务质量的关键问题之一,已经被证明是一个NP完全问题,所以它引起了众多学

学位

蚁群算法网格计算任务调度GridSim

单核苷酸多态性与癌症的关联性算法研究

核苷酸多态性(Nucleotide Polymorphisms)是人类基因变异中常见的变异形式，包括单核苷酸多态性(Single nucleotide Polymorphisms，SNPs)和多核苷酸多态性。其中，单核苷酸多态性

学位

单核苷酸多态性疾病关系癌症关联性算法分类模型支持向量机

限定域定义类问题的问答研究

自动问答系统综合应用各种自然语言处理技术，允许用户以自然语言的形式提问，返回给用户明确的答案。限定领域问答系统针对特定的领域，例如金融、教育、旅游等，由于面向范围有限，具

学位

自动问答系统操作系统课程限定领域

万兆网络流量监测系统的研究与实现

随着互联网规模不断扩大，新应用不断涌现，万兆网络技术也得到迅速发展，为保证万兆网络的服务质量，对其性能进行监控和管理显得非常重要。同时对网络流量特征的研究，是网络行为分析

学位

万兆网络流量监测数据采集数据分析数据存储

基于决策表确定的属性约简算法及其在空间数据挖掘中的应用

粗糙集理论是由Z.Pawlak提出并发展起来的一种处理不完备信息的有效工具。属性约简是粗糙集的核心内容，其目的就是要从条件属性集合去掉不必要的属性。约简后决策表和约简前决

学位

粗糙集理论属性约简决策表确定性空间数据挖掘

基于贝叶斯的个性化邮件分类技术研究

与本文相关的学术论文