基于贝叶斯的个性化邮件分类技术研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:jhuihui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,电子邮件已经普及到所有使用网络的人群中,成为一种便捷、经济的通讯手段,但垃圾邮件也在同步发展,各种各样的垃圾邮件泛滥,污染网络环境。反垃圾邮件问题,已成为全世界迫切关注的重要课题。   随着Internet上信息量的大量增加,人们对信息的需求也越来越专业化,个性化服务技术的出现,可以在一定程度上解决Internet中信息多样化与用户需求专一化之间的予盾,将个性化服务技术应用于邮件分类是一个新的研究方向。为了实现个性化服务,需要设计一种合适的表达方式来计算用户兴趣,最后根据用户对邮件的兴趣大小作为评判邮件是否为垃圾邮件的最终标准。   不同用户对邮件是否为垃圾邮件的标准是不一样的,不同的用户对同样的邮件可能有不同的反应。目前,贝叶斯方法已广泛的应用在垃圾邮件过滤中,但一般的贝叶斯邮件过滤方法存在不能体现不同用户的兴趣差异等问题。为了解决以上问题,本文结合贝叶斯邮件过滤方法和用户兴趣度的研究,提出了一种基于用户兴趣度的改进贝叶斯邮件过滤方法,通过用户阅读邮件的时间和对邮件的操作来计算邮件的兴趣度并用于反馈学习。实验结果表明,改进后的算法能更好的利用反馈的用户兴趣度来判断用户当前的兴趣范围,从而使邮件过滤器具有更好的实时性并改善了过滤器的过滤效果。贝叶斯分类器只需在训练集的选择上反映出用户的兴趣差异,就能很容易的提供个性化服务,这是本文选择在贝叶斯邮件过滤算法基础上提供个性化服务的原因。   最后,在基于用户兴趣和贝叶斯分类的基础上,设计完成了个性化邮件分类系统IMS(Individual Mail System),并实现了个性化的分类功能。系统使用时会学习用户兴趣,然后根据用户兴趣对邮件进行分类,经实际验证,IMS能基本准确地实现根据用户兴趣对邮件进行个性化分类。
其他文献
随着网络技术的飞速发展,信息快速增长与人们个性化需求的矛盾在不断地增加,而Web用户访问路径聚类正是解决这一矛盾的有效手段之一。通过对Web用户访问路径聚类,可以发现用户兴
随着计算机技术的飞速发展,计算机信息安全问题越来越受关注。无论是电子商务、电子政务、企业信息平台都存在来自系统内外的安全威胁。信息安全已经成为信息时代高度受关注的
模式识别方法已经成功地应用到大量的目标识别任务中,其中人脸识别已成为模式识别和计算机视觉领域的一大研究方向。近年来的研究成果表明,人脸图像很可能位于一个非线性流形上
科学技术和工业生产的发展,对质量要求越来越高。五十年代以来,火箭、人造卫星、宇宙飞船等大型、复杂、精密的产品出现,对产品的安全性、可靠性、经济性等要求越来越高,因此产品
随着计算机网络通信技术和多媒体技术的飞速发展,新型的人机交互(Human Computer Interaction,HCI)技术已成为当前计算机科学领域一个十分活跃的研究课题。针对移动地理信息系
网格是继Internet和Web技术之后又一次重大的科技变革。在网格计算环境中,任务调度是影响系统性能和服务质量的关键问题之一,已经被证明是一个NP完全问题,所以它引起了众多学
核苷酸多态性(Nucleotide Polymorphisms)是人类基因变异中常见的变异形式,包括单核苷酸多态性(Single nucleotide Polymorphisms,SNPs)和多核苷酸多态性。其中,单核苷酸多态性
自动问答系统综合应用各种自然语言处理技术,允许用户以自然语言的形式提问,返回给用户明确的答案。限定领域问答系统针对特定的领域,例如金融、教育、旅游等,由于面向范围有限,具
随着互联网规模不断扩大,新应用不断涌现,万兆网络技术也得到迅速发展,为保证万兆网络的服务质量,对其性能进行监控和管理显得非常重要。同时对网络流量特征的研究,是网络行为分析
粗糙集理论是由Z.Pawlak提出并发展起来的一种处理不完备信息的有效工具。属性约简是粗糙集的核心内容,其目的就是要从条件属性集合去掉不必要的属性。约简后决策表和约简前决