基于特征项区分度的加权朴素贝叶斯邮件过滤方法

来源 :计算机应用与软件 | 被引量 : 2次 | 上传用户:zelda999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何高效地特征提取和分类算法设计是衡量基于内容邮件过滤技术优缺点的关键。针对互信息MI(Mutual Information)特征提取算法和朴素贝叶斯分类算法,通过引入特征项区分度的概念,分析特征项在分类中区分能力之间的差异,进而提出一种兼顾特征项区分度和互信息的特征提取算法。通过进一步将区分度添加到分类算法设计中,最终提出一种加权朴素贝叶斯算法,高效地解决基于内容邮件过滤问题。实验结果证明,改进后的算法在召回率、精确率和正确率上均有明显提高,且分类性能更加稳定。
其他文献
由于对用户偏好信息的过分依赖,致使推荐系统易受到恶意攻击,从而影响系统的推荐质量。提出一个融合信息熵与信任机制的防攻击推荐算法。在考虑了托攻击与正常用户之间的评分变化幅度差异基础上,提出融合信息熵的相似性改进算法,同时引入信任更新机制,在推荐过程中将用户间信任度与相似度有机相结合,通过筛选推荐权重较高的邻居用户方法获得可靠推荐,从而降低恶意攻击对系统的影响。通过在真实数据集上实验表明该算法在提高推