【摘 要】
:
基于机器学习的垃圾邮件过滤技术是当前垃圾邮件过滤的主流方法。机器学习模型主要分为两类:以朴素贝叶斯(NB)为代表的生成模型和以逻辑回归模型(LR)、支持向量机模型(SVM)为
【机 构】
:
哈尔滨理工大学计算机科学与技术学院,黑龙江工程学院计算机科学与技术学院
【基金项目】
:
黑龙江省教育厅科学技术研究(面上)项目(12511444)
论文部分内容阅读
基于机器学习的垃圾邮件过滤技术是当前垃圾邮件过滤的主流方法。机器学习模型主要分为两类:以朴素贝叶斯(NB)为代表的生成模型和以逻辑回归模型(LR)、支持向量机模型(SVM)为代表的判别学习模型。以往对两种模型的研究都是针对某一种语言进行,对于模型的语言独立性与相关性研究较少。因此,在中文数据集和英文数据集上比较典型的生产模型和判别学习模型的过滤性能。比较Bogo(Bogo系统是基于贝叶斯算法的,它是典型的生成模型)、逻辑回归模型和松弛在线支持向量机(两种典型的判别学习模型)在中英文数据集上的过滤性能。其中:实验是在公开英文数据集TREC05p-1、TREC06p和公开中文数据集TREC06c、SEWM2011上进行。实验结果显示基于判别模型垃圾邮件过滤器性能明显优于基于生成模型,并且相同的模型在中文数据集上显示了较好的效果。
其他文献
溅射产额是表征溅射效应的重要参数。Sigmund的线性级联碰撞理论在溅射产额计算中获得了广泛的应用和发展。本文对Sigmund理论进行简单介绍,并对基于Sigmund理论的各种经验公
电力系统是我国经济发展的保障,高压输电线路是电力系统的重要组成部分,提高其施工质量有着重要的意义。围绕电力系统中输电线路施工中的每一步工程、输电线路的检修工程和输
能源需求预测是能源规划和政策制定的前提和基础,能源需求预测受到众多因素的影响。为了快速、有效的预测我国对能源的需求,采用量子遗传算法(QGA)对最小二乘支持向量机(LSSV
<正>彭银亭老师为国家中医药管理局确定的第3批名老中医药专家学术经验指导老师,长期从事中药炮制、鉴别和传统制剂加工,实践经验非常丰富,笔者通过多年的跟师学习,对老师的
目的分析经产妇产后早期(6~8周)压力性尿失禁(Stress urinary incontinence, SUI)的临床危险因素。方法回顾性分析于北京大学第三医院2016年1月至2017年10月分娩及产后复查的1
针对数控机床故障诊断的理论知识、经典实例和人员经验知识难以有效协同运用,使得多种故障诊断方法难以融合的问题,提出一种融合基于本体的故障诊断方法(OBFD)、基于案例推理
2014年是转折之年。从全球视角观察,2014年全球增长从发展中经济体转到发达经济体,2013年美国经济率先复苏,美联储缩减量化宽松改变了全球资金的流向,发达经济体走出2008年全
针对经验模态分解(EMD)的固有模态函数(IMF)选择问题,提出了一种基于能量阀值的自适应筛选方法。对筛选出的IMF分量进行信号重构后,提取重构信号时变自回归模型的时变参数特
针对EAST装置大型低温杜瓦中内外冷屏系统存在的泄漏及对外真空室真空度的影响,采用氦质谱负压真空、正压真空及吸枪法相结合的方法,确定了多处泄漏点并分析了泄漏原因,通过
通过分析比较美国及我国研究生奖助学金资助现状,结合当前十七所高校试点研究生培养机制改革的情况,初步探讨我国研究生培养机制改革、特别是奖助机制改革的基本规律和特点,