一种改进TF-IDF的中文邮件识别算法研究

来源 :现代电子技术 | 被引量 : 0次 | 上传用户:yuxjmail
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的TF-IDF算法没有很好地分配分词的权重,对一些能代表邮件类别出现频率较大的词语计算的IDF值反而较小,IDF值小说明单词的区分能力弱而不符合实际情况。为了提升垃圾邮件识别的准确率,提出一种改进TF-IDF算法和类中心向量的中文垃圾邮件识别方法。通过改进传统的TF-IDF计算方式,在传统的TF-IDF算法里面加入卡方统计量CHI和位置影响因子能够很好地改善一些重要词汇的权重问题,并结合逆向最大匹配算法的邮件文本分词和类中心向量算法的特征选择进行垃圾邮件分类。实验结果表明,所提算法相较于传统的TF-I
其他文献
物权客体对有体物的突破,反映了现代知识经济条件下物权客体扩大化的趋势,在“虚拟经济”支配“实物经济”的新经济时代,物权客体有进一步扩大化的趋势。近来,网络设计、运营
目的比较卡马西平与加巴喷丁治疗复发性三叉神经痛的临床应用价值。方法选取2014年1月~2015年1月我院收治的复发性三叉神经痛患者56例,将其随机分为对照组与观察组,对照组给
<正>溃疡性结肠炎(UC)是直肠黏膜层和黏膜下层的连续性炎症,通常先累及直肠,逐渐向全结肠蔓延,呈慢性反复发作的过程[1]。临床上UC表现多表现为腹痛、腹泻、黏液脓血便和里急
四旋翼飞行器的飞行控制效果取决于姿态信息获取的准确性,所以姿态解算是飞行器研究的关键技术。针对目前飞行器高动态特性和复杂环境下的姿态解算误差较大的问题,提出一种基
今天要为大家介绍的DarkStorm BePassFireWall BackDoor V1.2是一款成功率极高的反弹端口穿透防火墙的后门程序(以下简称DBB),可以穿透99%的防火墙。该后门采用线程插入技术.隐
为了有效提高传统高校教育在线管理系统运行管理的有效性,提出基于云计算技术对高校教育在线管理系统进行优化。基于B/S网络管理结构和AT45DB80芯片改善系统硬件配置,为保障
时频分析技术是研究非平稳信号时频分布的重要手段,但传统的时频分析技术无法精确地反映信号的时频分布特点。文中主要介绍了三种高聚焦时频分析技术:小波变换(WT)、同步挤压
铜加工企业为了保证铜带退火工艺要求,需要工人现场巡视炉内温度和气压情况并做记录。为了保证工人远离危险作业环境设计了一套以STM32最小系统板为主控制器的远程温压数据采
对于家庭环境中有效组网不方便、布线较为麻烦且移动性较差的问题,提出WiFi网络技术下的家庭环境远程监测系统设计。首先,利用STM32F103硬件平台创建传感器收集环境数据,通过
根据某电厂2台680 MW超超临界直流锅炉制造、安装及调试期间预防爆管情况,结合同类型机组投产后因维护、运行不当造成多次锅炉爆管的治理经验,分析了锅炉爆管产生的原因,并提