针对中文的图像型垃圾邮件过滤技术

被引量 : 0次 | 上传用户:pengxiubin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着传统文本型垃圾邮件过滤技术的成熟,垃圾邮件制造者开始使用图像作为载体传播垃圾邮件信息。这种方式的垃圾邮件更加难以检测、消耗的网络带宽和存储也更大,因此带来的危害也更加严重,在中文图像型垃圾邮件过滤中也难度更大。通过对传统图像型垃圾邮件方法的研究,同时考虑更多的对垃圾邮件图像语义信息的需求,本文针对中文图像型垃圾邮件,提出了基于传统OCR技术进行改进的伪OCR过滤技术。综合考虑对图像语义信息的抽取和整体的过滤性能,伪OCR过滤技术认为传统OCR技术中大部分的识别都是冗余的,是不必要的。因此在具体的实现中,我们放宽了对汉字的具体识别需求,优化了预处理技术以适应垃圾邮件图像的特点,同时以真实的垃圾邮件图像生成匹配样本库。实验结果表明,同基于传统OCR过滤技术相比,伪OCR在过滤中文垃圾邮件图像时具有更好的效果,尤其在要求误识别率比较低的情况下,而且通过调节具体的参数还可以在一定程度上控制伪OCR技术的系统性能以满足不同的应用需求。而在对核心的汉字字符特征进行设计时,本文采用了一种创新的基于汉字关键点的统计特征的表示方法。而在对汉字关键点的提取部分,提出了一种能够同时考虑邻域信息和汉字整体字形的基于图深度遍历的关键点提取算法。通过实验对比发现,这种基于DFS的提取算法在对汉字关键点的提取效果上要远优于传统的角点检测技术。最后,针对伪OCR过滤技术中召回率相对较低的缺点,本文选择使用传统的基于图像浅层特征的方法对其进行补充,从而形成整体的针对中文图像型垃圾邮件的过滤技术。随后的实验结果也表明,这样的补充方式能够在牺牲较小准确率和误识别率的情况下,比较大的提升系统整体的召回率,从而优化系统的整体过滤性能。
其他文献
随着城市发展速度的加快,城市人口密度越来越密集,经济交流十分活跃,人员往来频繁,出现了随之而来的交通问题。为推动产业结构优化升级、加快转变经济发展方式,各大城市开始
本文在归纳分析"递延收益"科目核算内容的基础上,主要探讨了"递延收益"项目在财务报表中如何列报的问题,并提出了改进建议,以期为我国企业会计准则的进一步完善提供参考。
党的十八届三中全会提出"建立社区医生和居民契约服务关系",这不仅指出了社区医院在我国医疗改革事业发展中的重要地位,也特别强调了社区医院医生与社区居民之间构建契约服务
未来的移动通信系统要求提供的数据传输速率将高达100Mb/s以上,支持的业务也将从语音业务扩展到多媒体业务(包括实时的流媒体业务)。该文提出采用m序列的不同循环移位来构建C
高地温、高地应力、复杂的地质环境以及恶劣的气候条件等一直是偏远地区隧道工程建设的重点和难点问题,特别是近年来基础建设向偏远地区的迅猛发展使我们不得不正视这些问题,
随着世界经济一体化进程的推进,新时期中印经济合作更为重要,怎样参与印度经济合作,如何在宏观上把握中印经济合作的程度和重点,这些问题是必须研究和予以回答的。本文以中印
从计划经济到市场经济:法理的革命谢晖“市场经济就是法治经济”,这是社会主义市场经济理论诞生以来我国政界、法界、经济界、新闻界使用濒率比较高的一个结论。那么,这一结论是
随着网络科技的不断发展,微课教学方式不断被运用于高中教育中。通过采用微课实施不同教学方式,在高中教育中得到了有效的实施,但由于传统教学方式影响已久,在教学中微课教学
目的探讨健康教育表单在肠梗阻患者治疗过程中的应用效果。方法选取我院2012年3月—2014年6月间收治的急慢性肠梗阻患者142例,按入院先后顺序随机分为对照组和观察组各71例,
患儿接受腹部手术后,由于各种原因发生肠粘连的概率大大提升,导致肠内容物不能顺利通过肠道,排出体外,从而形成肠梗阻[1]。腹痛、腹胀、恶心等均是肠梗阻的主要临床症状,对患