带噪声的文本聚类及其在反垃圾邮件中的应用

来源 :广东工业大学 | 被引量 : 1次 | 上传用户:doni123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,文本数据呈指数级增长。为了获得数据之间的内在关系及隐含信息,文本挖掘技术应运而生。聚类分析作为数据挖掘的一个重要功能,在文本挖掘中有着非常重要的作用,本文将讨论带有干扰信息的文本聚类方法。传统的文本挖掘方法首先将文本表示成向量空间模型;然后用TFIDF权重将文档转化为向量形式,最后在向量空间模型中计算文本相似度。在传统的向量空间模型中,由于没有考虑词之间存在的概念相似情况,因此影响了数据聚类的准确性。因而针对中文提出了一种基于知网模型和语义内积的相似度计算方法。然而,这一方法却并不适用于垃圾邮件的聚类问题。原因是垃圾邮件发送者经在邮件编辑完成后,用类似于查找替换的办法,把文本中规范的敏感关键词替换为另一个用插入符号、改动次序甚至用拼音替代等方法混淆过的、但能被读者理解的词语,以逃脱邮件处理程序的过滤。如果利用传统的方法则会采取一系列预处理措施,将会过滤掉干扰信息,这样会使垃圾邮件的相似度计算准确度较低,最终导致聚类质量效果较差。针对垃圾邮件含有较多干扰信息而导致相似性度量较差这一问题,本文采用非度量的方法,将Needleman-Wunsch算法应用到文本相似度计算中。最后,利用该相似度计算方法,提出一种基于Needleman-Wunsch的聚类算法,最终完成文本聚类。与基于向量空间模型相比,采用Needleman-Wunsch算法计算文本相似度时,避免了分词过程,减少语义损失,保留了所有的文本信息,保证了聚类质量;而本文通过预处理将文档内容分成中文字符、英文字符串和符号串,减轻数据稀疏问题,减少了字符的比较次数,从而加快了处理速度。通过仿真实验与传统的聚类算法进行对比,该聚类质量和效率都有很大改进。这说明本文提出的聚类算法适合于垃圾邮件聚类,从而提供了一种有效的垃圾邮件过滤技术。具体思路是利用本文方法将垃圾邮件与合法邮件进行聚类,根据文档相似度值聚成不同的类别,从而判断出垃圾邮件与合法邮件。
其他文献
3G通信技术与网络音视频技术的迅猛发展和成熟,使大数据量的视频监控成为可能,并逐渐应用到各行各业。当前,平安城市、平安校园、平安小区的建设如火如荼。随着视频监控规模的扩
随着因特网技术、无线通信技术和微机电技术(Micro-Electro-Mechanism System, MEMS)的高速发展,无线传感器网络在世界范围内引起了广泛的关注,被认为是会对人类未来的生活方
随着电信企业信息化的浪潮,为终端用户提供满意的服务质量,不同区域运营商的信息互通、数据共享显得尤为重要,而数据集中带来的性能问题日益明显。中国电信OSS应用采用Oracle10g
虚拟装配作为虚拟现实技术在产品设计领域的一种典型应用,其应用价值已经引起了越来越广泛的重视。传统的虚拟装配系统由于多数采用鼠标和键盘作为交互设备,普遍存在交互的沉
Internet问世以来,作为其主流应用的电子邮件也得到了飞速的发展。但随之而来的垃圾邮件,不仅严重占用网络资源,威胁网络安全,更对人们的日常生活造成了严重困扰。当前反垃圾
朴素贝叶斯(Na(I)ve Bayes,NB)是一种经典的机器学习算法,它具有训练时间短,模型简单,泛化正确率高等优点,并且在实际生活中得到了广泛的应用。但它也有先天的不足:不能很好
近年来发生的冰雪灾害及地震灾害,造成大面积道路阻塞和破坏,也造成大面积有线和无线通讯设施的损坏和失效。先进的GPS/GSM车辆定位与通信模式暴露出根本性技术缺陷而失去作
近年来,随着宽带接入技术的日渐普及、互联网技术的快速发展和个人计算机处理能力的不断提高,在互联网上出现了各种各样的新型的服务方式,视频点播业务就是其中一种,并成为主
火灾报警监控系统是城市公路隧道管理运营的重要组成部分,监控隧道内火灾状况,对隧道的安全运营起着重大作用。根据隧道空间窄小、狭长特点和火灾探测器探测方式的不同,出现了各
上世纪90年代中期以来,利用密码算法芯片的物理特性实施泄漏攻击引起了国内外密码学界的极大关注。为应对泄漏攻击,密码学家提出了泄漏弹性密码算法。目前,国内外对IBE体制中自