论文部分内容阅读
随着电子信息技术的发展以及手机用户的逐渐增多,利用手机短信进行信息传播的商业价值变得越来越大。短信服务在应用过程中和电子邮件系统一样,也出现了大量的垃圾信息。它可能影响用户的正常使用,导致用户误入消费陷阱,还可能对手机系统造成损害或造成数据丢失。反手机垃圾短信的研究显得越加重要和迫切,这已引起国家、各级政府、公安机关和短信服务提供商的高度重视。但是目前国内外还没有手机垃圾短信过滤的实际系统和软件,我们进行手机垃圾短信过滤方法的研究与实现具有非常重大的意义。
和反垃圾短信紧密相关的另一个研究领域是反垃圾邮件。就目前来说,垃圾邮件的泛滥情况远超过垃圾短信。反垃圾邮件研究广受关注,并产生了许多识别技术和过滤方法,并应用与几乎所有大型的邮件系统。这从另一个方面反映了垃圾信息的泛滥。不过,短信服务和邮件系统采用了不同的底层结构和协议形式,因此反垃圾邮件的技术并不能直接应用在反垃圾短信上。
本文先介绍了SMS协议,分析了其网络结构和特点以及当前的SMS应用模式和状况,说明了垃圾短信的发送特征。同时也讨论了手机开发相关的技术。接着提出了垃圾短信的评判标准,说明过滤系统的理论背景,阐述了现有的各种信息过滤方法及其优缺点。随后,针对手机资源受限的环境特点,提出了一种基于朴素贝叶斯的分类算法。根据在手工分析垃圾短信时发现的特征,提出了权重非线性增长的多序列相似性算法。最后,本文介绍了一个手机短信过滤系统“智能短信王”的设计和实现。
本文的创新点在于:
1)提出了垃圾短信的评判标准和评判方法。
2) 针对手机运行环境,提出了具有自学习能力的基于朴素贝叶斯的分类算法。针对短信结构特点,提出了一种基于非线性增益的多关键字序列相似度算法。达到了较好的分类效果和分类性能。
3) 设计并实现了一个运行于智能手机上的短信过滤系统。为用户提供了灵活多样的过滤方法和个性化处理方式,成功地向资源受限的环境中移植了中文分词系统。