论文部分内容阅读
手机上的维吾尔文输入法的成功开发和投入使用解决了维吾尔族用户由于语言、文字差异造成的通讯困难等问题,维吾尔语短信的使用率也随之大大的提高。随着用维吾尔文发送短信的普及,各种维吾尔文垃圾短信开始出现,对人们的正常生活造成了困扰。如何准确、快捷地用科学的方法自动拦截和过滤这些垃圾短信成为人们关注的重点。 本文为了净化维吾尔文短信交流环境,根据维吾尔文的文字特征,采用基于维吾尔文短信文本分类的方法和基于规则的方法对维吾尔文垃圾短信进行过滤。本文主要内容如下: 1.介绍维吾尔文的特点和垃圾短信的过滤方法。分析维吾尔文的构词、语法规律,垃圾短信过滤的特点。介绍基于文本内容和规则的不同的过滤方法,对应提出采用文本分类方法和黑白名单方法短信过滤的思路。 2.改进传统的期望交叉熵算法。为短信文本分类选择特征,分析传统的期望交叉熵算法的原理和优缺点,针对其特征词分布未考虑全面、未考虑低频词条对计算量的影响等缺点引入集中度、分散度和最低词频限制等要素进行相应的改进。集中度表示在一个类别中出现次数多又分布较均匀的特征项、分散度衡量某一个特征项在各个类别的分布程度。最后用改进后的算法对维吾尔文短信文本进行特征选择和提取。实验表明,改进的期望交叉熵方法在同等条件下比传统的方法更具有优越性,准确率更高、特征项数量要求更少。 3.提出一种基于深度置信网络的维吾尔文短信文本分类模型。针对在维吾尔文文本分类中,传统分类算法的准确率不高的问题,提出一种基于深度置信网络的维吾尔文短信文本分类模型。深度学习仿效人脑的层次性结构,对数据从下到上的层次顺序逐渐地进行特征提取,从而发掘数据集的分布规律,提高分类的准确度。通过一层一层无监督的方式初始化深度置信网络,并结合softmax回归分类器实现文本的分类。最后在收集的维吾尔文短信数据集上进行实验验证,分类出正常短信和垃圾短信。 4.实现基于PC端的“维吾尔文垃圾短信过滤演示系统”和基于手机端的“基于Android端的维吾尔文垃圾短信实时过滤系统”。 在基于文本分类技术的维吾尔文垃圾短信过滤实验的基础上,在windows7操作系统下的PC机上构建了离线的维吾尔文垃圾短信过滤演示系统并显示运行结果。 搭建Android SDK开发环境,采用黑白名单技术,实现基于Android的维吾尔文垃圾短信实时过滤系统,并用维吾尔语本地化系统界面,最后用真机测试系统验证其可行性。