维吾尔文垃圾短信过滤技术研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:tushudasha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手机上的维吾尔文输入法的成功开发和投入使用解决了维吾尔族用户由于语言、文字差异造成的通讯困难等问题,维吾尔语短信的使用率也随之大大的提高。随着用维吾尔文发送短信的普及,各种维吾尔文垃圾短信开始出现,对人们的正常生活造成了困扰。如何准确、快捷地用科学的方法自动拦截和过滤这些垃圾短信成为人们关注的重点。  本文为了净化维吾尔文短信交流环境,根据维吾尔文的文字特征,采用基于维吾尔文短信文本分类的方法和基于规则的方法对维吾尔文垃圾短信进行过滤。本文主要内容如下:  1.介绍维吾尔文的特点和垃圾短信的过滤方法。分析维吾尔文的构词、语法规律,垃圾短信过滤的特点。介绍基于文本内容和规则的不同的过滤方法,对应提出采用文本分类方法和黑白名单方法短信过滤的思路。  2.改进传统的期望交叉熵算法。为短信文本分类选择特征,分析传统的期望交叉熵算法的原理和优缺点,针对其特征词分布未考虑全面、未考虑低频词条对计算量的影响等缺点引入集中度、分散度和最低词频限制等要素进行相应的改进。集中度表示在一个类别中出现次数多又分布较均匀的特征项、分散度衡量某一个特征项在各个类别的分布程度。最后用改进后的算法对维吾尔文短信文本进行特征选择和提取。实验表明,改进的期望交叉熵方法在同等条件下比传统的方法更具有优越性,准确率更高、特征项数量要求更少。  3.提出一种基于深度置信网络的维吾尔文短信文本分类模型。针对在维吾尔文文本分类中,传统分类算法的准确率不高的问题,提出一种基于深度置信网络的维吾尔文短信文本分类模型。深度学习仿效人脑的层次性结构,对数据从下到上的层次顺序逐渐地进行特征提取,从而发掘数据集的分布规律,提高分类的准确度。通过一层一层无监督的方式初始化深度置信网络,并结合softmax回归分类器实现文本的分类。最后在收集的维吾尔文短信数据集上进行实验验证,分类出正常短信和垃圾短信。  4.实现基于PC端的“维吾尔文垃圾短信过滤演示系统”和基于手机端的“基于Android端的维吾尔文垃圾短信实时过滤系统”。  在基于文本分类技术的维吾尔文垃圾短信过滤实验的基础上,在windows7操作系统下的PC机上构建了离线的维吾尔文垃圾短信过滤演示系统并显示运行结果。  搭建Android SDK开发环境,采用黑白名单技术,实现基于Android的维吾尔文垃圾短信实时过滤系统,并用维吾尔语本地化系统界面,最后用真机测试系统验证其可行性。
其他文献
状态估计的问题广泛应用于通信、信号处理以及控制等领域。在传统的状态估计方法中,我们一般是假定系统的噪声是随机噪声,并且还满足某一种概率分布。经典的状态估计方法有卡
凝析天然气是一种低含液率的气液两相流混合物,国内的凝析天然气流量计研究尚在起步。开发高精度低成本的凝析天然气流量计已成为我国石油天然气行业迫切需要解决的问题。基于课题组自行开发的凝析天然气流量计样机,进行了室内和现场实验,获得了大量的实验数据。本文在前人研究工作基础上,进一步对实验数据进行处理分析,研究频率信号提取方法,完善槽式孔板结合旋进漩涡流量计的计量系统算法。论文分为两部分,第一部分研究了旋
单阶段多产品批处理过程是化学工业中常见的生产线之一,具有设备处理柔性、批量有限性和不可忽略的产品切换成本等特点,使得其调度比一般生产调度更难以处理。近20年来,它的短期
现代测控系统中,传感器是人类获取信息的源泉和基础,其可靠性与获取信息准确性的重要程度不言而喻。传感器种类繁多,至今出现的故障预测方法大都具有很强的针对性,为此,本文提出一
电动伺服加载系统是飞行模拟器的重要组成部分,它可以在地面实时模拟飞行器在空中航行时的操纵力的感觉,因为飞机在空气中航行的时候,受到大气,风力,高度等气动因素的影响,在
进入21世纪,我国嵌入式技术进入了一个高速发展的时期。嵌入式的测控终端是自动化测控系统中非常重要的设备之一。目前我国已经使用的集成到安全监控中的测控设备大部分来自
燃料电池汽车的核心部件是燃料电池发动机系统,为了提高燃料电池发动机系统的使用寿命、稳定性,降低燃料电池系统的成本,需要对燃料电池发动机控制系统进行合理的设计,并对其各个
随着现代地理信息系统(Geographic Information System,GIS)和计算机科学的发展,GIS已经逐渐成为一门相当成熟的技术,并且得到了极广泛的应用,逐步影响着人们生活的各个领域。把
为了解决原船舶运动半物理仿真系统中存在着的系统可扩展性和实时性等方面的问题,采用了目前较流行的实时性嵌入式操作系统VxWorks作为其操作系统的平台,并在原有系统的基础
在造纸工业过程中,黑液波美度是碱回收工段的重要参数。目前主要采用人工离线测量和在线软测量,人工离线测量严重影响生产自动化程度和企业生产效率;软测量技术为一种间接测