维吾尔文垃圾短信过滤技术研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户：tushudasha

【摘要】

：

手机上的维吾尔文输入法的成功开发和投入使用解决了维吾尔族用户由于语言、文字差异造成的通讯困难等问题，维吾尔语短信的使用率也随之大大的提高。随着用维吾尔文发送短信的

【作者】

：

阿丽亚·艾尔肯

【机构】

：

新疆大学

【出处】

：

新疆大学

【发表日期】

：

2016年期

【关键词】

：

垃圾短信过滤技术维吾尔文特征提取文本分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

手机上的维吾尔文输入法的成功开发和投入使用解决了维吾尔族用户由于语言、文字差异造成的通讯困难等问题，维吾尔语短信的使用率也随之大大的提高。随着用维吾尔文发送短信的普及，各种维吾尔文垃圾短信开始出现，对人们的正常生活造成了困扰。如何准确、快捷地用科学的方法自动拦截和过滤这些垃圾短信成为人们关注的重点。　　本文为了净化维吾尔文短信交流环境，根据维吾尔文的文字特征，采用基于维吾尔文短信文本分类的方法和基于规则的方法对维吾尔文垃圾短信进行过滤。本文主要内容如下：　　1.介绍维吾尔文的特点和垃圾短信的过滤方法。分析维吾尔文的构词、语法规律，垃圾短信过滤的特点。介绍基于文本内容和规则的不同的过滤方法，对应提出采用文本分类方法和黑白名单方法短信过滤的思路。　　2.改进传统的期望交叉熵算法。为短信文本分类选择特征，分析传统的期望交叉熵算法的原理和优缺点，针对其特征词分布未考虑全面、未考虑低频词条对计算量的影响等缺点引入集中度、分散度和最低词频限制等要素进行相应的改进。集中度表示在一个类别中出现次数多又分布较均匀的特征项、分散度衡量某一个特征项在各个类别的分布程度。最后用改进后的算法对维吾尔文短信文本进行特征选择和提取。实验表明，改进的期望交叉熵方法在同等条件下比传统的方法更具有优越性，准确率更高、特征项数量要求更少。　　3.提出一种基于深度置信网络的维吾尔文短信文本分类模型。针对在维吾尔文文本分类中，传统分类算法的准确率不高的问题，提出一种基于深度置信网络的维吾尔文短信文本分类模型。深度学习仿效人脑的层次性结构，对数据从下到上的层次顺序逐渐地进行特征提取，从而发掘数据集的分布规律，提高分类的准确度。通过一层一层无监督的方式初始化深度置信网络，并结合softmax回归分类器实现文本的分类。最后在收集的维吾尔文短信数据集上进行实验验证，分类出正常短信和垃圾短信。　　4.实现基于PC端的“维吾尔文垃圾短信过滤演示系统”和基于手机端的“基于Android端的维吾尔文垃圾短信实时过滤系统”。　　在基于文本分类技术的维吾尔文垃圾短信过滤实验的基础上，在windows7操作系统下的PC机上构建了离线的维吾尔文垃圾短信过滤演示系统并显示运行结果。　　搭建Android SDK开发环境，采用黑白名单技术，实现基于Android的维吾尔文垃圾短信实时过滤系统，并用维吾尔语本地化系统界面，最后用真机测试系统验证其可行性。

其他文献

基于LMI的集员估计算法及其在GPS导航系统中的研究与应用

状态估计的问题广泛应用于通信、信号处理以及控制等领域。在传统的状态估计方法中,我们一般是假定系统的噪声是随机噪声,并且还满足某一种概率分布。经典的状态估计方法有卡

学位

状态估计集员滤波LMI算法导航定界椭球

槽式孔板与旋进漩涡流量计的凝析天然气测量特性研究

凝析天然气是一种低含液率的气液两相流混合物,国内的凝析天然气流量计研究尚在起步。开发高精度低成本的凝析天然气流量计已成为我国石油天然气行业迫切需要解决的问题。基于课题组自行开发的凝析天然气流量计样机,进行了室内和现场实验,获得了大量的实验数据。本文在前人研究工作基础上,进一步对实验数据进行处理分析,研究频率信号提取方法,完善槽式孔板结合旋进漩涡流量计的计量系统算法。论文分为两部分,第一部分研究了旋

学位

槽式孔板旋进漩涡流量计气液两相流谱分析混沌振子计量算法

基于量子遗传算法的单阶段多产品批处理调度研究与应用

单阶段多产品批处理过程是化学工业中常见的生产线之一，具有设备处理柔性、批量有限性和不可忽略的产品切换成本等特点，使得其调度比一般生产调度更难以处理。近20年来，它的短期

学位

量子遗传算法实数编码染缸排产批处理调度

基于灰色理论的传感器故障预测方法研究

现代测控系统中，传感器是人类获取信息的源泉和基础，其可靠性与获取信息准确性的重要程度不言而喻。传感器种类繁多，至今出现的故障预测方法大都具有很强的针对性，为此，本文提出一

学位

传感器故障预测CS-GNN预测模型灰色关联分析

电动伺服加载系统的设计与应用

电动伺服加载系统是飞行模拟器的重要组成部分,它可以在地面实时模拟飞行器在空中航行时的操纵力的感觉,因为飞机在空气中航行的时候,受到大气,风力,高度等气动因素的影响,在

学位

负载模拟器伺服加载系统力矩电机飞行模拟器工控机

嵌入式远程测控终端的设计与实现

进入21世纪,我国嵌入式技术进入了一个高速发展的时期。嵌入式的测控终端是自动化测控系统中非常重要的设备之一。目前我国已经使用的集成到安全监控中的测控设备大部分来自

学位

测控终端TCP/IP嵌入式技术Modbus

50kW燃料电池发动机控制系统设计与热管理优化研究

燃料电池汽车的核心部件是燃料电池发动机系统，为了提高燃料电池发动机系统的使用寿命、稳定性，降低燃料电池系统的成本，需要对燃料电池发动机控制系统进行合理的设计，并对其各个

学位

电动汽车汽车电源燃料电池热管理系统

基于ARCGIS Engine的智能交通信息系统研究

随着现代地理信息系统(Geographic Information System，GIS)和计算机科学的发展，GIS已经逐渐成为一门相当成熟的技术，并且得到了极广泛的应用，逐步影响着人们生活的各个领域。把

学位

地理信息系统智能交通管理ARCGIS Engine组件技术空间分析动态分段

基于VxWorks的船舶运动半物理仿真系统平台的设计与实现

为了解决原船舶运动半物理仿真系统中存在着的系统可扩展性和实时性等方面的问题,采用了目前较流行的实时性嵌入式操作系统VxWorks作为其操作系统的平台,并在原有系统的基础

学位

船舶运动半物理仿真VxWorksPC/104网络通信

黑液波美度测量仪的研究

在造纸工业过程中,黑液波美度是碱回收工段的重要参数。目前主要采用人工离线测量和在线软测量,人工离线测量严重影响生产自动化程度和企业生产效率;软测量技术为一种间接测

学位

黑液波美度测量仪造纸工业仪器设计检测方案

维吾尔文垃圾短信过滤技术研究

与本文相关的学术论文