基于深度学习的垃圾短信识别方法研究

来源 :成都理工大学 | 被引量 : 0次 | 上传用户:xuxiaorou12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着通讯技术的发展和智能手机的普及,短信收发量急剧增加,但短信中不乏大量影响人们正常生活的商业广告、诈骗、传销以及影响社会和谐稳定的社会谣言等垃圾信息。对垃圾短信识别方法进行研究,准确地识别和过滤垃圾短信对维护国家安全、社会和谐稳定及人们正常生活秩序具有现实意义和经济效应。传统文本分类技术多采用向量空间模型(Vector Space Model,VSM)与支持向量机(Support Vector Machines,SVM)结合的方法对文本进行分类,但VSM在文本表示上忽视了词序、语法、语义等特征对文本分类的影响,而Word2vec模型通过训练词向量将词从高维空间分布式地映射到低维空间,解决了VSM在文本表示上的不足,且纠正了词与词之间正交的不恰当关系。鉴于Word2vec模型训练的词向量在文本表示上的优势,本文在其基础上设计了PTF-IDF加权词向量的短信文本表示方法,并基于深度学习理论设计了一个卷积神经网络(Convolutional Neural Network,CNN)的垃圾短信识别模型。本文的主要工作如下:(1)先将VSM与SVM结合的传统文本分类技术应用于垃圾短信识别方法的初步探索。通过对短信原始数据集进行文本去重、数据清洗、中文分词、词性标注等预处理后,从原始短信数据集中抽取20000条短信作为实验数据集,并基于VSM思想构建文档-词频矩阵对短信文本进行向量表示。随后将实验数据集划分为训练集和测试集两部分,构建SVM分类模型进行模型训练及测试。采用分类评价指标精确率P、召回率R、F1值对模型分类结果进行评价,评价结果表明VSM在文本表示上的局限性限制了模型分类的效果。(2)在短信文本表示方法方面,考虑到短信具有篇幅短,特征词稀少,前后语义关联性强等特点,若将Word2vec模型训练的词向量直接用于短信文本表示将无法衡量不同词向量对文本的贡献程度,且单纯的词向量无法涵盖更多的文本语义信息。本文将词性特征作为文本语义的补充部分,通过在传统TF-IDF(Term Frequency-Inverse Document Frequency)算法中引入词性贡献因子进行改进,使得从词性和词频两个角度来计算词向量的特征权重,并基于此设计了PTFIDF加权词向量的短信文本表示方法。在将该短信文本表示方法用于SVM模型分类实验中,通过调节不同词性的贡献因子值,在模型分类效果最好时取得一组词性贡献因子值:0.6、0.3、0.2。将PTF-IDF加权词向量模型与TF-IDF模型、均值词向量模型、TF-IDF加权词向量模型进行对比实验,验证了PTF-IDF加权词向量在短信文本表示上具有优势。(3)在短信分类模型方面,基于深度学习理论设计了一个CNN的垃圾短信识别模型。在输入层,根据词性贡献因子值:0.6、0.3、0.2来计算词向量的PTFIDF权重,并将其与词向量一起将短信文本表示成二维矩阵作为CNN模型的输入。在卷积层,设计了三个不同尺寸的卷积核来提取短信不同粒度的局部特征,提高了特征提取的精度。在池化层,采用1-Max pooling策略进一步提取短信文本最具代表性的特征,最后将这些最具代表性的特征在全连接层进行拼接输入到Softmax层实现垃圾短信的识别。在实验中设计了多组实验进行对比,验证了本文设计的CNN模型在精确率、召回率、F1值上都有所提高,分别达到97.01%、94.10%、95.53%。
其他文献
目前高校的发展态势与未来发展趋势 高等教育的产业化。“科学技术是第一生产力”是当代世界乃至未来人类社会发展的一条规律。当代科学技术革命是以计算机应用为主的数字化
班干部是完成学习任务和开展班级活动的执行者,是班主任的得力助手,在班级管理中发挥着重要的作用本文从积累了多年的班主任经验入手,探讨一套适合职业学校班干部选拔与培养
抑郁、休学、伤人、自然……大学生心理健康已渐渐成为社会关注的焦点。近年来,许多学者针对大学生的心理防线问题开展了研究。
<正> 通法为常用治疗方法之一,虽然清&#183;程国彭《医学心悟》论“医门八法”中未曾论及,但本法为历代医家所重视。方与法有密切关系,方由法立,方有十剂,通剂为其一种。十剂
各国宪法对财产权都予以限制.长期以来,我国法学理论没有对这种限制予以分类,从而也就不能科学认识不同类型的限制应当具备不同的正当性基础,分别对应了不同的法律救济手段,
2001年我国加入世界贸易组织后,金融业相关领域也随之不断开放,外资银行将大举进入我国金融市场,我国的银行监管面临着前所未有的挑战。文章从跨国银行监管的一般理论出发,对目前
以钢铁品牌为研究对象,首先从品牌市场占有率、品牌盈利能力和品牌发展潜力三个方面分析了影响品牌力的供应链管理因素;然后利用Vensim软件建立钢铁品牌生态系统动力学模型,并进
在全球经济下行,国内经济进入新常态的同时,作为传统行业的纺织服装企业应该何去何从。本文从宏观、中观、微观各层面系统的分析了新常态形势下的中国纺织服装行业所面临的机
主要完成人 董件青 唐振柱 林玫 李翠云 张理亭 廖和壮 陈发钦 王鸣柳 黄文波 陈娜萦主要完成单位 广西壮族自治区卫生防疫站学科分类 流行病学 Major Completed Personnel
公元4世纪,罗马帝国部队开始在脸上涂抹没彩(迷彩),穿着蓝色的紧身上衣对外作战。