基于深度学习的垃圾文本过滤算法的研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:tjbxgb123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着云计算、大数据、物联网技术的迅猛发展,互联网空间中各类应用也呈现复杂性和多样性,种类繁多的垃圾信息也随之出现,垃圾信息不仅占用了大量的计算和通信资源,而且对人类生活产生了严重影响。研究垃圾信息过滤算法具有非常重要的现实意义。文本垃圾是垃圾信息的最主要组成之一,本文重点研究了垃圾文本过滤算法,主要内容包含垃圾文本过滤算法的定义及研究意义,相关技术,并且结合现有的算法提出了新的垃圾文本过滤算法。本文的主要研究工作和创新点如下:(1)针对简单的循环神经网络在提取局部关键词特征上的不足,结合卷积神经网络,将两者提取的特征进行融合,提出鲁棒性更强的TC-LSTM模型来实现垃圾文本的过滤,TC-LSTM因为加入了提取局部特征的CNN,在有明显关键词的句子上效果明显,同时因为加入了 LSTM,所以在没有明显关键词的垃圾文本上也有一定的效果。实验证明该算法在文本垃圾过滤任务上优于单模型的LSTM以及单模型的CNN。同时在不同的数据集上也进行了实验,验证了算法的有效性。(2)研究了在垃圾文本数据集上Word Embedding的不同使用方式对实验结果的影响。采用了三种Word Embedding的方式,分别是预训练词向量并在模型训练时保持不变;预训练词向量并在模型训练时微调;随机初始化词向量并在模型中联合训练。本文在不同的垃圾文本数据集上进行实验并对结果进行了分析,进一步改进了算法的性能。(3)提出了一种改进TC-LSTM的算法TC-LSTM-TFIDF,该算法结合了 TF-IDF,对每个词赋予了不同的权重,改进了 TC-LSTM提取的特征。因为充分考虑了每个词对分类结果产生的影响大小,因而该算法具备更强的特征抽取能力,同时在垃圾文本数据集上进行了实验,验证了算法的有效性。
其他文献
情境教学就是基于学生的日常生活经验,在课堂教学中营造学生每天接触到的、最熟悉的情境,使学生能够以积极的心态参与到教学中,最终达到提高教学质量的目的。因此,小学数学教
本报讯 (记者 吴君宁)“国庆+中秋”超级黄金周昨日收官,市民游客出游热情难挡,我市旅游市场一片兴旺。据市旅发委统计,这个假期我市共接待国内外游客212.96万人次,同比增长23.57%;
报纸
为了解决传统铝合金焊接接头气孔数量多、晶粒粗大及力学性能差的问题,以5083-O铝合金为研究对象,进行超声振动辅助激光-电弧复合焊接试验。研究了超声振动对铝合金焊缝气孔
文章通过对含矿岩系岩石、矿物、微量元素及沉积特征的阐述,概括了贵州道真县大塘铝土矿的沉积相特征并对铝土矿沉积环境进行了探讨。
泰国2006年政变是在泰爱泰党高支持率执政的国内政治环境下产生的。分析这次政变的原因,既要描述泰国政府、军队在现实政治权力层面的角力,也要回答泰国1997年宪法何以不能够为
通过构建包含区域相关的房价共同因子模型,采集1999—2010年中国35个大中城市房地产市场发展的面板数据,利用CCEP方法测度中国城市住房市场泡沫。结果表明:各区域房价之间存在
采用激光超声检测技术对不同深度的铝合金6061表面微裂纹进行了检测.通过搭建激光超声检测试验平台,得到不同缺陷深度的表面裂纹的缺陷信号,分析了缺陷信号的时域信号特征.研
镁合金具有力学相容性、生物相容性及可降解性等优点,有望发展成为新型的生物医用植入材料。Mg-Zn-Ca三元合金由于Ca具有很强的晶粒细化作用,Zn具有很强的时效作用,且Zn、Ca
目前,随着汽车行业对节能环保要求的提升,整个汽车空调系统的产品都在朝着高效率、轻量化和节能环保的方向发展。作为空调系统的核心部件,冷凝器也是如此,各文献可以看出,平
本文针对社会责任报告这一叙述性文本披露领域,基于印象管理和委托代理理论,探讨修辞语言运用特征及其影响因素。研究结论表明,社会责任报告中的"乐观性"和"语气强度"与社会