基于最大熵模型的不良文本识别方法研究

被引量 : 3次 | 上传用户:dragon98141
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网以其巨大的信息资源和快捷的传播速度给人们的信息交流带来了前所未有的便利,但同时,由于互联网的开放性、匿名性等特点,使它在为人们提供便利的同时,也将许多不良信息(反动、色情、暴力、迷信内容等等)携带而来。这些不良信息严重干扰着互联网的正常秩序,成为用户获得有效信息的障碍。其中的一些不健康的言论及思想,给国家和个人的信息安全带来了诸多隐患,特别是对青少年的健康成长有着极其不利的影响。因此如何有效监管互联网上的信息,阻止不良信息的传播,保障网络的内容安全,成为当前重要研究课题之一。本文通过对各类不良文本特征的深入分析,结合中文信息处理、模式识别、机器学习等学科的相关知识,对不良文本信息过滤的文本预处理方法、文本特征选择方法等作了深入的研究,并通过实验对研究结果进行了验证。具体工作如下:(1)从传播途径、内容形式、统计等不同角度深入分析了不良文本的特征,并对其中的特殊形式的不良文本进行了相应的预处理。采用有限自动机对其中的特殊词进行识别,将其作为不良文本特有的特征加以利用,并建立拼音汉字对照表和部首汉字对照表,对这些不良文本进行还原,使其能适合于基于分词的方法处理。(2)介绍最大熵模型的原理,及其在特征选择和参数估计中所用的相应方法。比较了目前常用的文本分类特征选择方法,结合不良文本的特点,提出了一种适合于不良文本识别的特征选择方法——两步特征选择方法。并对其效果进行了验证。(3)设计并实现了一个不良文本识别的实验系统。先对训练文本进行预处理,用两步特征选择方法生成特征集,根据特征集将训练文本表示成特征向量,训练得到最大熵模型,对测试文本用同样方法表示成特征向量,用训练得到的模型测试,根据测试结果进行识别。实验结果表明两步特征选择方法可适用于不良文本的识别并取得较高的准确率和召回率。
其他文献
目的:研究西安地区肠道病毒71型手足口病患儿急性期外周血T淋巴细胞亚群的变化,以探讨其细胞免疫功能变化的临床意义。方法:根据病情轻重,将100例肠道病毒71型手足口病患儿分
在杂交育种实践的基础上,对桃主要性状进行了系统的遗传分析;利用SSR分子标记技术对已构建的桃AFLP遗传连锁图谱进行加密,并将果肉颜色、粘离核和早熟性性状在图谱上进行了定
海啸是众多自然灾害的一种,具有破坏力大,影响范围广的特点,在21世纪初人类就遭受了两次重大的海啸:2004年印度洋海啸以及2011年东日本大地震海啸。两次海啸均造成了巨大的人
本文主要从主体内在审美意识的角度探讨了健全人格的塑造。人格在本质上是主体内在的意识组织。人格的形成有这么几个核心要素:需要(心理意识与外界交流活动的动力)、环境(与
方寸之间的藏书票看似小,其不然,对书和藏书人有很深远的影响。藏书票是版画艺术的一个分支,用藏书票收藏家、研究家吴兴文先生的话来说是“小道”这里的“小”指的是藏书票
刑法学中的被害人概念应当与犯罪学中有所区别。在犯罪论中,被害人对犯罪论体系的完善有重要作用;在刑罚论中,被害人因素对刑罚功能的发挥、刑罚目的的确立、刑罚的具体裁量
目的探讨纽曼系统护理模式在胃癌根治术患者中的护理效果及对病人胃肠功能、生活质量的影响。方法选择胃癌根治术患者80例作为对象,随机数字表分为对照组(n=40)和观察组(n=40
定格动画作为动画类型中重要的组成部分,一直以其独特的魅力被人们所喜爱。定格拍摄运用不同的材料和拍摄技法,能够达到不同的效果,更是动画发展的重要组成部分。文章分析了
森林生态系统是陆地生态系统的主体。笔者介绍了大同市的自然概况,分析了大同市森林资源现状及特点,指出了在森林资源和管理方面存在的问题。在此基础上,提出了以保护为主,强化综
文章管理系统经历了静态页面管理、动态网页技术两种方式。以往的静态页面保存文章内容方式需要花很大精力制作网页,在动态网页技术出现后已基本被淘汰。动态网页技术,适应于