基于RBF网络的文本自动分类的研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:shenkui1945
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现实世界中,人们可获取的大部分信息来自文本数据库(或文档数据库),文本数据库包含大量来自各种数据源(如新闻、研究论文、报告、书籍、杂志等)的文档。近年来,随着计算机技术和Internet的飞速发展,每天都会产生大量的电子文档,使得文本数据库的总量以惊人的速度膨胀。要有效地利用这些海量的文本数据,必须把它们按其内容进行分门别类的整理,而这个工作如果靠人工来完成,将要耗费许多具有丰富经验和专门知识的分类人员的大量劳动,显然这种方式具有周期长、费用高、效率低的缺点,在信息爆炸的今天很难满足实际需要,因此利用计算机技术对大量文本进行自动分类就成为了当前一个日益流行、而且具有重要意义的研究课题。 对文本进行自动分类,涉及到许多领域的理论和技术,主要有概率统计、信息检索、数据挖掘、自然语言理解、模式识别和机器学习等,所以非常具有综合性和挑战性。 目前大多数文本分类方法都是基于相似度的,即为每一个目标类训练(学习)一个类别特征向量,对新的待分类文本特征向量,计算它与每一个类别特征向量的相似度,返回相似度最高的类别特征向量的类标号作为该文本的预测类别。但这种方法存在两个问题:首先,有些类内部不一定有很大的相似性,例如,“体育”类中与篮球有关的文章和与拳击有关的文章,其内容就有很大的区别;其次,每篇文章常常可以同时属于多个类,例如一篇数据挖掘的文章很有可能也属于人工智能类的文章。 基于上述原因,本文提出用RBF网络进行文本自动分类的方法,本方法的主要思路是:首先对训练集进行聚类,得到若干个簇,使得每个簇内部的相似性尽可能高,而簇之间的相似性尽可能低。为每一个簇的中心定义相应的径向基函数(Radial Basis Function,RBF),再对这些径向基函数构成的两层神经网络进行训练,同时,为了避免产生过度拟合现象,本文采用了岭回归技术,即在代价函数中加入一个包含适当正规化参数的权值惩罚项,从而保证网络输出函数具有一定的平滑度。由于本方法考虑到了每个类内部不同簇之间的差异性,因此很好的解决了前述的第一个问题。这种方法也可以解决上述的“兼类”问题,若新文本的特征向量在多个类的径向基函数网络上的输出值都超过了阈值,则可认为它同时属于这几个类。 我们在实验中利用径向基函数网络进行文本自动分类取得了较好的分类效果,分类准确率稳定保持在90%附近。但是仍然存在几个问题尚待解决:首先,聚类时怎样自动确定簇的个数和半径;其次,如何利用含有多个正规化参数的局部岭回归方法进行RBF网络学习;第三,如果簇的形状是不规则的,则它很难用径向基函数来描述,因此需要研究其它能代表不规则形状的簇的基函数。这些问题都有待于我们在今后的工作中作进一步研究。
其他文献
本文在自主开发的多级安全空间数据库管理系统SecVISTA之上,针对存储隐通道和时间隐通道两大类,分别设计并实现了不同的隐通道消除模块。文章基于多实例、大容量缓冲和泵协议等
本论文系统地描述了具有入侵检测功能的防火墙的实现方法,实现成果和结论。对于在防火墙层次实现网络入侵的过滤,在现存的技术手段和科学研究的基础上,已经可以比较容易地实现一
数据挖掘是随着信息技术不断发展而形成的一门新学科。它帮助人们在信息海洋中发现有用的知识和信息。数据挖掘按照其任务主要可以分为4种:聚类、分类、关联规则、序列-模式
随着信息技术的快速发展,真实世界中数据的规模也在以几何级的速度增长,出现了大量的高维数据,这些数据具有高维稀疏性。数据的这种高维稀疏性给现代数据分析与处理带来巨大
防滑刹车控制盒是飞机刹车系统的重要控制部件,在飞机的安全起飞和平稳着落过程中,起着重要的作用。飞机在刹车过程中的会面临复杂多变的天气、跑道路况,以及降落过程的持续时间
移动Agent是一个能在异构网络中自主地从一台主机迁移到另一台主机,并可与其他Agent或资源交互的程序,它除了具有智能Agent的最基本特性—自治性、反应性、主动性和交互性外,还
随着语音技术的发展,语音网络正在进入一个全新的变革时代——下一代网络(NGN—Next Generation Network),NGN向用户提供了全新的通信模式。在因特网可通达的区域,在国家法律
随着INTERNET上数据量呈爆炸式的增长,信息数据的有用性变的十分必要。WEB挖掘是将数据挖掘技术应用于互联网,目前在许多研究领域都是热点。作者讨论了WEB挖掘和WEB挖掘的分类
随着计算机网络和全球信息化的不断发展,计算机及网络信息安全随之成为一个重要的问题。因此,我们需要一种能及时发现入侵,成功阻止入侵的网络安全技术,这就是入侵检测系统。本论
信息隐藏与隐写分析技术作为信息安全领域的一个研究热点,在近几年取得了很大进展。信息隐藏的原理是利用人类感觉器官对数字信号的感觉冗余,将一个消息隐藏在另一个消息中,而由