基于优化的RS-BPNN的文本分类方法

来源 :南昌大学 | 被引量 : 0次 | 上传用户:xiao0mai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着IT行业的兴盛和互联网技术的飞速发展,信息资源也在迅速、海量地增长。由于其中大部分的信息资源都以异构、动态的Web文本形式存在,因此如何在这巨大的数据海洋中快捷方便地找到人们所需的信息已成为大家关注的焦点。Web文本分类技术是解决以上问题的一个主要方式,为此,本文在以下几方面对其做了相关的探讨和研究:   第一,提出了一种改进的x2统计方法。由于传统的x2统计法往往会将很高的权重分配给分类能力较小的低频词,而分类能力强的特征词权重则相对降低。因此,改进算法考虑了文档中的词频因素,这样可在一定程度上避免上述缺陷。   第二,提出使用一种优化的反向传播算法。该方法不同于传统的反向传播算法,它在分类器的构建过程中,其学习步长会进行微调。因此,在调整网络连接权值之前,需要先计算对应的学习步长。学习步长的计算结合了delta-bar-delta规则,该规则的引用避免了学习步长取值过大或过小带来的易陷入局部极小值和网络振荡等问题。   第三,针对使用向量空间模型(VSM)表示文本时会产生过高的文本特征维数而导致神经网络不易收敛,学习时间太长的问题,结合特征选择和粗糙集理论,提出了基于优化的RS-BPNN文本分类方法。首先,运用本文提出的改进x2统计法预降维,然后利用其中的属性约简理论删除冗余的特征词,进行特征空间的再约简操作,最后使用优化的神经网络进行分类。   第四,设计和实现了一个基于本文方法的文本分类实验系统。采用客观的中文语料库在该系统的基础上进行了几组对比性实验。实验结果表明,优化的RS-BPNN文本分类方法优化了BP网络的拓扑结构并改善了BP算法中收敛速度慢的问题。
其他文献
近年来,计算机以及互联网技术在我国信息化建设方面取得了自订所未有的普及和发展,这导致信息量不断增长。面对持续膨胀的海量信息,如何提高检索的效率以提升用户的检索体验,
图像的超分辨率技术(Super-Resolution, SR)是指通过对多幅或一幅低分辨率图像的处理来重建出一幅高分辨率图像。本文重点研究的是基于稀疏理论和Guided滤波的单帧图像超分辨
破碎机是整个破碎流程中的核心设备,破碎机的能耗在矿业产品的成本中所占比例较高。但国内缺乏对现有破碎工艺中破碎机的操作性能优化控制的研究。破碎工艺的优化研究需要研
物联网被称为世界信息产业的第三次浪潮,越来越受到人们的关注,简单的说,物联网就是通过各类传感识别设备把所有物连入互联网,以实现物的自动化管理以及物与物之间的智能通信
随着计算机网络的快速发展,网络安全问题备受重视,IP时间隐通道已经成为网络系统的重要安全威胁之一。IP时间隐通道是一种通过改变包交换网络中IP数据包的传输时间来传递信息
情绪在人们的日常学习工作中发挥着重要作用,并且人类具有的情感能力是人类与当前智能机器的最大不同之处之一。不断完善的认知心理学、认知神经学和情绪认知评价理论有力的支
近年来,随着iPhone智能终端手机和Surface平面触摸式电脑的普及,多点触摸设备的种类及其应用日渐增多,手势的定义与识别相关研究由此产生。不同设备的手势库所包含手势不同,增加
伴随着信息技术的快速发展,信息的安全问题日益突出,除了安全防范措施的不到位以外,现有安全防范技术的滞后性、被动性以及防外不防内的特性使得这些安全防范技术不能从根本
传统考试中主要有:教师出题、组卷,教师判卷和分数统计等工作,考生在考试中受时间和地点等诸多因素限制,而利用网络和数据库技术,在线考试已经逐渐成为一种发展趋势,它可以使
电气专业人士的日常工作繁琐而复杂,经常需要使用不同的仪器,而这些仪器通常都具有体积较大、携带不便、无自动数据处理能力等缺点。同时,他们也常常需要查询大量电学相关资