基于自主学习的中文文本分类算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:huahuaaixue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本分类技术就是对大量的自然语言文本按照一定的主题类别进行自动分类,它是自然语言处理的一个十分重要的问题。文本分类任务的特点之一即文本经过向量空间模型(VSM)表示后特征空间维度很高,这样势必大大增加了文本训练的计算复杂度,导致训练时间过长,而且训练集中可能含有噪声样本,能够降低分类精度。针对这种情况本文在文本分类中加入自主学习算法。自主学习(Active Learning)就是在训练过程中分类器能够自己主动选取富有信息含量的样本,除去冗余和噪声样本。一方面在保持测试精度的情况下能够大大精简训练集,有效减少训练时间;另一方面能够提高测试精度。所以针对训练集数量庞大,特征空间维度高的文本分类问题,采用自主学习的方法,可以显著提高学习效率。本设计把基于泛化误差模型Rsm的自主学习算法应用到中文文本分类中,实现了一个基于径向基函数(Radial Basis Function Neural Network, RBFNN)的文本分类系统,重点研究是基于自主学习的文本分类算法。首先构建一个分类系统,该系统使用VSM表示文本,LTC表示特征项的权重,信息增益(Information Gain, IG)用于特征选取,利用RBFNN进行分类。然后把Rsm,Rand,QBC三种自主学习算法应用到RBFNN系统。实验表明用Rsm进行样本选择后再进行训练,在训练时间和测试精度上比其他两个算法具有优势。
其他文献
近年来,随着网络的飞速发展,分布式环境中的访问控制和授权管理作为安全服务的一个重要领域得到了快速的发展。公钥基础设施PKI有效的解决了身份认证、数据保密、数据完整等
随着全球信息化发展和Internet普及,计算机网络安全逐渐成为人们关注的焦点问题。目前网络通信主要提供五种安全服务,即身份认证服务、访问控制服务、机密性服务、完整性服务
随着嵌入式技术日新月异的发展,它被应用在多种行业和领域,而且朝着智能化的方向在发展。当前中国的水利发电前景广阔,众多中小型水电站机组亟待升级,以实现自动化和信息化。
随着移动设备的不断更新和移动互联网的快速发展,人们可以随时随地通过移动设备接入互联网进行日常工作、学习和娱乐,与此同时运维工作也开始由以个人电脑(PC)和互联网(Interne
近几年,由于煤炭的大量开采,煤矿的突水事故频繁发生,给人民的生命财产带来了危害,因此对煤矿地下水位预测的研究有着实际意义。煤矿地下水位预测是一个具有影响因素繁多、高度非
WEB服务技术随着Internet的广泛应用得到迅速的发展,它是在继承现有的各种系统框架和实现技术的基础上提出的一种解决不同平台、不同协议、不同开发语言下的应用系统集成问题
随着无线通信技术的进步,多跳无线Ad hoc网络再次成为当前无线网络研究的一个重要领域。和3G网络、WLAN不同,无线Ad hoc网络是不需要任何基础设施的网络,任意两个节点间的通
基于内容的图像检索技术(Content‐based image retrieval),即CBIR是当前一个热门的研究课题。它的提出能够更高效地解决在海量图像库中找到所需内容的问题。在基于内容的图像检
时间同步是无线传感器网络(Wireless Sensor Network,WSN)的一项关键技术,它为分布式系统提供了一个共同的时间基准,在数据融合、功率管理、传输调度、定位跟踪等方面都具有重要意
在过去的十几年间研究人员对频繁集挖掘进行了深入广泛的研究,取得了一系列研究成果.这些研究成果已被广泛应用到关联规则挖掘、关联分类和序列模式挖掘等具体应用中.频繁集