基于构造性覆盖算法的中文文本分类

来源 :安徽大学 | 被引量 : 0次 | 上传用户:saveflv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是文本挖掘的基础与核心,是近年来数据挖掘和网络挖掘的一个研究热点,在传统的情报检索、网站索引体系结构的建立和Web信息检索等方面占有重要地位。文本自动分类技术是自然语言处理的一个重要的应用领域,是替代传统的繁杂人工分类方法的有效手段和必然趋势。特别是随着互联网技术的发展,网络成为人们进行信息交互和处理的有效的平台,各种数字化的信息每天以极高的速度增长。面对如此巨大的信息,人工分类选择已经无能为力,计算机自动分类已成为网络时代的必然选择。目前,对于文本分类技术的研究,大多数研究者的精力主要放在各种不同分类方法的探索与改进上。然而,文本分类中的特征选择也一直是文本分类的关键技术。因此,对特征选择算法的研究与不同分类算法的研究都是十分必要的。本文所做的主要工作及创新点如下:1.本文首先对当前文本分类领域几个关键问题的常用解决方法进行了研究,然后着重介绍了一个基于构造性覆盖算法的中文文本分类系统(Structural Covering Algorithm-Based Chinese Text Classification System,简记为CCTCS),重点阐述了文本预处理、特征选择、维数约简和构造性覆盖算法及其改进等技术的实现。2.在CCTCS中,第一步是利用中国科学院计算技术研究所提供的汉语词法分析系统(Institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS)对中文文本进行汉语分词,去除虚词和形容词,只保留名词和动词;再对文本进行预处理,删除文本中的停用词和稀疏词,可使文本维数平均压缩一半,从而实现文本的粗降维。而CCTCS需要解决的核心问题是特征的选择问题,特征选择涉及选择哪些特征和选择的特征维数两个问题。针对上述问题,本文使用信息增益(Information Gain,IG)与主成分分析(Principle Component Analysis,PCA)相结合的特征选择方法。3.CCTCS使用人工神经网络作为分类器,特征词的权重组成原始特征向量,和神经网络输入层的神经元一一对应。在文本训练的时候,利用标记好的训练文本集进行网络训练。而在文本分类的时候,输入待分类文本的特征向量,通过已训练好的神经网络对文本进行分类,以确定文本的类别。4.本系统采用构造性覆盖算法(即交叉覆盖算法)来设计神经网络分类器,首先分析了一般的交叉覆盖算法(Generic Alternative Covering Algorithm,GACA),发现其存在一些不足之处,在分类过程中,可能会出现拒识和误判的现象,这将大大影响系统的识别率和正确率。然后针对这些不足,对交叉覆盖算法做出相应的改进,并给出其算法。实验证明,改进的交叉覆盖算法(Improved Alternative Covering Algorithm,IACA)在整体性能上优于一般的交叉覆盖算法。这种改进的算法不仅可以进一步提高交叉覆盖算法的训练速度,而且可以减少拒识样本数,提高识别的精度。5.本文通过实验比较分析了不同特征选择方法与设计分类器的交叉覆盖算法对分类性能的影响,证明了IG+PCA的特征选择方法比直接使用IG在基于交叉覆盖算法的中文文本分类中具有其优越性,而且改进的交叉覆盖算法应用到中文文本分类中在整体性能上优于一般的交叉覆盖算法,并得出利用交叉覆盖算法设计的神经网络的特征输入维数在200左右的时候分类性能最佳。本文在中文文本分类方面已经完成了一些工作,今后可以在以下几方面作进一步的研究:1.本论文所有的结论都是在实验的条件下得出的,而实际应用效果如何可以进一步在实际应用中进行验证。2.可将本文提出的特征选择方法应用于英文文本分类中,并设计更网络化、智能化、多功能化的分类系统,可以应用到如邮件过滤器或搜索引擎等热门实际应用中去。3.为了进一步提高本文方法的扩展性,可考虑分类别来作PCA,然后寻找各个类别的主成分(Principle Component,PC)的极大线性无关组来得到全局特征,这是我们将来研究的一个重点。
其他文献
随着网络技术的发展,Internet上的数据量大量增加,同时人们对信息的需求也越来越专业化。个性化服务技术的出现在一定程度上解决了信息的多样化与用户需求的专一化之间的矛盾。
随着电子商务和电子政务的普及和应用,用户对信息传输和使用时的安全性需求也越来越高。作为对传统的基于PKI的加密方案的改进,基于身份的加密方案(Identity Based Encryption,I
随着虚拟现实技术和计算机图形学的发展,利用计算机对自然界中植物的模拟,已经成为一个热门课题。本文结合浙江省基金项目,探讨了植物形态可视化建模中的问题。研究的内容和取得
随着数据库应用的日益广泛和专用数据模型的不断发展,出现了专门应用于企业MIS开发的数据模型——域数据模型。然而目前还没有专门用于域数据模型的域数据库查询语言。本文在
目前,关于网络身份的问题日益突出,需要一个网络身份管理系统来解决。身份管理包含广泛的含义,对于企业来说,问题在于整合内部不同系统。对于互联网用户来说,他们需要毫不费力的管
基于燕京啤酒(桂林漓泉)股份有限公司的现状,建立四种实用模型对其进行研究。 模型一:燕京啤酒(桂林漓泉)股份有限公司现有四条主要生产啤酒线,可以在高低负荷下进行生产,高负
随着计算机和通信技术的发展以及移动设备的普及,原来单一、繁琐的有线电缆和网线接入已经无法满足人们对网络接入方式的需要,无线网络已成为人们生活的一部分,人们对移动办公的
密码技术和安全协议是保障通信安全的核心。随着分布式计算的飞速发展及新型高性能计算技术的出现,各种密码破解方法和安全协议攻击算法不断涌现,传统密码技术和安全协议正不断
近年来,随着计算机应用技术的迅速发展与普遍应用,以网络和多媒体技术为基础的网络教育逐渐改变着传统的教育模式。网络教育技术使得教育资源得到共享和优化,它扩大了教师的
三角形网格曲面参数化可以看作是该网格曲面和参数域之间的一个——映射。近年来,网格参数化的研究已经取得了一定的进展,出现了很多参数化方法。网格参数化的理想目标是参数域