基于类信息的潜在语义多类文本分类模型研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:FriedaCao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当前信息快速膨胀的时代,人工对文本信息进行分类是一种效率十分低下的工作。文本自动分类技术利用计算机强大的自动处理功能,极大的提高了工作的效率。目前,比较成熟的分类器有Rocchie算法,Na(?)ve Bayes算法,KNN算法,SVM算法等。 但是以上这些算法的本质都是二元分类算法,而在文本分类中,我们往往需要处理多类分类问题。在应对多类分类任务时,现今通常的解决方法是通过构造多个二元分类器,并将他们组合起来形成一个多类分类器。组合的方法有一对多(One-Against-Rest),一对一(One-Against-One)等等。但是这些方法的缺点在于首先忽视了文档的多类属性,而且需要训练大量的二元分类器,对于K类的多类问题,One-Against-Rest方法需要K个二元分类器,One-Against-One方法需要((?))个二元分类器。用每个二元分类器分类后将结果进行组合,最终确定输出。 针对多类分类算法的复杂性,我们在基于潜在语义分类模型的基础上,提出了基于类信息的潜在语义多类分类算法(Multivariate Partial Least-square Classifition:MPLC)。它通过将文档的多类标签属性表示成为一个文档类别信息矩阵,进行潜在语义索引,利用偏最小二乘法提取词和类别之间的潜在语义对,利用潜在语义对来对文本进行分类。通过建立类别信息矩阵,首先解决了文档的多类属性,同时避免了同时训练多个二元分类器的复杂过程。试验结果表明,我们的算法具有较好的稳定性和精度。其性能比目前表现较好的KNN、SVM算法都有所提高。 本文创新之处包括: 1.利用训练文档的类信息对文本分类模型进行建模,提取对分类贡献较大的特征。 2.基于潜在语义模型,提出一个新的多类分类算法MPLC; 3.利用偏最小二乘回归,避免了奇异值分解算法的繁重计算。
其他文献
随着计算机技术的快速发展,特别是对远程办公、远程协作、远程维护和远程教学的需要,远程控制技术越来越引起人们的关注。远程控制是指从本机通过软件操作远程计算机的屏幕、键
在地理信息系统中,栅格数据是一种基本的空间数据模型。本文的主要研究工作是从实际需求出发,对栅格数据的生成、存储及可视化技术进行研究和探讨。 栅格数据的生成过程需要
机器学习是人工智能领域中重要的研究课题,是用计算机模拟人类学习活动的一门科学。机器学习用计算机模拟和实现人类的学习过程,目的是获取知识,有归纳学习算法、神经网络、遗传
公钥基础设施(Public Key Infrastructure)PKI技术已成为信息安全技术的核心,公钥基础设施和认证机构(PKI/Certification Authorities)PKI/CA安全体系能够有效解决电子商务、电
飞行模拟器操纵系统是向飞行员提供了操纵力的操纵负荷仿真系统。操纵系统的硬件和软件接口是飞行模拟器系统的重要组成部分,其性能的好坏直接影响到整个飞行模拟仿真系统的性
入侵检测是信息安全体系结构中的重要一环,其本质是一个对网络数据包、审计日志等大量数据进行数据处理的过程,如何从包含大量冗余信息的数据中自动、准确地提取出具有代表性的
当今时代,信息化特征明显,人们观察物理世界所获得的数据均用计算机信息表示。为了更好的观察和分析人们生活的物理世界,人们采用了多种多样的信息数据收集方法。而如何能够将这
随着计算机和通信技术的发展,Internet在过去的十几年中迅猛发展,随之而来的拥塞问题亦越来越严重,现有的拥塞控制算法远远无法满足未来网络的需要,Internet的继续发展迫切需
交通运输是国民经济的动脉,它对人民生活和社会经济发展起到了极大的作用。各种运输方式都要遇到同一个问题:在有效地的服务客户前提下,怎样去减少总的费用。 本文研究的问题
基于内容的图像检索(CBIR)是目前国内外发展很快的一个研究热点。它的研究对象是使查询者可以实现方便、快速、准确的从图像数据库中,查找特定图像的方法和技术。该项技术的应