基于PLS的文本分类技术研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:w_wangjing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着网上电子文档的数量以指数级的速度增长,文本分类技术在信息检索、信息过滤以及内容管理等各项应用中变得越来越重要,已经成为信息检索和机器学习中的前沿研究领域。自动文本分类是指在给定的分类体系下,对未知类别的文档进行自动处理,并根据文档特征来判断其所属类别的过程;基于机器学习的文本分类技术已经成为主流技术。本文旨在运用偏最小二乘回归和核偏最小二乘回归的统计理论,研究一些基于学习的文本分类技术。 在文本分类中,有效的维数约简可以提高学习任务的效率和分类性能。特征选择和特征抽取是维数约简常用的两种方法。特征选择的优点是所选择的特征都有很好的语义解释,但在文本分类中效果不够理想。特征抽取能够较好地处理多义词、同义词问题,但是不能给出降维后所得到特征的语义解释。为了有效地提取特征所在类别的语义信息,本文提出了基于潜在语义文本分类模型(Latent Semantic Classification Model:LSC)的特征选择两步法:用LSC模型进行特征抽取;引入特征变量投影重要性(Variable Importance in Projection:VIP)指标来重新度量各特征的重要性,根据特征的重要性来进行特征选择。在复旦中文文本分类语料库上,实验表明新方法进行选择特征能很好地表示类别的语义信息,在一些经典模型上分类性能有较大提高。 考虑了文本特征和分类信息的LSC模型本质上是线性模型。为了提高分类性能,通过引入核函数提出了一种非线性的文本分类模型:基于核方法的潜在语义文本分类模型(Kemel Latent Semantic Classification:KLSC)。实验结果表明该模型也能很好地表示文档空间的潜在语义结构信息,具有良好的分类性能。 在LSC模型和KLSC模型中都面临一个关键问题:潜在变量对数量的确定。两个模型都是通过阈值ε来控制,在中文语料库上实验表明随着维数的增加,微平均F1值和宏平均F1值对阈值ε越来越敏感;在不同特征维数下,LSC模型所有类别阈值ε和潜在变量对数量呈非线性关系,而KLSC模型呈线性关系;我们发现大约20个左右的概念(concept)就可以很好地表示一个类别的语义信息。
其他文献
随着全球信息化的高速发展,我军现代化进程也在大步向前推进,实施科技强军是提高部队战斗力的必由之路。然而,在新形势下,如何加强部队枪支动态管理,实现对枪支的高效率、信息化和
即时通信系统(Instant Messenger,IM)是一种在后PC时代兴起的,以Internet网络为基础的,允许通信双方即时地传送文字、语音、视频等信息,能够跟踪网络用户在线状态的网络应用
多生理参数远程监测系统可对心血管疾病患者、慢性病患者以及老年人进行不间断实时检测,在人体健康在线监护以及疾病预警方面发挥了重要作用。随着智能手机终端的普及和穿戴式
随着视频压缩、网络通信及大规模高速集成电路的发展,模拟系统或以PC机插入视频采集卡构成的网络监控系统难以满足实时处理的要求。超大规模集成电路和嵌入式网络视频监控技
随着移动终端的用途多样化及与移动业务的紧密结合。在带给用户便利,丰富用户生活的同时,移动终端也给移动通信的发展带来了巨大的挑战。移动终端管理这个课题就在上述的背景下
随着网络技术和网络应用的飞速发展,网络设备和网络资源变得越来越繁杂,网络应用需求日益朝着高性能、大规模的方向发展,网格技术就是将地理上分布的、异构的各种网络资源、存储
网络在我们的生活中扮演着重要角色,网络连接起来的设备和应用程序越来越多,不仅仅包括各种服务器、台式计算机、笔记本电脑,还包括我们的手机、掌上电脑和各式各样的嵌入式
图书馆拥有丰富的文献信息资源,是社会信息系统的重要组成部分,在信息社会化中作用愈来愈重要。本文正是基于这个出发点,依据信息管理系统的先进思想理论和我国图书馆具体特
随着互联网的飞速发展,网络电台、视频点播、IPTV等流媒体应用的需求品质在不断提高。从音/视频压缩编码、流媒体服务器的传输服务性能到客户端的播放质量,使得流媒体技术的
网格是当前并行和分布处理技术的一个发展方向,其目标是实现对地理上广泛分布的大量异构资源进行共享,其中复制管理是网格中一个重要的组成部分。创建的数据副本可以降低远程