基于投影寻踪回归的文本分类研究

被引量 : 0次 | 上传用户:lurenjia1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用向量表示文本是目前信息检索中最常用的方法,但在向量模型中,特征空间的维数通常高达数万维,如此高维的特征向量的处理具有极高的计算复杂度,而且会产生所谓的“维数灾难问题”,这就要求我们对高维数据进行降维,而合理的降维技术也正是文本自动分类的研究难点。 现有的文本自动分类中的降维方法大多是建立在数据总体服从正态分布这个假定基础之上的,而文本特征数据并不满足正态分布假定,需要用稳健的或非参数的方法来解决这个问题。投影寻踪是用来分析和处理高维观测数据,尤其是非正态、非线性高维数据的一种新兴统计方法。由于投影寻踪回归算法(PPR)本身不对观测数据做正态分布等假定,所以该方法能最充分地利用高维观测数据中的所有信息,特别是可以利用常规方法无法利用的非正态信息和复杂的非线性信息。因此,本文提出了基于投影寻踪回归的文本自动分类算法,通过投影寻踪回归算法,可以真实地描述高维数据的客观内在规律,从而达到降低特征维数,提高文本分类的精度的目的。 基于投影寻踪回归的文本分类方法的思想是:将文本表示为向量形式,然后将此高维数据投影到低维子空间上,并寻找出最能反映原高维数据的结构和特征的投影方向,然后将文本投影到这些方向,并用岭函数进行拟合,通过反复选取最优投影方向,增加岭函数有限项个数的方法使高维数据降低维数,最后采用普通的文本分类算法进行分类。 我们采用标准文档集:Reuters-21578进行了分类实验,并同时在相同的预处理条件下,与目前常用的方法进行了对比实验,实验结果表明,该模型对文本自动分类具有较高的召回率和准确率,该方法是一个可行而有效的文本分类方法。 本文的主要创新特点如下: 1.将投影寻踪回归方法应用于文本自动分类,通过投影指标来确定投影方向,反复将文本向量投影到一维空间,然后用岭函数进行拟合,进行高维数据的降维,最后进行文本的自动分类。 2.采用Hermite正交多项式拟合岭函数,大大降低计算复杂度。
其他文献
介绍了应用MCGS触摸屏进行以太网通信的组态要点和关键步骤以及常用的Modbus TCP协议码,结合具体监控实例分析了一种Modbus TCP协议码的识别和处理方法,对MCGS触摸屏产品的开
苏联解体以来,学界一直在探究苏联解体的根本原因,呈现出百家争鸣的局面。客观地分析,苏共背离马克思主义的指导是苏联解体最本源的原因。苏共背离社会主义意识形态始于赫鲁
目的:对实习护士带教存在的主要问题进行分析并总结。方法:通过长期对护生的指导,发现了实习过程中出现的主要问题,提出解决对策。结果:使护生的综合素质得到了全面地提升,大
目前,国内外对静压桩的研究主要集中在压桩机械的开发、沉桩阻力与沉桩的可能性、沉桩力和承载力关系等方面,对静压桩的挤土效应以及由于挤土效应引起的桩基极限承载力随时间
基层政府职能转变的进程深刻影响到我国行政体制改革的成败。把基层政府职能转变置于善治语境下进行考察,分析其面临的现实困境及产生的原因,有助于厘清新形势下我国基层政府
<正> 妻双方同居三年以上,没有避孕而未能受孕,病在男方者称不育症。睾丸发育不良,精子产生障碍,是形成不育的主要原因。平素多无自觉症状,精子常规检查可发现精子计数显著减
期刊
范祖禹的《唐鉴》一出,便受到了北宋统治者的重视。所以如此,其原因除了书的内容能为统治阶级提供借鉴外,更重要的是其统率全书的正统思想符合了统治阶级的需要。在《唐鉴》
目的:总结股静脉穿刺在大面积烧伤患者中的应用与护理效果。方法:将股静脉置管应用于大面积烧伤患者的治疗,并给予积极的护理。结果:经过合理的治疗和护理后,2例死亡,其中1例
就《陈素庵妇科补解》学术特点进行了分析。认为此书有如下几个特点:月经不调分三因论治;重视脾胃后天;论病辨内外虚实;精论调经宜忌;提倡按月安胎。
以一款纯电动汽车为基础开发平台,详述了电动助力转向系统的电机性能匹配与设计过程,最后结合试验数据对系统性能进行了客观评估。