基于PCA和kNN混合算法的文本分类方法

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:passkakaxi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着文本数据的激增,文本分类的高复杂度是一个重要的问题。k近邻(k NN)算法是一个简单、有效,但是计算复杂度很高的分类算法。一般,在使用k NN算法时,使用主成分分析(PCA)进行预处理来减少维数,但是该算法要求投影空间中的所有向量来执行k NN算法。我们提出一个新的混合算法PCA&k NN,使用一个小的邻居集来执行k NN算法,而不是投影空间中的完整的数据向量,从而减少了计算的复杂性。新的文本被投影到较低维的空间,k NN仅使用每个轴的邻居执行,基于更接近原始空间和投影空间且沿着投影成分的主向量。为了验证该方法的有效性,针对Reuters标准数据集进行实验,实验结果显示,新提出的模型显著优于k NN和标准PCA-k NN混合算法,同时保持了相似的分类精确度。
其他文献
<正>近几年来,动画产业在我国的发展一直不错,随着我国人口数量的持续增加,每年都有很多婴儿的诞生,这种现象对动画产业的发展有着积极的作用。动画制作是动画产业中非常重要
信息化条件下的现代战争,是陆、海、空、天、电一体的综合体系对抗,数据链作为实现诸军兵种在战术层面上联合作战的有力抓手承担着重要的责任。而消息格式作为数据链的重中之
颅内动脉瘤是目前神经外科一种常见的危重疾病,约有三分之一的动脉瘤病人因出血后未得到及时治疗而死亡;近年来,随着高科技检查治疗手段应用于神经外科,使动脉瘤病人的救治率
目的了解南京市部分消费者掌握饮食健康知识情况的现状。方法自行设计问卷,匿名问卷调查。结果女性消费者主要集中在“良”等级,男性消费者主要集中在“中”等级上;不同学历消费
学校社团是校园文化建设的重要组成部分,是对学生进行职业生涯教育的重要阵地,是职业生涯规划教学的有效载体。将社团活动与职业生涯规划教学相结合,能让学生更好地树立职业
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的 现代人工肩关节假体技术经历了三代技术的发展,通用三维肩关节假体(UNIVERS~TM 3-D假体)发展了传统的第三代解剖型假体设计思路,是一种新型的肩关节假体,迄今为止,已有
本文介绍了如何实现C8051F060单片机的RS485接口设计,并通过RS232转485模块实现C8051F060单片机与PC机的远距离数据传输,同时给出了硬件设计及软件实现方法。
背景和目的:肝移植是治疗终末期肝病的最有效方法。然而供肝来源短缺使得很多终末期肝病患者在等待供肝过程中失去治疗机会。我国人口基数较大,终末期肝病患者相对较多,器官短缺
通过纺丝工艺的研究,在控制原料分子链结构中甘露糖醛酸(M)与古罗糖醛酸(G)比例(M/G值)的基础上进一步控制纤维中的不同离子成分比例(钙/钠比)和纤维综合物理机械性能,得到满足医用敷料的