基于投影寻踪的kNN文本分类算法的加速策略

来源 :科学技术与工程 | 被引量 : 0次 | 上传用户:hbimac
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的后近邻(k-nearest neighbors,kNN)文本分类中,由于文本被表示成向量空间模型后维数非常高,且训练文本的数目巨大,kNN分类算法通常被视为是一种虽然有效,但并非高效的文本分类算法.针对传统kNN分类算法效率低下的问题,提出了一种基于投影寻踪思想的kNN分类算法加速策略.基本思想是:通过投影的方法缩减训练集的规模,同时在寻找七近邻过程中对文本进行降维处理,从两方面着手降低算法的计算开销.实验数据表明,优化后的kNN算法比传统kNN算法在时间性能上有较大的提升,同时保证了分类的精度.
其他文献
介绍了ZB-2型燃油系统故障诊断仪的基本原理,提出了要满足检测条件的重要性,分析了燃油系统中喷油泵、喷油器的判断标准,列举了DF4A、B型内燃机车燃油喷射系统故障诊断的实例。
系统梳理科教融合的内涵、起缘与背景,分析当前科教融合在理念、做法等方面普遍存在的问题与困境,基于科教融合理念思考从政策协同、治理方略、制度优化、教学资源、教学内容
<正>1.案例资料1.1简要案情2011年3月28日下午15时许,巢湖市公安局110指挥中心接到报警:卧牛山街道伍贾村委会刘墩村后大塘水中发现一旅行箱,箱内有血水。接警后侦技人员立即
会议
在新课程背景下,传统的以照本宣科为主的教学方式早已无法适应新时代提出的培养创新型人才的要求。《中国学生发展核心素养(征求意见稿)》中明确指出,在教育教学活动开展中,
比较了用在自洽求解薛定谔方程和泊松方程中改变松弛因子的一般迭代方法和Predictor—corFector迭代方法。数值试验表明,使用一般迭代方法求解时,收敛速度慢或迭代过程中解振荡
谈现金流量表张志强在当前企业资金普遍紧张的条件下,从企业的管理当局到与企业密切相关的债权人和股东,都日益注重企业现金流动情况及其有关信息。企业的管理当局需要了解现金
我国民办职业院校要实现向应用型人才培养高校转型发展,必须以学科建设作为基础。针对我国民办职业院校学科建设相对落后存在思想认识不到位、学科价值取向忽视应用型、学科
完整岩块峰后应力应变关系的表达不能较好反映裂隙岩体峰后特性,为得到适合裂隙岩体峰后应力-应变关系,在试验数据基础上,基于库伦强度准则,分析裂隙岩体峰后强度参数的演化
介绍了一种可利用免费冷源的新型热泵机组应用于水电站的工作原理与特点,并基于节能性与经济性要求,建立了其适宜性评价数学模型。最后以一工程案例详细论述了其可行性。结果表
采用超临界状态的CO2对稠油或原油进行降黏,进而实现长距离管道输送是一项全新的稠油降黏输送工艺。采用实验手段和流体相平衡模型相结合对CO2在稠油中的溶解特性以及超临界CO