【摘 要】
:
KNN算法稳定性好、准确率高,但由于其时间复杂度与样本数量成正比,导致其分类速度慢,难以在大规模海量信息处理中得到有效应用.文中提出一种改进的KNN文本分类方法.其基本思
【机 构】
:
中国科学院计算机语言信息工程研究中心;
【基金项目】
:
国家自然科学基金项目(No.60672149);国家863计划项目(No.2006AA010109)资助
论文部分内容阅读
KNN算法稳定性好、准确率高,但由于其时间复杂度与样本数量成正比,导致其分类速度慢,难以在大规模海量信息处理中得到有效应用.文中提出一种改进的KNN文本分类方法.其基本思路是,通过文本聚类将样本中的若干相似文档合并成一个中心文档,并用这些中心文档代替原始样本建立分类模型,这样就减少了需要进行相似计算的文档数,从而达到提高分类速度的目的.实验表明,以分类准确率、召回率和F-score为评价指标,文中方法在与经典KNN算法相当的情况下,分类速度得到较大提高.
其他文献
在现代电路设计中,一个系统往往包含了多个时钟,如何在异步时钟间传递数据成为一个很重要的问题,而使用异步FIFO可以有效地解决这个问题。异步FIFO是一种在电子系统中得到广
<正> 在主施宾受的句子中,动词后边表示结果的补语从语义上说主要有三种类型:(一)表示动作的结果属于施动者。例如:他喝醉了酒。(“醉”是“喝”的结果,但“醉”的是主语“他
暗物质粒子探测卫星有效载荷由4种探测器组成,探测器的电子学前端共有28台设备.针对载荷设备数量多、接口复杂的特点,设计了一种通过载荷数管系统进行集中式载荷管理的方案,
当代认知语言学认为,转喻作为一种思维、认知和概念化方式普遍存在于文学和非文学语言中。本文以认知语言的概念转喻理论为指导探讨了转喻翻译的认知基础与策略,证明"目的语
目的:比较抑郁症患者和正常人群之间应对方式倾向与人际不信任的差异,构建并验证人际不信任在抑郁症患者的抑郁症状与应对方式之间的中介效应。方法:使用抑郁自评量表、应对
在小学数学教学中,数学游戏的价值和作用已逐渐被人们所熟知和重视,这种以游戏为主要内容的新型教学方法,在实际教学中的运用,不仅能有效地激发学生的学习积极性,让学生在最
溶洞、裂隙发育是桩基工程施工中的主要安全隐患之一,因此,溶洞勘察在工程中显得尤为重要。传统的溶洞勘察方法以电阻率法为主,但是受限于该法的勘探深度,同时其勘探结果也不
综合材料绘画最早起源于20世纪的西方,后传入中国并在新时期得到发展。综合材料绘画体现着新时代画家的全新艺术情感和思维表达方式,与传统绘画有显著区别且极富现代审美气息
随着科学技术的发展和教育理念的更新,我国开始将现代信息化技术融入到幼儿教育中,因此幼儿教师应该正确利用信息化技术进行幼儿教育。主要分析了信息技术融入幼儿教育中所起
针对传统QR(Quadrature Right-triangle)算法在处理某些大型矩阵的奇异值分解时不收敛的本质原因,提出双向收缩、多次分割的解决对策.研究了对奇异值分解精度有重要影响的从左至