基于语义中心的KNN文本分类算法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:joeworms
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要研究了文本分类和聚类的相关算法,分析了其中的若干关键技术和难点。首先,介绍了基于向量空间模型的文本表示方式和相应的特征权重计算方法,并对几种较好的特征选择方法进行了对比分析;然后,着重剖析了两种性能优秀的分类算法:KNN和SVM,并从理论和实验上对两者进行了对比,分析了各自的优劣,并最终选择了较稳定的KNN算法应用于实际的系统。为克服KNN算法分类速度较慢的缺陷,本文提出了使用语义中心代替KNN算法中样本实例的方法;语义中心的构造采用了文本聚类的方法实现,其中对适合文本聚类的最近邻聚类算法的整个流程和细节问题作了详细的阐述,并使用了动态调整相关参数的方法来优化聚类质量;特别是针对聚类初始中心点的确定,本文对已有的算法进行改进,并给出了详细的算法流程等。最后,本文针对不同规模的语料,对上述算法进行了实验验证,结果表明采用基于语义中心的KNN分类算法,在保证分类准确率的情况下,系统分类速度大大提高。
其他文献
本论文利用SLG32-Ⅱ双螺杆挤压机,通过挤压膨化将鱼肉组织化,使低值天然鱼肉蛋白原料制成具有良好咀嚼性和耐贮藏、方便、营养、卫生的即食产品,提高低值鱼肉蛋白的附加值。在对
当今社会已进入了一个视觉文化时代:电视、电影、报纸、杂志、互联网等媒体正日益制造和传播着各种各样的视觉符号,现代文化正在脱离以语言为中心的理性主义形态,在现代传播
目前手机的功能越来越丰富,已不再局限于通话,更多的功能被植入到手机中来。从聊天到手机上网,各种各样的资源开始涌入人们的手机。在此期间,手机病毒也应运而生。随着3G时代
目的探讨胃肠间质瘤(GIST)的临床特点、诊断治疗及影响预后的可能因素,为临床治疗提供依据。方法回顾性分析2000年4月~2006年4月广西医科大学第一附属医院外科收治经手术治疗
计算机技术的迅速发展,特别是微型计算机技术的快速发展,为计算机控制的发展与应用奠定了坚实的基础。利用计算机对工业生产流程进行监视和控制在现代化社会中得到广泛应用,
都市圈经济发展是目前我国比较热门的话题,也是参与国际竞争的主要内容。我国的城市经济发展较快,但经济辐射作用不明显,导致城乡二元结构突出。文章在辨析了都市圈概念的基
本文依据可持续发展理论的脉络,以产业生态学理论及其它相关理论为基础,探讨产业结构演进过程中产业生态发展系统的内在机制与运行机理。在传统的劳动、土地和资本之外,把自然资
随着人类社会的发展,环境问题愈来愈受到全球范围内的高度关注,其中对城市居住环境的研究方兴未艾。地理学是研究人类活动与地表环境相互关系最主要的科学,其空间差异的独特视角
目目的:白黎芦醇苷是虎杖的有效成分之一,具有保护心肌细胞、改善微循环、抑制血小板聚集、抗内毒素休克、降血脂、抗氧化等多种药理作用。本研究的目的在于揭示白藜芦醇苷吸
上市公司盈余管理问题一直是会计界和金融界关注的焦点。如何控制盈余管理行为引起了国内外学术界极大的关注。目前已有的关于控制盈余管理行为的理论和实证的探讨主要是围绕