一种基于类平均相似度的文本分类算法

来源 :现代图书情报技术 | 被引量 : 0次 | 上传用户:ahaulxg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】在KNN算法基础上,提高文本分类的分类性能和分类速度。【方法】提出一种基于类平均相似度的分类算法,通过计算待分类文本与训练集各类别中所有文本相似度的平均值判断待分类文本的所属类别。【结果】实验表明,本文方法在复旦、Sogou平衡、非平衡语料上的Macro_F1比KNN分类算法分别提高3.5%、3.2%和3.3%,分类时间分别为KNN算法的1/22、1/6和1/5。【局限】考虑到KNN算法的时间效率,实验数据的文本数较少。【结论】相对于KNN,基于类平均相似度是一种适用于大规模文本分类的实用分类算法。
其他文献
<正>城市在形成、变迁、发展过程中,会形成一系列代表不同时期的建筑、街区、文物古迹、文献资源等,它们记录、讲述着一座城市的"记忆"。城市记忆,就是"有形记忆"的"形象表达
制度文化与道德教育密切相关。制度文化的特质、道德教育的使命与当前道德教育的客观现状均彰显和印证了制度文化对道德的深切观照以及将制度文化用于道德教育的合理性及必然
文章以桂峰村的四种建筑色彩构成元素为例解析古村落的色彩构成元素,指出了城市色彩设计应该借鉴和沿袭传统建筑色彩构成,建构有独特地域文化特色和独特色彩个性的现代化城市
医学英语有其特定的词汇结构体系。医学英语词汇数量巨大,但同时词汇也具有非常典型的特点。文章从医学英语词汇的词源、分类和发展的角度,概括性介绍其词汇特点,帮助医学生
<正>分析会计报表是指利用会计报表所提供的信息,运用会计报表分析方法,对企业在一定时期的经营成果和某一定特定日期财务状况所进行的财务分析.不论财会人员把会计报表编得
临床医学在长期的医疗实践过程中积累了大量的人文教育素材,富含人文精神。医学生进入临床课程学习阶段,首次接触病人,临床教师应该将医学科学中的人文精神贯彻到医疗工作和
采用计量经济学的协整理论,检验变量之间是否存在协整关系来对我国医疗服务供方诱导需求进行实证分析。结果显示:供方诱导需求的确存在,是导致医疗费用快速增长的原因之一,应
服饰作为一种无声的语言载体,体现着人们的审美追求和文化思想。不同地域、不同民族的思想意识差异,形成服饰文化风格差异。中国这一神秘的东方古国以自己独特的社会文化思想
<正>党的十八届四中全会出台的《中共中央关于全面推进依法治国若干重大问题的决定》(以下简称《决定》)提出全面推进依法治国,建设法治中国被提升到了一个新的高度,社会主义