一种基于κ-最近邻的无监督文本分类算法

来源 :情报学报 | 被引量 : 0次 | 上传用户:jijipanji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
κ-最近邻分类(KNN)是一种广泛使用的文本分类方法,但是该方法并不适用分布不均匀的数据集,同时对κ值也比较敏感。本文分析了传统KNN方法的不足及产生这些不足的根本原因,并提出一种无监督的KNN文本分类算法(UKNNC)。该方法先采用误差平方和准则自适应地从κ个最近邻居所包含的各类别中挑选与输入文档于同一簇的部分邻居作为参照,然后根据输入文档对各类参照邻居核密度的扰动程度进行分类。实验证明该方法具有更高的分类质量,能够有效适用于分布复杂的数据集,同时分类结果对κ值不敏感。
其他文献
习近平总书记在中央政治局第十八次集体学习时的重要讲话,深刻阐明了区块链技术在新的技术革新和产业变革中的重要作用,对推动区块链技术和产业发展提出明确要求,具有很强战
知识领域可视化(Knowledge Domain Visualization)在分析学科结构、揭示知识领域、识别学科前沿等方面由于其客观、高效而备受相关学者的关注。著者同被引分析是对知识领域进行
钢琴音乐文化作为一门新兴的交叉学科研究方向,在我国钢琴音乐研究领域尚处于起步阶段。文章从国内外"区域性"钢琴音乐文化和湖湘钢琴音乐文化的现状着手,探寻湖湘钢琴音乐文
本文以一道国际生物学奥林匹克竞赛遗传题为例,分析该试题如何考查学生能力,对我国编制基于核心素养的试题试卷提供启示。
一、前言医院后勤是医院管理的重要组成部分,后勤服务社会化是经济和社会发展的客观要求,也是后勤改革与发展的必然趋势。近年来,医院物业服务从传统的“四保”,延伸至中央运
2018年12月28日,上海市闵行区卫生和计划生育委员会与上海申能能源服务有限公司签署战略合作协议。当天,区中心医院和申能能源服务有限公司也同步签署了分布式项目能源管理合
以动态开放环境下的网构软件需求为切入点,基于多Agent体系架构的原理和方法,提出了一个动态、自适应的多Agent网构软件模型。利用本体语义来描述和表示网构软件需求和软件实体
研究了闭环供应链纵向合作回收的模式选择问题。构建了制造商成本分担和任务分担两种合作回收下的供应链博弈模型。分别求解得到非合作模式、成本分担以及任务分担三种模式下