基于改进K最近邻算法的中文文本分类

来源 :上海师范大学学报(自然科学版) | 被引量 : 0次 | 上传用户:mayi2800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对文本分类存在的高维文本问题,提出文档频率(DF)-卡方统计量特征提取方式,对特征项进行有效约减,降低文本维度,提高分类精度.在K最近邻(KNN)算法的基础上,针对待分类文本需要和大量训练集样本进行相似度计算的问题,提出一种基于分组中心向量的KNN算法,对类别内的样本集分组求出各组中心向量,使其重新代表训练库计算相似度,降低计算复杂度,提升算法的分类性能.通过实验表明:相较传统KNN算法,改进的算法在准确率、召回率及F值方面都有提升,与其他分类算法相比,具有一定的优势.
其他文献
目的系统评价氟尿嘧啶缓释剂治疗结直肠癌的疗效及安全性。方法通过计算机检索CNKI、CBM、VIP、WanFangData、PubMed和EMbase(1990—2013年),收集所有氟尿嘧啶缓释剂治疗结直肠
某汽车铝合金轮毂在使用一年后发现裂纹,通过断口宏观和微观分析、金相组织分析、化学成分和力学性能检测等。结果表明:轮毂材料因变质不良,组织中残留较多的条块共晶硅和细长针
美国铝合金轮毂制造商卓越工业国际公司(Superior industries International Inc)出资7.15亿美元收购德国汽车领域轮毂生产商Uniwheels,这项交易期望将卓越工业建成全球性的为
今年我省融资租赁业务又有了新的发展。1~6月份省租赁有限公司承接租赁合同443个,比上年同期增长51.19%;合同余额19463.5万元,比上年同期增长122.4%;实际投放租赁设备金额1486
我厂是一家生产多种医药原料及针剂、片剂、输液、胶囊、粉针剂等药物制剂的综合性药厂。由于今年我厂面临供电紧张,资金短缺等困难,全年将减利1000万元以上,面对如此严峻的
随着我国经济的快速发展,电力工程项目也与日俱增。业扩报装工作作为电力工程的一个重要方面,其工作质量的好坏直接关乎供电企业的经济和社会效益。因此,不断优化电力业扩报装的
"菜篮子"工程建设是保障城市居民副食品供应和发展农村经济的重要手段,禽蛋又是"菜篮子"中的骨干商品。为提高禽蛋供给能力,改善城市鲜蛋供应状况,我省于1983年开始在杭州、
随着社会经济的不断发展,建筑行业变得空前繁荣。在许多高层重型建筑物的建筑施工过程中,大直径的混凝土灌注基桩的使用非常普遍。因此为提高建筑施工的质量,需要对基桩的性
2016年1月13日,东风汽车股份有限公司铸造分公司与东风井关农用机械有限公司签署配送农机配重件的供货协议,于1月下旬开始供货,井关批量生产后预计年供货量达1000吨以上。这
滨海新区≥50mm/h的致灾性强降水在2014年以后发生频次逐渐增多;逐月分布呈单峰状,7月最为频繁,≥20mm/h和≥30mm/h的强降水均是7月出现最多,≥40mm/h的强降水6月和8月出现较多,≥50mm