基于基尼的模糊kNN分类器(英文)

来源 :广西师范大学学报(自然科学版) | 被引量 : 0次 | 上传用户:hljsd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的发展,大量的文档涌现在网上,自动文本分类成为处理海量数据的关键技术。在众多的文本分类算法中,kNN算法被证明是最好的文本分类算法之一。对于大多数文本分类来说,文本预处理是文本分类的瓶颈,文本预处理的好坏直接影响着分类的性能。在此介绍了一种新的文本预处理算法——基于基尼的文本预处理算法。同时采用模糊集理论改进kNN的决策规则。这两者的结合使得模糊kNN比传统的kNN表现出更好的分类性能。实验结果证明这种改进是有效的,可行的。 With the development of the Internet, a large number of documents are emerging online, and automatic text categorization becomes the key technology for processing massive data. Among the many text classification algorithms, kNN algorithm proved to be one of the best text classification algorithms. For most text classification, text preprocessing is the bottleneck of text classification. The quality of text preprocessing directly affects the performance of classification. This paper introduces a new text preprocessing algorithm - based on Gini text preprocessing algorithm. At the same time, the fuzzy set theory is used to improve the decision rules of kNN. The combination of the two makes the fuzzy kNN show better classification performance than the traditional kNN. Experimental results show that this improvement is effective and feasible.
其他文献
本溪是驰名中外的老工业基地,国有大中型企业较为集中。党的十五大以来,我市加快了国企改革的步伐,特别是破产、出售企业增多,需要市档案馆接收的档案数量也急剧上升,原本十分拥挤
搞好教学档案的收集对于促进教学工作具有重要意义。在拓宽了收集渠道的基础上,还应该采取“五结合”的方法进行收集。1、分部门管理与定期接收相结合。教学材料的产生来自于
第三节计数调整型连续批抽样检验rnGB/T2828.1-2003就是计数连续批抽样检验计划.
做好国有企业资产与产权变动中的征缴税收档案管理,是保证国有企业资产与产权变动时税收征缴不流失的重要条件。国有企业资产与产权变动前要把企业在由计划经济阶段投入的人、
说到企业档案工作,我们首先想到的是国有企业档案工作,客观地说,经过长时期的沉淀,国有企业已经形成了一套成熟的适应计划经济条件的管理制度、管理方法、管理思路。但在市场经济
药农采收到的中药材,除少数鲜用外,大部分须及时进行加工整理。这是保证中药材质量,提高规格档次,避免出现次劣品和提高经济效益的首要环节。现将中药材采收后的初加工技术
扬辐籼3号(原代号“394”)系由江苏里下河地区农科所用300Gyr射线辐照IR2415一90-4-3风于种子选育而成,1993年4月由江苏省农作物品种审定委员会审定通过。产量表现扬辐舢3号产量一
本研究主要分一年生饲料作物燕麦施肥、多年生老龄人工草地施肥增产效应和高寒地区天然草地施肥改良3部分内容。着重研究了在不同类型草地上施N、P、K对牧草生长发育、产量及
期刊