基于基尼的模糊kNN分类器(英文)

来源 :广西师范大学学报(自然科学版) | 被引量 : 0次 | 上传用户：hljsd

【摘要】

：

随着网络的发展,大量的文档涌现在网上,自动文本分类成为处理海量数据的关键技术。在众多的文本分类算法中,kNN算法被证明是最好的文本分类算法之一。对于大多数文本分类来说

【作者】

：

尚文倩瞿有利黄厚宽朱海滨林永民董红斌

【机构】

：

北京交通大学计算机学院,北京交通大学计算机学院,北京交通大学计算机学院,尼普森大学计算科学与数学系,北京交通大学计算机学院,北京交通大学计算机学院北京100044,北京100044,北京100044

【出处】

：

广西师范大学学报(自然科学版)

【发表日期】

：

2006年04期

【关键词】

：

文本分类文本预处理算法 kNN 基尼模糊kNN 决策规则文本预处理模糊集理论分类器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络的发展,大量的文档涌现在网上,自动文本分类成为处理海量数据的关键技术。在众多的文本分类算法中,kNN算法被证明是最好的文本分类算法之一。对于大多数文本分类来说,文本预处理是文本分类的瓶颈,文本预处理的好坏直接影响着分类的性能。在此介绍了一种新的文本预处理算法——基于基尼的文本预处理算法。同时采用模糊集理论改进kNN的决策规则。这两者的结合使得模糊kNN比传统的kNN表现出更好的分类性能。实验结果证明这种改进是有效的,可行的。 With the development of the Internet, a large number of documents are emerging online, and automatic text categorization becomes the key technology for processing massive data. Among the many text classification algorithms, kNN algorithm proved to be one of the best text classification algorithms. For most text classification, text preprocessing is the bottleneck of text classification. The quality of text preprocessing directly affects the performance of classification. This paper introduces a new text preprocessing algorithm - based on Gini text preprocessing algorithm. At the same time, the fuzzy set theory is used to improve the decision rules of kNN. The combination of the two makes the fuzzy kNN show better classification performance than the traditional kNN. Experimental results show that this improvement is effective and feasible.

其他文献

汗洒国企攻坚战不信春风唤不回

本溪是驰名中外的老工业基地，国有大中型企业较为集中。党的十五大以来，我市加快了国企改革的步伐，特别是破产、出售企业增多，需要市档案馆接收的档案数量也急剧上升，原本十分拥挤

期刊

国企改革十五大以来老工业基地市档案馆型企业破产库房出售本溪

教学档案收集的『五结合』

搞好教学档案的收集对于促进教学工作具有重要意义。在拓宽了收集渠道的基础上，还应该采取“五结合”的方法进行收集。1、分部门管理与定期接收相结合。教学材料的产生来自于

期刊

教学工作档案收集教学档案五结合渠道基础方法

统计技市在质量管理中的应用(4)

第三节计数调整型连续批抽样检验rnGB/T2828.1-2003就是计数连续批抽样检验计划.

期刊

统计质量管理应用抽样检验计数抽样连续批接收质量限计数调整型检验计划检验程序抽样计划检索

做好国有企业产权变动中的税收征缴档案管理

做好国有企业资产与产权变动中的征缴税收档案管理，是保证国有企业资产与产权变动时税收征缴不流失的重要条件。国有企业资产与产权变动前要把企业在由计划经济阶段投入的人、

期刊

国有企业产权变动税收征缴企业资产档案管理

关于企业档案工作发展方向的思考

说到企业档案工作，我们首先想到的是国有企业档案工作，客观地说，经过长时期的沉淀，国有企业已经形成了一套成熟的适应计划经济条件的管理制度、管理方法、管理思路。但在市场经济

期刊

企业档案工作国有企业经济条件建立现代企业制度企业生存和发展管理制度管理思路管理方法市场竞争改制沉淀

中药材的初加工

药农采收到的中药材,除少数鲜用外,大部分须及时进行加工整理。这是保证中药材质量,提高规格档次,避免出现次劣品和提高经济效益的首要环节。现将中药材采收后的初加工技术

期刊

药材采收入药部位根类药材中药材质量藁本劣品白茅根火燎用药习惯加工整理

水稻新品种──扬辐籼3号

扬辐籼3号（原代号“394”）系由江苏里下河地区农科所用300Gyr射线辐照IR2415一90－4－3风于种子选育而成，1993年4月由江苏省农作物品种审定委员会审定通过。产量表现扬辐舢3号产量一

期刊

白叶枯病江苏里下河地区区域试验主茎叶片数农作物品种审定胶稠度出糙率直链淀粉成穗率腹白

欧盟将制定电池回收新指令

期刊

欧盟电池回收

高原地区施肥对牧草生长发育、产量和品质影响的研究

本研究主要分一年生饲料作物燕麦施肥、多年生老龄人工草地施肥增产效应和高寒地区天然草地施肥改良3部分内容。着重研究了在不同类型草地上施N、P、K对牧草生长发育、产量及

学位

燕麦高寒草地牧草生长人工草地施肥效应

基于熵值模糊层次分析法的科技战略评价

期刊

基于基尼的模糊kNN分类器(英文)

与本文相关的学术论文