kNN文本分类器中决策规则的改进

来源 :2005第一届中国分类技术与应用研讨会(CSCA) | 被引量 : 0次 | 上传用户:panyh921
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
kNN方法作为一种简单、有效、非参数的分类方法,在文本分类中得到广泛的应用.但是这种方法的一个明显缺点是当样本分布密度相对不均匀时,只按照前k个近邻顺序而不考虑它们的距离差别会造成误判,影响分类器的性能.针对这个问题,采用模糊分类的思想,通过分析相似度、距离、隶属度函数之间的关系,构造了基于文档相似度的隶属度函数来克服这一缺陷.在文本分类实验中,改进的模糊kNN方法与经典kNN方法和目前广泛使用的基于相似度加权的kNN方法进行实验比较.实验结果表明,这种方法削弱了训练样本分布的不均匀性对分类性能的影响,提高了分类器的性能。
其他文献
从PDB数据库提取出441组蛋白质序列集,其中每组均含有较长的公共子序列.利用蛋白质的公共子序列作为网络的输入,一致二级结构序列作为神经网络的预期输出,对其三态的预测精度
会议
基于语义的图像检索的关键是图像语义的获取.图像语义获取的现有方法都是针对一些特例图像进行的,没有考虑不同用户对图像语义和图像语义之间内在关系的不同理解.提出一种基
会议
7名患者首发症状均以精神障碍为特点 ,精神障碍发生后出现典型低钙症状的时间长者 5个月 ,短者 3天 ,典型病例报告如下。例 1:男 ,2 0岁 ,某卫校学生 ,就诊前 5个月开始阵发
期刊
建设工程造价,一般是指某项工程建设所花费的全部费用,即该建设项目有计划地进行固定资产再生产和形成相应的无形资产和铺底流动资金的一次性费用总和.
针对快速多角度人脸识别问题,提出了一种利用支持向量机实现迭代特征选择的方法.根据特征选择和多类分类任务之间的统计关系,将这两个任务集成到一个统一的框架中,从而更有效
随着互联网的飞速发展,网上文档的数量激增.文本分类是对这些文档进行有效组织和挖掘其相关信息的一种重要的文本挖掘方法.针对中文文本分类的任务,提出了一种简单高效的特征
提出了一种新的解决多标号文本分类问题的方法.对于一个K类多标号问题,首先采用"一对其他"的问题分解方法将原问题分解为K个两类问题;然后按照最小最大模块化支持向量机(M3-S
会议
现将我们于1996年10月~1999年12月应用开搏通(C、P、T)加小剂量氢氟噻嗪(H、C、T)治疗高血压病84例观察结果如下.
期刊
潜在语义分类模型是针对潜在语义索引模型会丢失某些对分类贡献很大的特征问题进行扩展提出的文本分类模型.通过引入一组新的潜在语义变量,潜在语义分类模型同时考虑了文档集
分析了当前常用的汉语句子相似度计算方法及存在的问题,针对中文问句的特点,定义了问句的常规和特定语块,提出了一种基于语块的中文问句相似度计算方法,该方法以"知网"为基础
会议