基于加权修正的KNN文本分类算法

来源 :第二十五届中国数据库学术会议(NDBC2008) | 被引量 : 0次 | 上传用户:fallleaf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.KNN方法作为一种简单、有效、非参数的分类方法。本文分析了KNN算法在文本分类中存在的不足——分布密度和训练样本数对KNN分类效果的影响,并针时这些不足,对KNN算法进行了改进.改进后的方法使训练样本的分布密度趋于均匀,降低了样本数的不均对分类效果的影响,提高了文本分类的准确率。实验结果显示,这种改进后的方法具有很好的性能.
其他文献
本文在对现有电力系统前沿的配电网自动化技术研究成果充分分析的基础上,针对配电网自动化系统进行系统体系和实现技术研究.重点研究电力配电网自动化系统的体系结构、实现技
灰色理论广泛应用于贫信息系统的建模与预测,但鉴于GM(1,1)模型的精度问题,其残差模型更适合于实际应用,而残差修正符号一直是决定该模型适用性的重要因素.本文运用神经网络
本文基于数字图书馆系统功能与需求分析结果,以及基于ASP.NET的系统开发关键技术研究结果,实现了采办资料库系统的设计与开发。设计的数字图书馆系统功能齐全、易操作、有良好
本文对基于关系数据库的业务流程本体存储模式进行了研究。文章提出的存储模式能有效提高流程本体的查询效率,是流程自动生成和执行的基础。
图结构挖掘已成为当前数据挖掘的研究重点之一.在文本结构分析、生物信息处理以及网络结构分析等领域图结构挖掘都有着广泛应用.频繁子图的数量通常随图的大小呈指数增长,为
网络化监控的发展,需要一套真正面向网络化应用的矩阵解决方案,在这种情况下,嵌入式网络视频矩阵应运而生。嵌入式网络视频矩阵充分考虑到了网络视频监控环境下的传输、解码、控
提出了一种领域术语抽取方法,该方法结合分词和粗切分两种方式对语料进行处理,利用体现字串间结合强度的互信息算法构建候选词集,选定领域种子词,通过T评价方式识别出候选集
由于XML已经成为网络环境中数据表示和交换的标准,如何实现高效的XML查询处理就尤为重要.目前XML区间编码是一种重要的编码方式,但是区间编码不适合XML数据频繁的更新.针对这
为适应瞬息万变的业务变化企业需要不断改进业务流程.ACOM方法是一种基于物件的有效的流程建模方法。流程模型需要借助流程执行语言得以运行.WS-BPEL是一种标准化的流程执行
数据挖掘技术是当前数据库和人工智能领域研究的热点。如何快速有效地从海量的网络信息中,挖掘出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用,是急需解决的问题