基于KNN算法的中文Web文本分类技术研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:zyy_2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展和电脑的普及,人们可以更加方便快捷的在WWW上发布和获取信息,这些信息大部分以Web页的形式存在。根据Google统计,Web页的数量正以每天几十亿的速度持续增长。如何从浩如烟海的Web页中寻找并获取有价值的信息和知识,已经成为信息处理领域一个亟待解决的问题。Web页内容是半结构化或非结构化文本类型的数据,从中获取有用信息和知识的一个重要的技术手段是对其分类。和传统的文本分类相比,在对Web文本进行分类之前,需要去除里面所包含的HTML标记、脚本代码、广告代码、版权信息等。否则会影响文本的分类效果。但一些特殊的HTML标记却往往表明了这些HTML标记之间的词汇的重要性。基于此种想法,本文提出了基于位置的特征权重计算方法。KNN(K-邻近法)是常用的文本分类算法,分类效果也较其他文本分类算法好。但KNN文本分类算法的不足之处是容易受到K值和训练文本分布状态的影响。即,如果K值选择不当或者训练文本集中不同类别的文本数量相差很大,则分类的效果很不稳定。为了提高KNN算法的分类精度和稳定性,本文提出了改进的KNN分类算法-类内均值KNN算法。本文对文本分类中常用的特征权重算法和文本分类算法等进行了详细的介绍和分析,并对本文提出基于位置的特征权重计算方法和类内均值KNN算法进行了实验,实验结果证明了这两种算法的可行性和有效性。
其他文献
美国哈佛大学教授霍华德·加德纳出版了一书,提出了多元智力理沦,告诉我们每个人的智力都有独特的表现方式,每一种智力又都有多种表现形式,所以不能用统一的评价标准来评价一
期刊
SEALINGWATERINSHAFTWALLWITHC┐SGROUTANDCHEMICALGROUTDuJiahong①WangWeigang②LiJingang②ZhaoZhihong③QiuXiaopei④①NortheastUniversit... SEALINGWATERINSHAFTWALLWITHC┐SGROUTANDCHEMICALGROUTDuJiahong①WangWeigang②LiJingang②ZhaoZhihong③QiuXiaopei④①NortheastUniversit
期刊
期刊
期刊
他在舞台上的表演,令人笑声不止,发人深思,在人们的脑海中留下了栩栩如生的艺术形象。他既征服了观众,也征服了评委,获得了许多大奖:全国二人转个人表演二等奖,东北三省表演
随着全球经济化和科学技术的日新月异,企业面临着更加复杂的竞争环境。市场竞争已经由单个企业自身产品的质量、性能等方面的竞争转变为多个企业组成的供应链之间的竞争。企业冲突不断,供应链的整体效益降低;企业互相合作,整条供应链的整体效益提高,从而使每个企业受益。因此如何协调供应链已经越来越受到学者们的注意。供应链契约能够使供应链的各方达到一致,从而提高整条供应链的效益。本文在需求是价格的指数函数的基础上,
“凤凰语文网”是苏教版小学语文教材服务性网站,其中的凤凰语文论坛是网站的重要板块,旨在借助网络教研的便捷、快速、互动等优势,帮助苏教版教材实验区的语文教师,尤其是年
期刊
期刊