一种抗噪音的中文网页分类方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:mbc3204
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页分类可以看成是噪音环境下的文本分类问题。本文是在噪音环境下文本分类方法的一种探索:把在传统文本分类中性能基本相当的基于N-gram模型的贝叶斯(NGBayes)、基于分词的朴素贝叶斯(NBayes)和基于分词的k近邻(kNN)分类方法应用到网页分类领域,在中文Web信息检索论坛提供的中文网页分类训练集——CCT2002-v1.1(Corp1)和我们自己整理的中文网页集(Corp2)进行了实验。验证了三种分类方法在非噪音环境下性能基本相当,而噪音环境下的实验结果表明,NGBayes的分类性能远远高于其他两种方法,这说明NGBayes对中文网页中的噪音不敏感。然后通过对特征的分析,探讨了NGBayes抗噪音的原因。从而得出结论:NGBayes是一种抗噪音的中文网页分类方法。
其他文献
本文提出了一个基于现代汉语述语形容词机器词典以及平衡语料库的形容词多信息聚类算法。聚类的过程根据形容词的语料提取了三重信息(所修饰的名词,同义近义词以及反义词),从而
对项目教学法在中职数学教学中的应用进行研究,阐述项目教学法的概念;探讨项目教学法的实施原则及实施过程;介绍在中职数学教学中应用项目教学法取得的成效.
拼写错误的发现和候选词选取是文本分析中的一个重要的技术问题。本文结合维吾尔语的语音和词语结构特点,列出了文本中常见的拼写错误类型,详细分析了解决方法,利用最小编辑距离
<正>~~
很久以来,人们一直努力探索物质的内部结构.从原子到原子核,再到基本粒子,以至层子,人们对物质微观结构的认识,是从一个层次到更深层次不断深化的.按照人类认识不断深化的顺
1963年,当我的第一支处女作——男女声二重唱《月到十五就能圆》在《云岭歌声》的前身《歌曲选辑》第三期上发表问世后,《云岭歌声》就一直伴随我度过了整整的四十个年头。这
乐乐和爷爷来到欣赏厅,看到一幅画:一个盲人坐在石头上拉二胡,好奇地问:“爷爷拉琴的盲人是谁呀?”爷爷笑着说“他是瞎子阿炳,叫华彦均,阿炳是他的小名,我国民间音乐家,江苏
都说品乐是件美好的差事,如果在音乐的映衬中读读好书,感觉又将如何呢?当然不必再去怀疑,这是世间最有诗意的神仙快事了。历来的读书人,都把读书看成辛苦的事情,都主张勤奋读
应用计算机手段辅助物理实验教学,这种方法既不削弱对学生基本实验技能的训练,又可以使实验更加直观,还可以让学生在实验中体验到现代科技对物理学科的影响,从而提高学生的实
在国家教育部制订的《基础教育课程改革纲要》和我省的《九年义务教育音乐教材新的改版》相继出台,这不仅标志着音乐教育已面临着如何适应21世纪基础音乐教育发展的问题,也使