中文网页自动分类研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:xiaoxiang0122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页中包含着大量的HTML结构信息、超链接和噪音信息,因此网页分类可以看成是半结构化的噪音环境下的文本分类问题.在互联网迅猛发展的今天,网页分类可以在较大程度上消除网上信息杂乱现象,并方便用户准确定位所需信息,加速检索过程和更好地组织检索结果,是一项具有很大使用价值的关键技术和基础技术. 网页分类可以看成是噪音环境下的文本分类问题,本文主要对网页分类中的噪音问题进行探索.具体地,本文把在传统文本分类中性能基本相当的基于N-Gram狮模型的贝叶斯(NGBayes)、基于分词的朴素贝叶斯(NBaycs)和基于分词的k近邻(kNN)分类方法应用到网页分类领域,实验验证了三种分类方法在非噪音环境下性能基本相当,而噪音环境下的实验结果表明,NGBaycs的分类性能和非噪音环境下基本相当且远远高于其他两种方法,这说明NGBayes对中文网页中的噪音不敏感.然后通过对特征的分析,探讨了NGBayes抗噪音的原因.从而得出结论:NGBayes是一种抗噪音的中文网页分类方法. 互联网上的词汇分布与纯文本中的词汇分布之间存在着很大的差异,通过对网页词汇分布规律的分析,本文提出了一种构造网页停用词表的方法,并把其应用到中文网页分类领域.实验结果表明:利用网页停用词表进行网页预处理,能有效地去除网页中的噪音信息,从而提高网页分类的性能. 本文最后一部分阐述了网页清洗、NGBayes和基于网页停用词表的关系.网页清洗是从网页中直接去除噪音信息,抗噪音的NGBayeS利用了相邻汉字之间的依赖关系,网页停用词表主要是从特征中去除噪音词汇,弥补特征选择的缺陷.
其他文献
“科学技术是第一生产力”已经在社会生产实践得到证明。而专利作为科研成果更是体现了一个企业乃至一个行业的科技竞争力。加入WTO后,我国企业所面临的国内外市场竞争愈发激
卫星移动通信技术是目前通信领域里的一个制高点。本文针对新一代静止轨道卫星移动通信系统——GMR-13G(GEO-Mobile Radio interface-13rd Generation,第三代静止轨道卫星)系统
贝叶斯网络作为不确定性知识表达和推理的一种方法,在很多领域都有着广泛的应用。贝叶斯网络是概率理论和图论相结合的产物,已经成为数据库知识发现和决策支持系统的有效方法。
实时系统是指不仅系统内部的行为及动作的完成与时间有关,而且对系统外部事件(如输入、中断等)的响应都要满足一定时间约束的系统。由于在国防及工业控制等领域应用广泛,因此这
学位
学位
USB总线因其高速、方便的特点,已经逐渐取代传统的低速总线,成为一种应用最为广泛的外设接口标准,越来越多的计算机外设开始采用USB接口。与此同时,共享USB设备的需求也变得越来
非结构化文本的实体解析对于综合多源数据挖掘实体信息具有重要的意义。伴随着大数据时代的到来,这一问题遇到了新的挑战:如何高效有效地进行大规模的实体解析。基于现有分布
在互联网技术高速发展的带动下,人类社会正逐步走向大数据时代,随着数据规模的指数级增长,数据间依赖的复杂度增加,传统关系型数据库系统已经无法满足某些新的应用场景的需求。基
为了加速对外围存储设备的访问速度,操作系统通常将设备中的部分数据暂存在内存中供需要时使用,这部分存放外存储设备数据的内存就叫做Buffer 在操作系统中,Buffer Cache是影
数控系统作为一种典型的强实时系统需要严格的实时处理功能和性能以及高可靠性。数控系统主要由各控制器中的周期性实时任务来完成实时控制,实时控制的正确性不仅仅依赖于计