基于扩展网页和公平特征选择的网页分类算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zhypku
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,NTERNET上的信息日益丰富,已经成为人们同常工作和生活中获取信息的重要来源。但是,由于INTERNET所固有的开放性和异构性,用户很难从纷繁复杂的海量信息中准确定位到自己所需要的信息。 因此,如何合理和有效地组织和管理网上信息,已经日益成为信息处理领域一个十分重要的研究课题。传统的处理方式是依靠人工的方法对网页进行分类,即专业人员在浏览网页后,根据其内容将它划分到一个或多个类别中。然而,网页信息在不断地快速增长,仍然依靠人工的方式对大量的网页进行分类,将是不合适,也是难以实现的。为了使用户更容易更准确地定位所需要的信息,众多的学者开始研究网页自动分类技术。 自动文本分类是在给定的分类体系下,由特定的算法根据文本的内容确定与之相关联的类别。自动文本分类是人工智能技术和信息获取技术相结合的研究领域,是进行基于文本内容的自动信息处理的核心技术。本文对中文网页分类算法进行了研究,具体内容如下: 1、研究了中文网页分类的背景和难点。分析了中文文本分类的基本原理,对传统的特征选择和分类算法进行了分析,对比了传统特征提取方法的优缺点。 2、详细论述了对中文网页进行自动分类的主要问题。即网页的表示和网页的预处理。论述了网页预处理过程,包括网页的清洗和中文自动分词技术。 3、本文提出了一种将扩展网页和公平特征选择相结合的网页分类算法。考虑到超链接的重要性,通过建立扩展网页,增加了关键分类特征的比例和数量,从而提高了网页分类的准确率。考虑到网页结构的重要性,我们把锚点文本所在的句子或段落添加到原网页形成扩展网页。公平特征选择算法不仅可以公平的对待每个类,而且可以识别有效特征,降低特征空间的维度。 4、对本文提出的算法进行实验,并对实验结果评估。实验结果数据表明,本文提出的算法可以有效的提高网页分类的准确率和F值,是一种有效的网页分类算法。
其他文献
The properties of measured phase operators in damped odd and even coherent states have been studied. The fluctuations associated with measured phase and their s
Fluorine contaminates the environment. The study of fluorine contamination profile can be made easy by the use of nuclear analytic method. Measurement of prompt
The properties of phase time taken for particles to pass through a quantum potential well are investigated. It is found in a l-dimensional quantum-mechanical pr
In this paper, the second generation wavelet transform is applied to image lossless coding, according to its characteristic of reversible integer wavelet transf
In the context of object-oriented video coding, the encoding of segmentation maps defined by contour networks is particularly critical. In this paper, we presen
期刊
The micro robot based on screw motion wheels, which features high payload/mass ratio, fast and continuous motion, adaptation to pipe diameter or roundness varia
A new frequency dependent finite difference time domain (FD-FDTD) method using digital signal processing (DSP) is proposed.The dispersive media is characterized