论文部分内容阅读
随着WWW的迅猛发展,对网页进行分类成为处理和组织大量文档数据的关键技术。由于最大熵模型可以综合观察到的各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果。研究者通过实验比较和分析了基于最大熵模型的分类器的分类性能,并且分别对其进行了特征优化、预分类处理以及平滑处理的比较,结果发现预分类处理对分类的帮助是很明显的,其余两种操作也在一定程度上提高了分类精度。
本文针对最大熵的优点做了以下研究:(1)对网页结构进行分析,根据其连接程度分为C-Hub页面和内容页面两种,以便进一步研究时,可根据不同的特点采取不同的研究方法,旨在提高网页的分类精度。
(2)对网页进行了预处理,包括分词、建造类别词库等。通过对词专指度的计算,给出能够确定文章类别的关键词入库。
(3)基于最大熵模型,本文用GIS算法求得特征函数,并用传统的特征归纳方法,通过计算两个概率分布之间的距离,分析引入某一特征后的信息增益,对每一特征进行筛选,选出有用的特征组成一个特征优化集合。
(4)分别对结构分析得到的两种页面设计特征函数。对于内容页面,由于其形式与纯文本文档非常接近,我们用词-类别作为其特征,采用词频作为特征值;对于C-Hub页面,由于有较高的文字链接比,我们主要对HTML格式进行分析。首先通过分析HTML语言提取出一个优化的HTML标记集合作为研究对象,然后引入Salton提出的文本表示方法,并加以改进,用以表示网页内容,把词本身的特征与其所在位置相结合,计算出特征值ti,生成特征函数。
试验结果表明基于最大熵的网页分类方法是行之有效的。它不但能得到最一致的分布,而且保证了网页分类的查准率和查全率。而且它比其他方法较少依赖语言学知识、预处理或语义数据库。不失为一种理想的网页分类方法。