论文部分内容阅读
随着Internet的迅速发展,尤其是World Wide Web的全球普及,Web网络上信息资源己经涵盖了社会生活的各个方面,网络信息过载(Information Overload)问题日益突出,这又促使Web挖掘技术和Web网络信息检索技术迅速发展。其中,通过什么样的方法和途径来使网站的网页信息资源得到合理有效地组织,提高网络信息检索的速度和准确度,是个颇让人们感兴趣的问题。网页分类恰恰提供了这样一种合理而有效组织信息的方法。网页分类提供了处理和组织大规模文本信息的关键技术,它是使网络信息资源得以合理有效组织的重要方法。它为使用在网络上存在的海量信息提供了可能性并大大提高了网络资源的利用率。 由于我国的互联网起步较晚,因而与之相对应的网页分类也发展较晚。近年来,中科院软件研究所、北京邮电大学模式识别与智能实验室、微软亚洲研究院等多家研究机构都在进行着与中文网页分类相关的理论研究。我校的张铃老师提出的覆盖算法也为这一研究提供了理论及算法上的支持。 前向神经网络的覆盖算法是由张铃老师提出的一种机器学习方法。本文将覆盖算法应用到中文网页的分类中,结合各种经典的分词和降低特征维数的方法进行分类,并与SVM方法,贝叶斯算法的分类结果进行比较分析。 本文所做的主要工作和创新点如下: 1)对HTML文本进行了简要的介绍,说明如何通过预处理从HTML文本中取出对后期分类有价值的中文文本。 2)本文对以往中文网页分类的预处理过程加以改进,对在分类中作用显著的等标签下的文本给以较大权重值。 3)对文本内容进行处理时,为了减少特征向量的维数,本文使用文本分类中常见的几种特征降维方法(文本频度、χ2统计量方法、互信息方法、信息增益方法、期望交叉熵方法、文本证据权方法)分别对中文网页样本进行了测试。实验结果表明,χ2统计量方法和期望交叉熵方法对文本分类最为有效,文本频度方法和文本证据权方法稍差,而互信息方法和信息增益的方法效果最差; 4)获得有效的网页文本特征向量后,需要使用合适的分类器进行分类。本文首次将张铃、张钹教授提出的前向人工神经网络基础上的覆盖算法应用到中文网页的分类中。本文对使用覆盖算法和SVM方法作为分类器进行了对比,实验表明覆盖算法是一种优秀的分类器,可以有效的进行中文网页的分类。 本文在中文网页分类方面完成了一定的工作,但还存在一些不足,今后可以在以下方面继续研究: 1)本文的研究对象是针对中文网页,今后可以对非中文网页进行研究,将非中文网页也纳入研究范围中; 2)多模式识别方法下的中文网页分类可以进一步深入研究。