论文部分内容阅读
在当今信息时代,网络已经成为人们获取各种信息的主要渠道。其中,网页是承载这些信息的最主要载体。目前,网页数量已经相当庞大,并且每天都还在增长,网页内容也混杂不堪。为了能够有效地组织和分析如此海量的网页信息,对网页按照其主题进行分类成了首要的任务。然而网页发展所带来的各种问题严重影响着网页分类系统的整体性能。本文对已有的网页分类相关技术进行了深入地学习和分析,总结了其存在的不足,对影响网页分类系统性能的噪音和速度问题进行研究和改进。网页噪音的存在,严重影响分类结果的精度。因此,在本文的网页分类系统中,网页净化作为一个单独模块被提炼出来,并采用了改进的网页净化方法。该方法把网页结构规则和语义规则相结合,能够有效过滤网页中的噪音信息。针对提高网页分类系统运行效率的需求,本文采用了多项式核函数的SVM分类算法。模型训练中运用了泛化性能更好的基于超球体决策半径的改进二叉树训练方法,去提高训练速度。并对分类模型中决策函数的计算方式进行优化,以减少决策过程中的计算量,达到降低分类时间复杂度的效果。通过训练速度和分类速度的提高,最终提升了分类系统的运行效率。最后,对本文所研究设计的中文网页分类系统进行了实现,测试了各模块及整个系统,实验结果验证了该系统的有效性和实用性。