基于Web挖掘的中文网页分类的研究与实现

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:camel_xz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今信息时代,网络已经成为人们获取各种信息的主要渠道。其中,网页是承载这些信息的最主要载体。目前,网页数量已经相当庞大,并且每天都还在增长,网页内容也混杂不堪。为了能够有效地组织和分析如此海量的网页信息,对网页按照其主题进行分类成了首要的任务。然而网页发展所带来的各种问题严重影响着网页分类系统的整体性能。本文对已有的网页分类相关技术进行了深入地学习和分析,总结了其存在的不足,对影响网页分类系统性能的噪音和速度问题进行研究和改进。网页噪音的存在,严重影响分类结果的精度。因此,在本文的网页分类系统中,网页净化作为一个单独模块被提炼出来,并采用了改进的网页净化方法。该方法把网页结构规则和语义规则相结合,能够有效过滤网页中的噪音信息。针对提高网页分类系统运行效率的需求,本文采用了多项式核函数的SVM分类算法。模型训练中运用了泛化性能更好的基于超球体决策半径的改进二叉树训练方法,去提高训练速度。并对分类模型中决策函数的计算方式进行优化,以减少决策过程中的计算量,达到降低分类时间复杂度的效果。通过训练速度和分类速度的提高,最终提升了分类系统的运行效率。最后,对本文所研究设计的中文网页分类系统进行了实现,测试了各模块及整个系统,实验结果验证了该系统的有效性和实用性。
其他文献
在信息化时代,企业比以往任何时候都更加依赖于数据。如何对数据进行备份和灾难恢复已成为存储业界研究的热点。常规的容灾系统已经越来越无法满足对更细粒度的恢复时间目标(Re
随着信息技术的发展和广泛应用,人们对计算机系统数据存储能力的要求也越来越高。存储系统面临的问题主要包括:数据存储的地域空间范围更加宽广;数据量成指数级增长;数据传输速度
近年来嵌入式系统中软件规模与复杂度的迅速增长给高质量系统的设计、验证与维护带来许多重要挑战,传统的基于代码的测试与分析技术方法已经不能满足一些安全关键领域中的嵌入
畜牧疫情一直是畜牧业生产上的重要灾害,一直是制约畜牧业高产,优质,高效可持续发展的主导因素之一。随着我国经济建设的不断发展,畜牧业已经成为我国农业经济中的支柱产业,
随着移动通信技术的高速发展,手机用户的数量在飞速膨胀,由于手机短信使用简单、快捷、费用低廉,已经成为日常生活中不可或缺的通信方式之一。然而,低廉的传输代价,使得我们
随着云服务的应用领域越来越广,基于虚拟化技术的服务器集群规模越来越大,这对集群的资源调度提出了新的挑战。在大规模的虚拟化集群中,虚拟机的数量和负载会随应用的需求而经常
随着软件开发技术和测试技术的发展,仅仅依靠以密集劳动为特征的传统手工测试,已经不能满足快节奏软件开发和测试的需求,在测试中引入自动化测试技术已经成为共识。论文简要介绍
The emergence of mobile computing provides the ability to access information almost anywhere and anytime. Mobility and the remote access to information is quick
随着信息技术的迅猛发展,各种网络攻击已是非常普遍的现象。数据安全和通信安全也越来越受到人们的关注,如何在保证性能一定的情况下,还能提供完善的安全服务已经成为了炙手可热
粗糙集理论是波兰科学家Pawlak提出的一种新型的数学工具,可以处理复杂的不确定系统,在人工智能、数据挖掘、机器学习等领域都取得了较为成功的应用。但是经典的粗糙集理论是基