【摘 要】
:
中文Web文档的自动分类主要还是以文本分类的算法思想为基础来进行的。但由于中文Web文档的数量巨大,内容多样,噪音繁多,很多比较成熟的文本分类算法直接应用到网页分类之后,
论文部分内容阅读
中文Web文档的自动分类主要还是以文本分类的算法思想为基础来进行的。但由于中文Web文档的数量巨大,内容多样,噪音繁多,很多比较成熟的文本分类算法直接应用到网页分类之后,效果变得非常不理想,因此也不能完全依靠现有的文本分类技术去进行研究。基于此,本文对在中文环境下的Web文档自动分类这一课题进行了研究,提出了一些提高分类精度的设想,并做了相应的实验,在这一过程中,主要完成了以下工作:(1)根据网页的链接关系,将待分类目标网页及其域内的后向链接网页合并作为整体输入分类器,而不是单纯的将目光局限于待分类目标网页。(2)设计了相应的网页爬虫,只下载待分类目标网页及其域内后向链接网页。(3)提出了一种网页噪音去除方法。并不局限于在网页中寻找主题内容,去除剩余噪音,而是通过引入本域内后向链接网页的主题词汇,提高主题词汇的数量,降低包含噪音词汇所占的比例,是一种以退为进的方法。(4)由于分类需要主题特征词汇,因此构建了一个主题特征词典,在分词的同时完成初步的特征选择。(5)利用装袋的方法,采用不同的训练数据,训练多个朴素贝叶斯分类器,综合每个分类器的分类结果,来提高分类的精度。(6)基于上述理论,设计了一个中文网页分类器,并做了相关的实验以验证算法的有效性。(7)由于国内并没有形成一个统一的关于中文网页分类的训练集、测试集,因此通过访问大量网站,收集形成了一个小规模的中文网页分类的训练集和测试集,以待日后发布,供广大爱好者们使用。经过实验证明,本方法相对于将单一的待分类目标网页作为分类对象,分类精度有了明显的提高。
其他文献
生物认证技术是利用人体固有的生理特征,如人脸、虹膜、指纹、以及行为特征,如步态等对个体进行识别的身份认证技术。近几年来,由于对安全问题的重视,生物认证技术得到了长足
智能规划已经成为人工智能的一个研究热点,特别是规划图方法(GraphPlan)的提出更是使智能规划的研究取得了革命性的进展。随后的许多规划器都是在此基础上的,如1999年提出的P
近年来,随着现代通信技术的飞速发展和计算机互联网技术的迅速普及,信息的共享、传播变得尤为重要。它给人们带来种种便利的同时也带来了一系列的信息安全问题,比如信息窃取
随着计算机技术、通信技术和半导体技术的快速发展,物联网成为新一代信息技术的重要组成部分。作为物联网中的一个重要组成部分,无线传感器网络应用也越来越广泛,与此同时,对
当今世界,高新科技的迅猛发展深刻地改变着整个世界的面貌,推动着整个世界的经济、社会、文化持续快速向前发展。整个世界已凸显全球化、信息化和知识化的特征。世界正变得越
制造网格的出现,实现了地理上分散的各类制造资源的全面连通和共享,形成了一个庞大的资源库。用户想要像使用本地资源一样方便地使用资源库中的资源,必须有效的发现所需的资
当今对图像、视频、药物分子、文本、空间数据、基因等数据的高阶高维信息规律进行分析是目前机器学习、数据挖掘等领域迫切需要解决的问题之一。相对传统的向量化的数据分析
C语言试题库是学校C语言考试系统的基础。由于常年的使用以及原系统缺乏重复试题检查功能,在试题库的不断扩充下题库里难免存在大量重复试题,这样就导致了试卷质量和考试效果
半导体技术的飞速发展使微处理器的运算能力迅速提升,但访存速度的增长却相对缓慢,“存储墙”问题日益明显。存储系统有限的片外带宽已经成为阻碍程序整体性能提升的瓶颈。分
生物信息学中的一个重要研究内容就是对基因转录调控的研究。转录因子结合位点的正确识别既是揭示转录因子功能的关键之一,又是理解基因转录调控机理的重要环节。转录因子是一