面向主题型的网页分类技术的研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:qy19871120wr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是目前使用的最普遍的网络信息检索工具,人们对它有很强的依赖性,搜索引擎大多数采取的是基于关键词匹配检索的策略,但是随着互联网上的信息量与日俱增,这种检索策略的执行效果受到了很大的影响。为使搜索引擎在检索互联网信息时能够准确定位,并且提高检索到的信息与目标之间的关联度,网页自动分类技术被用来辅助搜索引擎检索网络信息,以优化搜索引擎的检索效果。网页自动分类技术,是在文本自动分类技术的基础上发展起来的,网页自动分类系统本质上是由自然语言处理技术和机器学习原理相结合实现的系统,而分类器是网页自动分类系统的核心部分。本文介绍了几种当前较为成熟且流行的分类算法,通过对比其各自的优缺点,考虑到实际网络中的取样情况,从中选定K-最近邻算法构造分类器,并用此分类器判定指定映射的未知文本的类别。本文在研究了中文网页的结构和特点的基础上,设计完成此分类系统,并在本文中逐一说明了构建此系统的流程步骤,本文重点研究了构成此分类系统的几个重要部分即文本预处理、主题特征抽取、建立特征库、类别测度,并在真实的网络环境下进行了实验。在系统的具体实现上采用了与搜索引擎相结合的方式,从搜索引擎抓取的页面内容中抽取特征,并建立特征库,进行类别测度。最后根据当下普遍采用的检测指标衡量此系统的分类器分类准确率。本文最后有针对性的对一些网站做了实验,并提供一系列的实验数据、评估参数来证明这个系统的有效性、可行性,阐明了该自动分类技术可以用于优化搜索引擎检索网络信息的准确度和相关性。
其他文献
随着第三代移动通信技术的飞速发展和日趋成熟,基于第三代移动通信平台的无线视频传输技术必将在各个领域得到广泛的应用。本文以省科技厅重点项目为依托,利用以ARM微处理器
随着信息时代的到来,计算机网络技术、多媒体信息技术及相关学科的飞速发展,数字产品快速广泛传播开来,数字化信息在现代生活中变得越来越重要。然而,伴随着数字产品的传播,
回转体工件广泛应用于航空航天、机械制造等领域,对回转体工件进行高精度、高效率的检测是一项技术难题。传统的正交三坐标测量机由于测头空间位置不灵活,而且受测量环境的影
虚拟现实的仿真,自诞生之日起就备受关注和应用,而对现实世界中的光影效果的仿真可谓是其中的一个重点,因为有光,场景就会显得丰富。对虚拟场景中的光影渲染一般采用两种方式
汽车安全车距预警系统作为智能交通系统的一个重要分支是近年来的研究热点。随着立体视觉算法的发展和计算机硬件处理平台速度的提高,立体视觉技术在智能交通系统中的应用越
机器视觉检测技术一般是指利用图像采集设备获取被检测物体的图像并与预先设定的标准对比从而判断被检测物体的质量状况的技术,具有检测速度快、准确率高、操作简单等优点。
纤维增强复合材料由于其优异的力学性能被广泛应用于航空航天及各个民用领域,但在其生产及服役过程中难免会产生裂纹、分层等缺陷,对系统稳定及安全性能造成影响。空气耦合超声
数字水印技术是信息隐藏技术的重要分支之一,它是研究如何在不破坏数字载体使用价值的前提下进行水印信息的嵌入,同时不被察觉。数字水印技术因其鲁棒性、不可见性等特点,已
由于业务产生的随机性与突发性,LTE系统各小区间必然会存在负载不均衡现象:在高负载小区中,资源竞争激烈,难以满足用户的QoS需求;而在空闲小区中,无线资源又没有得到充分利用。因
图像分割是从给定图像中获取到感兴趣的目标或区域的过程,是图像处理和图像分析的重要步骤,同时也是一个比较有挑战的难题。目前图像分割技术已被广泛应用于计算机视觉,图像