中文网页分类技术研究及预分类算法实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lym50691064
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展,特别是近年来互联网的普及,网页数量呈指数级增长。为了有效地组织和管理这些海量信息,如何根据网页中的文本信息自动分类已成为目前研究的重要课题。本文首先研究了中文网页自动分类的相关技术,详细分析了类中心法、朴素贝叶斯法和支持向量机法三种基于机器学习的自动分类算法。然后,本文实现了一个基于向量空间模型的中文网页自动分类系统,并通过四个实验对中文网页自动分类的几个关键步骤进行了较为深入的研究。主要实验结论有:线性核函数更适用于中文网页分类;文档频率是一种快速而有效的中文网页特征选择方法;应该根据训练集规模和自动分类算法保留适当的特征数目。最后,本文针对中文网页的特点,提出了一种基于预置关键词表的预分类算法。实验结果表明,预分类算法的引入不仅提高了精确率和召回率,而且分类时间也有较大缩短。
其他文献
真实感图形绘制是计算机图形学中的一个重要的课题,而逼真的光照效果是计算机真实感图形绘制所追求的主要目标,其中材质光照属性的精确设定是其中的关键问题。目前能很好的模
随着科学技术的发展,城市化进程的推进,世界各国都开始将目光投向了城市地下空间的开发和利用,以此作为解决越来越多城市问题的重要手段。然而地下工程施工工艺复杂,技术要求高,环
随着计算机网络和多媒体技术的发展,远程教育作为一种新型的教学模式对于充分利用教育资源,满足信息社会终身教育、全民教育以及社会化教育的需求,加速我国的教育事业的发展
随着移动互联网技术兴起和无线传感器技术的发展,时刻都在产生传感器数据,这些数据蕴含着丰富的信息,具有深远的研究意义。计步器的广泛使用就是其中的一个研究成果。运动识
AO幅面彩色扫描仪使用多CCD进行图像采集并通过图像拼接来完成对大幅面原稿的扫描。其大幅面、高精度及高速度等技术指标的要求,对扫描驱动及机械安装调试带来了新的挑战。本
本文首先深入研究了目前查询扩展中所采用的技术,并在此基础上提出基于语义的概念查询扩展模型。该模型采用通过概念语义空间来描述概念之间相关性的方法实现概念扩展,充分考虑
随着现代医学的发展,医疗成像设备在临床诊断和治疗方面得到广泛的应用。由于成像机理不同和人体组织结构的高度复杂性,来自单一成像源的医学图像不能提供医生所需要的足够信
自然景物中桥梁和机场这两类大型地物目标的自动检测和识别无论在军事领域还是民用领域都有重要的应用价值,越来越成为专家学者研究的重点,但直到目前为止,还没有一种通用性
近年来,基于稀疏表示的异常事件检测成为计算机视觉领域的一个研究热点,该方法通常要使用正常样本离线训练一个字典,然后对待检测的样本进行稀疏表示。其主要问题在于:一方面
随着Internet的不断发展,路由查找速度已经成为制约核心路由器性能的主要瓶颈。减少访问存储器的次数是提高路由查找速度的有效途径之一。由于片外存储器价格较片内存储器低