WEB信息处理中的自动分类研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tigernone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在该课题的研究中,采用了向量空间模型来表示文本信息.我们针对网页结构的特点,详细分析了网页标识中对分类过程有贡献的结构成分,对于传统的特征项提取、特征表示方法和特征选择方法进行了改进,提出了基于Web文档的特征提取方法和TF- IDF算法,使之更加适应于网页的分类处理.接着,详细分析了简单向量距离算法、NaiveBayes算法和KNN算法的实现原理,提出了针对网页分类的模块处理流程.实验的结果表明,这些改进对网页的分类都能得到满意的准确率和查全率.应用文本分类的相关技术,再加上考虑网页特有的信息特点,在Windows<,?>2000系统下用VIsuaIC++实现了网页的自动分类系统.当然,由于人类自身领域知识的缺乏,导致了分类目录的不清晰不精确,因而,存在着分类错误的现象,这就需要我们不断完善自身的知识修养,得到统一的分类体系,更好地满足人们对分类系统的要求.
其他文献
该文以数字视频数据为基础,采用数据挖掘技术对基于内容的视频分类和检索进行研究.将这些实际问题抽象为视频数据的准备、基于完整视频特征的视频分类、基于镜头序列的视频分
该文从以下几个方面进行了研究: 1.基于双语词典的句于对齐模型的研究.研究了目前流行的句子对齐模型,在前人的基础上,提出了基于双语词典的句子对齐模型,性能优于传统的基于
首先,该文比较了研究自治系统关系的五种信息获得方式:即whois信息收集法、捕捉BGP路由更新包方式、主动探测方式和BGP路由表采集方式和对等路由器方式,综合比较技术、开销与
近年来,在线评测系统被广泛的应用到程序教学中。对程序正确性严格、精确的评测以及快速的结果反馈让程序教学变得更加高效、便捷,学生和老师从中受益匪浅。但对于一些初学者而
近年来,智能手机电池已经很难满足手机上大量耗电部件和应用对电量的需求,电池问题成为智能手机未来发展的重要瓶颈之一。目前学术界对于智能手机能耗分析的研究大多需要借助于
该文针对基于内容的个性化方法的各个环节提出了一系列数学模型,包括:度量用户查询词含义的数学模型、对用户查询词进行有效扩展的数学模型、度量用户的个性化需求的数学模
本文主要研究基于无序图像集合,利用全局的方法快速精确地的恢复三维场景和图像对应的相机参数。本文实现并改进了两种全局线性的运动恢复结构技术,从无序的二维图像数据重建稳
远程计算机控制是指通过网络连接,远程接入PC机和网络服务器的一种综合解决方案,实现对目标机的远程控制和协同工作.远程计算机控制系统具备基本的远程通讯功能外,还必须具有
在这篇论文中,我们将探讨在未来的移动Internet上为移动IP用户提供"两层面"服务管理相关的六个重要问题.首先,基于下一代Internet、移动IP等技术提出了"两层面"服务管理体系
在国家973项目的资助下,结合上面的问题和项目本身的需要,该文深入研究了利用缓冲技术提高Web业务性能的方法、机制、关键算法等,在以下方面做出创新性成果:研究选用了大量的