Web信息处理中的网页分类算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：hydhdhfdhsdh

【摘要】

：

本文针对中文网页的分类问题，提出了一种基于代表样本动态生成的快速文本分类方法，并构建了一个网页分类的原型系统。主要工作包括： 1、在详细分析κ-近邻分类法两个特性的基

【作者】

：

华北

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2006年期

【关键词】

：

互联网络中文网页网页分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文针对中文网页的分类问题，提出了一种基于代表样本动态生成的快速文本分类方法，并构建了一个网页分类的原型系统。主要工作包括： 1、在详细分析κ-近邻分类法两个特性的基础上，提出了一种新的基于代表样本动态生成的分类方法。这种分类法通过对原始训练样本集的训练生成代表样本，充分利用每个原始训练样本的有效信息，对已生成的代表样本进行多次调整，从而使代表样本更具有代表性。这种方法有效地压缩了原始训练样本集，提高了分类效率；同时，由于代表样本的分布更加合理，提高了分类的准确性。 2、为了把基于代表样本动态生成的文本分类技术应用到对网页的自动分类中，针对网页结构的特点，详细分析了网页标识中对分类过程有贡献的结构成分，讨论了基于Web文档的特征抽取方法和改进的TF-IDF权重计算算法。 3、综合本文在文本分类算法和利用网页信息提高分类器性能方面的研究工作，设计并实现了一个中文网页自动分类系统。系统采用模块化的结构，实验表明系统具有很好的分类性能。

其他文献

基于MAS的教师模型的研究与设计

信息技术与Internet的飞速发展极大的改变着人们的学习方法和方式,为教育的发展带来了很大的契机。网络教学是随着现代信息技术发展而产生的一种新型的教学形式,具有突破时空

学位

AgentMAS网络教学系统教师模型推理机

一种基于DFL的自主计算模型及其应用研究

自主计算是近年兴起来的一个热门领域,其研究目标是解决日益增加的计算系统复杂度问题,主要特征包括:自配置、自优化、自修复和自保护等。本文对当前的自主计算研究现状进行

学位

自主计算自主管理自主决策动态模糊逻辑

IPTV系统中EPG模块框架的设计与实现

IPTV是互联网业的新兴应用，它基于宽带IP网，提供给人们全新的视听体验，并将深深影响人们的生活和学习。EPG模块是IPTV系统中最重要的模块之一，是整个系统中变化最快的模块。本文

学位

IPTVEPG模块机顶盒MVC

电缆测试信息管理系统的研制

电力电缆在运行过程中,需要定期进行测试、检修和维护,以延长电缆使用寿命,减少故障率;电力电缆一旦发生故障,需要快速、准确的找到故障原因和故障点,并及时进行修复,以减少

学位

电缆测试数据库信息管理GIS

一种基于Linux的MPLS QoS路由器的实现方案

越来越多的基于Internet的应用，如VoIP，IPTV等等，对Internet所提供的服务提出了更高的需求。然而传统的IP网络缺乏对带宽和流量的有效管理手段的缺乏经常会导致网络拥塞，无法为很

学位

多协议标签交换路由器服务质量Linux操作系统

面向企业数据重构和管理平台的研究与应用

在企业信息化过程中，企业数据重构和管理是重要的环节。由于认识或技术上的原因，企业在建立数据库之初，其规划缺乏整体性、前瞻性，很多数据是在不同阶段为不同目的建立的，存在着同

学位

企业管理信息化管理数据重构数据管理数据库虚拟机应用无关性

网格原型系统的构建与协同机制的研究

网格计算是20世纪末起源的一个新兴的领域，它的目标是要将异构的软硬件资源实现统一访问和无缝集成，向用户提供随处可得的、灵活的、可靠的、一致的、标准的、廉价的计算能力。

学位

网格计算网格原型系统协同机制网格体系协作模式

基于FPGA开发平台的无线接入系统硬件关键技术研究

无线接入系统是无线局域网中非常重要的设备,它既要负责无线局域网内移动设备的管理,又要将有线网络和无线网络进行桥接。无线接入系统性能的好坏将直接影响到整个无线局域网

学位

无线局域网无线接入系统硬件裁剪与集成高速PCB布局布线

Server Push在监控组态软件平台下的应用

监控组态软件，作为一种全新的高效的远程监控软件开发平台和开发模式，越来越受到企业的欢迎，不仅如此，它在机房监控管理、智能大厦监控管理、环保监控管理、智能小区监控管理、变

学位

Server PushB/S模式RMI组态元远程监控软件开发

EasySMS短信收发系统中间件技术研究

随着手机的普及应用,手机短信以其简洁、携带方便、操作简单、信息网络覆盖面广等众多优势,成为了人们日常生活中必要的信息交流工具。从个人通过手机短信点播定制新闻、股票

学位

短信(SMS)中间件移动查证分布式队列

Web信息处理中的网页分类算法研究

与本文相关的学术论文