Web信息处理中的网页分类算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:hydhdhfdhsdh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对中文网页的分类问题,提出了一种基于代表样本动态生成的快速文本分类方法,并构建了一个网页分类的原型系统。主要工作包括: 1、在详细分析κ-近邻分类法两个特性的基础上,提出了一种新的基于代表样本动态生成的分类方法。这种分类法通过对原始训练样本集的训练生成代表样本,充分利用每个原始训练样本的有效信息,对已生成的代表样本进行多次调整,从而使代表样本更具有代表性。这种方法有效地压缩了原始训练样本集,提高了分类效率;同时,由于代表样本的分布更加合理,提高了分类的准确性。 2、为了把基于代表样本动态生成的文本分类技术应用到对网页的自动分类中,针对网页结构的特点,详细分析了网页标识中对分类过程有贡献的结构成分,讨论了基于Web文档的特征抽取方法和改进的TF-IDF权重计算算法。 3、综合本文在文本分类算法和利用网页信息提高分类器性能方面的研究工作,设计并实现了一个中文网页自动分类系统。系统采用模块化的结构,实验表明系统具有很好的分类性能。
其他文献
信息技术与Internet的飞速发展极大的改变着人们的学习方法和方式,为教育的发展带来了很大的契机。网络教学是随着现代信息技术发展而产生的一种新型的教学形式,具有突破时空
自主计算是近年兴起来的一个热门领域,其研究目标是解决日益增加的计算系统复杂度问题,主要特征包括:自配置、自优化、自修复和自保护等。本文对当前的自主计算研究现状进行
IPTV是互联网业的新兴应用,它基于宽带IP网,提供给人们全新的视听体验,并将深深影响人们的生活和学习。EPG模块是IPTV系统中最重要的模块之一,是整个系统中变化最快的模块。本文
电力电缆在运行过程中,需要定期进行测试、检修和维护,以延长电缆使用寿命,减少故障率;电力电缆一旦发生故障,需要快速、准确的找到故障原因和故障点,并及时进行修复,以减少
越来越多的基于Internet的应用,如VoIP,IPTV等等,对Internet所提供的服务提出了更高的需求。然而传统的IP网络缺乏对带宽和流量的有效管理手段的缺乏经常会导致网络拥塞,无法为很
在企业信息化过程中,企业数据重构和管理是重要的环节。由于认识或技术上的原因,企业在建立数据库之初,其规划缺乏整体性、前瞻性,很多数据是在不同阶段为不同目的建立的,存在着同
网格计算是20世纪末起源的一个新兴的领域,它的目标是要将异构的软硬件资源实现统一访问和无缝集成,向用户提供随处可得的、灵活的、可靠的、一致的、标准的、廉价的计算能力。
无线接入系统是无线局域网中非常重要的设备,它既要负责无线局域网内移动设备的管理,又要将有线网络和无线网络进行桥接。无线接入系统性能的好坏将直接影响到整个无线局域网
监控组态软件,作为一种全新的高效的远程监控软件开发平台和开发模式,越来越受到企业的欢迎,不仅如此,它在机房监控管理、智能大厦监控管理、环保监控管理、智能小区监控管理、变
随着手机的普及应用,手机短信以其简洁、携带方便、操作简单、信息网络覆盖面广等众多优势,成为了人们日常生活中必要的信息交流工具。从个人通过手机短信点播定制新闻、股票