基于Web数据挖掘技术的中文网页自动分类系统的研究

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:cebianwo670
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术,特别是网络技术的飞速发展,网络带给人们的信息成爆炸式增长。作为Web数据挖掘的研究方向之一——中文网页自动分类在信息检索、网页文本自动摘要等方面的应用越来越广泛。它已经成为当前数据挖据研究领域的一个重点和难点问题。作为其它具体应用的基础,中文网页分类系统性能的好坏,对后续工作的开展和进行将产生巨大的影响。 本文基于对数据挖掘和Web数据挖掘技术的研究,对目前中文网页自动分类的方法、技术以及性能测评标准进行了调查分析,提出了中文网页分类系统的模型。该系统分为三大部分,它们是数据预处理部分、训练部分和分类部分。分别探讨了各个部分中的关键技术以及分类系统性能的测评方法。在整个系统中,研究的重点是词语权重和分类算法两方面。在权值计算方面,文章将词语在文本中的位置和在分类中的重要程度作为权值的两个因素,引入到经典的TF-IDF公式中,对系统中网页文本的权值计算方法进行了改进;在分类方法上,将聚类技术与KNN分类算法相结合。试验结果表明,这种方法大大提高了网页分类的效率。最后文章对中文网页自动分类技术的发展作了展望。
其他文献
Internet上以Web服务为主,具有信息量多、结构复杂、负载重等特点。一些统计数据表明,Web服务器有可能成为Internet应用的瓶颈。通过采用某些技术,减少网络流量,降低对网络带宽的
在信息化高速发展的今天,电子商务在国家经济活动运作中发挥着越来越重要的作用,而数据在传输及应用过程中的安全是其重要作用的一个基本保障!公钥基础设施PKI是目前网络安全建
随着信息世界的快速发展,系统与软件安全问题在个体与国家等不同层面越来越被重视。多年来,安全研究员们针对内存泄露类攻击提出了多种防御技术,这其中栈不可执行技术、地址
在交通、信息高度发达的今天,一般的航空公司每天也要处理几万张飞机票。而在中国,纸质机票须保存5年以上。飞机票上的信息,如机票号,票价,座位等级等等,必须录入数据库保存,以便日
近年来,智能交通系统应用越来越广泛,道路旁安装的众多监控摄像头记录了大量的交通场景。如何从这些交通监控视频中分析提取出交通场景的语义,是构建智能交通系统的核心环节
IPv6是由IETF设计的下一代因特网协议,它对IPv4作了大量的改进,不但很好地解决了地址短缺问题,同时还具备无状态地址自动配置、服务质量、安全性等多方面的优点。虽然目前IPv6规
知识社会的快速发展促使人们不再满足于简单的信息收集、整理和保存,而是渴望对大量承载着人类智慧的文本信息进行分析和挖掘。知识抽取应运而生,它是从信息集中识别有效、潜在
随着网络技术的发展,网络安全日益重要,面对入侵者的攻击,传统的安全防护系统难以进行有效的防御。入侵检测技术是继防火墙、数据加密等传统安全保护措施后出现的新一代的安全保
Web服务采用通用的协议和技术,突破了语言差异、平台差异、协议差异和数据差异等限制,为信息整合提供了一种良好的解决方案,是当前分布式计算研究的热点之一。 然而,Web服务在
随着对信息技术需求的膨胀,软件危机一直是困扰着我们的问题。软件工程的发展和以构件技术为代表的复用技术的发展以及开发模式的革新被认为是解决软件危机的出路。目前软件开