改进的K近邻算法在网页文本分类中的应用

来源 :安徽大学 | 被引量 : 0次 | 上传用户:rongcs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代通信技术的高速发展与Internet的普及,万维网成为了目前最巨大、分布最广泛的信息服务中心,自从2001年以来,目前超过30亿网页在线,每天以上百万的新网页的速度不断增加,面对这些爆炸式增长的海量网络信息,如何从中有效获得有用的、感兴趣的信息是现代信息研究的重要课题,为了解决这个问题,结合Web信息的异质、非结构化的特点与传统的数据挖掘技术结合起来,形成了一个新的具有挑战性的课题,即Web挖掘技术,其目的就是在WWW中发现和分析有用的信息。本文主要研究Web挖掘技术中的分类算法,所做的工作包括以下几个方面:1简单介绍了文本分类的研究背景和现状,阐述了现今在文本分类方面常用的算法思想,包括朴素贝叶斯算法、支持向量机方法、决策树方法以及K最近邻算法。2简单介绍了用于Web文本分类所需要的关键技术,页面内容的提取、文本分词、停用词处理、特征词提取等技术。3着重分析了K近邻算法的优缺点,并针对KNN算法的懒惰性缺点提出了两种改进算法,根据传统的相似度计算公式应用于网页文本分类的缺陷,提出了改进的相似度计算方法。通过实验,实现了改进的K近邻算法与传统K近邻算法的比较,发现在各自改进上性能都有所提升。本文的改进算法可以有效的应用于Web数据挖掘、信息检索等应用研究领域。
其他文献
IT行业的快速发展,带动了所有传统行业的发展,包括海运物流。传统的海运物流模式具有信息不对称性,即海运物流需求者与海运物流服务提供者之间存在较大的信息差,双方的沟通的
图像信号在产生、传输过程中,经常会受到各种噪声的干扰,一般来说,现实中的图像通常都是带有噪声的。因此图像处理工作中,在进行图像分割、模式识别等高层次的处理前,选用适
人脸识别是一项方兴未艾的生物特征识别技术,广泛应用于各行各业身份识别的信息技术领域。近十年来,伴随着网络通信和多媒体技术的飞速发展,以及计算机硬件水平的快速提升,作
学位
在社会主义民主政治以及和谐社会发展的过程中,论坛BBS已成为人们交流意见和发表评论的重要平台。为了及时采集BBS舆论信息,掌握BBS热点话题评论内容的观点、态度和情感倾向,监
自然语言处理最根本的目的就是让计算机能正确处理人类语言,利用计算机对词语语义进行理解是自然语言处理中最为关键的问题。词义相似度计算作为语义理解的基础性工作已被广
近几年深度学习方法在自然语言处理领域越来越受到关注,深度学习通过特征组合使其能够表示句子的深层语义特征。本文基于深度学习的神经网络模型,研究情感分类的领域自适应、
在计算机图形学中非规则物体的模拟仿真一直占有着重要的作用,也是计算机图形学中的重要研究方向。从计算机图形学产生到发展至今国内外的研究人员通过不断的研究和实践检测
每年由心脏病导致的死亡率不断增加。因此,对于心脏生理和病理机制的研究刻不容缓。目前,利用计算机建模来模拟和仿真心脏电生理相关指标的方法,已成为交叉学科的研究热点,它
发展到现在,嵌入式软硬件的复杂程度大幅提高,软件开发受到前所未有的挑战。嵌入式软件开发涉及到大量工具,比如编译工具、调试工具等。因此一个简单易用,工具丰富的嵌入式开