中文网页分类技术的研究与实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:gogoxincheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络和信息技术的迅速发展,特别是Internet的普及,网络信息资源已极为丰富。文本分类将杂乱无章的信息整合起来,方便用户快捷地定位感兴趣的信息,是目前研究的重要课题。本文对中文网页分类的主要技术,包括预处理、特征提取、分类算法等方面进行了深入的分析和研究。首先,针对网页表达形式的特点,将网页噪声分成局部噪声和全局噪声两类,分别给出了两种噪声的去噪方法,并实现了一种基于HTMLParser的网页预处理过程。其次,针对中文网页的特性,对中文分词做了深入的分析,实现了一种基于词典的分词系统,该系统将分词词典按照相同的第一个字分成不同的小词典,在各个小词典内部,利用二分查找方法,有效的提高了分词速度。第三,TFIDF特征选取和文本表示没有考虑特征项在各类之间和各个类的内部的分布情况对类的区分度的影响,针对这一缺点,本文采用一种在TFIDF基础上增加两个方差来调节TFIDF权重的改进方案。最后,比较了几种传统的文本分类算法的优劣,总结了现有的几种改进方案,并给出了一个基于中心向量的距离加权kNN分类的改进方法。该方法先根据中心向量淘汰离类的中心较远的样本,减小这些样本对类中心的影响,然后考虑到类中心距离不同的样本对类的作用不同,在计算属于各个类的文本的余弦值时增加一个权值。实验表明该方法比kNN法效果更好。经实验表明,本文所做研究的内容,有利于分类器的性能的改进,达到了一定的预期效果。
其他文献
空间移动对象的轨迹和查询是移动对象数据库中的关键技术,成为当前数据库领域研究的热点问题。本文重点研究了非约束环境和网络环境中移动对象轨迹的查询问题。 本文研究了
海量数据与知识贫乏导致了数据挖掘技术的出现,它的主要目标是采用自动的、智能化的新技术来分析海量数据,以获得有效的、隐含的、以前未知的、有潜在使用价值的有用信息。它
随着信息技术和计算机网络技术的发展,异地分布式网络化制造将是制造技术发展的必然趋势。计算机支持的协同设计(CSCD Computer Supported Cooperative Design)是CSCW与先进
数字签名为数据提供了认证、数据完整性和不可抵赖性等重要保证,是信息安全的核心技术之一。基于身份的密码体制简化了传统公钥密码系统中密钥管理的问题,是当前密码学研究的热
量子信息学是量子物理和信息科学相结合而产生的一门新型交叉学科。量子信息包括量子计算和量子通信两大部分。量子纠缠是量子信息科学的重要概念,在量子信息科学中有着重要的
尽管存在垃圾回收机制,但Java程序仍可能存在内存泄漏问题。内存泄漏问题可能影响程序性能,甚至导致崩溃。目前的Java内存泄漏问题研究主要关注发现泄漏现象后如何找出泄漏原
随着Internet和通信技术的飞速发展,基于SIP协议的IP应用已日臻成熟,已经演变为SIP(Session Initiation Protocol)多媒体的概念。与SIP多媒体业务的蓬勃发展形成鲜明对比的是
序列模式挖掘是挖掘基于时间或者其它顺序的出现频率高的模式。序列模式挖掘是一类重要的数据挖掘问题,有着非常广泛的应用前景,包括顾客购买行为的分析、网络访问模式的分析
随着IP网络规模和复杂性不断增加,各种各样的设备和接口技术层出不穷,对网络进行有效管理,保证网络的运行质量,变得越来越困难。通过有效的采集方法把IP网络管理数据可靠、及
近年来,基于散乱点云的造型与绘制在图形学领域受到研究者越来越多的关注。该项技术以点作为基本元素,在提高模型绘制与重建的速度、加强处理超大规模点云的能力和简化计算量