中文网页分类方法的研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:hrk303968324
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文首次提出将粗糙集的属性约简与支持向量机结合处理中文网页的分类问题,具有如下独特优势:   支持向量机处理小样本分类时,能得到较好的效果,但应用于中文网页分类时,由于数据量大,其鲁棒性特点得不到发挥。粗集约简能大大降低原属性空间的维数,减少了用于支持向量机分类学习的数据量,可以提高支持向量机的训练速度和测试速度。粗集约简从属性对分类能力贡献大小的角度进行特征的删减,这种属性删除是在保持与原属性集的分类能力相等的原则下进行的,。支持向量机是一种高性能的分类器,可以处理像中文网页分类这种稀疏矩阵中的分类问题,粗集约简与支持向量机结合的分类器处理中文网页分类问题将具有更佳的优势。
其他文献
  随着计算机技术的飞速发展,企事业单位对各类应用软件的需求越来越迫切,这对软件企业提出了更高的要求。因此,对框架的研究和实践越来越引起学术界和产业界的高度重视。框架
利用快速成形技术制造功能梯度材料零件是当前的一个热点问题。功能梯度材料零件建模和分层算法设计,是解决这一问题的关键环节。从CAD和CAM的角度来说,功能梯度材料零件模型
软件日趋复杂,大量软件高度可配置,给软件测试带来了极大的挑战。组合测试是一种高效的软件测试方法,能有效检查出由参数相互作用而导致的软件故障。但是在实际应用过程中,约
网络技术的迅速发展在给人们的生活带来巨大方便的同时,也带来了非常严峻的安全问题。在虚拟的网络世界里,利用木马窃取机密信息的黑客入侵行为日益增多,给用户和企业的利益、甚
本文将易于并行化的插值法用于Dixon结式的构造中,从而使两种方法有机结合起来,进一步提高了符号计算方法解决问题的规模和效率.主要工作和贡献有:①根据Dixon多项式的特点,
本文首先介绍标准移动IPv6(MIPv6,Moblie IPv6)的基本原理和切换过程,当移动节点在网络间越区切换时,由于IP层的切换容易产生时延和数据包的丢失,引起通信质量的下降或通信中
为了维护计算机系统的安全,一般通过设置用户口令进行身份鉴别,防止他人冒名顶替。口令鉴别的主要弱点在于一旦被窃,冒名顶替者就可以轻而易举地进行非法活动。击键特征的研
本文面向工程应用提出了一种新颖的基于退化隐马尔柯夫模型(Degraded Hidden Markov Model)的印刷体文字识别方法。 由于印刷体文字的字形相对固定,因此以往通常采用结构
  在信息技术领域,随着计算技术、存储技术和网络技术的发展,促使信息技术与天文研究相结合,促进了虚拟天文台(VO)的研究工作。虚拟天文台首先要实现的是天文数据的无缝透明访
学位