基于类间距离最大化的特征抽取方法研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:Vincent_Jiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的普及和海量在线电子文本的广泛应用,文本数量呈爆炸性趋势增长。文本分类作为组织和管理海量文本信息的重要技术在很多领域都得到了非常广泛的应用,已经成为数据挖掘领域的一个重要研究热点。然而,文本数据的高维特性一直是困扰文本分类效果的一个重要难题。巨大的特征空间不仅会增加计算的复杂度,而且还会影响文本分类算法的性能和泛化能力,造成“过度学习”现象。因此,如何对高维特征进行有效的降维已经成为影响文本分类算法性能的关键步骤。一般而言,特征选择和特征抽取是常用的两种特征降维方法。特征选择的方法是指通过构造函数对原始特征空间中的特征进行逐一评分,然后按特征得分的高低顺序依次选取有效的特征,具有过程简单和操作简便等特点。相比较而言,特征抽取是通过映射的方法将原始特征进行重新组合从而得到一组新的特征,然后针对原始特征的组合情况进行选择,能够在一定程度上解决同义词和多义词问题。然而在实际应用中,由于特征选择方法忽略了词语的同义和近义表述现象,导致文本分类性能不高,于是本文针对特征抽取方法进行研究,提出了一种基于类间距离最大化的特征抽取方法。该方法通过投影后不同类别文档间的距离最大化来构建优化函数,并通过拉格朗日乘子法来获取映射矩阵。以上方法在复旦大学中文语料库上进行试验,实验表明采用该特征抽取方法后,文本分类的准确率与目前基于卡方统计的特征选择方法相比得到显著提升。
其他文献
Grid technology root in the distributed supercomputing I-WAY project which sponsored by U.S. government in the 90s of 20th century. The grid integrates all kind
随着计算机图形学的飞速发展,非真实感绘制成为计算机图形学中一个崭新而富有活力的分支。它生成的图像通常类似艺术家、工艺美术家或科学插图画家的作品,再加上文本注释,往往能
本文提出了数据库入侵检测系统,设计了数据库入侵检测系统的应用模型,实现了系统的部分功能,并进行了相关的测试,具有理论意义和实际应用价值。 本文首先介绍数据库安全、入侵
盲信号处理已成为信号处理学界和神经网络学界共同感兴趣的研究热点领域,并获得了迅速的发展,有着坚实的理论基础和广泛的应用。在通信,阵列信号处理,生物医学信号处理,语音信号处
在当前电力市场改革的大环境下,电力营销工作质量的好坏将直接关系到地区供电公司自身发展,决定着公司的市场竞争力。电力负荷能够反映地区的用电情况,因此对于负荷的管理在
虚拟植物(Virtual Plants)就是利用虚拟现实(Virtual Reality)技术在计算机上模拟植物在三维空间中的生长发育过程。它是以植物个体为对象,具有三维效果和可视化的功能,生成的
本文对基于并行平台的CFD软件在全机数值模拟中的应用进行了研究。文章建立了工作站机群系统作为并行计算平台,使用商业CFD软件Fluent及Cart3D实现了全机三维绕流流场的数值模
图像的上色、编辑传播、分割和抠图是目前图像编辑中常用的处理方法,也是计算摄影学和数字图像处理中热点的研究问题,可统称为图像的边缘敏感编辑。在传统的图像编辑环境(如P
计算机与通信的结合,就出现了计算机网络,网络需要遵守遵守共同的网络协议,为了减少设计过程中的复杂性,网络协议都分层组织。在两种著名的网络协议模型中,OSI开放式系统互联
随着手持设备的快速发展,移动终端设备开始呈现智能化、多样化、高性能化、互动化的特点,除了传统的基本通信功能之外,出现了越来越多的新应用,例如,移动支付、移动证券、移动视频