基于Boosting思想的文本特征选择研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:gang098
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是处理和组织大量文本数据的关键技术。在文本分类中,特征空间的维数高达几万,导致样本统计特性的评估变得十分困难,甚至会降低分类模型的泛化能力,出现“过学习”的现象。因此,有效的维数约减可以提高分类任务的效率和分类性能。 本文关注的是特征选择问题,研究如何运用Boosting思想更好的实现文本分类中的特征选择。由于Boosting思想从提出到理论研究以及众多的实验都是针对分类问题的,并不能直接用于本文。本文提出在Boosting算法的框架下,不断的改变样本分布,选择在一次迭代中最具有类别区分能力的特征进入特征子集。本文在Boosting特征选择方法的研究中遇到两个关键问题:Boosting的循环终止条件和特征数量问题。对于前者,本文给出了三种方案:限定循环次数、训练错误不变、特征子集不变;通过实验对三种方案进行比较并得出结论。对于后者,研究特征选择时理论上可能出现的两种极端现象:所有特征都被选择,或者很少的几个特征被重复选择;实验表明这两种极端现象都没有出现。 特征选择目前没有一种较为独立的评价体系,往往直接跳步至分类的评价,本文通过引入更多分析加以弥补。Boosting的训练错误分析和泛化错误分析增强了Boosting理论上的支持。本文从两个方面分析比较特征选择方法,一方面比较过程,另一方面比较特征选择结果。从过程上,可以对比不同方法的目标函数、参数、限制等问题。从结果上,通过分析排名靠前的特征发现,Boosting方法选的特征覆盖大部分类别,而其他方法则只覆盖少数几个类别。 本文通过实验从不同角度来比较和评价特征选择方法,包括算法步骤的区别、参数选择、特征集合和分类性能。通过上述实验,验证Boosting特征选择算法的性能,并总结了特征集合的特点。
其他文献
BitTorrent、eMule协议以及其相关软件在全世界得到的应用越来越广泛,然而它们在方便了人们互相分享资源的同时也对网络带宽,版权保护等造成了很多负面影响。近年来,这些基于
B/S模式的应用系统能够弥补C/S模式系统下的缺陷,在企业应用系统由C/S模式向B/S模式转变的过程中,如何使现有的软件资源得到复用,从而快速、高效地开发出B/S模式的应用系统,
随着Internet的迅猛发展,网络流量迅速提高,新型业务层出不穷,这些业务对服务质量(QoS)均有严格的要求,这就要求IP网络能够提供相应的机制以便在高效地提高资源利用率的同时
在医疗、金融和航空航天等关键领域,计算机技术的应用越来越广泛,这些领域大量使用分布式实时系统来辅助业务,这就对各子系统间通信的实时性和灵活性提出了极高的要求,传统的
随着计算机网络技术、多媒体技术和通讯技术的发展,人们已不再满足简单的语音和文字通信,视频会议的开发和应用已经成为网络应用的热点之一。视频会议系统是利用通信网络,传
重音是一种重要的韵律特征,在目前比较常用的汉语重音检测方法中,根据特征大致可以分为三类,一类是基于声学特征的检测方法;另一类是基于语法特征的检测方法;还有一类是融合
随着近年来软件行业的蓬勃发展,软件测试作为保证软件质量和可靠性的重要保障,在软件开发中起着不可替代的作用,逐渐成为近年来研究的热点之一。传统的手工生成测试数据的方
本体对于语义Web的发展至关重要。随着语义Web的发展,基于本体的应用越来越多。本体匹配就是一个发现不同本体之间映射关系的过程,如今本体匹配已经发展成语义Web研究中的一个
计算机信息化管理在民航业已得到广泛的应用,从民航各信息系统的特点来看,存在环境异构、数据与业务无法有效共享、跨平台集成困难等急需解决问题,为实现准确反馈和优化调度的目