非均衡文本分类的特征选择研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:jmrys
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文围绕非均衡文本分类中的关键性问题——非均衡文本分类特征选择展开研究论述,结合文献调研,总结出非均衡文本分类特征选择的特殊性和亟待解决的难题就是要在不降低整个文本数据集上分类效果的前提下,通过特征选择提高在小类别上的分类精度。文中主要对两种适合非均衡文本特征选择的算法(DFICF算法和类条件MI算法)进行具体分析,总结各自算法的优点,同时指出存在的不足:1.DFICF算法一方面重点考虑到高频词条的DF值较高,能够保证整个数据集上携带较多文本信息的大多数高频词条被选进特征子集,另方面考虑到非均衡文本集中小类别文本数量少的问题,引入ICF评价指标,使得特征选择算法也倾向于那些小类别中的低频词条。DFICF算法平衡了既要选高频词条又要选低频词条之间的矛盾。但是,DFICF算法本身受到训练文本集的类别数目和类别间数量分布的约束,对训练文本集文本总量、类别间分布情况和类别总数数量上变化是敏感的。2.类条件MI算法不仅考虑了训练样本的类别分布状况,将类别因素考虑进去,而且考虑了特征出现时训练样本的分布状况。该方法能够改善样本分布不均匀对互信息的影响。该特征选择算法,计算复杂度较高。当要计算某个特征与每个类别的相关度的时候,如果不同类别间的文本数量处于不同数量级的时候,p(cj)和p(cj|ti)的差异也很大。这样的特征选择方案试图牺牲整体的分类精度来提高局部的分类精度。文中另一个研究重点在于针对已有的非均衡特征选择算法的不足,提出改进意见,综合三方面因素形成TIM新算法。TIM算法建立在互信息特征选择算法基础上,保留互信息特征选择算法倾向于低频词条的特点,同时加入TF和ICF两个因素,旨在防止互信息特征选择过度倾向低频词条导致分类算法过度学习。实验表明,TIM特征选择算法的分类效果较-DFICF算法在小类别样本上分类的F1值有明显提高;同时在整个文本集上分类效果的macro-F1值较标准的MI算法、DFICF算法以及类条件MI算法有一定的提高。
其他文献
期刊
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
随着我国城市化不断发展,城市园林绿化的规划设计要持续创新,与时俱进,也要符合现代审美,适应园林绿化的主要发展方向.在园林景观设计中,需明确绿化核心,坚持景观协调原则,保
研究了基于与QAR记录相匹配的飞行轨迹数据建立的BP神经网络油耗模型,利用飞行轨迹数据输入模型求得油耗估算值,通过与QAR真实燃油数据对比,进行模拟分析。以某些航班的雷达
在少数民族集聚区发展寄宿制教育,是新时期党中央、国务院在少数民族地区实施的一项以民为本的“民心工程”,是落实科学发展观和推动少数民族地区经济社会发展的一项重要举措。
期刊
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊