论文部分内容阅读
随着信息技术的发展,基于在线文本和电子文本的应用得到广泛普及,包括网络新闻检索、基于内容的垃圾邮件过滤、论坛舆情分析和博客话题发现等在内的多个领域已与人们的生活密不可分。为了有效地管理和利用文本信息,基于文本内容的分类逐渐成为备受关注的领域。而文本数据的高维性可能导致低效的计算,因此降维是文本分类过程中不可或缺的环节,已成为重点研究的技术。特征选择是数据挖掘和模式识别等领域中一项重要的预处理步骤,通过删除与学习目标无关的特征、冗余特征或噪声特征,达到降维的目的。由于监督信息(类别信息)是文本分类的重要组成部分,文本分类所具有的类别关系复杂、类别分布不平衡、标注瓶颈和类别不确定等特点,为特征选择研究提出了更多的挑战。本文以文本分类为背景,以特征选择为研究内容,围绕文本分类面临的主要挑战,重点关注具体应用中不同的监督信息(类别信息),展开了对有监督学习模式下的层次化特征选择算法和半监督学习模式下特征选择算法的研究,并提出了一种适用于多种监督学习模式的特征选择方法,最后探讨了当监督信息不确定时选择特征的过程。主要研究成果包括:(1)在有监督学习模式下,针对由复杂的类别关系带来的问题,假设文本的类别由类树结构进行组织,提出了层次化文本分类中的特征选择算法FSRRH。设计了在不同层次上抽取训练集的方法,以解决类别分布不平衡的问题;采用标准化处理的信息增益方法,选择预测能力不同的特征子集;最后对传统的近似Markov毯进行改进,以支持在特征子集之间去除冗余特征的功能。实验结果表明,与平铺的方法以及其它层次化特征选择方法相比,在高维文本集中,算法FSRRH对分类性能有着较为显著的提高,减轻了不平衡的类别分布对特征选择的影响。(2)在半监督学习模式下,针对文本分类中的“标注瓶颈”问题,提出一种半监督特征选择算法SFRSC。利用少量已标注(labeled)样本的同时兼顾大量的未标注(unlabeled)样本,基于相关集准则理论,有效判断扩展类标号的方向和范围。同时设计了综合计算类簇自相关度和类簇间离散度的复合标准,并以此评价特征。在真实数据集上的实验表明,与其它两个基准算法相比,SFRSC更能充分利用样本所携带的信息,具有良好的性能和可扩展性。(3)在文本分类应用中,针对监督信息不同而导致需要重新设计特征选择算法的问题,从核方法的角度,详细地分析了有监督、半监督、无监督学习模式下特征选择间的一种内在联系,基于HSIC依赖性准则,提出一种可适用于多种监督学习模式的特征选择方法FSM_HSIC。通过核函数将(低维空间中的)非线性相关性映射为(高维空间中的)线性相关性,设计了Gram矩阵的不同构造方式,以支持方法FSM_HSIC在不同的监督学习模式下实例化为具体的算法。基于该方法,从核的角度对现有算法SPEC进行解释,并给出理论证明;同时基于该方法,设计了一种交互特征选择算法FSI。在仿真数据集和真实数据集上的实验表明,与若干基准算法和交互特征选择算法相比,算法FSI可以更有效地选出交互特征,并具有更好的稳定性和更快的收敛性。综上所述,该方法并不能囊括所有的算法,但具有重要的实用价值。(4)上述研究成果均是基于精确数据,针对监督信息不确定的问题,提出了特征选择算法FSUNT。该算法适合的应用背景是:训练样本的类别不是精确的,而是具有某种已知的不确定性。采用已有的概率方式或模糊信息熵方式来表示不确定性,并以此为基础,利用HSIC依赖性准则,将对模糊性的量化集成在Gram矩阵的构造过程中。最后实验结果表明,与两个基准算法相比,算法FSUNT能更合理地衡量特征与不确定类别间的相关性,能更有效地挖掘模糊形式下的监督信息,并具有较好的可扩展性。综上所述,本文的工作基于特征选择是由数据驱动和应用驱动的本质特点,围绕不同的监督信息,针对文本分类中特征选择面临的四个主要问题,提出了更为有效的解决方法,对于特征选择的研究和实用化具有一定的理论意义和应用价值。