文本分类中特征选择技术的研究

被引量 : 0次 | 上传用户:crazyinlove_2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,基于在线文本和电子文本的应用得到广泛普及,包括网络新闻检索、基于内容的垃圾邮件过滤、论坛舆情分析和博客话题发现等在内的多个领域已与人们的生活密不可分。为了有效地管理和利用文本信息,基于文本内容的分类逐渐成为备受关注的领域。而文本数据的高维性可能导致低效的计算,因此降维是文本分类过程中不可或缺的环节,已成为重点研究的技术。特征选择是数据挖掘和模式识别等领域中一项重要的预处理步骤,通过删除与学习目标无关的特征、冗余特征或噪声特征,达到降维的目的。由于监督信息(类别信息)是文本分类的重要组成部分,文本分类所具有的类别关系复杂、类别分布不平衡、标注瓶颈和类别不确定等特点,为特征选择研究提出了更多的挑战。本文以文本分类为背景,以特征选择为研究内容,围绕文本分类面临的主要挑战,重点关注具体应用中不同的监督信息(类别信息),展开了对有监督学习模式下的层次化特征选择算法和半监督学习模式下特征选择算法的研究,并提出了一种适用于多种监督学习模式的特征选择方法,最后探讨了当监督信息不确定时选择特征的过程。主要研究成果包括:(1)在有监督学习模式下,针对由复杂的类别关系带来的问题,假设文本的类别由类树结构进行组织,提出了层次化文本分类中的特征选择算法FSRRH。设计了在不同层次上抽取训练集的方法,以解决类别分布不平衡的问题;采用标准化处理的信息增益方法,选择预测能力不同的特征子集;最后对传统的近似Markov毯进行改进,以支持在特征子集之间去除冗余特征的功能。实验结果表明,与平铺的方法以及其它层次化特征选择方法相比,在高维文本集中,算法FSRRH对分类性能有着较为显著的提高,减轻了不平衡的类别分布对特征选择的影响。(2)在半监督学习模式下,针对文本分类中的“标注瓶颈”问题,提出一种半监督特征选择算法SFRSC。利用少量已标注(labeled)样本的同时兼顾大量的未标注(unlabeled)样本,基于相关集准则理论,有效判断扩展类标号的方向和范围。同时设计了综合计算类簇自相关度和类簇间离散度的复合标准,并以此评价特征。在真实数据集上的实验表明,与其它两个基准算法相比,SFRSC更能充分利用样本所携带的信息,具有良好的性能和可扩展性。(3)在文本分类应用中,针对监督信息不同而导致需要重新设计特征选择算法的问题,从核方法的角度,详细地分析了有监督、半监督、无监督学习模式下特征选择间的一种内在联系,基于HSIC依赖性准则,提出一种可适用于多种监督学习模式的特征选择方法FSM_HSIC。通过核函数将(低维空间中的)非线性相关性映射为(高维空间中的)线性相关性,设计了Gram矩阵的不同构造方式,以支持方法FSM_HSIC在不同的监督学习模式下实例化为具体的算法。基于该方法,从核的角度对现有算法SPEC进行解释,并给出理论证明;同时基于该方法,设计了一种交互特征选择算法FSI。在仿真数据集和真实数据集上的实验表明,与若干基准算法和交互特征选择算法相比,算法FSI可以更有效地选出交互特征,并具有更好的稳定性和更快的收敛性。综上所述,该方法并不能囊括所有的算法,但具有重要的实用价值。(4)上述研究成果均是基于精确数据,针对监督信息不确定的问题,提出了特征选择算法FSUNT。该算法适合的应用背景是:训练样本的类别不是精确的,而是具有某种已知的不确定性。采用已有的概率方式或模糊信息熵方式来表示不确定性,并以此为基础,利用HSIC依赖性准则,将对模糊性的量化集成在Gram矩阵的构造过程中。最后实验结果表明,与两个基准算法相比,算法FSUNT能更合理地衡量特征与不确定类别间的相关性,能更有效地挖掘模糊形式下的监督信息,并具有较好的可扩展性。综上所述,本文的工作基于特征选择是由数据驱动和应用驱动的本质特点,围绕不同的监督信息,针对文本分类中特征选择面临的四个主要问题,提出了更为有效的解决方法,对于特征选择的研究和实用化具有一定的理论意义和应用价值。
其他文献
作为一门综合性极强的学科——设计,它所遵循的美学很值得我们去细细品味其中的内涵。设计美学对于整个设计过程进行着理论指导,为整个设计指引审美方向,同时,它还提升设计师
俄汉成语研究具有悠久的历史。成语是人类智慧与生活经验的结晶,在人们的生活中被普遍使用。它是一种有效的语言手段,能够形象、精练地表达人们的思想。要想很好地使用俄汉成
英国是西方世界首创内阁制的国家。早在斯图亚特王朝后期,在种种主客观因素的推动下,此前处于萌芽状态的内阁逐渐走向公开化、独立化、制度化,由此标志着内阁制在英国的形成
目的:观察扶正合剂治疗乳腺癌化疗后白细胞减少的效果。方法:60例乳腺癌患者术后使用TAC化疗方案,按治疗方法不同回顾性分为两组:观察组30例,采用TAC化疗和扶正合剂治疗;对照
十八届三中全会以来,全国各级检察机关都在积极推进检务公开,基层检察机关作为服务群众的第一窗口,研究完善检务公开相关制度意义重大。本文主要研究了检务公开应当遵循的原
2005年10月15日—16日,南开大学历史学院和《历史研究》编辑部在天津联合举办“中国传统社会基本问题论坛”。“论坛”特别注重中国传统社会演进的重大问题、基本脉络的认识
语言是人类最重要的交际工具。语言交际的基本单位是句。从交际出发对一种语言的某个功能范畴中的句子进行研究具有重要的理论意义和应用价值。责训是一种言语行为,也是一种
对高速列车齿轮箱箱体结构的动态响应特性进行分析。对齿轮传动系统内部和外部动态激励进行数值模拟,建立考虑轮齿啮合的高速列车动力车整车动力学模型,内部激励主要考虑齿轮
目的:通过对血管性帕金森综合征(VPS)患者的一般资料、四诊信息及统一帕金森评定量表(UPDRS)部分的资料采集,分析VPS中医证候与UPDRS量表运动部分及一般资料的关系,同时进行VP
当代公共危机的频发,给人类社会造成了巨大的威胁和损害,政府作为公共事务的管理者,公共秩序的维护者,应对公共危机责无旁贷。对公共危机的管理是对政府危机管理能力的巨大挑