基于类别结构的文本层次分类方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:wangyc726
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是文本数据挖掘中的一项关键技术,其主要任务是在预先给定的类别标记集合下,根据文本内容利用有监督学习的方法判定它的类别。文本分类在自然语言处理、信息组织与管理等领域都有着广泛地应用。但是,近年来文本分类的类别规模越来越庞大,如Yahoo! Directo、Open Direct Project (ODP)等都已经有成千上万个类别,如果把这些类别并列组织,那么将一个文本进行正确分类的难度非常大,同时用户从中找到感兴趣的类别也需要花费大量的时间。因此,现实生活中的分类体系往往将类别组织成层次结构。由于这种层次结构经常以树的形式,因此被称作“类树”。基于这种类树结构,研究者们引入了层次型文本分类方法,它不但能够符合用户的行为习惯,方便用户检索、浏览文档,而且可以通过限制搜索范围减少分类过程中的计算量,提高分类质量。由于在层次型文本分类中,类别被组织成层次结构,在某一层中对类别有较好区分作用的特征词可能在其他层中对类别的区分作用不大,而且在能减少阻滞的阈值降低策略中,阈值降低的度一直很难把握;而在类树中不仅各个类别之间存在着一定的联系,其训练样本之间也都存在着一定的联系,这些在层次分类的特征选择、层次分类模型的训练以及分类器阈值的确定方面都是不可忽视的因素。相对于爆发式方法,自顶向下式层次分类方法由于能够更好的利用层次结构所提供的信息而备受关注,然而这种方法却存在着“阻滞”问题,而且由于分类器自身性能的限制,“阻滞”问题又是不可避免的,那么,如何利用这些类树和样本的层次结构信息和“阻滞”问题中携带的一些隐含信息来减少“阻滞”带来的影响,提高分类质量仍然是一个值得研究的课题。本文的主要研究内容和创新点包括以下几个方面:1.提出了一种面向层次分类的文本特征选择方法在借鉴已有的特征选择方法的基础上,提出了一种面向层次分类的文本特征选择方法。首先根据类别在类树中的语义关系给出了类别层次相关和类别层次不相关的概念,并根据类树的层次结构和各类别的训练样本的分布情况,提出了一种利用数学手段进行度量的方法;然后,考虑到各层次的训练样本对特征词的类别区分能力的不同贡献和类别之间的层次相关性,根据提出的类别层次相关度的计算方法,可以为类树中每个类别根据其所在层次赋予不同的重要度;再利用概率的方法获得特征词的类别相关性;最后,基于前面的结果,计算每个特征对类别的识别能力。实验结果表明:该方法不管在选取的特征质量上还是在accuracy、F1和micro-Precision等分类测度上均优于传统方法。本部分的创新点:(1)通过分析类树中类别之间的语义关系,提出了类别层次相关的概念,并提出了一种度量方法。(2)根据类树的层次结构特点和各层次的训练样本对特征词的类别区分能力的不同贡献,为在类树中构建的每个分类器选择不同的特征词进行特征表示,为层次分类的特征选择开辟了一个新的思路。2.提出了一种基于类树全局信息的文本层次分类方法在自顶向下式层次分类过程中,由于“阻滞”现象的存在,使得在上层分类器中产生的错误分类将会在下层分类器中得到进一步增强,根据这一特点,定义了一种新的层次损失函数,可以对产生阻滞的分类器根据其所在的层次以及其影响范围给予不同的惩罚。以该层次损失函数最小化为目标,将“阻滞”现象中的一些隐含信息以及类树中类别和样本的层次结构信息引入boosting方法的框架中,通过调整各迭代过程中训练样本的质量来改进分类模型的质量,最后将在各个迭代过程中构建的分类器进行组合来建立一个更好的层次分类模型,以减少在高层结点上“阻滞”现象的产生,实现改善层次分类整体性能的目的。实验结果表明:训练出来的分类器在accuracy、precision、recall、F1和microPrecicion等分类测度上均优于传统的AdaBoost方法;同时也说明“阻滞”现象中所隐含的一些信息对训练层次分类器有一定的作用,可以在一定程度上提高层次分类的分类效果,减少在上层发生阻滞的机会,为以后对“阻滞”信息的使用提供了一定的借鉴作用。本部分的创新点:将层次型文本分类引入boosting框架中,并能结合层次型文本分类中类别和文档的层次结构信息以及发生“阻滞”时的一些隐含信息,提出一种新的层次损失函数和调整各训练样本权重的方法,以改进层次分类模型的质量,提高层次分类的整体性能。3.提出了一种基于回溯算法的文本层次分类方法考虑到不同层次的训练样本对特征词区分作用的不同贡献,我们将信息增益方法和文档的层次信息相结合进行特征选择,使得选取的特征词能更符合层次分类的特点。在能减少阻滞的阈值降低策略中,阈值降低的度一直很难把握。为了给每个分类器确定一个合适的阈值,通过对训练样本在各类中分布的特点进行分析,结合类别之间的关系,将在某类别结点上构建的分类器的训练样本分成三个子集对KNN分类器进行训练,使类树中的每个分类器都能获得一个阈值的取值范围,为阈值的选择提供了一定的依据。然后,利用回溯方法,获得文档的候选类别集合,最后利用文档与候选类别质心之间距离的远近来确定文档的最后类别。实验结果表明:该方法可以减少上层阻滞的发生,其整体分类效果要优于KNN方法。本部分的创新点:(1)根据类别和样本的层次分布特点,对信息增益特征选择方法进行了适当的改进,使选择的特征词能更适合层次分类的特点。(2)在阈值降低策略的基础上,通过分析层次型文本分类中各类别的训练样本的分布特点,结合KNN分类方法,提出了一种新的确定各结点阈值取值范围的方法。并结合回溯方法对文档进行层次分类获得文档的候选类别集合,最终根据文档和候选类别的质心之间的距离远近决定文档的最终类别。综上所述,本文主要围绕类别组成的层次结构进行展开,根据层次型文本分类的特点,在层次型文本分类的特征选择、“阻滞”信息的使用以及减少“阻滞”的策略方面做了更进一步研究,并通过实验进行了验证。本文的研究丰富和完善了层次型文本分类的内容,为更好的使用类树的层次结构信息提供了一个新的思路。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的探讨肝细胞癌多普勒超声征象与血清高迁移率族蛋白B1(HMGB1)和血管内皮生长因子(VEGF)表达的关系。方法采用多普勒超声对96例肝癌患者癌肿大小进行大体形态分型,同时检测血流
目的:观察不同剂量右美托咪啶(DEX)对眼科患儿全身麻醉苏醒期躁动的预防效果和安全性。方法将60例眼科择期手术患儿,分成C组、DEXⅠ组、DEXⅡ组。记录各组患儿清醒时、拔管后1 mi
企业人事档案是企业职工经历、政治思想,业务技术水平、工作表现及工作变动等情况的文件材料,是全面考察、了解、管理、使用员工的重要依据。随着现代企业制度的逐步建立,许多企
患者,女性,21岁。2006年10月在无明显诱因下出现左小腿肿胀,未处理,可自行缓解,12月出现右小腿局部红、肿、痛及突发性右下肢全程肿痛,并出现行走困难。于外院行彩超检查提示右股总
本论文的目标是开发自动分割算法,将脑MRI图像分割成不同的组织,即脑白质、脑灰质和脑脊液,为脑发育与人的衰老、有关脑疾病的诊断和治疗、脑外科手术规划和导航等应用提供定
文章首先针对当前组织环境中,人事档案信息化的发展现状以及存在的问题做出了必要的分析,而后就现存问题提出了j个方面的改进建议,对于深入挖掘和发挥人事档案的自身价值有着一
在信息时代的发展下,企业档案工作面临着挑战,只有思辨、革新,创新档案管理模式,企业档案管理工作才能适应现代化企业改革与发展,走向信息化、数字化、知识化、商业化管理模式。
计算机X线摄影(Computed Radiography, CR)是一种先进的成像技术,它采用影像板代替传统X线摄影技术所使用的胶片,具有动态范围大、系统空间分辨率高、探测面积大、探测效率高