自动文本分类关键技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:frgverger343
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Interent的迅速发展,电子文本资源急剧膨胀,自动文本分类技术作为电子文本自动组织和管理的基础,应运而生。该技术的出现,极大方便了人们准确定位信息和管理信息,可被广泛应用于信息检索和文本过滤等领域。 但是,自动文本分类任务具有类别和样本数目多、特征维数高、噪音多、各类别样本数目不均衡等特点,文本分类器的准确性、稳定性和快速性还有待进一步提高。本文对影响文本分类性能的多项关键技术进行了深入的研究,提出了有效的改进办法。 本文的研究内容和创新性工作主要包括以下几个方面: 1.在信息检索领域,查全率与查准率的关系已在理论上有了深入的研究,但是在文本分类领域,二者的关系一直通过实验数据直观观察。本文首次从分类器整体性能评估的角度出发,从理论上分析了查全率、查准率以及测试集之间的关系,证明了在测试集确定的前提下,整个分类器的查全率与查准率是一对相互一致的性能指标,针对单个类别的查全率和查准率之间存在相互制约的关系,并且用实验对该结论进行了验证。 2.经典的特征权重计算方法TFIDF(Tem Frequency and Inverted DocumentFrequency)认为,文本中某特征的重要程度与特征在文本中出现的次数成正比,与训练集中包含该特征的文档数目成反比。本文考虑到特征在整个训练集中的分布对其重要程度的影响,提出了一种基于类别分布的特征权重计算方法 TFIDFIE(Term Frequency,Inverted Document Frequency and Inverted Entropy),增大只在一个或几个类别中集中出现的特征的权重,减小在大多数类别都出现的特征的权重。实验结果表明,该方法可以显著提高分类性能。 3.特征选择和文本表示是两个相互独立的模块,特征选择的本质是考虑特征和类别的关系,选出对分类贡献大的特征:文本表示的本质是考虑特征与单个文本的关系,突出能代表文本的重要特征。本文分析了在文本表示时引入特征和类别的关系,对特征选择和分类器性能的影响。理论分析和实验结果都证明,特征选择和文本表示模块对特征与类别关系的分别引入,是两个相互独立的行为,互不影响。在文本表示模块使用特征和类别的关系,可进一步改善分类性能。 4.免疫机制的本质是区分“自己”与“非己”,本文借鉴了免疫系统的克隆选择和抗体浓度控制原理,提出了一种新的文本分类算法——基于抗体浓度的克隆选择算法,其中抗原对应训练文本,B细胞对应分类器的可能解,抗体对应分类器的解与训练文本的亲和度。该算法基于抗体的浓度和亲和度选择免疫反应细胞,具有高亲和度和低抗体浓度的细胞其选择概率相对较高。对多个免疫反应细胞经过多次克隆变异后选取最优解作为记忆细胞,由最终保留的记忆细胞群生成分类器。整个过程既保证了解的正确性,又保证了解的多样性。通过在数据集20 newsgroups上和Rocchio、Naive Bayes及SVM算法进行比较,发现在我们的实验中,该算法的分类性能优于Rocchio和Naive Bayes,与SVM性能相当。 5.由于信息资源分布的特殊性,在实际应用中大部分数据集都存在各类别样本数目不均衡的特点,而大部分的分类算法并没有考虑这个问题,训练时把各类别同等对待。本文针对这种情况,从数据集的层面上进行改进,提出了类别均衡法,以改善小类别的分类性能。类别均衡法首先根据类别规模以类为单位对不均衡训练集重新采样,得到若干个类别分布比较均衡的训练集,然后在新的训练集上进行训练。实验显示,类别均衡法简单有效,无需对小类别的训练样本重新采集扩充,只需对训练集进行重组处理,就可以显著提高分类性能。 6.本文设计并实现了一个网站资源自动分类系统,该系统使用了本文提出的基于类别分布的特征权重计算方法和基于抗体浓度的克隆选择分类算法。结合实际应用,采集了一个较大规模的新浪数据集,包含15个类别,17445篇文档,并在这个数据集上进行了实验。实验结果显示,该系统在同等类别的系统中处于相对领先的地位。
其他文献
CpG ODN是一类以CpG为核心的具有免疫激活功能的寡核苷酸序列。它能直接或间接激活B细胞、树突状细胞、巨噬细胞、抗原提呈细胞、T细胞、NK细胞的活化或增殖,诱导以Th1型为主
本研究测定了28株粉棒束孢(Isariafarinosa)菌株的几丁质酶的活性,从中筛选出高产几丁质酶菌株RCEF0622,优化了该菌株的产酶条件,纯化了几丁质酶并测定了其纯酶的性质。还对高产
为适应铁路客车全面提速对新型客车的安全运行的要求,本文对新型铁路客车轴温检测及发电机控制装置进行了研究。该装置以80C196单片机为控制核心,具有轴温检测和发电机控制等功能。轴温检测是自动监测客车轴温变化,保证旅客列车运行安全的重要组成部分。本装置采用模拟传感器和数字传感器分别对轴温和环温进行实时检测,能够将温度就地显示,并且当温度超过设定温度值时发出报警信号,同时通过载波通信将报警信息传送到每节
图像中的直线或曲线检测一直是图像处理领域的研究重点。在计算机视觉、模式识别、人工智能等领域当中,许多应用都必须首先检测出图像中的直线或者曲线。Hough变换是当今直线
学位
合成孔径雷达(SAR)在民用和军事方面应用广泛,其发展水平已经成为衡量一个国家军事力量与综合国力水平的标志之一。SAR系统是一个复杂的电子系统,需要对各个部分进行细致的调试
小目标检测与跟踪一直以来都是光电成像检测系统的关键技术之一,本文旨在研究发展一些有效的小目标检测跟踪技术,以解决低信噪比小目标的稳定检测和跟踪问题。本文系统地阐述了
本文论述了智能化网络故障管理系统的设计与实现,此系统由三部分组成:故障告警管理模块、规则推理模块和关联分析模块。  在故障告警管理模块中,实现了Trap事件接收和通过短信
本文选择有代表性的野生大豆和栽培大豆为材料,以大豆功能基因片段为研究对象,在DNA序列水平上研究野生大豆和栽培大豆的群体遗传结构及其在栽培驯化过程中的演变规律。旨在进
除了丰富蛋白质oleosin,油菜种子油体中还存在有三种微量蛋白质,caleosin,steroleosin和Sop3。编码两亲性oleosin蛋白的基因已经在甘蓝型油菜中被分离克隆。本论文应用同源序列克隆法设计同源简并引物,结合RT-PCR和RACE-PCR等技术首次从甘蓝型油菜中成功分离克隆了编码caleosin蛋白的基因,分析了caleosin蛋白和caleosin基因的结构特征。从甘蓝型油
本文首先简要介绍国内外海洋环境监测的现状,分析了国内海洋环境监测与国外间差距和不足之处。结合863福建示范区系统集成项目工作,对863福建示范区立体监测系统中的监测数据现