数据挖掘系统及其应用研究——用关联特征提高朴素贝叶斯文本分类器的性能

被引量 : 0次 | 上传用户：dabeisha

【摘要】

：

文本分类就是自动地将自然语言文本文档根据其内容分类到预定义好的类别中去。随着在线文本文档数量的快速增长，文本分类已经成为处理和组织文本数据的一种关键技术。文本分类

【作者】

：

张利军

【发表日期】

：

2003年期

【关键词】

：

数据挖掘文本挖掘文本分类朴素贝叶斯关联特征

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分类就是自动地将自然语言文本文档根据其内容分类到预定义好的类别中去。随着在线文本文档数量的快速增长，文本分类已经成为处理和组织文本数据的一种关键技术。文本分类技术可以用来对新闻分类，可以从互联网上发现有用信息，还可以用在搜索引擎中提高搜索效率。朴素贝叶斯分类器由于其简单性及计算的有效性，一直在文本分类领域中占有很重要的地位。但是由于传统的朴素贝叶斯分类器以单个的单词作为特征，并且认为任意两个单词之间的出现与否是互不相关的，即单词之间是相互独立的，在现实世界中这种假设显然是不成立的，这在一定程度上影响了分类器的性能，如果能够减轻或消除这一假设的影响，就可以提高分类器的性能。为了减轻朴素贝叶斯假设对分类器性能的影响，我们提出了关联特征的概念，关联特征是多个同时在一个文档中频繁出现的单词的集合。关联特征不但能够比单个的单词更好地描述一个概念，而且能够描述它所包含的单个单词（称之为原始特征）不能描述的概念。在Apriori算法的基础上，我们提出了一种挖掘关联特征的算法ATM（Association Terms Mining），用来在训练文档集上挖掘频繁的关联特征。为了压缩特征空间，提高分类效率和性能，同时提出了对关联特征进行剪枝的冗余剔除算法和利用信息增益进行筛选的特征筛选算法，并以关联特征作为分类特征实现了我们的文本分类系统NBAT。在Reuters21578文档集中10个类别上的测试结果表明，关联特征能够提高朴素贝叶斯文本分类器的性能。使用关联特征比不使用关联特征在Support=0.1时，宏平均BEP提高了6.9％，而宏平均F₁提高了12.2％。在本文的结尾，指出了NBAT的主要不足，即挖掘效率低，当特征空间较大，或设置的支持度阈值比较低时，难以挖掘出所需要的关联特征，并提出了可能的解决方法。最后展望了以后的研究工作的几个方向。

其他文献

黄芪注射液联合恩替卡韦抗乙型肝炎病毒感染机理研究

目的:通过体内外实验研究黄芪注射液联合恩替卡韦抗乙型肝炎病毒感染的作用和机理。方法:1.黄芪注射液联合恩替卡韦抗乙型肝炎病毒感染雏鸭体内实验研究。筛选感染鸭乙型肝炎

学位

黄芪注射液恩替卡韦慢性乙型肝炎乙型肝炎病毒中医中药

微小扑翼飞行器机翼及机构模型的设计与实验研究

由于微扑翼飞行器在国民经济各领域尤其在国防领域潜在的应用价值，世界范围内正呈现出微扑翼飞行器研究的热潮。论文针对微扑翼飞行器的初始设计阶段，做了以下一些工作：首先根据

学位

扑翼飞行微扑翼飞行器仿真仿生学模态分析

化学机械抛光工艺中相关问题的数值模拟

随着21世纪科学技术的突飞猛进,微电子技术是当代科技发展最快的技术之一,而集成电图(Integrate Circuits简称IC)又是微电子技术的核心。随着IC技术朝着特征尺度逐渐微细化、

学位

化学机械抛光双面抛光润滑方程粗糙表面分形压力分布平均压差率

“白描”争议二题

<正>写作专著、教材、词典等,大都认为“简笔勾勒”是白描技法的本质特征,其实,此论与白描这一中国画的传统技法的本来意义、与前人将“白描”借用为写作技法名称的论述及写

期刊

十八描简笔勾勒减笔描工笔重彩画

直升机桨叶助力器电液伺服加载系统的研究

本文主要讨论某型直升机桨叶助力器寿命试验台的液压伺服加载系统的研制及其消除多余力的方法。该试验台共有五个部分，包括供油系统、油液加热系统、试件恒温系统、位置控制系

学位

助力器液压伺服加载系统多余力数字仿真积分分离PID控制位置同步补偿速度反馈CVI

慢病毒介导的人PLK1RNA干扰对食管鳞癌细胞裸鼠移植瘤的抑制作用及机制

目的研究靶向人PLK1的RNA干扰对食管鳞癌细胞裸鼠移植瘤生长的影响及其机制。方法介导PLK1 siRNA表达的重组慢病毒感染食管鳞癌细胞,通过荧光定量PCR和Western blot检测PLK1

期刊

PLK1基因RNA干扰慢病毒载体食管鳞癌Caspase-3CD31血管生成

排气净化器在轻型汽油车上的应用研究

排放法规的严格执行，促使中国汽车业加快了汽车排放控制技术的应用研究和开发，本文在这一背景下，结合重庆长安汽车公司的实际情况，首先分析了国内外各个历史时期的排放控制技术，阐

学位

汽车排放尾气净化器催化技术性能试验

我国股票市场虚假信息披露问题研究

“公开、公平、公正”是股票市场的三个基本原则，也是证券立法的最高指导原则。其中的公开原则就是股票发行与交易的基础，所以作为公开原则在证券市场中的具体体现，信息披露制度

学位

：虚假信息披露信息不对称制度安排公司治理结构

现代美国俚语探析

期刊

美国俚语标准英语美国英语

应用ISSR和RAMP标记研究黑麦属遗传多样性

黑麦是小麦的近缘物种，具有改良小麦所需的许多目标性状，是丰富小麦遗传变异，选育优良新品种的重要基因资源。目前，黑麦属系统分类学、细胞遗传学、分子遗传学以及在小麦育种中的

学位

黑麦属基因资源ISSR标记RAMP标记遗传多样性聚类分析

数据挖掘系统及其应用研究——用关联特征提高朴素贝叶斯文本分类器的性能

与本文相关的学术论文