数据挖掘系统及其应用研究——用关联特征提高朴素贝叶斯文本分类器的性能

被引量 : 0次 | 上传用户:dabeisha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类就是自动地将自然语言文本文档根据其内容分类到预定义好的类别中去。随着在线文本文档数量的快速增长,文本分类已经成为处理和组织文本数据的一种关键技术。文本分类技术可以用来对新闻分类,可以从互联网上发现有用信息,还可以用在搜索引擎中提高搜索效率。 朴素贝叶斯分类器由于其简单性及计算的有效性,一直在文本分类领域中占有很重要的地位。但是由于传统的朴素贝叶斯分类器以单个的单词作为特征,并且认为任意两个单词之间的出现与否是互不相关的,即单词之间是相互独立的,在现实世界中这种假设显然是不成立的,这在一定程度上影响了分类器的性能,如果能够减轻或消除这一假设的影响,就可以提高分类器的性能。 为了减轻朴素贝叶斯假设对分类器性能的影响,我们提出了关联特征的概念,关联特征是多个同时在一个文档中频繁出现的单词的集合。关联特征不但能够比单个的单词更好地描述一个概念,而且能够描述它所包含的单个单词(称之为原始特征)不能描述的概念。 在Apriori算法的基础上,我们提出了一种挖掘关联特征的算法ATM(Association Terms Mining),用来在训练文档集上挖掘频繁的关联特征。为了压缩特征空间,提高分类效率和性能,同时提出了对关联特征进行剪枝的冗余剔除算法和利用信息增益进行筛选的特征筛选算法,并以关联特征作为分类特征实现了我们的文本分类系统NBAT。 在Reuters21578文档集中10个类别上的测试结果表明,关联特征能够提高朴素贝叶斯文本分类器的性能。使用关联特征比不使用关联特征在Support=0.1时,宏平均BEP提高了6.9%,而宏平均F1提高了12.2%。 在本文的结尾,指出了NBAT的主要不足,即挖掘效率低,当特征空间较大,或设置的支持度阈值比较低时,难以挖掘出所需要的关联特征,并提出了可能的解决方法。最后展望了以后的研究工作的几个方向。
其他文献
目的:通过体内外实验研究黄芪注射液联合恩替卡韦抗乙型肝炎病毒感染的作用和机理。方法:1.黄芪注射液联合恩替卡韦抗乙型肝炎病毒感染雏鸭体内实验研究。筛选感染鸭乙型肝炎
由于微扑翼飞行器在国民经济各领域尤其在国防领域潜在的应用价值,世界范围内正呈现出微扑翼飞行器研究的热潮。论文针对微扑翼飞行器的初始设计阶段,做了以下一些工作:首先根据
随着21世纪科学技术的突飞猛进,微电子技术是当代科技发展最快的技术之一,而集成电图(Integrate Circuits简称IC)又是微电子技术的核心。随着IC技术朝着特征尺度逐渐微细化、
<正>写作专著、教材、词典等,大都认为“简笔勾勒”是白描技法的本质特征,其实,此论与白描这一中国画的传统技法的本来意义、与前人将“白描”借用为写作技法名称的论述及写
本文主要讨论某型直升机桨叶助力器寿命试验台的液压伺服加载系统的研制及其消除多余力的方法。该试验台共有五个部分,包括供油系统、油液加热系统、试件恒温系统、位置控制系
目的研究靶向人PLK1的RNA干扰对食管鳞癌细胞裸鼠移植瘤生长的影响及其机制。方法介导PLK1 siRNA表达的重组慢病毒感染食管鳞癌细胞,通过荧光定量PCR和Western blot检测PLK1
排放法规的严格执行,促使中国汽车业加快了汽车排放控制技术的应用研究和开发,本文在这一背景下,结合重庆长安汽车公司的实际情况,首先分析了国内外各个历史时期的排放控制技术,阐
“公开、公平、公正”是股票市场的三个基本原则,也是证券立法的最高指导原则。其中的公开原则就是股票发行与交易的基础,所以作为公开原则在证券市场中的具体体现,信息披露制度
黑麦是小麦的近缘物种,具有改良小麦所需的许多目标性状,是丰富小麦遗传变异,选育优良新品种的重要基因资源。目前,黑麦属系统分类学、细胞遗传学、分子遗传学以及在小麦育种中的