基于聚类森林的文本流分类方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：luke_lemon

【摘要】

：

随着互联网的兴起,大规模数据流(特别是文本数据流)在实际应用中不断涌现。文本流的高维性、大规模性和概念漂移性等特点使传统静态分类方法很难有效的处理文本流分类问题,因

【作者】

：

宋歌

【出处】

：

哈尔滨工业大学

【发表日期】

：

2014年期

【关键词】

：

文本流分类概念漂移不平衡文本流半监督学习集成学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的兴起,大规模数据流(特别是文本数据流)在实际应用中不断涌现。文本流的高维性、大规模性和概念漂移性等特点使传统静态分类方法很难有效的处理文本流分类问题,因而近年来,面向文本流的分类问题引起了学者的广泛关注。本文针对高维文本流的特点,提出了四种基于集成学习的文本流分类算法,以解决文本流面临的分类问题。归纳起来,文本流具有以下五个特点:第一,文本流具有概念漂移的特点。第二,文本流具有大规模性和高维性的特点。第三,由于样本的人工标注信息难以及时获取,文本流中充斥着大量无类标样本。第四,文本流往往伴随着类别不平衡的特点。第五,在实际应用中,样本可能属于多个类别(即一个类别子集)。由于类别子集的可能组合极多,导致了分类的复杂性。针对文本流以上特点所带来的复杂的分类问题,本文提出了四种文本流分类算法,主要研究工作如下:首先,针对文本流概念漂移和海量高维性的特点,提出了一种基于集成学习的动态聚类森林分类算法(DCF)。该算法有两个关键策略,即自适应选择策略和投票策略。自适应选择策略通过定义精度权重来评估子分类器对当前数据块的性能,从而动态地选择最优子树。为了在兼顾历史数据的基础上充分挖掘最新数据的信息,DCF算法的投票策略结合了精度权重和置信权重。本文从理论上优化了DCF算法的参数选择并分析了DCF算法的性能。在八个模拟文本流和真实文本流上的实验结果表明:DCF算法具有较好的平均精度和点精度性能。其次,针对文本流的部分标注问题,设计了一种半监督聚类森林分类算法(CCEM-PL)。CCEM-PL算法提出了一种新的半监督聚类树模型作为子分类器。半监督聚类树通过生成实节点和虚节点充分挖掘了无类标样本的信息,不仅使之辅助划分类别分界面,还反映了最新概念的分布情况。CCEM-PL算法根据半监督聚类树的结构分布定义实精度权重和相似度权重,并依据这两类权重对半监督聚类树进行投票。在四个文本流上的实验结果表明CCEM-PL算法具有良好的分类性能。再次,针对文本流动态不平衡性问题,提出了一种不平衡文本流的聚类森林分类算法(CFIM)。为了着重分析少数类概念的漂移情况,CFIM算法设计了动态重抽样策略。该策略通过自适应的收集符合当前概念的少数类样本和错分样本,不但能平衡不同类别的样本数,同时还能加强对错分样本的训练,从而达到提高分类器性能的目的。通过对五个不平衡的文本流进行实验,结果表明,CFIM算法与传统的分类算法相比,具有良好的分类性能。最后,针对多类标文本流的分类问题,本文提出了一种多类标聚类森林分类算法(MLDE)。该算法以多类标聚类树为子分类器,在自适应的选择多类标聚类树后,通过集成策略得到基于子集精度权重和子集置信权重的最终投票结果。通过对四个多类标文本流进行实验,结果表明,多类标聚类森林算法的分类性能明显优于其他四种经典的多类标分类算法。

其他文献

国美零售嬗变

32岁的国美,正在转型路上前行。过去两年,＂国美电器＂变身＂国美零售＂,开启大规模自我升级,拥抱线上线下融合。从提出＂家.生活＂理念到推行＂共享零售＂战略,从家电零售到提供家庭整体解决

期刊

家电零售国美电器嬗变整体解决方案模式转型主业

大脑图像分析中若干问题的研究

德国物理学家伦琴在1895年发现了X射线,并于1901年获得了首届诺贝尔物理学奖。Hounsfield和Cormack由于发明了CT成像技术,在1979年获得了诺贝尔医学和生理学奖。Lauterbur和M

学位

图像分割分类图像检索全基因组关联研究

大数据技术背景下网络数据隐私安全隐患分析与对策

在互联网大数据技术发展的浪潮下,普通互联网用户网络数据安全难以得到保障,互联网隐私数据安全形势愈发严峻,要想较为全面地解决这一问题,需要互联网用户、互联网服务商、互

期刊

网络数据商业安全隐患对策

阿里巴巴集团首席人才官、菜鸟网络董事长童文红复制阿里基因

<正>6万军团拥抱"五新",组织的阿里味如何才能不稀释?阿里巴巴集团今年的大举动莫过于"五新"战略的提出和全面推进。1月,集团宣布组织结构全面升级,举集团之力拥抱"五新"(新

期刊

阿里巴巴集团全面推进面向未来CBR

研究生态园林设计中的植物配置问题

生态园林设计是生态文明建设的要求之一，园林建设不断影响着人们的生活环境、审美需求，同时也对生态建设事业有着极大的意义。本文研究的主题是生态园林设计中的植物配置，这是决

期刊

生态园林设计植物配置问题方法

网络图像检索关键技术研究

网络图像检索技术是信息检索的一个重要内容,也是当前图像处理和计算机视觉领域中的一个研究热点。该技术通过提取和分析网络图像的视觉特征,为用户提供相关的网络图像检索服

学位

图像处理网络图像检索特征提取显著区域稳定兴趣点优化反馈

小学低段写话教学研究

写话教学是小学低段语文教学的重要组成部分,为中高段习作教学奠定基础。写话是小学低段学生语言实践的重要手段。但由于小学低段学生书面语言运用能力还不高,所以指导小学低

学位

小学低段写话教学现状教学实施

综合护理干预在血液透析低血压中的效果

血液透析是临床一种常见的治疗肾功能衰竭患者肾功能替代性手段,是晚期肾脏疾病患者维持生命、提升生活质量的主要治疗方式。通常情况下,在血液透析中难免会伴有相应的并发症

期刊

护理血液透析低血压

代谢综合征与结肠癌关系的Meta分析

目的通过Meta分析探讨代谢综合征与结肠癌的关系。方法计算机检索中国知网、万方数据库、PubMed、Ovidsp数据库,时限为1990年1月至2014年5月。按纳入和排除标准,进行文献筛选

期刊

代谢综合征结肠癌Meta分析

俄罗斯社会舆论中的中国形象——基于2017年俄罗斯涉华舆情的分析

俄罗斯作为世界性的大国,是中国最大的邻居,在我国加强国际传播能力的建设中发挥着特殊作用。俄罗斯涉华报道兼具正面与负面内容,但观察角度较为实际和客观,甚少因政治偏见与

期刊

中国形象涉华舆情软实力国际传播俄罗斯

基于聚类森林的文本流分类方法研究

与本文相关的学术论文