面向文本流的聚类树分类方法研究

被引量 : 0次 | 上传用户:bjw72
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网技术的应用不断发展和普及,每时每刻都有大量的文本数据产生,例如实时新闻,电子邮件,即时聊天记录等。如何从文本数据流中挖掘出有用的信息已经受到工业界和学术界的广泛关注,而文本数据流的分类问题是文本流挖掘中非常重要的一个领域,可应用于垃圾邮件的分类,恐怖活动侦查等方面。本课题针对文本数据流的分类问题而进行了深入的研究,已完成的工作如下所示:(1)深入分析了文本数据流的生成方式、特点以及文本流学习上当前遇到的挑战;另外,本文总结了文本流分类算法和聚类树分类方法的国内外研究现状。(2)提出了一种强监督聚类树分类算法(CTL):该算法在训练阶段更加合理地利用了数据中的类标信息,在度量样本间相似度的问题上同时考虑了属性空间和类标空间的相似性,使得构建的聚类树模型更全面的反映训练数据的特征。另外,CTL算法中使用了一种新的聚类算法,其能够根据簇的重要性计算簇中心。在本算法的实验部分,相比于原始聚类树算法,常用树形分类算法(C4.5,CART和Random Forest)和SVM算法,CTL算法在处理高维文本数据时有一定的优势。(3)针对文本流分类问题,本文提出了一种基于CTL的动态集成分类算法。该算法使用CTL算法作为基分类器,使用最近的数据块作为验证集,计算每个基分类器精度,然后使用了两种基于精度的加权方式。在本算法的实验部分,对比了四种集成方式和三种基分类器的组合,在不同的数据集上验证了该算法的有效性。
其他文献
第二次工业革命以来,各个国家致力于将钢结构焊接技术发展到炉火纯青的程度。钢结构焊接技术的完善对于重工企业是一次大的改革。但是,在焊接的过程中难免会出现各种各样的影
经济全球化和区域经济一体化是世界经济发展和我国经济发展的主流。加强法制建设是促进区域合作、区域一体化进程的重要法律保障。欧盟一体化是区域一体化成功的典型范例,其有
本文依托麻崖子隧道,主要研究III、IV、V级围岩隧道结构受力特性与安全性评价:首先,通过现场的地质预报与地质素描,认识不同级别围岩性质,成功预报出Ⅴ级围岩地段的断层破碎带和涌
考察云南省大、中、小学生亲社会倾向的发展趋势、类型特点和亲社会倾向与大中小学生学校适应的关系。采用分层随机取样的方式选取云南省大学生3249名和中小学生9055名,调查
对人才的需求已经引起各国政府和国际组织对教育的高度重视,纷纷在国家和地区层面进行大规模的教育评估。在大尺度教育评估中,如何向政府、管理者和公众报告学生表现是不可避
近年来,人们设计了许多不同结构的光波导来满足各种不同的需要,如目前广泛应用的光子晶体波导。众所周知,光子晶体是一种不匹配的电介质周期性结构,这种结构能够影响其中的光波传
股份制企业在发展中暴露出经营机制没有得到根本转变,现代企业制度尚未建立,有的企业仍政企难分,企业行为不规范和大股东的剥夺等问题.尽管理论界和国家也提出了改善公司治理
<正> 本书详细地提供了新皮亚杰学派在不同领城对皮亚杰理论的发展情况。新皮亚杰学派承认皮亚杰理论的基本概念和发展模式,并试图用这些概念来说明很多新的问题,增加皮亚杰
菜豆是世界上栽培面积最大的食用豆类,也是我国重要的食用蔬菜,其营养丰富,优质淀粉及蛋白质含量较高,在我国大部分地区均有栽培。东北是我国菜豆的主产区之一,品种资源十分丰富。
二维三轴编织复合材料通过在材料轴向引入增强纱束,增强了二维二轴编织复合材料的轴向力学性能,同时材料表现出更加优异的整体性能,具有广阔的应用前景。目前针对二维三轴编织复