决策树的集成选择及在不平衡文本分类中的应用

来源 :烟台大学 | 被引量 : 0次 | 上传用户:hongfengye365
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习与数据挖掘中,分类是一个重要的研究领域,而决策树是一种常用的分类模型。决策树是一种树形结构,存在不稳定性。集成学习是解决决策树稳定性的重要手段,集成可以整合多棵决策树,通过投票等方法将决策树的预测结果组合到一起,给出一个更稳定、准确的预测,提高泛化能力。但集成中往往会存在冗余成员,这些冗余成员可能会降低集成的预测性能。集成选择能去除冗余成员,提高集成的性能,减少存储空间和计算时间。由于集成的准确性和泛化能力在很大程度上依赖于成员分类器的性能及其多样性,因此选择一个精确多样的子集成能提高对未知样本的预测精度。文本分类是自然语言处理和文本信息挖掘的基本任务之一。决策树易于解释,广泛应用于文本分类问题。本文围绕决策树的集成选择及其在不平衡文本分类中的应用展开研究,提出了一种同时考虑决策树语义和结构的多样性度量方法,对最近提出的卡尔曼滤波集成方法(KalmanFilter-basedHeuristicEnsemble,KFHE)进行分析和集成选择,应用决策树的集成选择对类别不平衡的文本进行分类。本文的主要研究内容包括以下几个方面:(1)提出了一种基于加权Jaccard距离(WeightedJaccardDistance,WJD)的决策树集成选择方法,该方法能够从决策树的形态结构以及验证集上的分类结果来度量决策树的多样性。首先对WJD的性质进行分析,然后以WJD为距离度量方法,采用基于聚类的集成选择方法来选择多样性的决策树。在UCI数据集上的实验表明了WJD的有效性,WJD的剪枝结果具有明显优势。(2)KFHE是最近提出的一种决策树集成方法,本文对KFHE的性质进行了分析,给出3个定理并进行了证明,指出KFHE中存在冗余成员;为减少冗余成员进一步提高集成的性能,提出了一种基于有序选择的集成选择方法(Order-basedKalmanFilterSelectiveEnsemble,OKFSE);实验结果表明OKFSE在含有噪声的数据集中有更好的预测性能和鲁棒性。(3)研究决策树的集成选择在不平衡文本分类中的应用,使用不同的决策树集成方法以及剪枝方法在类别不平衡的文本数据集中进行实验,并对实验结果进行分析总结。
其他文献
城市化过程是改革开放以来我国经济、社会发展的重要表现形式。大量人口由农村进入城市,使城镇人口不断增长,城镇建设用地不断扩张。过快城市化致使城镇建设用地呈粗放式蔓延,土地效用得不到提升,土地资源大规模浪费。同时,城镇建设用地的盲目扩张导致耕地被挤占,耕地面积占比不断下降,粮食安全难以得到保障;生态用地受到破坏,生态环境承载力下降。因此,必须通过划定城镇开发边界的手段引
硕士学位论文楚凤纹在球鞋上的设计创新与研究专业学位类型艺术硕士领域名称艺术设计论文作者陈愉指导教师张瑞超副教授论文提交时间2021年5月28日ThesisSubmittedtoNorthwestA&FUniversityinPartialFulfillmentoftheRequi
学位
ZnO是具有良好光电功能的半导体材料,其薄膜是制备各种光电器件和UV光发生器件的优秀材料,Cu2O也是非常具有潜力的太阳能电池材料。制备大面积的ZnO和Cu2O薄膜,对于它们的性质和应用研究十分具有意义。本文通过电化学阴极沉积方法制备了一系列的纳米ZnO薄膜和ZnO/Cu2O复合材料薄膜,并对它们做了SEM、XRD和UV-Vis光谱的表征。在纯ZnO薄膜的制备过程中,本论文采用低浓度的Zn(NO3
学位
本文以TiO、TiO/堇青石为为载体,用水热合成法,经焙烧及KBH浸渍等合成了负载型金属催化剂。对以TiO催化剂,通过向其表面负载Ag,改善了该催化剂氢化还原后的抗氧化能力。对Fe-Ni-B/TiO/堇青石催化剂的制备工艺进行了深入研究。研究表明,催化剂的最佳合成工艺及条件为:150℃水热合成→500℃焙烧3 h→KBH浸渍→400℃氢气还原。利用该合成工艺,分别以FeSO·7HO、Fe(NO)·
学位
本文采用沉淀法制备ZrO、ZrO-LaO载体,用Ca(NO)溶液浸渍后,在不同温度下焙烧制得CaO/ZrO-LaO固体碱催化剂。XRD测试结果表明,400℃~600℃焙烧下的样品中CaO和ZrO多以固溶体形式共存,且只有四方相ZrO衍射峰,个别样品出现了CaZrO衍射峰。添加稀土元素La后,700℃焙烧下的样品均不同程度出现了CaZrO衍射峰。SEM结果表明,固体碱样品主要为不规则块状物,表面有大
近年来,全球性金融危机、美联储加息、中美贸易战、全球新冠肺炎疫情等一连串事件的出现使得我国宏观环境变化多端,经济处于持续波动的状态。为此,我国政府提高了宏观调控力度,屡次出台一系列政策,经济政策的不确定性增大。宏观环境变化的冲击对微观市场的发展有着巨大影响,经济政策不确定性的提高极大地干扰了企业对未来形势的判断,加剧了其经营风险,因此企业必须对融资等经营决策行为的制定更加审慎。然而,目前研究经济政
随着我国建筑业的发展,传统的工程咨询模式越来越难满足业主的多元化需求,为进一步深化建筑业“放管服”改革,促进我国建筑业持续健康发展,国务院、国家发展和改革委员会、住房和城乡建设部等提出将全过程工程咨询作为工程咨询的重点发展方向,以此推动工程咨询业的快速发展,提高决策科学性、提高工程质量及工程投资收益。全过程工程咨询具有业务范围广、持续周期长、开展难度大等特点,对咨询
随着“工业4.0”战略及“中国制造2025”计划的开展,传统机器的转型升级成为工业领域建设的重点,机器故障诊断作为工业领域一项重要技术也逐渐成为人们关注的焦点。早期的机器故障诊断是故障诊断专家或工程师通过自身经验对机器故障进行人工诊断,但专家和工程师的人工经验需要长时间的积累,代价高昂且故障诊断效率较低。随着机器设备的智能化发展及机器种类的不断增加,故障诊断专家和工
新课标要求培养学生对信息技术的兴趣和意识,让学生了解和掌握信息技术基本知识和技能,了解信息技术的发展及其应用对人类日常生活和科学技术的深刻影响。通过信息技术课程使学生具有获取信息、传输信息、处理信息和应用信息的能力;培养学生良好的信息素养,把信息技术作为支持终身学习和合作学习的手段,为适应信息社会的学习、工作和生活打下必要的基础。本文就小学信息技术教育的教学目标,信
第一部分:开题报告一、选题背景与意义(一)选题背景在当下来说,掌握数学素养对当代社会的人已经成为了必要的生存条件,作为未来的社会主义建设者和接班人的数学素养必不可少。在新时代背景下的中国学生要学习数学,必须学习数学,务必学好数学,对个人发展,对社会、国家的发展都显得尤为重要。我们希望我国未来