【摘 要】
:
随着互联网上数据量的急剧增长,人们检索各类数据的成本越来越高,更加便捷高效地自动分类信息就显得很重要。文本分类技术为更方便的检索信息提供了可能性,使其更加准确和高
论文部分内容阅读
随着互联网上数据量的急剧增长,人们检索各类数据的成本越来越高,更加便捷高效地自动分类信息就显得很重要。文本分类技术为更方便的检索信息提供了可能性,使其更加准确和高效。近年来,已经有一些新技术新思想被应用于文本分类中,但仍有部分环节需要改进和提升,比如特征权重算法改进和集成学习的应用等。所以本文在充分研究文本分类基础理论与架构的基础上,对传统方法进行改进从而使得文本分类的准确率更高,泛化能力更强。鉴于传统TF-IDF特征权重算法欠缺对特征词在文档集类别之间和类别内分布信息的描述,本文分别提出类别间特征词分布因子introC和类别内部特征词分布因子interC,将两者与传统算法结合形成了本文改进算法。因子introC还兼顾了对类别之间文档分布信息的描述,有效提高了分类算法对倾斜文本集的适应能力。实验结果表明改进算法较传统算法F1值有较大提升,对倾斜文本集适应性更强。主流的集成学习算法均基于同质基分类器,通过扰动训练样本破坏稳定性,从而获得多样性的基分类器。本文结合异质分类器具有较丰富的多样性的实验结果,设计了一种基于多角度扰动异质基分类器的集成学习模型训练方法,该方法从特征选择算法、特征维数与分类器参数角度进行扰动,丰富了基分类器的多样性,有效提高了分类模型准确率和泛化能力。本文实验结果初步验证了该训练方法的可行性以及有效性。
其他文献
利用液晶自适应光学技术,建立了一套验证系统.使用哈特曼传感器为波前探测器件,反射式的LCOS液晶器件为波前校正器件,以闭环控制校正方式工作。初步实现了波前PV值从1.02λ下
在小学语文教与学的活动过程中,教师要在明确教学目标的基础上,在熟练掌握教材的前提下,做出长远的规划,近期目标,以及每一堂课的教法安排。学生在老师的引导下,指导下,发挥自己的主
本文首先给出了广义筝形蝴蝶定理的坎迪形式,再利用坎迪定理给出了判断三点共线的一种方法。
本文在简述英语学科核心素养内容的基础上,分析了我国的基础英语教育存在的问题,探讨核心素养背景下的高中英语阅读教学,把培养学生的核心素养作为语言教学的出发点和归宿,实现了
1963年至1966年发生的“四清”运动是近代中国革命建设的一个重大政治运动。“四清”运动中的政治宣传,对于党员、干部和群众自觉接受社会主义教育,提高他们的社会主义觉悟,巩固农村集体经济起了很大的作用。因此,本文以山西孝义“四清”运动的政治宣传工作为出发点,通过对山西孝义“四清”运动政治宣传的开展过程及影响进行论述,揭示中共推动山西孝义“四清”运动开展和完成过程中的政治宣传方法和手段,以期为中共在
高中历史教学中教学方法众多,其中问题教法最常见也最为重要,借助问题教法可以培养学生发现与解决问题的能力,因此得到广大历史教师的青睐。但实际应用问题教法过程中还存在一些
目的:通过检测百色地区36例壮族原发性高血压患者的β2肾上腺素受体(β2-Adrenoceptor,β2-AR)基因的rs6879202、rs2053044位点,分析百色地区壮族原发性高血压患者β2-AR基因是否存在多态性,并寻找百色地区壮族人群患原发性高血压的相关危险因素。方法:(1)随机选取了36名百色地区壮族原发性高血压患者和36名百色地区壮族正常对照者,通过生化分析仪检测了血脂等相关生化指
高中化学课程标准修订组根据“中国学生发展核心素养(征求意见稿)”和高中化学课程特点,提出包含“宏观辨识与微观探析”“变化观念与平衡思想”“证据推理与模型认识”“实验探
【摘 要】近年来中职学生参加高职高考的愿望日趋强烈,但是中职学生的数学学习整体状况比较复杂,参差不齐,普遍存在基础薄弱,学习习惯不好,信心不足,缺乏学习动力,逃避学习等心态问题。对于如何提高高职高考数学课堂教学效果,从内部提高学生的学习兴趣,发动他们的学习动力从而从根本上提高参加高职高考的同学的数学成绩,本文先从本人在2015年由广东教育学会同意立项的小课题《高职高考数学习题设计方法研究》中得出的
海带是一种生长在低温海水中的大型海生褐藻植物,是一种营养价值很高且具有药用价值的蔬菜。我国海带产量大,新鲜海带因含水量高导致贮藏难度大,因此对海带进行干燥处理成为