【摘 要】
:
随着信息技术的高速发展,各机关、企事业单位形成的档案爆炸式增长。面对这些档案中蕴藏着的信息资源和知识财富,档案管理部门如何科学高效地管理与利用,向来是业内一个不变的研究方向。档案分类是档案整理中不可或缺的环节,也是实现档案数据挖掘研究的第一步。传统档案分类通常是手工处理方式,需要大量人财物,实时性差,效率低下。一个好的分类模型,不仅可以提高分类工作效率,还能替代手工处理。本文主要研究档案数据预处理
论文部分内容阅读
随着信息技术的高速发展,各机关、企事业单位形成的档案爆炸式增长。面对这些档案中蕴藏着的信息资源和知识财富,档案管理部门如何科学高效地管理与利用,向来是业内一个不变的研究方向。档案分类是档案整理中不可或缺的环节,也是实现档案数据挖掘研究的第一步。传统档案分类通常是手工处理方式,需要大量人财物,实时性差,效率低下。一个好的分类模型,不仅可以提高分类工作效率,还能替代手工处理。本文主要研究档案数据预处理、特征处理、决策树分类算法、决策树剪枝以及与随机森林分类算法对比分析等问题。首先,在预处理阶段针对不同样本集数据提出改进的停用词词典生成算法并做了对比分析,有效促进档案特征降维和分类正确性的提升;其次,运用ID3、CART、随机森林算法构建档案分类决策树模型,同时对CART算法进行了二次剪枝实验;最后,针对分类过程中的预处理、特征处理等阶段基于档案属性作出了适当改进,得到了较好的分类精度和分类规则。并进行了大量的实验对比分析,得到高效和便于理解的档案分类模型。本文还基于Python语言实现了档案自动归类预测原型系统,应用到某单位文书档案分类中,取得了较好的效果。
其他文献
曲线曲面的高质量拟合方法是计算机辅助设计(CAD)及其它相关应用领域的一个重要研究问题。对于一条参数曲线而言,采样点的选取对拟合结果起到至关重要的影响。传统的均匀采样方法虽然比较容易实现,但其采样结果往往忽略对形状有重要影响的特征点,造成后续的拟合结果不佳。因此,采样方法需要选取参数曲线上具有代表性的采样点,以更好地把握原曲线的轮廓特征。针对平面参数曲线的采样问题,本文提出基于特征识别的高质量采样
对纳米腔内水的物理化学性质的研究在纳米材料干燥、油回收、土壤修复、能量转换、储存应用和蛋白质折叠等领域具有重要意义。在过去的几十年中,科学家们不断的研究纳米腔内水的干湿转变,以及各种因素对纳米受限水的影响,如电场、亲疏水性、侧向压、界面尺寸等等。由于水分子正负电荷的中心不重合,使水分子具有极性,在电场作用下水分子的氢键网络亦会被破坏重组。故而,电场可能是一种对纳米材料进行干燥的潜在方式。本文采用基
Brunn-Minkowski理论是凸几何分析的主要组成部分,而Brunn-Minkowski不等式与等周问题又是Brunn-Minkowski理论的核心所在。本硕士论文围绕Brunn-Minkowski不等式与等周问题来开展相关研究,主要研究广义Brunn-Minkowski不等式及其内涵、Lp John椭球问题之于负指数的解的问题。作为本论文的第一个研究对象,我们首先研究了凸体极体的φ-Bru
Adaboost算法通过组合多个弱分类器获得强分类器,能够有效提高分类准确度和一定的抵抗过拟合能力。Adaboost算法简单,检测快速,在人脸检测、信号分类与检测等方面具有较广的应用。然而Adaboost算法在多个方面还存在不足,如大规模样本下训练时间很长、抵抗噪声能力较差尤其是分类标签误差会严重干扰分类器的效果等。目前已有多种思路和类型的改进Adaboost算法,如gentle-Adaboost
随着石墨烯薄膜材料制备技术的不断完善,其产量和质量得到大幅提升,石墨烯薄膜材料的应用方向“百花齐放”,新的应用领域逐渐成为研究石墨烯薄膜材料的焦点。高质量的石墨烯薄膜材料正在各个领域“大显身手”,其中微电子科技领域的应用成为当前研究的焦点,包括石墨烯基晶体管、石墨烯基光电探测器和石墨烯可穿戴传感器等,其应用潜力“不可限量”。然而,石墨烯薄膜材料针对某一项专门的应用,必须探究出与其相对应的制备方法。
异响是汽车设计中影响客户满意度的主要问题之一,原理和特征都非常复杂,具有很强的非线性。汽车仪表板作为驾驶舱内最显眼的位置,其组成部件之间有大量相互接触的表面,是汽车上出现异响问题最多的系统之一。在汽车的使用周期内,会经历低温、常温和高温等不同的温度工况,因此研究汽车仪表板在不同温度条件下的异响性能十分有必要。汽车仪表板上的零部件大多采用塑料材料,主要包括PP+EPDM_T20、PP_T20、PC/
轴承是衡量一个国家科技与工业水平的重要标志,被视为“高端装备的关节”。轴承在工作中会受到各种交变应力的作用,其寿命与工作温度、湿度、转速、负荷、润滑等有关,恶劣的工作环境要求轴承钢具有高接触疲劳强度、高耐磨性、高弹性极限、适宜的硬度和耐腐蚀等性能。因此,轴承钢材料性能要求苛刻,给轴承制造带来严峻挑战,轴承钢材料的高质量、高可靠性是决定因素。本文研究了自主开发的贝氏体轴承钢热变形行为及冲击性能,以期
随着近现代军事科技的不断发展,实际工程中所研究的目标体也变得越来复杂。同时也提高了对雷达系统性能的要求。如何快速有效地获取目标信息,已经成为了近现代学者们研究的热门。在国际领域,军事武器的强大能更好的捍卫自己国家的主权和领土完整,尤其是隐身与反隐身技术等,都是各个国家研究的重点话题。隐身等技术都涉及到宽频域电磁散射特性的计算。可见,宽频带研究已经到了重要阶段。首先,矩量法(Methodof Mom
经典计算机的发展因集成电路技术逐渐逼近物理极限而面临瓶颈,需要寻求新的计算模式代替经典计算机,量子计算是其中较有前景的模式之一。它能利用量子并行性和量子相干性实现计算,在一些特定问题的求解上具备远超经典计算机的计算能力。量子计算机的操作和使用原理与传统计算机不同,需要新的算法、软件、硬件和控制技术等。近年来,随着量子计算取得一系列突破性进展后,量子比特的数目有着大规模扩展的趋势。简单的脚本程序在应
随着云计算、大数据中心、5G网络传输等新兴应用程序的发展,网络流量正在以指数形式快速增长,现阶段光网络已无法满足人们的传输需求,发展新型光网络技术势在必行。弹性光网络通过采用灵活栅格技术可有效地利用频谱资源,而空分复用技术通过利用空间维度可扩展数据传输容量。因此,将弹性光网络和空分复用技术相结合可为满足日益增长的带宽需求提供一种极具吸引力的解决方案。而如何实现信道带宽灵活分配以及波长与模式动态调度