基于集成学习的铁路文本异常标注识别方法

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:jh_fan88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国铁路围绕安全主题建立了车务、机务、工务、电务、车辆等各专业安全监测系统。系统中包含了大量文本、语音、图像等各种非结构化数据,其中文本数据占这些数据中的绝大多数。铁路工务段负责对铁路线路及相关设备的维修与保养,所以对铁路工务段中的文本处理挖掘能为铁路安全维护工作提供帮助。铁路工务段的违规记录数据主要是指:在工务段工作检查阶段,工作人员发生了违规操作时,铁路检查人员将具体违规行为记录并上报时产生的文本数据。违规数据由检查人员负责发牌定责。由于部分检查人员对业务不熟悉等情况,造成违规操作内容与实际发牌情况不符,此类数据称为异常标注数据。异常标注数据给铁路系统的数据管理造成不便,可能会给铁路安全留下隐患。通过对某铁路局的工务段数据进行分析,发现文本内容多为短文本且不同类别的数据严重不均衡。通过对当前机器学习算法进行调研,本文结合特征选择、样本采样和集成学习等多方技术来实现对异常标注文本数据的检测。对本文梳理总结,整体创新点和贡献主要如下:(1)在传统的特征选择上做改进,并进行同义词融合,提出一种新的特征选择算法:融入类别信息的TF-IDF算法,并通过实验证明了算法的有效性。(2)提出了一种双向文本过采样的方法,由于数据不平衡,分类模型训练时在样本数较少的类别上容易出现欠拟合,使用双向文本过采样能够有效缓解分类模型在少数类上的欠拟合现象,并通过实验证明本文提出的过采样方法能够有效提高整体的分类效果。(3)提出了一种融合ATPE的XGBoost算法,XGBoost性能优良,但是铁路业务繁杂并且数据种类较多,XGBoost模型包含大量超参数,因此人工调整参数法和随机搜索法存在局限性。融合ATPE的XGBoost算法能够在有限迭代次数中找到较优的参数组合,并进一步提高XGBoost模型对铁路工务段文本数据的分类能力。最后,本文基于以上模型实现了铁路异常文本标注系统,该系统能够有效地从大量的铁路工务段违规记录数据中找出异常标注数据,同时提供发牌功能,为铁路安全管理提供帮助。
其他文献
结构光三维重建技术是一种采用光学手段对被测物体进行编码,从而获取物体三维数据的技术。该技术具有准确度高、速度快、鲁棒性好等优点,被广泛应用于逆向工程、生物医疗、文物修复和人脸识别等领域,具有重要的理论意义和研究价值。随着科学技术的迅速发展,准确、高效地对目标进行三维重建的需求逐渐增加,高精度结构光三维重建成为未来的研究热点。本文主要研究了基于空间编码结构光的三维重建算法及其实现,主要工作如下:(1
近年来,随着电子信息技术的快速发展,手机、电脑等电子设备被人们广泛的应用,电磁波污染问题成为了当今社会中人类不得不面对的一个重大问题。另一方面,由于科学技术的空前发
国库管理方面的理论研究在我国已有20年的历史了,初期我国各地实行的是传统国库分散支付制度,已经远远无法满足社会主义市场经济体制下公共财政体制建设的需求,直到2001年财政部和中国人民银行共同印发关于财政国库管理制度方面的改革试点部署,这一部署正是财政国库集中支付制度改革的始端。国库集中支付这一崭新支付方式能够将财政资金留在国库集中支付,盘活了存量资金,大大提高了资金支付的效率,减少了层层下拨的中间
钢管混凝土结构以承载力高、塑性韧性好、自重轻、施工方便、经济性好等优点,在多高层建筑中得到了广泛的应用。本文以MCFTS(Multi-core Concrete Filled Steel Tube System)
对于流程工业生产过程,生产运行关键指标的稳定性占据着极其重要的地位。为保证整个生产过程的稳定性,现场操作人员会根据经验对某些特别关注的关键指标进行检测,通过建模的方式可以很好的对关键指标的未来变化趋势进行预测。目前主流的建模方法为基于机理建模的方法。此类方法在工艺的机理分析基础上,依据物料平衡、热量平衡和动力学建立模型。机理建模很大程度上依赖于对工业生产过程的机理认知。随着流程工业生产过程日趋复杂
碎片拼接技术是图像处理领域的关键技术之一。当碎片数量较多时,比如文物碎片、公安物证碎片、公司文档碎片等,通过手动方式完成复原任务会耗费大量的时间而且容易对碎片本身造成损坏。因此,利用计算机技术进行碎片的自动拼接具有重要的研究价值。国内外研究学者已经在二维碎片的拼接问题上进行了一定的研究,通常将碎片类型分为规则和不规则碎片,依据不同的特征去完成拼接任务。现阶段的碎片拼接算法在很多时候获得的结果往往不
注浆是一种广泛应用于隧道、岩巷等地下硐室的支护方式。在对裂隙岩体进行注浆之后,岩体中原始空隙被浆液填充。浆液不断凝结固化,并逐渐承担岩体之间的作用力,岩体内应力状态重新分布且岩体间粘结力不断增强,稳定性得到提高。然而,目前关于注浆加固体力学性质的影响因素研究还不充分。本文采用室内试验、理论分析、数值模拟等方式,研究了注浆量、浆液凝固时间、围压、凝固体分布形态等因素对注浆加固体力学性质的影响,主要工
钙钛矿结构锰氧化物La1-xAxMn O3具有陡峭的金属-绝缘转变(Metal-Insulator transition)特性,可调节金属-绝缘转变温度(Tp),较高电阻温度敏感系数(TCR)等优异物理性能,在红外探测材
凹凸棒土(ATP)是一种具有较高比表面积、适度阳离子交换容量(CEC)和出色化学稳定性的一维纳米水合铝镁硅酸盐粘土矿物,已广泛应用于吸附去除废水中的污染物领域。未经处理的A
随着科学技术的进步,在以能源技术创新持续推动节能降耗的要求下传感器技术获得了飞速提升。有时为了采集重要数据,传感器需要安置在一些特定环境,恶劣的环境使得电池更换成为一个棘手的问题,因此从所在工作环境中直接提取能量供传感器使用的电源技术亟待发展。本文针对自然界普遍存在的清洁、可持续能源—风能与压电材料的压电特性相结合设计了一种压电风能收集转换装置,主要的工作内容如下:对现有的利用压电效应在风能收集转