文本大数据分析技术在铁路行车安全领域的应用研究

来源 :科学导报·学术 | 被引量 : 0次 | 上传用户:xiaoyanger88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:现如今,我国的铁路建设越来越多,同时铁路的安全被十分重视,保障铁路行车安全是铁路工作的重点,通过铁路事故调查报告等文本数据对事故原因进行分析,是提高铁路行车安全的重要手段之一。但由于铁路系统存在海量的非结构化事故故障文本数据,难以进行有效检索和分析,因此提出铁路行车安全领域文本大数据分析总体框架,包括文本数据从集成、存储到处理、计算,再到检索、分析及应用的全部流程,并对基于铁路领域文本数据的全文检索、特征提取等文本大数据分析关键技术进行研究。最后以某铁路局集团公司的事故故障追踪报告为样本,进行事故故障报告的全文检索、故障词云展示及关联性分析,取得了良好效果。
  关键词:大数据;非结构化;行车安全;事故故障;全文检索;文本挖掘
  引言
  随着铁路信息化的不断发展,已相继建成车、机、工、电、辆等各专业安全监测/监控系统近60余个,产生和存储了PB级的文本、图纸、视频、圖像、声音等多种类型的监控/监测数据。铁路安全领域迎来了大数据时代,由于传统数据库无法对这些海量的数据资源进行有效的利用,从而使这些数据占据了大量的存储空间而不能被挖掘使用,造成了数据资源的浪费。伴随着大数据技术的快速发展,针对海量数据的存储、分析和可视化展示等问题,出现了新的技术来支撑,例如:分布式文件存储、并行处理等。铁路运输安全是一个复杂的安全系统工程,其故障(事故)之间存在着相关关联、相互影响的耦合关系。通过运用大数据分析技术不仅可以对海量的历史数据进行学习和挖掘,从而预测安全风险发现事故规律和事故间的相关关系,对高实时性要求的监控数据进行实时在线分析,提高预警水平。
  1文本大数据分析总体框架
  1.1铁路事故故障知识图谱技术
  铁路事故故障知识图谱主要是构建有关事故故障实体、概念和关系的铁路行业知识库,以便于进行事故故障的查询、分析和推理等。知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。KG是人工智能技术的组成部分,其强大的语义处理和互联组织能力,为智能化信息应用提供了基础。为了提高搜索引擎的能力和搜索体验,Google于2012年5月正式提出。随着人工智能的长足发展和普及,作为人工智能关键技术的知识图谱的应用越来越广泛,例如在基于知识图谱的智能搜索、基于知识图谱的智能语音问答、基于知识图谱的语义分析和基于知识谱图的个性化推荐等。
  1.2文本数据处理
  文本数据处理包括本体库构建、命名实体识别、文本向量表示和中文分词等技术,是文本分析挖掘的重要步骤。本体库构建是指对所研究的领域建立统一的对象模型框架,之后所有的分析都基于这个框架进行;命名实体识别是指对文本中具有特定意义的实体进行识别,包括人名、地名、机构名等;文本向量表示是指通过某些方法把文本数据向量化,转化为向量形式的标识,从而便于之后各类分析方法的计算;中文分词是指根据相应领域的字典并利用分词工具将连续的文本内容切分为单独的中文词汇的过程。
  2文本大数据分析关键技术
  2.1基于ElasticSearch的事故故障文本全文检索技术
  为实现铁路非结构化文本大数据的分析挖掘,首先要实现非结构化文本的分布式存储和全文检索。分布式存储是应用分布式文件系统,实现非结构化文本动态可扩展的存储。EelasticSearch(ES)通过集群提供分布式全文检索,1个ES集群可以由多个节点组成,可动态增加。ES各节点之间通过唯一的集群名字进行识别,默认的集群名字为“EelasticSearch”,集群名字可通过elasticsearch.yml文件进行配置。ES采用去中心化节点架构,即各节点平等,可任意选1个节点为主节点。ES各节点之间通过TCP协议进行集群交互,并通过RestfulAPI接口为其他应用提供服务。ES需建立索引(Indices),实现文档(Document)集合的统一存储和查询。1个索引内可以定义1种或多种类型(Type),1种类型下可以设置多个字段(Field)以便于检索。同时ES为了提高性能和吞吐量,对索引进行分片(Shard),默认1个索引分为5个分片(R0—R4),分布在不同的节点上,同时通过复制(Replica)分片实现高可用性,以防止节点/分片出现故障。基于ES的中文文本全文检索主要包括文本提取、中文分词、索引建立与检索等过程。其中中文分词技术是实现中文文本全文检索的基础;索引建立是实现中文分词后数据转化为索引文件的过程,主要利用的技术为倒排索引;检索过程是对要检索内容进行中文分词后,根据索引文件找到所检索文档的过程。
  2.2融合铁路领域词典的中文分词
  铁路事故故障文本分布式全文检索的首要和基础工作是实现事故故障文本的分词。中文分词不同于英文分词,中文词语之间没有空格标记进行分割。不同的上下文环境、不同的词语组合和不完备的语料库造成了中文分词的歧义。尤其针对铁路领域的中文分词,由于缺乏行业领域的语料库,铁路专业术语无法实现有效的识别。同时铁路行业的事故故障描述不一,为铁路事故故障文本分词带来更大的挑战。例如“轨道电路红光带”、“轨道区段红光带”、“红光带”等描述的是一种故障,但是在文本文档中不同人员的描述不一致,造成了同一种故障但是由多种词语进行描述,如果严格按照中文分词就出现了3种不同的故障,为文本检索和分析造成了困难。同时铁路行业缺乏语料库,对于事故故障命名实体没有统一的规范,造成事故故障文本中事故故障名称无法识别。
  2.3融合文本结构及正则表达式的特征提取
  铁路事故故障报告全文检索实现了对文本信息的有效存储和搜索。结合文本挖掘的分类、预测和相关性分析等,可以挖掘铁路事故故障发生规律,指导现场人员对重点事故故障进行防范,保障铁路安全运行。铁路事故故障报告的基本格式有标题、概述、调查过程、原因分析、定性定责和措施及要求等六大部分。本文采用基于段落格式及正则表达式的文本特征提取。即通过正则表达式找到相应的段落,然后对重点段落的内容进行中文分词和特征提取,提取时需要和事故故障词库、事故地点词库等专业词库进行匹配,若专业词库中存在则直接提取,若专业词库中不存在,需要根据正则表达式依据语法结构进行截取。
  2.4铁路设备安全风险评估
  基于大数据技术进行铁路设备安全风险评估应构建2个层面:(1)基于设备故障特征和故障模式的设备安全风险评估方法,根据设备故障诊断结果,对故障特征和故障模式进行数字化表达,建立设备的特征、模式与故障特征、故障模式的距离函数来度量设备状态与标准故障状态的相似程度,距离函数的值越小,则设备安全风险越高。(2)基于设备健康状态的设备安全风险评估,根据设备当前的状态数据,划分不同的安全风险等级,设备状态越差,其安全风险等级则越高。
  结语
  基于铁路大数据技术,研究提出铁路行车安全领域文本大数据分析总体框架,介绍全文检索技术、中文分词技术、文本检索模型、文本特征提取与挖掘技术等文本大数据分析关键技术。通过在某铁路局集团公司进行试点应用,实现了分布式存储、近实时全文检索、多发事故故障词云展示和事故故障关联关系分析,取得良好效果,研究成果可为铁路相关业务领域的文本大数据分析提供参考。
  参考文献:
  [1] 王同军.中国铁路大数据应用顶层设计研究与实践[J].中国铁路,2017(1):8-16.
  [2] 中华人民共和国铁道部.铁路交通事故调查处理规则:铁道部令第30号[S],2007.
  [3] 黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19.
  (作者单位:湖南高速铁路职业技术学院)
其他文献
摘要:注汽锅炉燃用油质燃料,相应的吹灰设备较少,且吹灰周期也较长,因此现场设备均结一定厚度的灰垢,另外锅炉水质条件较差,炉管内结有一定水垢。通过对注汽锅炉的设计和校核计算,结果发现:灰垢厚度增加对管壁温度影响不大,但影响锅炉的传热效果,使得排烟温度升高,降低了锅炉的热效率,浪费燃料;水垢厚度增加对锅炉效率影响不大,但会使得管壁温度急剧增高,厚度太大可能引起锅炉管束的爆裂,严重影响锅炉运行的安全性。
期刊
摘要:交通工程建设是国民经济发展和社会进步的内在要求,对一个地区的经济、文化发展起到了至关重要的推动作用。但是在交通工程施工中,由于施工不合理所带来的环境污染的问题普遍存在且大量凸显出来,环境污染的影响是长期的,因此,有效发挥群众的能动性,实施对环境的保护势在必行。本文将分析交通工程施工中存在的环境问题,结合环保理念的运用,对于交通工程施工提出建议性措施,保证交通工程施工的有效性和环保性。  关键
期刊
摘要:随着我国房地产交易和金融市场的繁荣发展,房地产评估作为资产评估中的重要领域之一,对于资产评估有着重要的意义。在我国房地产评估理论和方法有了一定的发展,但是对于缩小房地产评估值与交易价格的差距上还存在一定的问题。本文简单介绍房地长评估的概念,探讨分析了房地产的价值区间和均衡价格之间的问题,分析价值区间模型,运用供求理论以及均衡价格和博弈理论等检验价值区间的合理性,并结合评估方法进行了详细的阐述
期刊
摘要:随着国家对环保要求的日渐严苛,氨法脱硫因其脱硫效率高、副产品硫铵可回收利用等特点,在煤化工尤其是本身拥有氨资源的炼化项目配套生产中得到了广泛应用。但氨法脱硫工艺伴生的气溶胶现象,造成大气中PM2.5增加并严重影响自然环境,危害人类健康。本文简要介绍了氨法脱硫工艺流程,通过氨法脱硫超低排放环保改造技术对某厂现有氨法脱硫工艺进行技术改造升级,使锅炉烟气的排放量达到国家超低排放标准。  关键词:煤
期刊
摘要:近些年以来,随着经济迅速的发展使人们的物质生活水平得到了明显的提高,城市化进程的加速避免不了占用大量的耕地,目前耕地数量的减少,需要进一步做好土地规划,通过合理规划土地资源,实现土地资源的合理利用。文章从土地测量技术入手,同时,对土地测量技术在土地规划中的应用进行了详细的论述。  关键词:土地测量;土地规划;应用  前言  在城市化快速发展的新形势下,城市的扩张对土地规划提出了新的要求。目前
期刊
摘要:随着我国经济的飞速发展,人民生活质量的不断提高,居民也在逐步改变自身的居住条件和居住环境。就水电安装行业来说,相对于成本而言,质量已经成为居民首要考虑的问题。尤其是在预防、防护等技术方面,用户要求越来越高,这也令从业人员倍感压力。因此不断改善水电安装的技术问题,也就成为从业者一直追求的目标。  关键词:水电暖;安装;技术管理;解决措施  1 建筑水电安装工程施工现状  1.1 工程人员水电安
期刊
摘要:随着社会经济和科学技术的发展,我国的建筑行业也取得了长足的进步。在建筑施工过程中,对施工现场进行安全有效的监督,是整个施工过程中最基础的工作,也是最重要的工作之一。施工现场是施工安全事故的高发地,只有提高施工现场的安全监督管理,才能有效降低安全事故发生的概率,确保项目工程稳定推进。文章结合过往经验及实际情况,对加强施工现场安全监督管理的策略进行分析和研究,以供参考。  关键词:施工现场;安全
期刊
摘要:工程造价超预算对建筑的开发单位来说,始终是一个重要的问题。建筑施工过程中,工程造价预算起着不可替代的作用,超预算的出现的对工程造价在控制上起着很大的阻碍。所以对造价超预算所产生的原因进行分析,从多个角度对建筑造价的超预算进行有效控制,是做好造价管理的基本前提,也能有效降低超预算情况的发生。  关键词:建筑工程造价;超预算;原因;控制  工程造价在建筑预算过程中起着关键的作用,由于造价极易受社
期刊
摘要:为了贯彻生态文明思想,落实省委、省政府关于编制全省城乡垃圾综合治理布局专项规划和各地市城乡垃圾综合治理布局专项规划的总体部署,提高我市生态文明建设层次和质量,指导全市固体废物无害化处理设施规划布局及建设,并对跨区域设施建设进行统筹。  一、规划背景  为了贯彻习近平总书记生态文明思想,落实省委、省政府关于编制全省城乡垃圾综合治理布局专项规划和各地市城乡垃圾综合治理布局专项规划的总体部署,提高
期刊
摘要:市政给排水工程是城市基础设施重要组成部分,做好城市市政给排水规划设计,对建设良好城市人居环境意义重大。特别是在新的历史条件下,城市建设必须走可持续发展道路,提倡省地节能的市政给排水设计理念。新时期新背景下,加强城市市政给排水规划设计的探讨意义重大。本文旨在研究市政给排水设计现状,针对出现的问题提出相应的解决策略,为我国有关部门在给排水设计方面的进一步开展提供可行性思路。  关键词:城市市政;
期刊