配网工程项目词库创建及分词探索

来源 :企业技术开发·中旬刊 | 被引量 : 0次 | 上传用户:qzyss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:随着国网公司信息系统的完善和业务数据的积累,公司各业务部门开展了数据探索和分析,以支撑逐年增加投资、扩大规模的配网工程项目建设工作。但是由于各省市公司的管理模式不同,导致配网工程项目相关数据一致性较差,可用于支撑分析的特征值较少。因此论文基于文本挖掘方法创建符合国网公司特性的工程词库,弥补过往历史数据的缺失和不完整,使历史文本数据能够支撑后续数据分析工作。
  关键词:文本挖掘;配网工程;词库创建
  中图分类号:TP391 文献标识码:A 文章编号:1006-8937(2016)32-0072-02
  1 研究背景
  配网工程项目具有项目类型众多、物资使用种类集中的特点,随着国网信息化系统建设的逐渐完善,出现联合数据分析的需求,然而由于各网省公司项目管理水平的差异,配网项目在各网省公司的管理模式不同。
  部分省公司按照区县对配网项目进行打包管理,部分省公司则按照单体项目进行管理。但是从整体来看,针对配网工程项目的管理是松散的,直接导致了配网工程项目的可用特征较少,无法配合其他数据,以工程项目为对象进行联合数据分析。但是配网工程项目的命名包含一定规律,可以通过文本挖掘的方法从工程项目名称中提取有效的项目属性特征,以描述工程建设性质和建设内容。然而目前较为成熟的分词函数都依赖于对应的专业词库,即基于一本专业“词典”自动完成名词的分解,所以提取配网工程项目特征标签的首要任务就是构建专业的配网电网词库,以支持后期分词函数的应用,完成对配网工程项目名称的分词。
  2 词库构建原理
  传统的词典创建方法通常认定出现频数超过某个阈值的文本片段即为词典的组成部分,然而并没有考虑到该文本片段是否仅为一个词还是由多个词构成的词组,因此为了克服传统方法的缺点,需要综合分析自然语言的内部凝聚程度和外部自由运用程度两个方面去构建配网专业词库。其中词语的内部凝聚程度指的是一个文本片段成词的概率,凝聚程度越大说明该文本片段越可能成为一个词即进入配网专业词库,如“维修工程”出现的概率为“维修工”出现概率的25倍,这说明“维修工程”更可能是一个具有实际意义的配网专业词汇。
  外部自由运用度指的是定义该词语片段与左邻、右邻词语之间的相关程度,计算该文本的左邻字和右邻字所能够提供的信息熵,信息熵越大,说明该文本可提供的信息量越大,该文本的左右邻字越丰富,即可以更加自由地运用于各个语言环境中,如“台区”前后可以添加各类文本片段成词,然而“变电台区”、“新增台区”、“台区布点”等词却仅能够以单独形态成词,即更有可能成为真正有区分度的有实际意义的配网专业词汇。
  用p(x)代表词语的凝聚程度,P(AB)代表该文本片段在整个文本中出现的概率,P(A),P(B)代表子文本片段在整个文本中出现的概率,凝聚度公式如下:
  如果仅从内部凝聚程度考虑,有可能出现找到部分词的情况,该词内部凝聚程度很高,但并不包含完整的文本片段,如变电、开闭等。同样,如果仅从外部自由程度去考虑,很有可能提取到相当多的连接字,该连接字可以很大程度上自由地运用于文本环境中,如的、了等。因此模型首先需要对输入文本进行预处理,将一列项目名称整合成一段紧密相连的文本片段、去掉字母、数字和特殊符号,将预处理后的文本按从前至后和从后至前两个方向进行单字切割,分别生成单字出现字频表。
  然后计算并逐步检验可能成词的文本片段的内部凝聚程度和外部自由运用程度两个指标,结合实际业务需求,在程序中设定合适的内部凝聚度阈值和左右信息熵阈值,按照业务规则最终筛选得到既准确又有现实意义的配网电网专业词库字典,比如针对项目名称中各省地市公司的地理位置词语,由于缺乏能够揭示工程建设性质和建设内容的实际意义,所以即便可以满足内部凝聚程度和外部自由运用程度两个指标的要求,也不能作为最终的词语进入配网电网专业词典。
  运用R语言实现以上步骤,该阶段的输入数据是一列包含配网电网特征关键词的项目名称,输出是一列可能成词的文本即配网电网专业词库字典,该输入输出的数量并非一一对应的关系,如图1所示。
  3 分词原理
  运用R语言中的结巴(jiebaR)工具包,利用其支持的最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(Query Segment),混合模型(Mix Segment)共四种分词模式的功能,首先引入并应用已经创建完成的配网专业词典,替换掉结巴(jiebaR)工具包中的默认词典,接下来读取项目名称数据集进行分词。该阶段的输入数据是一列包含配网电网特征关键词的文本,输出是对应项目名称的一系列标签,如图2所示。
  基于已创建的配网专业词典,可以将复杂的项目名称拆分成为几个关键词的堆叠,并且根据需求,配置个性化选择规则,例如选择几个关键词中出现频率最高的关键词作为标签形成初步标签。由于分词会输出较多标签,为了防止标签冗杂,工程特征指示不清晰,本文通过聚类分析发现并聚合具有相似物资领用特征的项目群,随后结合业务理解对这些项目群进行命名,即完成了標签的合并和删减。此过程使用K-Means聚类方法作为无监督式的机器学习方法,在未知样本类别的情况下,通过计算样本彼此间的欧式距离或余弦距离来估计样本所属类别。
  K-Means是一种自下而上的聚类算法,是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离相近的若干对象组成的,因此希望最终得到紧凑的簇。该算法接受参数k,首先将事先输入的n个数据对象随机分成k个簇,为使同一类中的对象相似程度较高,不同类中的对象相似程度较低。具体计算步骤如下:
  ①随机选定k个中心作为起点;
  ②将每个数据点归类到离它最近的中心点所代表的簇中;   ④重复步骤②~③,直到满足收敛要求,即该k个中心点不再变化。
  结合业务理解给定k=44,即给定44个具有不同项目工程建设内容和建设性质的项目群,通过聚类分析的方法,输入对应于各个项目名称的不同物料小类的领料数据和下达预算金额,最终输出得到44个项目群的序号标签,随后结合业务理解,根据项目工程实际特征,对这44个项目群分别进行命名即分别贴标签,对贴好的标签进行人工调整,保留其中能用自然语言表达的并且具有现实意义的标签名称,作为提取构建的新的工程项目特征,完成配网工程项目特征属性的提取和标记,使得即便不同省份对配网项目的管理水平不一致,也可以使用同一维度标尺进行衡量,便于后续与其他数据联合开展关联分析。
  4 研究结论
  首先通过计算自然语言的内部凝聚程度和外部自由运用程度两个指标可以帮助从冗杂的文本片段中筛选出符合阈值筛选条件的词语,创建出符合国网公司自身业务特点的专业配网电网词典,接下来结合文本挖掘工具即可较为简单地根据个性化选择规则对项目名称实现匹配、分词,提取配网工程项目的特征值,以描述项目特征、建设内容、工程属性等。另一方面,通过聚类方法可以减少提取特征值的数量,使具有相同工程建设性质和建设内容的项目合并成一个项目群,并基于业务理解为44个项目群分别命名,因此该分词结果更为标准清晰,同时也简化了分类维度,有利于支撑后续与其他数据之间的联合分析。
  参考文献:
  [1] 邓建,李夕兵,古德生.结构可靠性分析的多项式数值逼近法[J].计算力 学学报,2002(11):26-30.
  [2] 李庆阳,王能超,李大义.数值分析[M].武汉:华中工学院出版社,1982.
  [3] 王淑云,方保镕,王如云.数值分析方法[M].南京:河海大学出版社,1996.
  [4] I.Babuska,W.C.Rheinbold.Error estimates of adaptive finite element
  computations[J].SLAM Journal of Numerical Analysis,1978(4):
  736-737.
  [5] B.Moller,M.Beer,W.Graf,etal.Fuzzy finite element method and its
  application[M].Trends in computational structural mechanics,2001:
  529-538.
  [6] 劉信恩,肖世富,莫军.用于不确定性分析的高斯过程响应面模型的设 计点选择方法[J].计算机辅助工程,2011,20(1):101-105.
其他文献
摘 要:以供水企业的大型电机作为研究对象,针对大型电机自有的传感器,阐述电机传感器检测的存在意义;针对自动化泵站的推进,利用大型电机自有传感器进行PLC采样存在的问题,提出传感器信号转换的设想,对方案进行对比,分析,并结合实际使用状况进行方案优化。  关键词:电机;传感器;PLC采样  中图分类号:TM921 文献标识码:A 文章编号:1006-8937(2016)32-0074-02  1 概
期刊
摘 要:随着电力事业的发展,建设智能电网,提高电力营销管理水平是电力企业的重要工作。智能化抄表系统应用在电力营销中,不仅能提高工作效率和数据准确度,还能促进电网的自动化发展。文章首先阐述了智能化抄表系统的特性和优势,其次研究了智能化抄表系统在电力营销的具体应用。  关键词:智能化;抄表系统;电力营销  中图分类号:TP393 文献标识码:A 文章编号:1006-8937(2016)32-0041-
期刊
摘 要:科技生产力的发展,促使电力企业要向着科技化、知识化的方向发展,其中最有效的方法就是对员工进行培训。内容阐述了电力企业开展员工培训的重要意义,其次分析了电力企业培训的特点,最后提出了提高电力培训效率的针对性策略,希望对培训能起到事半功倍的效果。  关键词:电力培训;效率;策略  中图分类号:G726 文献标识码:A 文章编号:1006-8937(2016)32-0025-02  随着信息化时
期刊
摘 要:单位购进的10辆三段式连杆K18K型车,多次发生连杆对丝断裂现象,造成底开门无法正常开启或关闭,延误整列车在卸车货位上的停时,经过对故障原因进行分析并采取防治措施,确保矿区列车正常运输。  关键词:K18k;连杆;断裂;措施  中图分类号:TH16 文献标识码:A 文章编号:1006-8937(2016)32-0084-02  1 问题的提出  K18K型漏斗车是专供运送煤炭的无盖漏斗车,
期刊
摘 要:随着我国经济发展水平的提高,城市建设步伐明显加快,城市轨道交通这一现代社会城市人群出行方式已逐渐成为城市人口工作、生活中不可或缺的一个出行选择。城市轨道交通运营管理工作也在不断革新,作为运营管理最核心的行车调度工作,改进和创新势在必行。文章通过对城市轨道交通互联互通运营特征的分析,探讨我国城市轨道交通行车调度工作中目前存在的问题,并提出相关策略。  关键词:城市轨道交通;行车调度;问题与对
期刊
摘 要:在电力营销管理中使用计量自动化系统能有效提升管理水平和效率,也是信息化时代的必需。文章首先分析了计量自动化系统的构成及优势,其次对计量自动化系统对电力营销管理的具体应用进行阐述。  关键词:電力营销;计量自动化;应用  中图分类号:F274 文献标识码:A 文章编号:1006-8937(2016)32-0043-02  电力营销是电力企业管理工作重要的组成部分之一,营销管理水平和效率的高低
期刊
摘 要:武汉是华中地区重要的交通枢纽,武汉是社会经济全面快速发展,城市轨道交通建设是武汉城市建设重中之重。文章回顾了武汉轨道交通的发展历程,并结合武汉第三期建设规划批复情况,展望了武汉轨道交通发展前景,并对武汉轨道交通发展提出一些思考和启示。  关键词:武汉;城市轨道交通;现状;启示  中图分类号:U491 文献标识码:A 文章编号:1006-8937(2016)32-0056-02  1 概 述
期刊
摘 要:互联网与各行业的融合是未来经济社会发展的新形态和必然趋势,与之相适应的是信息技术的飞速发展。目前,高校财务管理系统信息化程度不高,传统的报销模式耗费时间,现金支付方式存在风险,与高校其他业务系统很少进行数据交换。因此,借助信息技术实现网上报销和银校互联的无现金报销业务,拓展财务系统与高校其他业务系统的数据交换接口,开发移动端的财务服务平台,对提升高校财务的管理层次、服务水平具有非常重要的意
期刊
摘 要:随着我国经济的快速发展,我国电力的需求量也在大幅度增加,配电网技术在电力建设中的运用也显得日益重要,这就使得我国投入了大量的人力、物力、财力对配电网进行了升级改造。在配电网改造过程中,提高供电质量显得尤为重要,尤其是配电网直接入户环节,但就目前我国的配电网技术发展而言,还存在诸多问题,针对配电网发展中存在的问题及弊端,文章就如何能够有效实现配电网减损增效等方面进行探讨。  关键词:配电网;
期刊
摘 要:文章通过分析电气自动化的原理和施工设计特点,来分析10 kV电气自动化的主要施工技术。  关键词:电气自动化;施工;技术  中图分类号:TM773 文献标识码:A 文章编号:1006-8937(2016)32-0090-02  电气工程中的自动化技术应用提高了电气工程的安全可靠性,建设10 kV电气自动化是一项艰巨复杂的过程,需要施工人员互相配合,协调合作,在施工中落实每个环节,对每道工序
期刊