论文部分内容阅读
随着数字信息时代的飞速发展,全球信息量也呈爆炸性增长,人类迎来了大数据时代,中国电力行业作为全球第二大经济体的基础能源支撑体系也不例外。电网大数据作为重要的基础设施信息,其数据价值的分析挖掘与国民经济的发展紧密联系。目前,电力行业的经营战略转向以服务为中心,客服呼叫中心的语音数据呈暴涨式增长。但是对其数据价值的研究多局限于人工分析的方法,并不适用于大规模的自动化分析,以及大数据处理需求。电网系统应提供多种统计分析和数据分析的工具,以发现数据潜在价值,提高公司的战略决策,改善服务和进行管理创新。本课题旨在研究和实现电网客服语音大数据的数据分析工具,应用大数据分析技术,从语音识别、语音分析、文本分析等维度入手,开展对海量录音文件的系统挖掘。一方面对其进行语音分析,包括语音预处理、特征参数提取、静音检测和语音情感识别等研究,并提出关键问题解决方案;另一方面把语音识别成文本进行文本分析,包括中文分词、数据清洗、文本聚类和情感分析等研究,同时基于大数据特点给出了分布式文本分析的解决方案。本文首先阐述了电网大数据分析工具提出的背景及其意义,并对设计实现过程中涉及到的相关技术进行研究,包括基本的机器学习算法、语音情感识别原理和文本挖掘等内容。接着对分析工具的用户使用场景进行分析,抽取出了系统的功能需求和非功能需求,并针对具体需求,给出了关键问题的研究及其解决方案,其中包括包括:(1)分析语音数据的复杂性,给出了准确提取音量、过零率、音高、共振峰、MFCC、LPCC等语音特征参数的方法;(2)分析基于单一音量特征的静音检测算法的不足,给出了基于音量和过零率的复合型静音检测算法;(3)在海量文本数据处理性能上,研究了 MapReduce编程模型和R语言在文本分析中的原理,给出了基于R语言的分布式文本分析架构的实现方法;(4)提出基于HMM和DTW的上下文推理规则的语音情感识别算法,并证明该算法在提高语音情感识别准确性上确实可行。随后根据分析和研究的结论,对电网大数据分析工具的总体架构和层次间交互进行了设计,同时分析工具应用过程中的典型场景,并对重点的系统模块的实现进行详细的说明。最后对分析工具进行了全面的部署和测试工作,通过对测试结果的分析验证了系统的正确性和有效性,但也指出研究工作中尚未完善的地方,给出了课题的研究展望。