电网大数据分析工具的研究与实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:smsyzgc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字信息时代的飞速发展,全球信息量也呈爆炸性增长,人类迎来了大数据时代,中国电力行业作为全球第二大经济体的基础能源支撑体系也不例外。电网大数据作为重要的基础设施信息,其数据价值的分析挖掘与国民经济的发展紧密联系。目前,电力行业的经营战略转向以服务为中心,客服呼叫中心的语音数据呈暴涨式增长。但是对其数据价值的研究多局限于人工分析的方法,并不适用于大规模的自动化分析,以及大数据处理需求。电网系统应提供多种统计分析和数据分析的工具,以发现数据潜在价值,提高公司的战略决策,改善服务和进行管理创新。本课题旨在研究和实现电网客服语音大数据的数据分析工具,应用大数据分析技术,从语音识别、语音分析、文本分析等维度入手,开展对海量录音文件的系统挖掘。一方面对其进行语音分析,包括语音预处理、特征参数提取、静音检测和语音情感识别等研究,并提出关键问题解决方案;另一方面把语音识别成文本进行文本分析,包括中文分词、数据清洗、文本聚类和情感分析等研究,同时基于大数据特点给出了分布式文本分析的解决方案。本文首先阐述了电网大数据分析工具提出的背景及其意义,并对设计实现过程中涉及到的相关技术进行研究,包括基本的机器学习算法、语音情感识别原理和文本挖掘等内容。接着对分析工具的用户使用场景进行分析,抽取出了系统的功能需求和非功能需求,并针对具体需求,给出了关键问题的研究及其解决方案,其中包括包括:(1)分析语音数据的复杂性,给出了准确提取音量、过零率、音高、共振峰、MFCC、LPCC等语音特征参数的方法;(2)分析基于单一音量特征的静音检测算法的不足,给出了基于音量和过零率的复合型静音检测算法;(3)在海量文本数据处理性能上,研究了 MapReduce编程模型和R语言在文本分析中的原理,给出了基于R语言的分布式文本分析架构的实现方法;(4)提出基于HMM和DTW的上下文推理规则的语音情感识别算法,并证明该算法在提高语音情感识别准确性上确实可行。随后根据分析和研究的结论,对电网大数据分析工具的总体架构和层次间交互进行了设计,同时分析工具应用过程中的典型场景,并对重点的系统模块的实现进行详细的说明。最后对分析工具进行了全面的部署和测试工作,通过对测试结果的分析验证了系统的正确性和有效性,但也指出研究工作中尚未完善的地方,给出了课题的研究展望。
其他文献
<正>共情(empathy)作为一种亲社会现象,引起了心理学、社会学、认知科学以及神经生物学等各个领域研究者的兴趣。由于共情现象错综复杂,这些学科的研究内容相互交叉、各有侧
<正>企业要生存和发展,必须创造利润,而企业的利润来自顾客的消费。企业的利润客户来源主要有两部分:一类是新客户,即利用传统的市场营销组合4P策略,进行大量的广告宣传和促
<正>丢勒的《忧郁I》是西方美术史上的名作,潘诺夫斯基在讨论它时提出过三个问题,其中第一问是"丢勒有何权利以一出精神悲剧取代原本是一种低劣气质的慵懒和愚钝"?在欧洲中世
通过对美国职业篮球联赛(NBA)数据的起因、发展和最新应用情况的分析,探讨在大数据时代的背景下,篮球运动引入统计学、现代管理学后所引发的球队组织结构变异,以及对于中国男
社交网站为公众提供一个多元开放的舆论环境,其中的用户可以充分表达自己的观点意见。针对文本内容的情感分析在社交网络日渐复杂化,社交网络信息海量化的趋势之下更显得尤为
<正>梁朝伟就坐在你的膝盖上,刘玉玲也能坐在你的腿上,这种绝妙的体验你连想都不敢想,这就是我们从英特尔迅驰广告看到的真实一幕。广告中,六位普通人与明星零距离接触,六位
随着网络技术的飞速发展,微博作为一种新兴的社交平台,其应用已经逐步渗透到人们生活的各个方面。微博中包含着人们对产品、娱乐、社会热门事件等的观点和看法,蕴含了丰富的
<正>近期编辑部接到作者举报,有个人或组织冒用《中国体育科技》编辑部的名义向作者收取各种费用,此行为严重影响我刊名誉和广大作者的利益。为防止此类诈骗行为的发生,《中
应急演练可以提高组织机构应对突发事件的能力。针对目前应急演练无统一规范的现状,参照PDCA循环法,提出了"四阶段"应急演练标准,将应急演练分为策划、实施、评估与总结、持
近年来,舆情分析作为一个热点研究课题被很多学者关注,作为其中的一个重要问题:文本情感分析,自然也成为研究的重点,被很多专家学者不断挖掘。随着人们参与互联网的热情不断