呼叫中心大数据文本挖掘分析与实现

被引量 : 6次 | 上传用户:caolippp123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着呼叫中心业务和技术的不断发展,各呼叫中心积累了大量的音频和文本格式的通话记录,形成了巨大的数据资产。但与此同时,由于难以有效分析如此大量的非结构化的数据,如何挖掘这些通话记录中所包含的信息一直是学术界和企业界研究的难题。本文以真实项目需求为导向,采用理论与实践相结合的研究方法,分别从文本挖掘技术现状调研,呼叫中心数据预处理,文本自动分类,主题事件挖掘四个方面对文本分析的相关内容进行了展开。首先,基于当前文本挖掘领域已有的技术优势和研究成果,提出本文在对呼叫中心数据进行文本挖掘工作时,可以进行算法补充或创新的理论依据。其次,针对呼叫中心数据集特点,设计一整套数据处理方案,完成对真实数据的清理和预处理工作,为后续文本挖掘算法进行数据准备。再次,为了解决呼叫中心数据集偏斜,噪音大的问题,提出改进的文本自动分类算法用于文本自动分类和一种基于关联属性的A-LDA主题模型算法用于主题挖掘。同时,针对海量数据的问题,为了提高文本分析的性能,完成了上述两种算法的MapReduce分布式计算的实现。最后,在基于前文挖掘算法的基础上,设计并实现一整套系统,将上述算法集成于系统当中,并通过网页图表形式对分析结果进行实时、快捷、友好的可视化展现。综上所述,本文通过对文本挖掘技术在呼叫中心平台上的应用进行研究,设计实现了一个从数据预处理,分布式文本挖掘算法以及网页可视化展现的大数据文本分析系统,为呼叫中心用户提供了决策数据参考。
其他文献
中华民族伟大复兴的“中国梦”,是中国共产党面对改革开放三十多年高速发展、面对建国以来中国特色社会主义道路六十多年探索实践、面对近代以来一百多年中华儿女抗争奋斗、面
移动互联网的飞速发展与4G时代的全面来临,催生了丰富的移动终端数据业务。用户开始越来越频繁地使用移动终端上网,留下了大量的个性化数据。这些数据描述了用户使用移动数据
本文基于会计政策、盈余管理的概念,通过分析盈余管理与会计政策之间的相关性,提出考虑到会计的真实性、可靠性,以及最大限度实现资源的有效配置,需要加强治理盈余管理。此外,还针
《中华大典》是国务院批准的重大文化出版工程,被列为国家文化发展纲要的重点出版工程项目,前新闻出版署将其列为"十一五"国家重大出版工程规划之首.《中华大典·数学典》在
<正>面对市场环境变化,挑战加剧,考验领导者的时刻到来。丁威相信,拥有核心竞争力的A.O.史密斯具有抗压性,这时更需要坚持价值观落地生根。A.O.史密斯,一家起源于美国拥有144
近年来,随着经济、社会和科技的发展以及人口的增长,我国的电力需求量在不断增加。一直以来,我国的电力供应都是主要依靠燃煤发电。然而,我国各地的煤炭资源分布并不均衡,在
订制化的网络服务对满足用户个性化需求具有重要意义。在传统网络中,运营商提供了多种面向用户的订制服务,从专线模式,再到精细化管控的智能管道。但是这种增量式(incrementa
近年来随着航天技术的发展,航天测试领域弹箭内部的大量不规则结构、大规模体积块设备给飞行器的设计、组装、整理以及纠错带来了诸多困难。传统的飞行器中,各功能单元结构之间
近年来生产高射程、高射击精度火炮是火炮制造技术发展的总体趋势,身管作为火炮最关键的构件,长径比大、材料硬度高、结构复杂都加大了身管的制造难度。其中膛线加工是身管制造
公务员廉洁从政是确保国家长治久安和社会和谐的前提和基础,青年公务员是行使国家行政权力、执行国家公务的主体,其中青年公务员是公务员队伍的接班人和生力军。我们建国以来历