论文部分内容阅读
随着通信技术的快速发展以及电信行业的不断改革创新,越来越多的消费者办理了电信业务。然而,运营商们对于业务管理的不完善,导致用户体验差,使得用户的投诉越来越多。随着投诉量的增加,导致很多投诉无法得到及时处理,加剧了用户与通信企业之间的矛盾。针对投诉量剧增而导致投诉无法得到及时处理的问题,本文通过话题模型对投诉文本进行语义分析,从中识别隐含的话题。并通过对话题进行追踪和演化分析,以话题内容和强度的变化了解相关业务的受理情况和用户的关注点,从中找到原因所在,进而制定问题业务的处理对策,提高通信企业的服务质量,增强企业竞争力。本文通过分析投诉文本的特点,在已有话题识别与演化技术的基础上,针对投诉文本的话题识别和演化的研究做了如下的工作。(1)为了识别热点话题,本文结合LDA模型,提出了一种基于LDA模型的移动投诉热点话题识别的方法。该方法首先从分析投诉文本的特点入手,使用k-means对文本进行聚类,提高了各类文本之间的相关性;然后,利用LDA对每个类进行建模,提取话题,并对话题进行过滤;最后,通过计算剩余话题的文档支持率来识别热点话题。(2)为了获得话题内容和强度的演化,本文又提出了一种结合SVM与LDA的移动投诉文本话题演化方法。该方法首先使用SVM分类器按时间片对投诉文本分类;然后,利用LDA模型按时间片、按类别对投诉文本进行话题抽取;最后从话题的语义相关性和特征词相似度两方面计算相邻话题的相似度,获得话题内容和强度的演化。(3)最后,本文基于课题研究成果,结合数据挖掘、文本处理、自然语言处理等知识以及软件开发相关技术,设计了一个基于移动投诉文本的“投诉智能分析系统”。系统设计中通过引入大数据处理领域的并行计算框架Spark解决了数据处理时效性不足的缺点,满足了系统应用的实际需求。