基于改进CFSFDP算法的电信投诉文本聚类方法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:kebo824
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近十几年来,信息技术的日渐成熟带动了移动互联网的飞速发展,进而涌现出了数以万计的网络数据。这些网络数据大部分以文本的形式存在。如何有效的管理并分析文本数据涉及到文本处理技术的研究。文本聚类作为文本处理技术的重要课题,在文档管理、信息检索、数据挖掘等方面有着重要的应用。随着电信企业的不断改革、发展,电信业务的多样化吸引了大量用户。但是,电信业务的不完善也导致用户对电信运营商的投诉越来越多。采用文本聚类技术对电信投诉文本进行处理,能方便电信运营商分析投诉原因,制定问题业务的处理对策,从而提高电信服务质量,增强企业竞争力。CFSFDP(Clustering by Fast Search and Find of Density)算法是由 Alex Rodriguez和Alessandro Laio在2014年提出的一种新的基于密度的聚类算法。CFSFDP算法通过简单的距离与密度乘积值来选取聚类中心。本文首先针对该聚类中心选取策略的不足,提出了一种基于加权的CFSFDP算法。基于加权的CFSFDP算法增加了距离值在选取聚类中心时的重要性,提高了算法选取聚类中心的准确率。将基于加权的CFSFDP算法和基本的CFSFDP算法应用于电信投诉文本,通过实验结果证明了改进后算法的有效性。在分析数据点密度与距离作乘积选取聚类中心存在问题的基础上,本文提出了一种基于差分进化的CFSFDP算法。通过差分进化算法寻找CFSFDP算法中最优密度阈值和距离阈值,降低密度及距离阈值的随机性选取对聚类准确率造成的影响。最后在电信投诉文本数据集上实验证明,基于差分进化的CFSFDP算法的聚类结果达到与K-Means算法、CFSFDP算法、基于加权的CFSFDP算法以及Agglomerative Clustering算法更好或者相当的效果,验证了算法的有效性。
其他文献
大气散射是自然界中一个非常重要而又普遍存在的物理现象,它使得晴朗的天空在白天呈现蓝色,而在傍晚则显得昏黄;它使得近处的场景显得清晰,而远处的场景则显得模糊。同时,大
本文设计了一种紧凑型的应变式一体化多模态传感器。该传感器具有高集成度、多模态化等特点。整个传感器集成于一个通过压电陶瓷驱动的复合型桥式柔顺放大机构中,使其结构紧
磁流变液(Magneto-rheological fluid,MRF)是一种对磁场敏感、性能可控的新型智能材料。由于其众多优异的性能得到越来越广泛的应用,同时也存在一些难以克服的缺点,所以一直
挥发性有机物(VOCs)是大气污染中的一种重要污染物。对VOCs的有效处理是治理环境污染的重要环节。目前,利用转轮吸附浓缩-蓄热催化燃烧反应器对VOCs进行矿化处理一种比较通用的技术。但转轮吸附浓缩设备存在床体间易窜气、吸附剂脱落后难修复和整体更换成本高等问题。本文将利用三座固定床式吸附塔来代替转轮吸附浓缩设备,建立一套VOCs气体吸附浓缩-蓄热催化燃烧中试设备,并通过实验结合模拟化研究方法确定了
随着移动智能终端的普及、移动应用的快速发展及用户需求频繁变更,移动应用功能越来越复杂,项目开发难度也越来越大。传统的应用一体化开发方式只能为应用项目添加相关功能代
包膜缓/控释肥料对养分具有可控释放周期长和利用率高等优点,能够提高农作物产量。然而,合成高分子包膜材料降解性能差,会给环境带来二次污染,开发天然可降解、多功能复合材
目的:观察滋阴清热,凉血止血法治疗经期延长阴虚血热证的临床疗效,探讨治疗本病的理论依据。方法:选取符合经期延长阴虚血热证的患者60例,随机分为治疗组和对照组各30例。以滋阴清热,凉血止血为治疗法则,治疗组服用丹栀二至方,对照组服用葆宫止血颗粒,连续治疗3个月经周期。记录用药前后行经天数,中医证候评分,基础体温(BBT)高温相下降移行天数,最后进行疗效分析。结果:(1)行经天数疗效:治疗组痊愈16例
流动性风险是商业银行日常经营管理过程中面临的主要风险之一。近年来,我国商业银行流动性风险事件发生的频率和强度都逐渐加重,典型的流动性风险事件就是2013年6月发生的“
医药制造业关乎国计民生,对于国民健康和社会稳定不可或缺。在宏观经济波动、医药体制改革不断深化的大背景下,行业竞争进一步加剧,研发的核心作用日益凸显。然而,研发的大投入、长周期、高风险的特点给企业带来了资金压力。伴随着金融产品的丰富,一些实体企业在坚守主业的同时,开始关注和涉足金融化。相对于实业投资,金融化一般有着更高的投资收益率,实体企业金融化提供了新的发展机遇,或可为企业研发提供资金支持,即发挥
随着中国制造业的发展,各种机械装备的应用越来越广,市场对装备设计周期与设计质量提出了更高的要求。压力机是板金零件冲压成形应用最为普遍的设备,是机械装备中一类重要的大型加工设备。压力机的设计由简到繁,经过了很多代的更新,传统的人工设计方式,设计计算量大,设计周期长,过于依赖设计人员的设计经验,对于相似机型的设计,重复利用率不高,且由于经验设计很少进行强度校核与优化,所以得出的机械结构往往过于保守,存