基于武汉市民留言的文本聚类分析

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ming9981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类是文本挖掘领域的重要组成部分。本文从武汉市民留言数据量大、缺乏对市民诉求类型的归纳总结的实际背景出发,对市民留言进行词向量训练、关键词提取,最后将留言文本聚类,总结出留言中反映的民生问题。首先,本文采集了近年来1 060 200条留言数据作为语料库,选用Word2vec模型在语料库上进行训练,得到词的向量化表示。从词向量的结果来看,语义相近的词,词向量之间的余弦距离更近;同时,词向量缓解了One-Hot变量带来的维度灾难、向量稀疏、无法表示文本语法与语义信息的问题,为后续工作的推进提供了良好支撑。接下来对留言数据进行关键词提取工作,利用关键词提炼出留言的信息。本文对无监督和有监督的方法都做了实践与改进。无监督方面,本文发现鉴于留言文本的特殊性,存在一些套话以及地方名词,它们的特点是词频大且信息有限,对Text Rank提取结果产生了干扰,因此本文通过设置文档频率和差异系数的阈值在语料库中挖掘出这部分词汇,作为普通停用词表的补充,在文本预处理阶段过滤掉这部分词汇后,Text Rank提取结果有了一定程度的提升。对于有监督的方法,本文将关键词提取转变为二分类问题,人工标注出关键词,利用词本身性质、位置特征、词与留言以及词与语料的交互特征构建特征,利用Light GBM进行训练,最终测试集上的AUC值达到0.776,准确率和召回率在0.65以上,取得了比较好的效果。最后,对留言文本进行聚类工作。对留言文本提取关键词后,将每篇留言的关键词的词向量利用TF-IDF值加权构成留言的文档向量,采用K-Means++算法对留言进行聚类,通过肘部法则确定类别数为5。轮廓系数是对类别的内聚度和类间的分离度的度量,一般越接近1,说明聚类效果越好。选取轮廓系数作为聚类性能的评价指标,并且对比Text Rank和Light GBM提取关键词对聚类效果的影响,Light GBM提取关键词后进行聚类,轮廓系数相较于Text Rank提升了20.37%。然后,对每个类别以词为基本单位,将距离类别中心最近的词作为该类别的特征词提取出来,归纳总结出每个类别市民留言中出现的关键词汇,根据这些词汇总结出市民的诉求类型。结果表明,文本聚类挖掘出留言中市民的主要诉求类型,为准确地反映民生问题,让政府相关部门及时了解民情,有针对性的处理、改善民生问题提供了参考依据,提升了政府受理人员的工作效率以及民众的幸福感。
其他文献
随着大数据时代的到来,如何对海量数据进行处理、分析,从而获取商业价值,已经成为了越来越多公司重点关注的问题,同时也给任务调度带来了不少挑战。首先,在大数据处理中,由于数据处理量极大,单机处理会给企业带来巨大的时间成本;其次,在单个数据处理的工作流中,可能存在工作流内部各个任务之间有上下游依赖的情况,如果仅通过传统的定时任务库如Quartz来处理,则十分麻烦,难以掌控;另外,虽然有诸如Airflow
学位
<正>1 行业面临的问题1.1 政策与市场2020年,随着中美第一阶段贸易协定的签署,大豆供应回归正常状态。中国养殖业逐渐走出非洲猪瘟的影响,养殖存栏逐步恢复,中国大豆进口需求明显上升,同比增长13.4%。但是面对突如其来的新冠肺炎疫情,油脂油料的国内外供应链、油脂需求受到严峻考验。1.1.1 全球供应链受到新冠肺炎疫情的严峻考验新冠肺炎疫情全球蔓延致使全球经济衰退情况加剧,全球贸易保护的情况也进
期刊
随着互联网向医疗领域融合发展,在线问诊因为其方便性、安全性已成为居民的常用就医方式,因此积累了大量的在线医疗数据。命名实体识别是实现这种非结构化文本提炼的第一步。目前的医疗命名实体识别大多根据医疗书籍、电子病历等规范化文本展开研究,缺乏专门对口语化、信息间断的在线问诊记录的命名实体识别研究。本文基于Mac BERT与条件随机场模型,研究融入词信息的在线问诊记录中临床关键特征识别,并进行阴阳性判别。
学位
近年来,随着人口老龄化的加剧和社会生存压力的增大,心血管疾病的发病率逐年上升,急性心肌梗塞的死亡率迅速上升,大量患者出现并发症。研究表明,优质护理可以有效降低心肌梗塞恢复期并发症的发生率。因此,提前预测心肌梗塞患者可能发生的并发症,以便及时实施必要的预防措施,是一项极为重要的研究。本文首先介绍了国内外学者在疾病预测领域的相关研究,尤其是机器学习算法在对各类疾病的早期预测上的应用成果。本文详细介绍了
学位
心率是人体最重要的生理参数之一,对个体的健康状态临床评估和疾病风险管控具有重要意义。心冲击信号(Ballistocardiogram,BCG)的心率监测技术相比于传统侵入式方法(如侵入式血压)和其他非侵入式方法(如心电图、光体积变化描记图),具有易操作、易携带等优点。近年来卷积神经网络在医学影像的应用中凸显出巨大潜力,神经网络可以学习相关特征,在更复杂的端到端学习任务中重用相同的架构,这也为信号处
学位
由于云计算、机器学习等科学技术的蓬勃发展,各类信息的数据量呈爆炸式增长。海量的数据足以支撑各类应用去做信息的推荐功能,但是目前应用的推荐准确度仍有很大的提升空间。音乐经常被当做是一种解压和娱乐的方式,一个功能简单或者推荐度不高的听歌系统很难满足用户千人千面的需求,用户粘性也不会很高。因此开发一个基于良好推荐算法的音乐系统不仅可以满足人们缓解压力的需求,还能够因人而异,准确地预测出用户的喜好并以合适
学位
随着互联网信息技术的飞速发展,网络信息数据呈现出几何级别的爆炸增长态势,由此引发“信息过载”的问题。个性化的推荐系统能很好的解决这一问题。在推荐系统中,推荐算法的选择决定了推荐系统的质量。在工业级别的推荐系统中,推荐算法分为两步,分别是召回层和排序层。召回层高效快速的从数以亿计的原始物品库中选出用户感兴趣的几百个物品,排序层对挑选出的候选物品集进行精准排序以推荐给每个用户。本文主要研究召回层算法和
学位
全面推进中国式现代化是新时代新征程的伟大事业,则“税收现代化服务中国式现代化”必然是当前税收战线的首要任务。在中国特色社会主义持续发展中,税收始终是中国特色社会主义税收,税收现代化始终是中国特色税收现代化。因此讨论税收现代化服务中国式现代化,就是讨论中国特色税收现代化服务中国式现代化,就是讨论两者的辩证关系、时代内涵与实践途径。基于这一判断,本文聚焦四个方面展开讨论:一是在中国特色社会主义新发展中
期刊
该研究采用传统分离纯化技术对不同储存期(4~7个月)的宋河中高温大曲中的霉菌进行分离纯化,并通过形态学观察和分子生物学技术对其霉菌进行鉴定,结合其理化指标检测结果确定宋河中高温大曲的最佳储存时间。结果表明,从不同储存期的宋河中高温大曲中共分离得到22株霉菌,其中,储存期为4、5、6个月的宋河中高温大曲分别获得6株、4株、12株霉菌,经鉴定为5个属的14种霉菌,其中,枝孢菌属(Cladosporiu
期刊
不平衡数据集的分类问题是实际业务场景中最重要的建模问题之一。传统的机器学习分类算法大多只面向于平衡数据集,在训练过程中仅重视模型对样本总体的分类效果,当其应用于不平衡数据集时,会倾向于将样本判定为占比更大的类别,从而对少数类样本的识别能力下降。而事实上,实际中的数据集大部分是不均衡的,并且少数类样本被错误分类的成本远高于多数类样本。因此,结合当下重点关注的心脏病预测课题,对不平衡数据集的分类问题进
学位