基于文本挖掘的政府工作意见数据可视分析

来源 :浙江财经大学 | 被引量 : 0次 | 上传用户:d632709901
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着服务型政府建设的持续发展,我国政府日益注重民众对政府工作的意见,积极通过各种民主渠道收集民众对政府工作的意见以听取民意、科学决策。这些意见往往针对不同部门或是不同地区的政府,具有复杂的部门关联特征与显著的地理空间关联特征。探索主题与部门的复杂关联特征有利于政府部门精确把握民众关心的主题与相应部门之间的联系,从而有针对性地做出未来的工作安排;探索主题与地理空间的关联特征有利于政府机构了解不同区域民众关注主题的差异,从而进行资源的合理配置。然而,随着大数据时代的到来,海量级别的意见数据使得政府部门难以快速感知民众意见,不得不耗费大量的人力成本对数据特征进行统计。因此,急需开发一款工具,集成数据、算法与前端交互可视化展示以方便政府部门快速、准确地了解民众意见。政府工作意见数据往往以文本形式呈现,文本挖掘与可视化技术是探索文本数据的有效方式。其中,文本挖掘可以有效提取政府工作意见数据的隐藏特征,可视化技术可以将数据以图形的方式进行表达来提高信息的传输效率,并利用人机交互的用户界面辅助用户对大规模数据进行交互可视分析与探索。然而,从研究视角来看,当前对政府工作意见数据进行分析的相关研究大多都忽视了主题与部门关联特征、主题与地理空间的关联特征。从研究方法来看,更多采用传统的统计方法,而文本挖掘与可视化技术在政府工作意见数据分析领域的应用还比较少见。因此,本文基于文本挖掘技术对政府工作意见数据的主题与部门关联特征、主题与地理空间关联特征进行可视分析具有重大意义。本文的研究内容主要可分为两个部分:(1)基于潜在狄利克雷分布(LDA)对政府工作意见数据的主题与部门关联特征进行可视分析。首先,基于LDA设计主题与部门关联特征挖掘模型,具体来说融合LDA与TF-IDF算法设计主题增强的主题挖掘模型,进而利用信息熵探索主题与部门关联特征;其次,设计主题与部门关联特征可视分析系统,增加便利的人机交互模式,为用户深入探索和挖掘民众关注主题与部门关联特征提供有效手段。系统界面提供词云视图以展示主题增强特征,可交互桑基图以揭示意见在主题和多个部门的关联特征,矩阵图以直观地呈现意见数据在主题和部门之间的分布特征,从而实现对政府工作意见数据的综合判断和追踪分析。进一步提供主题时序演变和情感关联可视化设计,直观地呈现感兴趣主题特征的时序演变情况,并支持用户交互地探索主题的情感变化特征及与部门的关联;最后,使用真实数据集作为案例,论证算法与系统的可用性与有效性。(2)基于表征学习对政府工作意见数据的主题与地理空间关联特征进行可视分析。首先基于表征学习设计主题与地理空间关联特征挖掘模型,具体地利用Word2Vec算法将文本数据表征为高维词向量,通过t-SNE算法将高维向量映射至二维空间,以空间距离描述词语的语义结构特征,并采用DBSCAN密度聚类算法划分语义区间,以获得不同主题的语义特征,接下来使用基于泊松圆盘的自适应蓝噪声进行采样,保证各个主题下不同局部区间都能够有主题词被均匀采样出来,从而实现基于表征学习的主题语义特征挖掘,进而通过语义相似度计算建立主题与地理空间的关联;其次,设计主题与地理空间关联特征可视分析系统。系统界面提供的可视化展示功能包括利用投影视图展示意见在语义空间中的结构特征,词云图展示主题语义特征及不同地区关注热点主题语义特征,利用热力图展示主题与地理空间的关联;最后,通过真实的数据集,以案例分析的方式评估算法模型与可视分析系统的有效性与实际应用价值。本文贡献包括研究视角与研究方法的贡献。(1)从研究视角来看,本文对政府工作意见数据的主题与部门关联特征、主题与地理空间关联特征进行可视分析。而相关研究很少将民众关注的主题与部门或地理空间联系起来,从而探索民众关注的主题与部门或地理空间的关联性,因此本文在研究视角上具有一定的贡献。(2)从研究方法来看,本文使用文本挖掘与可视化技术对政府工作意见数据进行分析。而相关研究主要采用传统的统计方法对政府工作意见数据进行分析,因此本文在研究方法上具有一定的创新性。
其他文献
十八届三中、四中全会提出,我国经济体制改革的核心是处理好政府和市场的关系。强化市场机制在资源配置中的决定性作用,提高资本配置效率是促进我国实体经济发展的重要突破口。已有国内外文献研究发现:我国经济增长曲线在2010年后走势疲软,增长速度有所下降,过多的物质资本进入到政府主导部门导致许多企业存在融资约束问题。由于我国资本市场不完善,金融发展水平不高等背景,融资约束造成了企业间严重的资本错配,引起了全
在新一轮产业变革和科技革命的背景下,随着人工智能、云计算、大数据、区块链以及物联网等技术的蓬勃发展,金融科技正在将崭新的科学技术成果应用于金融领域中,对传统金融行业的组织体系、业务流程及产品设计等方面产生着较为深远的影响。2019年9月央行发布的《金融科技(Fin Tech)发展规划(2019-2021年)》指出加快金融科技战略部署与安全应用,已成为深化金融供给侧结构性改革、增强金融服务实体经济能
近些年来,汉语自身独特悠久的魅力吸引着越来越多的外国人学习,更是随着中国综合国力的提升受到越来越多的外国人重视。对外汉语教学作为教授汉语基础知识,传播中华文化的重要手段,当前不仅面临着巨大的挑战和机遇,而且也对对外汉语教内容的深度和广度提出了更高的要求。词汇教学是对外汉语教学的重点之一,它贯穿了汉语学习的各个方面。而在学习过程中,整体和部分同词现象将是学习者所遇到的学习重点。这一现象最常存在于植物
证券分析师作为资本市场的信息中介,主要服务于股票市场。大量研究表明,在股票市场上,他们的收集信息、解读信息、发布研究报告等行为有助于减轻投资者和公司之间的信息不对称,监督公司管理层,降低股东与管理层的代理冲突。本文以中国A股市场2007至2017年,2275家公司组成的15697个样本数据为基础,以跟踪公司的分析师数量和研究报告数量为切入点,探讨证券分析师对公司债务融资成本的影响。本文重点研究分析
随着经济全球化的推动,商务英语作为一门新兴学科在我国备受重视,商务英语相关研究也因此蓬勃发展。其中,连接商务英语教学与测评的商务英语能力量表研究对发展商务英语至关重要。商务英语阅读能力作为商务英语能力的重要部分,很有必要对其进行研究。然而,目前国内关于商务英语能力的描述仍缺乏统一的标准,因此,本研究为构建商务英语阅读能力量表的探索性研究,旨在初步构建商务英语阅读能力量表,为商务英语学科评价标准和体
绿色设计以同时满足产品的功能性和环保性为目的,在可持续发展的原则下探究设计方法,丝路文创绿色发展不应该是一句口号,艺术家应该肩负责任,以实际行动践行绿色设计。
随着社会的进步,人们的生活也越来越好,工业的发展是一切的基础,但是随着这些发展,一些问题也暴露了出来,环境污染就是其中之一。水是生命之源,在水中的污染物包含一些重金属离子,比如Hg2+、Cr3+、Pb2+等。除重金属离子外,一些超过允许极限的过渡金属离子也被认为是有毒的水污染物。因此,准确检测超低浓度下的离子是非常重要的。越来越多的多孔材料作为传感器用于检测各种污染物离子被开发出来。近年来,配位聚
黄梁木(Neolamarckia cadamba)作为南方地区重要的速生树种,具有较高的经济价值,研究其生长发育调控机制具有重要的意义。植物体内光合作用产物要由源到库进行长距离运转,蔗糖是主要运输形式,在这种运转过程中,蔗糖转运蛋白(sucrose transporter,SUT或sucrose carriers,SUC)是介导其进行跨膜运输的主要执行者之一。因此对该类基因开展功能基因组学研究,可
《中国翻译》是新时期翻译学术期刊的领头者,自1979年创刊以来,一直是我国开展翻译研究的主要阵地,其在组织和引导国内翻译学发展的效用明显。目前对于《中国翻译》的相关研究大多围绕其本身或其与其它期刊的载文定量分析,集中于描述特定时段国内翻译研究动态,缺乏对《中国翻译》在我国翻译学建设中所发挥的效用的研究。论文通过量化统计法、知识图谱法、文本细读法、综合比较法和原因分析法,选取《中国翻译》(1979-
随着互联网、物联网、云计算和软件即服务等相关信息领域的快速发展,由此产生的个人、企业和公共数据正以惊人的速度持续增长。我们无疑正处于大数据的时代。这些数据可以帮助企业进行理性的商业决策,也可以帮助研究人员基于真实数据进行有意义的科学研究,因此数据对于各个行业来说都蕴含着巨大的价值。同时,数据交易平台如Windows Azure、Infochimps、Xignite和国内的贵阳大数据交易所的涌现,也