国务院政府工作报告(1954—2017)文本挖掘及社会变迁研究

来源 :情报学报 | 被引量 : 0次 | 上传用户:xiaowen51
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
国务院政府工作报告是一类具有施政纲领性质的综合政策性文本。采用文本挖掘技术对历年工作报告进行多粒度、多层次的综合定量分析,对快速理解领域内容的发展变化以及发现社会变迁规律具有重要的指导意义。首先,利用中文文本分词工具并结合构建的三个词典对工作报告进行文本预处理。然后,一方面根据工作报告中的词统计信息,分别对频繁词、热词和新词进行概念上的界定并提出三种相应的特征筛选方法,基于新词提出了社会活力的计算方法,并对特征词时间序列进行聚类分析。另一方面根据文档信息,对1954—2017年整个时间段进行阶段划分,并结合特征词时间序列聚类结果进行特征词时间序列模式发现。最后,研究结果表明,抽取出的频繁词、热词以及新词能够反映出工作报告中探讨的共性问题、热点问题及其演化规律以及历年社会活力波动情况;根据特征词时间序列聚类结果和整个时间阶段合理的划分结果,发现了历年来国务院工作报告中存在的9种特征词时间序列模式。
其他文献
一患者因腹痛、腹水入院,血常规和骨髓检查提示嗜酸性粒细胞增多症,最终在患者臀部发现包块并在该处皮肤破溃后挤出蛆虫,明确诊断为蝇蛆病。1临床资料患者,男,17岁,甘肃省临
1补充所需营养物质种公猪的饲喂方式应当采取限制性饲喂方式,每天定时、定量喂给,分早、中、晚进行。每顿不要喂得太饱,每天喂量一般在2.0~2.5千克,可根据公猪的年龄、体重、肥瘦度
近年来,自动问答系统已成为机器学习、信息检索和自然语言处理领域的研究热点。问句分类作为问答系统要处理的第一步,其分类结果的好坏直接影响问答系统的质量,但目前大部分