基于Spark的江西省新一代信息技术专利数据分析研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:guangminghuayuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新一代信息技术产业于2009年正式确立,数十年来一直是国家扶持的重点对象。近年,江西省新一代信息技术产业增长势头明显,但与沿海经济发达省份相比还存在不少差距。本文利用大数据技术和权威的专利数据,对江西省新一代信息技术产业发展状况进行深度分析和预测,为产业发展提供更有效的对策。本文主要研究内容如下:1、收集实验所需数据,并搭建Spark开发环境。本文根据国家统计局给出的对于新一代信息技术产业的分类,以及国家知识产权局给出的产业划分目录,制定专利数据检索式。利用Python实现网络数据爬取,经过清洗后生成原始数据集。本文建立了Spark集群及开发环境,利用大数据框架进行数据统计与分析,并利用Echarts图表库实现数据可视化。2、提出了改进的K-Means算法对专利数据进行聚类分析。聚类分析之前,为了提高实验结果的准确度,对实验数据进行离散点检测去除操作。为避免出现局部最优解的问题,改进了选取聚类中心点的方式,实验以江西省数据为例,选取专利申请人、专利年度数据等指标,进行多维度聚类分析。3、提出了基于Logistic模型以及生命周期理论的技术发展预测方法。以专利数据量为样本数据,用梯度下降法对模型进行参数调整以得到最优结果。本实验对全国新一代信息技术及其部分核心领域发展现状进行分析和预测,为未来的发展方向提供指导依据。为将分析结果进行系统性的展示,论文最后构建了一个Web系统,将研究结果可视化。本文的创新点是:1、采用权威的专利数据和大数据技术,对江西省新一代信息技术产业的发展进行分析和预测了产业发展趋势,填补了江西省在这一领域研究中的空白;2、引入了Spark大数据处理框架,提高海量数据处理效率,并改进了K-Means算法,利用离散点检测算法去除噪声,改善聚类中心点的选取方式,使得算法收敛速度更快,聚类效果更好。
其他文献
目的:分析闭合复位无头空心加压螺钉治疗儿童Delbet-ColonnaⅡ型、Ⅲ型股骨颈骨折的初步临床疗效,为儿童Delbet-ColonnaⅡ型、Ⅲ型股骨颈骨折的治疗提供一个新的选择。方法:
相比于常规定性磁共振成像(T1加权,T2加权,PD加权,磁化率加权成像),磁共振定量成像对人体病理组织有着其特有的组织特异性和高灵敏度,并能定量地评估疾病的演化,在临床上意义
目的:在手术治疗Chiari畸形I型(CM-I)中,对于仅单纯后颅窝减压(PFD)和同时进行硬膜成形术(PFDD)存在争议。因此,我们进行了一项系统评价和meta分析,以评估后颅窝减压伴或不伴
农业是人类社会赖以生存与发展的基础,然而,我国目前面临着人口总数多、耕地面积少,农业生产力水平还比较低的基本国情,再加上现在农村实行的家庭联产承包责任制使得我们耕地
百年大计,教育为本,教育大计,高校先行。十三五期间,民办教育在我国快速发展,教育质量和办学水平在各类民办高校中也有了不同程度的提高,为我国经济社会的健康、平稳、快速的
词汇教学在高中英语教学中占有重要的地位。对于学习者来说,只有掌握了足够的词汇才可能在听、说、读、写方面取得进步。但是目前高中英语词汇教学存在较多的问题,主要表现为大部分高中英语教师未能结合语境实施词汇教学,高中生也采取重复机械式的词汇学习策略,不能够结合语境学习词汇,久而久之,很多学生甚至逐渐会放弃学习英语。因此迫切需要我们高中英语老师找到一些有效教授英语词汇的方法。本文以实验的形式研究语境理论在
目的:观察菊藻丸联合内分泌治疗晚期前列腺癌(瘀血内阻证)患者的临床疗效及生活质量。方法:将31例晚期前列腺癌(瘀血内阻证)患者随机分为治疗组(17例)、对照组(14例)。对照组
习近平总书记在十九大报告中明确指出要优先发展教育事业,认为教育强国是中华民族伟大复兴的基础工程,必须把教育事业放在优先位置,深化教育改革,加快教育现代化,办好人民满
乡村旅游作为一种新型的产业形态和消费业态,能促进旅游者在农村的多元消费和农村地区内部的消费,推动当地经济发展,是实现乡村产业振兴的重要措施。客源是乡村旅游赖以生存
目的:探讨钙网蛋白(calreticulin CRT)在胆囊癌组织中表达及其对GBC-SD细胞株生物学行为的作用。方法:利用免疫组织化学及RT-qPCR测定胆囊癌组织、癌旁组织和慢性胆囊炎组织