论文部分内容阅读
数据挖掘,又称为数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,它是一种决策支持过程,主要用于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等方面。《中国统计年鉴》是由中华人民共和国国家统计局编纂,由中国统计出版社出版,该书系统收录了中华人民共和国和各个省,各个自治区,以及直辖市在二零一二年中的统计的社会和经济各个方面的数据,该书还涵盖了以前多年份的重要数据和各个地区的各项统计数据,它在各个方面反映了中华人民共和国的社会的发展情况,是一部统计性的资料年鉴。本文使用的算法包括主成分分析算法和神经网络算法。主成分分析是通过线性变换将多个指标降维到少数主成分的过程,通过少数主成分来体现数据信息。主成分分析主要实现降维的目的,通过主成分分析可以将数据信息压缩从而提取有用的信息。神经网络是通过模拟动物的神经元而建立的数据模型,该数据模型应用类似于大脑神经突触联接的结构进行信息处理。神经网络可以实现数据预测的目的。本文主要完成了以下两个任务。第一个任务是通过使用主成分分析法对我国2012年工业企业各种指标的数据进行研究,对我国31个省、自治区、直辖市的工业企业发展进行综合分析和评价,将18个工业企业指标降维到3个主成分,通过主成分分析算法进行主成分分析,计算主成分得分,对31个省、自治区、直辖市进行工业发展方面的排名,分析各个省、自治区、直辖市的特点和优势,为我国的经济均衡发展提供理论方面的依据。第二个任务是建立BP神经网络预测模型,通过对《中国统计年鉴》中的工业产品产量数据和国民生产总值数据进行研究,建立预测模型。工业产品产量指标包含有原油、天然气、原盐等31个指标,国民生产总值和工业产品产量之间有着一定的关系,本文通过研究国民生产总值和工业产品产量多个指标之间的关系,来建立BP神经网络模型,并与多元线性回归结果比较,发现BP神经网络的效果较好。