论文部分内容阅读
电子政务近年来在中国有了很大发展,各级政府部门建立了大量的数据库,数据呈指数级增长。如何利用新的数据分析技术高效、准确地从电子政务系统中提取有用的信息成为了一个有现实意义的问题。本文将使用数据挖掘技术对市级电子政务办公系统iGRP进行数据分析,目的是通过对iGRP电子政务办公系统进行数据挖掘来发现影响用户活跃度的属性。在数据分析过程中首先根据分析目的选择合适的目标属性和预测属性;然后从iGRP数据库中抽取、集成、清洗所选择的目标属性和预测属性;接着对数值型预测属性进行噪声处理和离散化处理;接下来使用ODM(Oracle Data Mining)的“属性重要度”功能对目标属性及其相关预测属性进行属性重要度分析,将无关的预测属性排除,以达到减少数据维度的目的;之后,对目标属性及其相关的预测属性使用ODM的O-Cluster算法进行聚类分析,为数值型目标属性找到一个合适的分裂点,根据这个分裂点将目标属性转化为二元属性;最后,使用ODM的决策树算法对目标属性进行分类挖掘并进行测试评估。本文从某市iGRP电子政务系统5个数据库中抽取了7827条数据,包含30个预测属性和2个目标属性。按上述方法对该数据集进行数据挖掘后得出如下结论:对用户活跃度影响最大的属性是“收藏数量”,其次是“发文员”和“收文员”角色。根据此结论,应进一步了解用户对“收藏文件夹”这个功能模块的需求和使用反馈,以便改进提高此功能,为用户提供更好的服务。其次,在用户培训和用户反馈调查中应更加关注具有“发文员”和“收文员”角色的用户。本文使用数据挖掘技术对真实的电子政务系统数据进行了数据分析,实现了对海量数据的高效、准确分析,为改进iGRP产品及提高用户满意度提供了依据。