论文部分内容阅读
【摘 要】基于指标数据关联性的数据报表生成系统,通过对海量数据进行清洗、筛选、建模能够形成有效的数据信息,结合历史用户的行为数据,可以自动集成数据报表,实现指标数据间的自动推荐、自动集成和深入挖掘,可大大提高工作效率,同时为企业决策提供参考依据。
【关键词】指标关联;自动集成;自动推荐
引言
企业经营分析系统中的数据报表大部分是一些基于数据库的统计报表,需求人提出需求后,开发人员根据需求的不同对数据提取后进行展示,展示形式一般是数据报表形式,报表使用者提取报表数据后再对报表进行手工整理集成,对其中的问题进行分析和判断。
数据统计报表数量日益增加,出现了“大量报表”、“海量数据”, 指标数据存放分散、重点不突出,很难一目了然地看到指标中的关键问题[1]。经分人员需要大量手工集成,才能对指标发展问题做出分析和判断,工作量大、工作时间长,主要指标监控及时率不高,难以满足快速市场反应的发展要求,难以迅速有效进行决策[2]。
项目需求
现有经分系统的报表系统实现方式比较单一,大部分是通过ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)加SQL语句完成报表的统计和展示工作[3]。
通过现有报表系统下载报表数据后,一般都需要大量手工集成,才能对指标发展问题做出分析和判断,工作量大、工作时间长。 现有报表系统缺乏从手工集成到自动集成的工具,缺乏通过指标数据关联性推荐相关报表的工具。
基于指标数据关联性的数据报表生成系统中包含一种报表推荐方法,这种报表推荐方法包括:获取历史用户的网站行为数据(所述行为数据包括:用户在网站的点击行为数据,用户常见的数据整理集成方法);根据所述行为数据以及指标数据本身的属性,确定用户看A报表,可能对B、C等报表中的某些数据感兴趣,并可能需要做的数据集成整理;对所确定的感兴趣的其他数据进行数据整理,选取相关的数据自动集成向用户展示以供用户参考。本系统所提供的技术,能够根据经分网站历史用户行为数据,报表数据属性关系,用户常见数据整理集成方法确定用户感兴趣的其他数据,并整理集成向用户推荐展示以供参考。可以减少个人用户的浏览、点击行为,提升经分网站使用感受,提高工作效率。
具体实施
第一模块:网页数据、行为数据获取模块,获取网页数据,包括经营分析网站的各类报表数据;获取用户的行为数据,所述行为数据主要是用户在经分网站的点击行为数据。该模块包含以下步骤:
1.从经分系统中批量抓取各类报表网页数据,解析HTML,获取报表中指标数据;
2. 获取用户的行为数据,所述行为数据主要是用户在经分网站的点击行为数据;
3. 从经分抓下的网页数据经过HTML解析,获取页面中的数据,对该部分数据进行清洗、筛选、整理,导入到数据库中;
第二模块:关联分析模块,利用指标属性关联、点击关系关联、现有的数据处理流程关联建立数据关联模型进行关联分析,确定用户感兴趣的其他报表数据内容。
5.指标属性关联Pi:每个指标都有其归属的第一属性、第二属性,如收入、成本、客户、业务、产品、资源、网络、客服、渠道、竞争等第一属性,第一属性可更详细分为更为详细的第二属性,如第一属性收入的第二属性可分为市话、长途、漫游、GPRS等。任何一个报表都是上述属性的一个或几个的组合,如市话收入是业务和收入的属性组合。指标的关联性也和属性相关,通过计算,可获取数据指标关联性较强的指标。
6.数据处理关联Ui:该部分关联一方面是为了获取指标之间的关联关系,一方面是获取指标常见的统计、整理、集成方法。经分系统报表经过人工收集、整理、集成后,报表系统的展示结果是从系统中下载的一些报表数据经过处理后的结果,比如会从日收入,日话务,日用户数三张报表中抽取各单位市话收入、市话主叫、用户数进行汇总,并按环比、同比整理集成到一张市话分析报表中,这样市话收入、市话主叫、用户数这三个指标关联性较强,同时这些指标集成方式是同比、环比汇总分析。
本系统是从经营分析系统中自动抓取报表,根据实际需求,通过系统后台汇总集成,这种处理方式是利用sql,tcl,shell,vbs结合一起完成自动汇总集成。经过一段时间数据整理、汇总,报表系统已获取大量数据集成行为。分析这些集成行为,可获取指标的常见集成行为。
7.数据处理关联分析,是从这些集成方法中可提取报表数据之间的关联关系,同时可提取指标数据的常见集成方法。
8.集成汇总:获取指标数据之间常见集成关系后,对指标进行集成汇总。
第三模块:报表展示、推荐模块:显示用户需求报表数据,并根据关联分析模块结果自动推荐、自动集成相关报表数据。该模块包含以下步骤:
9.自动关联、自动推荐:报表装置在展示用户关心的报表的时候,会在报表下方展示和报表关联性较强的指标。
10.自动集成:展示关联性较强的报表指标的同时,也关联集成方法,用自动推荐的方法集成,如同比、环比、差值等涉及地域、时间上的集成。
结论
经营分析工作中关注收入指标变化情况,常规作法是凭工作人员的经验下载经分系统中和收入相关的所有报表,先进行所有指标的同比、环比数据,从中找到变化中异常的数据,再对指标整理、汇总成报表进行展示。利用本系统,以上的工作都会变成自动化的操作。
基于指标数据关联性的数据报表生成系统,通过对海量数据进行清洗、筛选、建模能够形成有效的数据信息,结合历史用户的行为数据,可以自动集成数据报表,实现指标数据间的自动推荐、自动集成和深入挖掘,可大大提高工作效率,同时为企业决策提供参考依据。
参考文献:
[1] 陶彩霞,陈康,郝颖. 云计算在电信支撑系统领域的应用分析[J]. 电信科学. 2010(10)
[2] 徐志发.经营分析系统在电信业应用中若干问题的分析[J]. 电信科学. 2005(01)
[3] 李燕. ETL技术在电信经营分析项目中的应用[D]. 华南理工大学2009
作者简介:
陈娜(1982-),女,河南信阳人,博士,从事信息技术在通信系统中的应用研究。
【关键词】指标关联;自动集成;自动推荐
引言
企业经营分析系统中的数据报表大部分是一些基于数据库的统计报表,需求人提出需求后,开发人员根据需求的不同对数据提取后进行展示,展示形式一般是数据报表形式,报表使用者提取报表数据后再对报表进行手工整理集成,对其中的问题进行分析和判断。
数据统计报表数量日益增加,出现了“大量报表”、“海量数据”, 指标数据存放分散、重点不突出,很难一目了然地看到指标中的关键问题[1]。经分人员需要大量手工集成,才能对指标发展问题做出分析和判断,工作量大、工作时间长,主要指标监控及时率不高,难以满足快速市场反应的发展要求,难以迅速有效进行决策[2]。
项目需求
现有经分系统的报表系统实现方式比较单一,大部分是通过ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)加SQL语句完成报表的统计和展示工作[3]。
通过现有报表系统下载报表数据后,一般都需要大量手工集成,才能对指标发展问题做出分析和判断,工作量大、工作时间长。 现有报表系统缺乏从手工集成到自动集成的工具,缺乏通过指标数据关联性推荐相关报表的工具。
基于指标数据关联性的数据报表生成系统中包含一种报表推荐方法,这种报表推荐方法包括:获取历史用户的网站行为数据(所述行为数据包括:用户在网站的点击行为数据,用户常见的数据整理集成方法);根据所述行为数据以及指标数据本身的属性,确定用户看A报表,可能对B、C等报表中的某些数据感兴趣,并可能需要做的数据集成整理;对所确定的感兴趣的其他数据进行数据整理,选取相关的数据自动集成向用户展示以供用户参考。本系统所提供的技术,能够根据经分网站历史用户行为数据,报表数据属性关系,用户常见数据整理集成方法确定用户感兴趣的其他数据,并整理集成向用户推荐展示以供参考。可以减少个人用户的浏览、点击行为,提升经分网站使用感受,提高工作效率。
具体实施
第一模块:网页数据、行为数据获取模块,获取网页数据,包括经营分析网站的各类报表数据;获取用户的行为数据,所述行为数据主要是用户在经分网站的点击行为数据。该模块包含以下步骤:
1.从经分系统中批量抓取各类报表网页数据,解析HTML,获取报表中指标数据;
2. 获取用户的行为数据,所述行为数据主要是用户在经分网站的点击行为数据;
3. 从经分抓下的网页数据经过HTML解析,获取页面中的数据,对该部分数据进行清洗、筛选、整理,导入到数据库中;
第二模块:关联分析模块,利用指标属性关联、点击关系关联、现有的数据处理流程关联建立数据关联模型进行关联分析,确定用户感兴趣的其他报表数据内容。
5.指标属性关联Pi:每个指标都有其归属的第一属性、第二属性,如收入、成本、客户、业务、产品、资源、网络、客服、渠道、竞争等第一属性,第一属性可更详细分为更为详细的第二属性,如第一属性收入的第二属性可分为市话、长途、漫游、GPRS等。任何一个报表都是上述属性的一个或几个的组合,如市话收入是业务和收入的属性组合。指标的关联性也和属性相关,通过计算,可获取数据指标关联性较强的指标。
6.数据处理关联Ui:该部分关联一方面是为了获取指标之间的关联关系,一方面是获取指标常见的统计、整理、集成方法。经分系统报表经过人工收集、整理、集成后,报表系统的展示结果是从系统中下载的一些报表数据经过处理后的结果,比如会从日收入,日话务,日用户数三张报表中抽取各单位市话收入、市话主叫、用户数进行汇总,并按环比、同比整理集成到一张市话分析报表中,这样市话收入、市话主叫、用户数这三个指标关联性较强,同时这些指标集成方式是同比、环比汇总分析。
本系统是从经营分析系统中自动抓取报表,根据实际需求,通过系统后台汇总集成,这种处理方式是利用sql,tcl,shell,vbs结合一起完成自动汇总集成。经过一段时间数据整理、汇总,报表系统已获取大量数据集成行为。分析这些集成行为,可获取指标的常见集成行为。
7.数据处理关联分析,是从这些集成方法中可提取报表数据之间的关联关系,同时可提取指标数据的常见集成方法。
8.集成汇总:获取指标数据之间常见集成关系后,对指标进行集成汇总。
第三模块:报表展示、推荐模块:显示用户需求报表数据,并根据关联分析模块结果自动推荐、自动集成相关报表数据。该模块包含以下步骤:
9.自动关联、自动推荐:报表装置在展示用户关心的报表的时候,会在报表下方展示和报表关联性较强的指标。
10.自动集成:展示关联性较强的报表指标的同时,也关联集成方法,用自动推荐的方法集成,如同比、环比、差值等涉及地域、时间上的集成。
结论
经营分析工作中关注收入指标变化情况,常规作法是凭工作人员的经验下载经分系统中和收入相关的所有报表,先进行所有指标的同比、环比数据,从中找到变化中异常的数据,再对指标整理、汇总成报表进行展示。利用本系统,以上的工作都会变成自动化的操作。
基于指标数据关联性的数据报表生成系统,通过对海量数据进行清洗、筛选、建模能够形成有效的数据信息,结合历史用户的行为数据,可以自动集成数据报表,实现指标数据间的自动推荐、自动集成和深入挖掘,可大大提高工作效率,同时为企业决策提供参考依据。
参考文献:
[1] 陶彩霞,陈康,郝颖. 云计算在电信支撑系统领域的应用分析[J]. 电信科学. 2010(10)
[2] 徐志发.经营分析系统在电信业应用中若干问题的分析[J]. 电信科学. 2005(01)
[3] 李燕. ETL技术在电信经营分析项目中的应用[D]. 华南理工大学2009
作者简介:
陈娜(1982-),女,河南信阳人,博士,从事信息技术在通信系统中的应用研究。