大数据项目的成本度量

来源 :中国新通信 | 被引量 : 0次 | 上传用户:mydoself
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】    大数据技术在近年不断快速发展,由于其不同于一般业务系统软件的个性化特点,在数据采集、处理、分发、分析以及呈现等关键步骤上和传统业务系统有较大差异。因此在对大数据项目进行成本度量时,需在通用的成本度量方法上,定制设计针对性的补充规则,从而指导大数据项目的成本度量实践。
  【关键词】    大数据    软件    成本    功能点     度量
  一、大数据项目成本度量
  2018年国家发布了国家标准《软件工程 软件开发成本度量规范》。但由于大数据项目的开发与传统流程型项目的开发有较大区别,因此在使用国家标准进行软件成本度量的过程中,遇到较多的问题。广东电网针对大数据历史项目数据的造价特点进行分析,在国家标准的基础上对度量方法进行研究,致力于研究出适合大数据项目的度量方法。
  二、数据项目成本度量规则
  本文对收集到的真实发生的大数据历史项目数据进行分析研究,开发费用基于软件开发成本度量规范中推荐的NESMA功能点方法,设计出更清晰、更易操作的大数据项目成本度量规则,实施费用则基于实践经验,总结分析后得出。设计出具体的度量规则如下。
  2.1数据预处理
  大数据项目其中一个特点是数据源的多样性,可以包含各种类型各种版本的数据库、文本文件、网页、日志,甚至包含图片、视频信息,也可能包括传感器、软硬件接口等信息来源。为确保后续工作能够有一个高质量的数据集,在数据采集时往往会进行必要的预处理。针对数据预处理的相关成本度量规则如下:
  开发费:由于预处理工作本身涉及格式转换、协议解析、图形识别等计算过程,因此这些功能应该识别为外部输出EO;每一个預处理场景识别一个外部输出,而不可依据抓取数据的字段进行识别;从结构化数据中获取数据,如从数据库、确定格式的excel、列表文件中获取数据,不认可预处理功能项;针对一个数据源的同一数据对象,如存在多处需要进行预处理的信息,仅识别一次外部输出;针对文本、网页数据预处理调整因子取值1.2;针对图形、音频、视频预处理调整因子取值1.3。
  实施费:预处理的相关数据文件每增加一个,增加0.5人天工作量;预处理的数据数量级在1000万条以下时,按每百万行数据0.1人天实施工作量计算;预处理的数据数量级在1000-5000万条数据是,按百万行数据0.05人天实施工作量计算;预处理的数据数量级在5000万条以上时,按百万行数据0.025人天实施工作量计算;如预处理与数据采集同时进行,不单独计算处理预处理的工作量,在数据采集时进行计算。
  2.2数据采集
  数据采集时如属于使用非实时方式进行采集,往往使用ETL工具或程序脚本定期采集数据。而流式采集主要用在实时处理的业务场景,数据采集后就像一个水坝一般将上游源源不断的数据拦截住,然后根据业务场景作对应处理,之后再写入到对应的数据存储中。针对数据采集的相关成本度量规则如下:
  开发费:采集数据应识别为外部输入EI;针对不同的数据对象来确定外部输入;从不同的数据源头,采集到相同的数据对象,如果数据源头的数据格式相同,则不重复识别外部输入;若不相同,则识别为不同的外部输入;使用工具,通过配置方式进行数据采集时,调整因子取0.5;使用程序脚本进行数据采集时,调整因子取0.8。
  实施费:采集的数据文件每增加一个,增加0.5人天工作量;采集的数据数量级在1000万条以下时,按每百万行数据0.1人天实施工作量计算;采集的数据数量级在1000-5000万条数据是,按百万行数据0.05人天实施工作量计算;采集的数据数量级在5000万条以上时,按百万行数据0.025人天实施工作量计算;如预处理与数据采集同时进行,不单独计算处理预处理工作量,在数据采集时进行计算;流式采集数据实时处理完成,不计算额外采集所产生工作量。
  2.3数据处理
  常见的数据处理包括对数据存储的常规管理,以及数据清洗、数据归集、数据转换、数据规约等过程。 针对数据处理的相关成本度量规则如下:
  开发费:用于记录数据对象的文件信息,如元数据、数据源头等文件应识别为内部逻辑文件ILF;针对数据对象记录文件的新增、删除、修改等改变记录信息的功能应识别为外部输入EI;针对数据对象记录的查询应识别为外部输出EO;针对数据对象或元数据的详情查看应识别为外部查询EQ;数据的清洗过程,包括缺省值、错误值检测、去重、不一致检查等,应识别为外部输入EI;数据归集的各类方法,包括同名异义、异名同义、单位不统一、容易属性识别等,应识别为外部输入EI;对同一数据对象的多种方法处理,不应识别多个外部输入EI。
  实施费:需要处理的数据文件每增加一个,增加0.5人天工作量;处理的数据数量级在1000万条以下时,按每百万行数据0.1人天实施工作量计算;处理的数据数量级在1000-5000万条数据是,按百万行数据0.05人天实施工作量计算;处理的数据数量级在5000万条以上时,按百万行数据0.025人天实施工作量计算;实施费用,不可因为分成多次处理,重复多次计费。
  2.4数据分发
  数据分发主要指数据通过网络传递到不同节点的过程。针对数据分发的相关成本度量规则如下:
  开发费:为完成数据分发目的,专门创建的对外发送文件可以识别为内部逻辑文件ILF;为完成数据分发目的,专门开发的程序接口可以识别为EO;通过ETL工具完成数据的分发,识别为EO,调整因子取0.5;如果是用开放数据权限,让获取方直接使用数据对象,则在当前应用的角度无需对功能点进行计数,而是应在主动获取的应用角度计数相关开发功能。   实施费:分发的数据目的地每增加一处,增加0.5人天工作量;分发的数据数量级在1000万条以下时,按每百万行数据0.1人天实施工作量计算;分发的数据数量级在1000-5000万条数据是,按百万行数据0.05人天实施工作量计算;分发的数据数量级在5000万条以上时,按百万行数据0.025人天实施工作量计算。
  2.5数据分析挖掘
  数据分析挖掘是大数据应用体系中的关键支撑环节,是指从大数据中发现潜在未知的信息和模型的分析计算过程。针对数据分析挖掘的相关成本度量规则如下:
  开发费:分析建立的模型记录信息,识别为内部逻辑文件ILF;各类数据分析挖掘算法,包括决策树分类、K均值聚类、支持向量机分类等算法,使用到每一种算法可以识别为一个外部输出EO;多个数据对象进行同一个算法分析,不可重复填报算法分析EO。
  实施费:数据分析属于计算机进行的工作,程序调试好后,无需人工参与,不额外计算实施费。
  2.6数据呈现
  数据呈现类工作,以获取并处理好的大数据为基础,通过智能报表、专题报告、BI展示、平台接口等方式展示应用数据。针对数据呈现的相关成本度量规则如下:
  开发费:各类智能报表、专题报告、BI展示、平台接口等均应该识别为外部输出EO;针对多个数据对象进行同类的数据呈现,不可重复填报外部输出EO。
  实施费:针对呈现的顶层功能如何使用展开的操作培训,可根据系统大小及培训网点数量,按每次培训0.5`2人天计算实施工作量。
  三、验证结果
  基于以上规则的设计,选取本单位3个已发生的大数据历史项目进行验证。按照原规则(国家标准《软件工程 软件开发成本度量规范》)以及按照新规则(本文新设计的度量规则)评估出的工作量统计,与历史项目的实际工作量进行比对分析(表1),单位均为人日。
  可以看出,按原规则进行评估,其偏差率在-35%~-20%左右。按照本文设计的规则进行评估,更接近实际工作量的数值,偏差率优化为-5%~5%。依据验证结果可得,本文设计的方法与原规则相比,优化了现有大数据项目成本度量的评估结果,更好地实现大数据项目的项目管理,提升管理的准确性。
  四、结语
  本文以《软件工程 软件开发成本度量规范》为基础,结合大数据项目特点,设计了大数据项目各主要过程的开发费用、实施费用度量规则,提升了大数据项目成本度量的准确性和有效性,使大数据项目成本度量结果更加符合实际需求。
  参  考  文  献
  [1]王元卓, 靳小龙, 程学旗. 网络大数据:现状与展望[J]. 计算机学报, 2013(06):3-16.
  [2]程学旗,靳小龙,王元卓等. 大数据系统和分析技术综述[J]. 软件学报,2014,25(9):1889-1908.
  [3]GB/T 36964-2018.软件过程 软件开发成本度量规范[S].北京:中国标准出版社.2018.
  [4]中国电子技术标准化研究院.2020年中国软件行业基准数据[R].北京,2020.
  [5]李华北. 软件成本度量及造价分析[M]. 电子工业出版社,2018.
  [6]张旸旸.软件成本度量国家标准实施指南:理论.方法与实践[M].电子工业出版社,2020.
  黄小强(1988.06),男,汉族,广东广州,硕士,广东电网有限责任公司,数字化部主管,高级工程师,研究方向:数字化项目造价管理。
  吴小庆(1977.06),男,汉族,广东广州,硕士,广州赛宝认证中心服务有限公司,软件质量部主任,高级工程师,研究方向:信息化领域成本造价评估、软件研发成本度量标准等。
  韩珊(1991.05),女,漢族,广东广州,硕士,广州赛宝认证中心服务有限公司,软件质量部技术经理,研究方向:信息化领域成本造价评估。
其他文献
【摘要】 龙伯透镜(Luneberglens)诞生于1944年,由德国物理学家龙伯发明。龙伯球透镜运用了凸透镜汇聚光线的原理,本质上是一个球形的多面折射透镜,它可以将通过透镜的光线分别在透镜两侧进行相互折射,从而形成一个放大的镜像。而龙伯球天线就是龙伯球透镜在移动通信领域的一种具体应用。相比较于传统天线而言,龙伯球天线具有波束窄、增益高的特点。本文提出了一种基于龙伯球多波束天线的高话务场景解决方
实现医药分开,缓解看病贵,首要任务是切断药品购销环节中的“促销”利益链.医院药剂科在利益链上起着关键作用,既参与药品采购决策,又执行药品采购与销售.芜湖市成立市药管中心,将药剂科从利益链上剥离,划归市药管中心管理,削弱药剂科在医院利用药品寻租权力.实践发现,斩断利益链后,药剂科在医院药品购销中不再起主导作用,由市药管中心继续管理,不利于药剂科各项职能充分发挥,导致医院药事管理弱化.因此,芜湖市医药
【摘要】 随着5G、物联网、互联网、大数据等技术的快速发展,整个社会面临着全新的信息技术革新形势。现代以大数据为核心的信息技术的发展,也让其背后的社会价值与经济价值更加突出,在经济发展中承担着更加关键的任务,让政府部门的治理理念和治理方式发生了根本的转变。广大群众和市场主体对政府信息化应用水平的要求更高,在此背景下基层政府在信息化政务方面的不足之处日益凸显。"政务信息化"正是大数据背景下政府部门
结合医院发展周期及核心刚度理论,对东方肝胆外科医院创建研究型医院的过程进行了战略分析和思考,提出创建研究型医院是突破医院核心刚度,保持和提升医院核心竞争力的重要途径;通过实践,形成了以创新文化为引领,“院所合一”为模式,复合型人才为核心,集成创新为机制,高层医学合作为推进的研究型医院建设的实践模式。
【摘要】 本文为了优化民航自动转报系统的干线路由将展开研究,主要论述系统、路由的基本概念、系統承转电报地址格式,最终提出干线路由优化思路、优化策略与注意事项。根据文中优化思路,采用相关策略可以对干线路由的配置进行优化,而优化方案主要针对干线路由信道,可起到保障通信稳定的作用。  【关键词】 民航 自动转报系统 干线路由  引言:  民航自动转报系统的主要功能是储存、转报电报,而电报的发送路
【摘要】 目前,5G技术作为推动医疗信息化高效发展的源动力,其代表着我国医疗信息化建设发展已步入一个新的阶段。5G技术的整体移动性及连接密度较高,解决了当前医疗资源分配不均、地方区域缺乏优质医疗服务的情况,其为医疗服务参与者带来高品质体验,对医疗领域发展提供极大便利,并予以相关技术支持,为互联网运行整体质量提供助力。纵观当前第五代移动通信技术在医疗信息化建设中的发展现状,其未来发展空间广阔,极大
【摘要】 本文对电信、联通目前采用的4G共建共享网络架构、共享载波的共享方式等进行阐述,并在分析对比“A2+A3”、“A2+A4”、“A2+A5”3种异频切换策略特点的基础上,针对广阔乡村及密集城区场景分别开展策略部署试点,同时围绕路测、网管关键性能指标等评估试点结果,提出4G共建共享网络的移动性部署策略。  【关键词】 4G共建共享 共享载波 异频切换  引言:  为充分发挥电信、联通双
【摘要】 根据党的十九大报告关于建设社会主义现代化强国的战略部署和《中国教育现代化2035》,积极参与国家现代化建设行动,努力发展基于互联网的教育服务新模式,构建“数据+”条件下的人才培养新模式,探索信息时代教育治理新模式,是山东省昌乐二中实现卓越品质、家国情怀、全球视野培养目标的必然选择。  【关键词】 271BAY 数据驱动 教育 学生成长  271BAY是山东省昌乐二中信息化建设的
【摘要】 在医疗行业,云计算技术的应用场景极为丰富,合理利用云计算技术,可以突破医疗行业特别是基层医院信息化建设的诸多壁垒。因此,文章以基于云计算的医院信息化建设为核心,阐述了基于云计算的医院信息化建设目标,论述了基于云计算的医院信息化建设方案,并对基于云计算的医院信息化应用内容进行了展望。  【关键词】 云计算 医院 信息化建设  引言:  医院是与大众息息相关的机构,随着科学技术的发展
【摘要】 为解决职业院校参加各级各类技能大赛获奖情况的管理和统计问题,作者对省域内各高职院校进行了调研,研究设计出了针对职业院校大赛获奖管理系统,使用网络形式实现对职业院校参加技能大赛获奖信息进行采集、管理、查询、统计等操作,方便解决了以往人工管理诸多不便。  【关键词】 职业院校 技能大赛 获奖管理  引言:  党的十八大以来,习近平总书记高度重视职业教育改革发展,作出了一系列重要讲话、