财务数据挖掘六步走

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:jekiyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着国内经济与国际经济日益相关和联动,企业所面临的商业环境也越来越复杂和难以预测。目前,很多企业都认识到了数据挖掘的意义。那么,面对这一陌生的系统,企业应该如何上马合适的财务数据挖掘系统呢?
  
  第1步:商业理解
  
  本阶段的任务主要是从业务角度来理解数据挖掘项目的目标和要求,然后将此转化为数据挖掘问题,并制定一个可行的数据挖掘计划。选择数据挖掘工具时,需要考虑以下两个问题:
  1.是否有在其他相关企业成功实施的经验?可用该工具解决的各类商业问题是否包括用户面临的商业问题?在解决用户行业内的商业问题时,该工具(单独使用或与用户的应用程序一起使用)是否有用?是否有该领域的成功案例?
  2.该工具是否在商业问题和数据挖掘技术之间提供了一个桥梁,是如何提供的?使用该工具中,各操作步骤是否可以被清晰地映射到数据挖掘的商业需求上?该工具是否向商业用户清晰地表述了数据挖掘概念?该工具如何与项目管理或其他计划工具整合?是否需要编写额外应用程序来实现数据挖掘技术与商业理解之间的沟通?
  
  第2步:数据理解
  
  数据理解阶段包括收集数据和对数据进行探索性分析两个部分。在该阶段中,可以获取不同类型的数据和可视化技术是要着重考虑的。
  1.该工具如何保护现有资产的利用
  该工具是否可与现存的数据库兼容?该工具是否支持通用的数据接口标准?是否要求数据转换成另一种格式才能使用?
  2.该工具是否可以对数据进行交互式探索分析并用丰富的图形展示数据
  数据挖掘工具是否提供了可视化技术,以便于发现数据中存在的模式?图形是否可以与用户交互,例如随着数据维度的改变,图形是否可以发生改变或者生成新的图形?
  
  第3步:数据准备
  
  数据准备阶段的任务包括了从最初获取的数据一直到构建生成可用于分析的最终数据。此阶段要着重考虑数据准备工作的高效性和易用性。
  1.该工具如何准备数据
  该工具在数据准备的所有工作(包括为建模所作的准备或为提高数据挖掘效率所做的准备)是否是交互性的?该工具在进行数据准备工具时,是否以一种易于跟踪的方式?
  2.在数据准备中,该工具是否可自动提取数据
  在提取数据时,是自动完成的,还是需要手工写SQL查询语句,进行数据的合并、汇总、排序和其他数据准备工作。
  
  第4步:建立模型
  
  在该阶段,需要选择和应用各种建模技术,设置模型参数。用户往往需要返回到数据准备阶段以使数据适应不同模型的不同要求。由于同一数据挖掘问题可以应用不同模型,故要考虑在应用数据挖掘工具时,不同分析技术的能力。
  1.该工具是否提高了分析师的工作效率
  该工具是否使分析师能快速生成有效模型?用户比较不同模型以找出最佳解决方案时,该软件的易用性有多好?为适应不同模型要求而进行数据准备工作时,该软件的易用性如何?
  2.该工具是否提供了足够多的数据挖掘技术
  该工具是否提供了神经网络、关联算法、聚类分析、分类分析、回归分析、图形化的展现等数据挖掘技术?
  3.该工具是否可组合使用不同技术
  不同技术是否易于组合而生成更佳结果?模型结果是否可整合入数据集以便后续分析?
  4.该工具是否可与现有技术资源(如算法和其它工具)兼容
  该数据挖掘工具是否能与现有的算法工具兼容使用?该数据挖掘工具是否可与其他数据分析工具兼容使用?
  
  第5步:模型评估
  
  评估阶段要对模型进行多方面的评估。主要目的是确定重要的商业因素是否被充分考虑?下面列出了有关的重点:商业用户的输入如何被整合进入模型,结果又如何被传给受众。
  1.该工具的结果是否可以适用于各种情况
  该工具产生的解决方案,是否对所有数据挖掘问题的解决方案都是有效的,还是只对某个数据挖掘问题的解决方案是有用的?结果是否准确地反映了所有的商业问题,是否在检验数据集上也足够好?
  2.该工具产生的结果是否容易理解
  产生的结果是否易为商业用户所理解?如果不能,则需要采取什么步骤以使结果便于读懂?该工具是否要求商业专家参与整个数据挖掘过程?
  
  第6步:结果发布
  
  数据挖掘过程可能很简单,如只是对商业问题给出一个建议;也可能很复杂,如应用一个应用程序向信息客户提供新知识。无论简单还是复杂,在结果发布阶段,都要用到该过程。结果发布经常要求扩展性的服务,所以下面的问题主要是基于数据挖掘工具在此任务上的帮助能力。
  数据挖掘解决方案如何才能被整合到应用程序中?整合的投资回报率是否高?是否需要在时间和财力上对结果发布做额外的投资?解决方案的更新是否容易?如果不容易,还需要做些什么工作,投入多少财力和时间?
其他文献
每年85万美元的账面节省  遗留系统是一个已经运行了很长时间的,对机构来说是很重要的系统,但是往往不知道如何处理的大的软件系统。它与平台相关,但不能在网络环境中直接访问。另外,遗留系统不能直接访问存储在各种数据库管理系统中的数据,但由于遗留系统所完成的是关键业务,所以不能简单丢弃。  集成遗留系统就是使遗留系统成为可以在网络中访问的系统,并支持遗留系统访问各种数据库管理系统。Gumlink公司集成
2006年8月4日对于百度来说是不平静的一天,十几名百度客户聚集在公司总部楼下,打出了“百度竞价欺骗客户,恶意点击非法敛财”的条幅。这一事件不但令百度面上无光,也令网络广告效果的可信度这一问题再次成为大家关注的焦点。  “目前国内的网络广告大都是一种漏钱模式!”客齐集总经理王建硕对记者说。    网络广告模式面面观    从互联网诞生的那天起,网络广告就有了出现的充分必要理由。逐年增长的网络广告市
企业实施信息随需应变的三个关键点    IBM曾经对全球2000多家客户进行过一次调查,其中60%以上的企业首席执行官认为,只有更有效地利用信息才能促进业务的发展,而一部分企业首席财务官则认为,将信息转变为企业的战略资产,可能带来5倍的价值。今天,对于企业用户来说,信息不仅仅是存储这么简单,更重要的是让信息流动起来,为企业创造新的价值。    信息是重要资产    IBM倡导的随需应变(On De
《中华人民共和国电子签名法》、《电子认证服务管理办法》实施两年来,国内电子签名应用的政策法规环境不断成熟和完善,北京数字证书认证中心(简称BJCA)也在不断成长壮大。  BJCA充分认识到信息安全保障在当今各行各业中的重要地位,认识到网络信任体系建设已经成为建设和谐社会的重要组成部分。所以,我们一直努力以最先进的技术、最完善的产品和最优质的服务来帮助客户,不断提高服务能力,努力一年比一年做得更好。
8月1日~3日,在广西南宁,面对众多合作伙伴,思科旗帜鲜明地打出了“成长源于改变”的主题。而“改变”、“创新”也成为思科中国总裁林正刚在思科中国2008财年合作伙伴高峰会上说得最多的两个词。    创新的新方法——放弃    思科在中国市场的产品销售100%都通过合作伙伴实现。因此,思科始终将“助力合作伙伴成长”秉为圭臬,致力于将创新的技术及理念引荐给合作伙伴,帮助其实现盈利与增长。作为2008财
北京宇信易诚科技有限公司     尽管各个商业银行对待小额支付系统的态度不一 ,但可以肯定的是,央行推出小额支付系统之后,会要求所有银行和允许接入系统的非银行金融机构按照人民银行的统一部署,将其行内业务处理系统实现与小额支付系统的联接。  因此,各大银行将不得不开始考虑或者实施这一新的系统。由于银行本身的技术路线不同,因此采取的方案也不尽相同。我们且来看看已经实施的部分银行的解决方案。  建设银行
明基W500主要规格  ● 采用720p LCD芯片  ● 1100ANSI流明 超高对比5000∶1  ● 加入Silicon Optix顶级HQV (Hollywood Quality Video)芯片  ● 动态光圈调整(Dynamic Iris)  ● 全方位画面调整(水平幅度:±48%;垂直幅度:±120% )  ● 3.3米即可投影出100英寸的大屏幕  ● 丰富接口  ● 经济模式下
总体评价 ★★★★  价格 110元  網址 www.tenda.com.cn  技术参数  支持协议:TCP/IP、PPPoE、DHCP、ICMP、NAT、SNTP  接口数量、4个  标准:IEEE 802.3u标准    腾达TEL502M外壳为塑料材质,金属灰的色调,在机器四周提供了散热孔,确保机器稳定工作。该路由器提供一个10/100M自适应Wan口与四个10/100M自适应Lan口。W
以目前制造工艺来看,微处理器的主频发展已经快要进入瓶颈阶段。如果再不改变“频率至上”的研发思路,那么下一代产品将面临性能无法显著提高的尴尬。对于厂商而言,此时从提高效率着手是唯一切实可行的出路。而除了流水线核心架构上的技术研发,双核乃至多核技术无疑又是一条捷径。伴随着Intel和AMD两强在PC市场的多核技术推进,乃至非x86市场的多核技术普及应用,我们已经彻底进入了一个多核时代。  解析多核计算
看看矿泉水在中国的销售历程:从价格高而销量不高的小生意,到价格低但几乎每个人都买的大买卖。处于赢利困局中的数字音乐,似乎也可以走一条矿泉水式的发展道路。  现在,摆在数字音乐面前的挑战主要是如何找到一套有效的赢利模式。  2006年7大唱片公司状告百度MP3侵权案、2007年4月11家唱片公司状告雅虎中国MP3侵权案,这两大案件提醒我们:内容提供商和终端服务提供商需要更好的模式来促进合作。而要找到