Web可视化技术在数据挖掘中的研究与应用

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:balonbalon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近来,随着计算机软硬件的飞速发展以及互联网的普及,人们通过网络和各种移动设备所产生的数据量正在爆炸式的增长,可以说我们正生活在一个浩瀚无边的数据海洋中。因此如何从海量数据中迅速分析统计出有用的信息特征就显得特别重要,而互联网技术的蓬勃发展为这一问题的解决提供了有效的途径。数据挖掘应运而生,它是从大量的数据集中提取出潜在的、有价值的信息特征。可视化是把得到的信息特征转化为可视的表达形式的过程。在数据挖掘的理论研究与应用中,与可视化技术的结合就产生了另一个重要的研究方向可视化数据挖掘。利用可视化技术并结合人的视觉特点,把数据挖掘产生的信息以直观的形式展现给用户,从而使得挖掘结果更有价值,更易于理解。网络信息化时代产生的数据多是通过网络访问和网络用户行为所生成的,大多存储于网络信息平台的大型资源数据库中,这些数据往往是字段可变的而且数据格式多样,可以是文本、图像、声音、视频等,而对这些数据库日志文件和数据文件的分析和应用是电子商务数据流到信息流转换分析的关键。论文首先针对大数据的背景进行介绍,在此基础上提出了Web可视化和数据挖掘技术,并对可视化技术在数据挖掘中的研究现状与研究意义作了介绍,为研究可视化技术在数据挖掘中的应用奠定了基础。其次,深入探讨了Web可视化和数据挖掘相关技术,介绍了可视化的基本流程、常用的Web前端可视化工具库、多维标度算法、Hadoop分布式处理系统等,为论文的整体设计提供技术支持。最后,结合具体实例,深入剖析了可视化技术在数据挖掘中的应用。对于传统的多维属性变量数据,采用多维标度算法(MDS,multi-dimensional scaling),将多维属性变量简化到低维空间进行定位、分析,发掘数据的信息特征并可视化的展现数据结果。对于某商业论坛的日志数据,采用Hadoop海量数据处理系统,结合分布式文件系统(HDFS,Hadoop distributed file system)和Map/Reduce分布式计算模型,从该论坛的页面浏览量、注册用户数、独立IP数、跳出数等分析视角出发,构建可视化的数据模型,并设计了从后台数据统计挖掘到前端可视化显示的整体技术方案。
其他文献
随着经济全球化和信息技术的发展,传媒产业快速扩张,呈现多元化发展的态势,相应地,传媒产业新旧制度之间矛盾丛生。目前美国传媒产业在世界上具有重要的影响,而美国广播电视
有机旱作农业是山西现代农业的重要品牌,然而沁水县有机肥资源量不断增长的情况下,有机肥的施用比例却不升反降,严重阻碍了现代农业的发展。大力推进有机肥替代化肥减量提效,
文章以全球20个新兴经济体2005~2015年年度数据为样本,运用动态面板数据模型GMM方法考察了全球金融周期对于货币政策独立性的影响。研究发现,在金融一体化大背景下,以VIX指数
塑料包装废弃物的处理方法基本上可分为填埋、焚烧及回收再生利用。填埋是把垃圾作为废物处理,对垃圾资源的利用率低,不符合国家可持续发展战略。焚烧法可将不能再次利用的混杂
生物碱是存在于生物体中的一类含氮的碱性有机化合物。大多数有复杂的环状结构,氮元素多包含在环内,有显著的生物活性,是中草药中承要的有效成分之一。自从1806年德国化学家从鸦
本文结合农村文化礼堂建设,在古建祠堂改建而成的文化礼堂上调查,利用自然资源,展示古建文化、传统文化、孝道文化、兴学重教等方面研究。
视网膜静脉阻塞(RVO)会出现缺血区,产生血管内皮生长因子(VEGF)。VEGF是视网膜和脉络膜新生血管形成的主要刺激物,它可以增加血管的通透性,引起黄斑水肿,严重影响视力。随着抗VEGF药
为适应国网公司"三集五大"新体系及反事故措施的要求,进行变电站故障录波器联网系统建设应用工作。介绍系统总体结构、功能及实施方案。
目的探讨高同型半胱氨酸血症对急性缺血性脑卒中患者静脉溶栓疗效的影响。方法连续收集符合阿替普酶静脉溶栓治疗条件的162例急性缺血性脑卒中患者作为研究对象。根据90 d时
作为后现代语境中的一种典型的跨学科理论生态美学需要厘清与相关学科之间的关联。生态美学在基本的理论旨归上与结构主义有诸多相通之处。从索绪尔发现语言的差异性结构到德