从生活实例看大数据挖掘

来源 :大众科学 | 被引量 : 0次 | 上传用户：hwangh

【摘要】

：

超市里，牛奶到底和哪种商品摆放一起销量更高？啤酒为什么与尿不湿摆放在一起会卖得更多？乍一看，它们似乎毫无联系，而大数据挖掘却能告诉你它们之间的关联。那么，大数据挖掘是什么呢？又有哪些方法？　　简单来说，大数据挖掘即指从大量数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程，其常用方法有分类、聚类、回归分析、关联规则、神经网络方法、Web数据挖掘等。分类　　数据被喻为蕴藏能量的煤矿，就像煤炭可以分

【出处】

：

大众科学

【发表日期】

：

2018年5期

【关键词】

：

数据挖掘生活实例尿不湿

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　超市里，牛奶到底和哪种商品摆放一起销量更高？啤酒为什么与尿不湿摆放在一起会卖得更多？乍一看，它们似乎毫无联系，而大数据挖掘却能告诉你它们之间的关联。那么，大数据挖掘是什么呢？又有哪些方法？
　　简单来说，大数据挖掘即指从大量数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程，其常用方法有分类、聚类、回归分析、关联规则、神经网络方法、Web数据挖掘等。

分类

　　数据被喻为蕴藏能量的煤矿，就像煤炭可以分为焦煤、无烟煤、肥煤、贫煤等一样，每种数据也有自身的特点，比如频率、量、速度、类型和真实性等等，从而将数据分出来。像好坏、高低、胖瘦……这些就是生活中最简单的分类方法。
　　再比如，信用卡公司将持卡人信誉分为良好、一般和较差三类，如果建立“信誉良好的客户是那些收入在5万元以上，年龄在40至50岁之间的人士”这样一个模型，就可以根据这个模型对新的记录进行分类，从而判断一个新持卡人的信誉等级是什么。

聚类

　　聚类与分类相似，但目的不同。聚类是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间相似性很大，但不同类别之间数据的相似性很小，跨类的数据关联性很低。
　　比如在商务上，聚类能帮助市场分析人员从客户基本库中发现不同的客户群，用购买模式刻画不同的客户群的特征；在生物学上，聚类能用于推导植物和动物的分类，对基因进行分类，获得对种群中固有结构的认识。聚类在汽车保险单持有者的分组，及根据房子的类型、价值和地理位置对一个城市中房屋的分组上也可以发挥作用。

关联规则

　　什么会促进蛋挞的销量？是飓风，飓风天气下蛋挞更受欢迎；啤酒与哪类产品摆放在一起会卖得更多？是尿不湿，父亲们在购买尿不湿的时候总是喜欢再买些啤酒……这些事物彼此之间看似毫无关联，但里面却隐藏着关联规则。
　　关联规则是隐藏在数据项之间的关联或相互关系，即可根据一个数据项的出现推出其他数据项。关联规则的挖掘过程有两个阶段：第一阶段是从海量原始数据中找出所有的高频项目组；第二阶段是从这些高频项目组产生关联规则。关联规则挖掘技术已被广泛应用于金融行业企业中用以预测客户的需求，各银行在自己的ATM机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。

回歸分析

　　回归分析反映了数据库中数据属性值的特性，通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中，回归分析可以被应用到各个方面。如通过对本季度销售的回归分析，对下一季度的销售趋势作出预测并做出针对性的营销改变。

神经网络方法

　　神经网络作为一种先进的人工智能技术，因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及以模糊、不完整、不严密的知识或数据为特征的处理问题。
　　人工神经网络首先要以一定的学习准则进行学习，然后才能工作。人工神经网络对手写“A”“B”两个字母的识别，如果规定当“A”输入网络时，输出“1”，而当输入为“B”时，输出为“0”。通过多次的学习模拟，来强化网络对上述规则的记忆，因而减少犯错误的可能性。一般说来，网络中所含的神经元个数越多，则它能记忆、识别的模式也就越多。

Web数据挖掘

　　Web数据挖掘是一项综合性技术，指Web从文档结构和使用的集合C中发现隐含的模式P，如果将C看做是输入，P看做是输出，那么Web挖掘过程就可以看做是从输入到输出的一个映射过程。当前越来越多的Web数据都是以数据流的形式出现的，因此对Web数据流挖掘就具有很重要的意义。目前常用的Web数据挖掘算法有：PageRank算法，HITS算法以及LOGSOM算法。这三种算法提到的用户都是笼统的用户，并没有区分用户的个体。目前Web数据挖掘面临着一些问题，包括：用户的分类问题、网站内容时效性问题，用户在页面停留时间问题，页面的链入与链出数问题等。（编辑/任伟）

其他文献

5G将怎样影响我们的生活

习惯了使用4G上网的你，回过头来去使用3G网络甚至是2G网络上网会是一种什么感受呢？龟一般的网速可能会是你的回答，如果说让你使用5G上网呢？你的答案又会是什么样的呢？　　如果说3G网速是清风、4G网速是暴风，那么5G网速应该就是龙卷风。随着20Gbps速度5G网络的临近，它的到来会给人们的生产生活带来怎样的改变？从2018年中国国际大数据产业博览会上可以初见端倪。 5G，龙卷风般的网速　　在201

期刊

生活2G网络3G网络博览会上网4G

The Expression of Fas/FasL in Peripheral Blood Lymphocytes and the Level of IL-2 in Serum of Patient

In order to investigate the role of the expression of the Fas/FasL in peripheral blood lymphocytes (PBLC) and the level of IL-2 in serum of patients with condyl

期刊

Relationship between Invasiveness of Pituitary Somatotrophinomas and Structural Abnormalities of Pro

期刊

PITUITARYsomatotrophinomaproteinKINASECMUTATIONpituitary somatotrophinoma

第八届中国创新创业大赛（贵州赛区）赛事圆满结束

9月9～10日贵州省科技厅主办的第八届中国创新创业大赛（贵州赛区）决赛在贵阳高新国际会议中心举行。　　据悉，决赛邀请了相关企业家、投资机构负责人和创新创业领域专家导师组成评委团进行现场评审，40家企业经过激烈角逐，最终初创企业组中贵州法格科技有限公司夺得一等奖、贵州自留地科技有限责任公司获得二等奖、贵州科赛德智能制造研究股份有限公司获得三等奖；成长企业组中贵州云基众智技術有限公司夺得一等奖、贵州乐

期刊

贵州省创业创新中国国际会议中心科技厅企业家现场评审

人体内也有大象的“抗癌武器”

美国犹他州大学的一项最新研究表明：大象体内有一种能够修复突变DNA的特殊基因，让人开心的是，人类的身体内也有这种类似的基因。这一发现将为人们提供新的抗癌途径。“佩托悖论”遭打脸　　关于癌症有这样一件有趣的事儿，1977年流行病学家理查德·佩托提出了这样一个说法：因为癌症是由有害的基因突变导致的，所以细胞越多，基因突变的几率越高。这个理论被称为“佩托悖论”。按照佩托悖论来推断，比起小白鼠等寿命短的小

期刊

抗癌大象体内多细胞动物基因突变武器流行病学寿命短

Mechanism of Anti-β-adrenoceptor Antibody Mediated Myocardial Damage in Dilated Cardiomyopathy

期刊

ANTIBODIESΒ-ADRENOCEPTORCYTOPLASMICfreecalciumFURA-2/AMDILATEDCARDIOMYOPA

The Com prehensive Evaluation on Four Indices of Drug Re-sistance in Acute Myeloid Leukem ia

期刊

ACUTEMYELOIDLEUKEMIADRUGresistanceCURATIVEeffectacute myeloid leukemia d

抽烟减压有益健康?得了吧!

我一同事爱吸烟,一吸好几支,吞云吐雾。另一同事看不下去,半开玩笑半认真地劝道:“吸烟有害健康,你这么个抽法,害人害己。”吸烟同事无奈地解释:“我抽烟减压,压力大,头发都

期刊

抽烟减压健康诺贝尔生理学或医学奖内分泌学吸烟压力