大数据中的数据挖掘与建模是怎样的

发布时间：2022-01-18 10:45:33 阅读：157 作者：柒染栏目：大数据

开发者测试专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

这篇文章主要为大家分析了大数据中的数据挖掘与建模是怎样的的相关知识点，内容详细易懂，操作细节合理，具有一定参考价值。如果感兴趣的话，不妨跟着跟随小编一起来看看，下面跟着小编一起深入学习“大数据中的数据挖掘与建模是怎样的”的知识吧。

纸上得来终觉浅，绝知此事要躬行。

数据挖掘是基于统计学原理，利用机器学习中的算法工具实现价值信息的发现。机器学习是一种实现人工智能的方法，深度学习是实现机器学习的一种技术。

四大经典算法：分类、关联、聚类、回归

一、监督学习 （通俗来说就是已知样本类别，即知道当前的样本是哪一类的样本。）

1、分类分析：找出一组对象的共同特点并按照分类模式将他们分为不同类，分为线性分类和非线性分类。

线性分类典型的算法包括逻辑回归和线性判别分析。

非线性分类经典算法包括K近邻（KNN）、支持向量机（SVM）、决策树（D Tree）、朴素贝叶斯（NB）

2、回归分析：反映事务数据属性在时间上的特征，预测数据间的相关关系，与分类区别在于，分类是预测目标的离散变量，而回归是预测目标的连续变量。

典型的回归分析模型包括线性回归分析、支持向量机（回归）、K近邻（回归）。

二、无监督学习（事先没有任何训练数据样本，需要直接对数据进行建模，即不提供经验和训练样本，完全靠自己摸索）

1、关联分析：描述数据库中数据之间存在关系的规则。

关联规则挖掘中有4个指标：置信度、支持度、期望置信度、提升度。

典型算法：Apriori算法、FP-Tree算法、PrefixSpan算法。

2、聚类分析：训练样本标签信息未知，通过学习揭示数据内在性质及规律。

典型算法：K均值算法（K-means）、DBSCAN（具有噪声的基于密度的聚类方法）。

三、沃尔玛经典营销案例：啤酒与尿布

模型发现： 20世纪90年代的美国沃尔玛超市中，管理人员分析销售数据时发现了一个令人难于理解的现象：在某些特定的情况下，“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中。

原因分析：在美国有婴儿的家庭中，一般是母亲在家中照看婴儿，年轻的父亲前去超市购买尿布。父亲在购买尿布的同时，往往会顺便为自己购买啤酒，这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。

模型应用：在卖场尝试将啤酒与尿布摆放在相同的区域，让年轻的父亲可以同时找到这两件商品，并很快地完成购物；而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件，从而获得了很好的商品销售收入。

理论支撑： 1993年美国学者Agrawal提出通过分析购物篮中的商品集合，从而找出商品之间关联关系的关联算法，并根据商品之间的关系，找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法——Apriori算法。

关于“大数据中的数据挖掘与建模是怎样的”就介绍到这了,更多相关内容可以搜索亿速云以前的文章，希望能够帮助大家答疑解惑，请多多支持亿速云网站！

向AI问一下细节

猜你喜欢