加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据挖掘的技巧及实施

发布时间:2021-07-30 00:36:55 所属栏目:大数据 来源:互联网
导读:数据挖掘的方法 作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不完全

    数据挖掘的方法

 

 

    作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,维数大。最后,数据挖掘是许多学科的交叉,运用了统计学,计算机,数学等学科的技术。以下是常见和应用最广泛的算法和模型:

 

 

    传统统计方法:①抽样技术:我们面对的是大量的数据,对所有的数据进行分析是不可能的也是没有必要的,就要在理论的指导下进行合理的抽样。②多元统计分析:因子分析,聚类分析等。③统计预测方法,如回归分析,时间序列分析等。

 

 

    可视化技术:用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。

 

 

    决策树:利用一系列规则划分,建立树状图,可用于分类和预测。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。

 

 

    神经网络:模拟人的神经元功能,经过输入层,隐藏层,输出层等,对数据进行调整,计算,最后得到结果,用于分类和回归。

 

 

    遗传算法:基于自然进化理论,模拟基因联合、突变、选择等过程的一种优化技术。

 

 

    关联规则挖掘算法:关联规则是描述数据之间存在关系的规则,形式为“A1∧A2∧…An→B1∧B2∧…Bn”。一般分为两个步骤:①求出大数据项集。②用大数据项集产生关联规则。

 

 

    除了上述的常用方法外,还有粗集方法,模糊集合方法,Bayesian Belief Netords,最邻近算法(k-nearest neighbors method(KNN))等。

 

[page]    数据挖掘的实施流程

 

 

    前面我们讨论了数据挖掘的定义,功能和方法,现在关键的问题是如何实施,其一般的数据挖掘流程如下:

 

 

    问题理解和提出→数据准备→数据整理→建立模型→评价和解释

 

 

    问题理解和提出:在开始数据挖掘之前最基础的就是理解数据和实际的业务问题,在这个基础之上提出问题,对目标有明确的定义。

 

 

    数据准备:获取原始的数据,并从中抽取一定数量的子集,建立数据挖掘库,其中一个问题是如果企业原来的数据仓库满足数据挖掘的要求,就可以将数据仓库作为数据挖掘库。

 

 

    数据整理:由于数据可能是不完全的、有噪声的、随机的,有复杂的数掘结构,就要对数据进行初步的整理,清洗不完全的数据,做初步的描述分析,选择与数据挖掘有关的变量,或者转变变量。

 

 

    建立模型:根据数据挖掘的目标和数据的特征,选择合适的模型。

 

 

    评价和解释:对数据挖掘的结果进行评价,选择最优的模型,作出评价,运用于实际问题,并且要和专业知识结合对结果进行解释。

 

 

    以上的流程不是一次完成的,可能其中某些步骤或者全部要反复进行。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读