找回密码
 社区注册

快捷登录

QQ登录

只需一步,快速开始

快捷登录

QQ登录

只需一步,快速开始

什么是数据挖掘
2022-6-28 12:42| 发布者: 程某某| 查看: 2653| 评论: 0
微富网 新闻资讯 查看内容
摘要 : 数据挖掘(Data Mining)是指从大量数据中提取出隐藏于这些数据中的规律,进而通过这些规律来预测未来或是指导人们做出相应的决策。数据挖掘就是寻找隐藏在数据中的信息过程,如趋势,特征及相关性,也就是从数据中发 ...

什么是数据挖掘


数据挖掘(Data Mining)是指从大量数据中提取出隐藏于这些数据中的规律,进而通过这些规律来预测未来或是指导人们做出相应的决策。

数据挖掘就是寻找隐藏在数据中的信息过程,如趋势,特征及相关性,也就是从数据中发掘信息或知识(Knowledge-Discovery in Databases,简称:KDD)。

Data mining provides a way for a computer to learn how to make decisions with data.

数据挖掘一般有三个主要阶段:数据准备,数据挖掘以及结果表达与解释。


  1. 数据准备:数据集成,数据选择及数据预处理

  2. 数据挖掘:利用机器学习、统计分析等方法,从数据中发现有用的模式或知识

  3. 结果表达与解释:模型评估,模型应用

数据挖掘的方法

  1. 分类:若预测的变量是离散的,称为分类;若预测的变量是连续,则称为回归。方法有决策树、朴素贝叶斯、逻辑回归、神经网络等。

  2. 聚类:从数据中找出相类似的数据并组成不同的组。方法有k-means算法、分层凝聚法(Hierarchical Agglomerative Methods)及估算最大值法(Estimation Maximization Algorithm)等。

  3. 关联:从数据中发现不同事物间的相关性,找出它们间的关联规则。

  4. 预测:从数据中找出变化规律,建立模型,并用模型来预测未来。

数机据挖掘十大算法

  1. C4.5:机器学习中的一决策树算法

  2. K-Means:聚类算法

  3. SVM:Support Vector Machine, 支持向量机,是将向量映射到一个更高维的空间里, 在这个空间里建立一个最大间隔超平面

  4. Apriori:关联规则算法

  5. EM:Expectation-Maximization,最大期望

  6. PageRank:根据网站的外部链接和内部链接的数量和质量,衡量网站的价值

  7. AdaBoost:迭代算法,核心思想对同一训练集训练不同的分类器(弱分类器),然后将这些弱分类器集合起来,构成一个更强的分类器

  8. KNN:K-Nearest Neighbor,k最近邻,分类算法

  9. 朴素贝叶斯算法:Naive Bayesian Model,NBM,以概率形式表达所有形式的不确定

  10. CART算法:Classification and Regression Trees,分类与回归树。

【注】图均来自网络。


路过

雷人

握手

鲜花

鸡蛋

最新评论

联系我们 搜索

联系我们

对话产生契机,讨论收获惊喜, 只为成就无限创举

湖北省 武汉市
汉阳区龙阳大道龙阳大厦A座1419

欢迎来这里一起喝喝茶,
聊聊你的产品。

+86 139 9777 1122
(9:00AM-6:00PM)

代理合作请联系本号码
业务合作请点此处

洽谈合作
admin@vfuw.cn

共享万亿级市场
工作日24小时内回复

加入我们
jiangheng@vfuw.cn

我们欢迎每一个对设计怀
有疯狂激情的人。