找回密码
 社区注册

快捷登录

QQ登录

只需一步,快速开始

快捷登录

QQ登录

只需一步,快速开始

《大数据原理与技术》第一章 大数据概述
2022-7-26 16:12| 发布者: 导向和寄托壁| 查看: 2396| 评论: 0
微富网 新闻资讯 查看内容
摘要 : 大数据概述大数据是指需要用高效率和创新型的信息技术加以处理,以提高发现洞察能力、决策能力和优化流程能力的信息资产。数据的来源分为两类:社交数据(互联网) 和 机器数据(物联网)。大数据对于企业的价值:精 ...

大数据概述

大数据是指需要用高效率和创新型的信息技术加以处理,以提高发现洞察能力、决策能力和优化流程能力的信息资产。

数据的来源分为两类:社交数据(互联网)机器数据(物联网)

大数据对于企业的价值:精准的市场营销 + 辅助决策 + 催生产品和服务 + 改善产品和流程;企业中最有价值数据主要有客户数据、财务数据和生产数据

大数据技术的基本流程:数据采集 -> 预处理及导入 -> 数据分析及挖掘


大数据技术

[关键技术] 大数据采集

  • 通过Web、应用、传感器等方式获得各种类型的结构化、半结构化及非结构化数据,难点在于采集量大且数据类型繁多。
  • 网络数据:爬虫 或 API
  • 系统日志:日志收集工具 (如Hadoop的Chukwa、Flume,Facebook的Scribe等)

[关键技术] 大数据预处理技术

  • 抽取:将数据转化为单一或者便于处理的数据结构
  • 清洗:发现并纠正,将数据集中的残缺数据、错误数据和重复数据筛选出来并丢弃
  • 常见工具:DataWrangler、GoogleRefine

[关键技术] 大数据存储及管理技术

  • 难点:量大、类型多、文件大小可能超过单个磁盘容量
  • 常见工具:Google的GFS、Hadoop的HDFS、SUN公司的Lustre

[关键技术] 大数据分析及挖掘技术

  • 定义:利用算法模型对数据进行处理,从而得到有用的信息
  • 常用的分布式计算框架有MapReduce、Storm和Spark等。其中MapReduce适用于复杂的批量离线数据处理;Storm适用于流式数据的实时处理;Spark基于内存计算,具有多个组件,应用范围较广。
  • 数据分析:描述性统计分析、探索性数据分析和验证性数据分析。
  • 数据挖掘:偏差分析、关联分析、聚类分析、分类、回归

[关键技术] 数据可视化

  • 定义:将数据以图形图像形式表示,向用户清楚有效地传达信息的过程。

路过

雷人

握手

鲜花

鸡蛋

最新评论

联系我们 搜索

联系我们

对话产生契机,讨论收获惊喜, 只为成就无限创举

湖北省 武汉市
汉阳区龙阳大道龙阳大厦A座1419

欢迎来这里一起喝喝茶,
聊聊你的产品。

+86 139 9777 1122
(9:00AM-6:00PM)

代理合作请联系本号码
业务合作请点此处

洽谈合作
admin@vfuw.cn

共享万亿级市场
工作日24小时内回复

加入我们
jiangheng@vfuw.cn

我们欢迎每一个对设计怀
有疯狂激情的人。