大数据知识

大数据

1.大数据概念 (Big Data)

1.大数据,指无法在一定时间范围内用常规软件工具进行捕获,管理和处理的数据集合,是需要新的处理模式才能具有更强的决策力,洞察发现力和流程优化的海量,高增长率和多样化的信息资产.

2.大数据特点 5V
  • Volume:指数据体量巨大,从TB级别到PB级别(1PB=1024TB) EB级别(1EB=1024PB),甚至ZB级别(1ZB=1024EB).
  • Variety:指数据类型繁多,数据类型分为结构化数据和非结构化数据.
  • Value:指价值密度低,价值密度的高低与数据总量的大小成反比. (例如日志 有用数据信息往往需要大量数据)
  • Velocity:指的是处理速度快.这是大数据区别于传统数据挖掘的最显著特征
  • Veracity:指的是数据来自于各种,各类信息系统网格以及网络终端的行为或痕迹.
3.大数据的架构

image

4.大数据应用 (4W1H)

合适的场合 时机 渠道 把合适内容推荐合适客户! 例如 推送,偏好分析 大数据 杀熟 等.

  • WHO 合适用户或者群体用户
  • WHAT 合适的内容 商品 广告 资讯
  • WHERE 合适地方 用户中心首页
  • WHEN 合适时间
  • HOW 合适的渠道 网页 app
5.大数据关键环节

大数据主要包括 数据采集 数据存储,数据管理,数据分析与挖掘 4个环节.

环节 主要技术
数据采集 主要使用数据抽取工具ETL
数据存储 结构化数据存关系型数据库 用(SQL)访问,非结构化和半结构化用分布式文件系统的(NoSQL)进行存储
数据管理 分布式并行处理技术,常见的是MapReduce
数据分析与挖掘 根据业务需求对大数据进行关联,聚类 分类等钻取 分析,利用图表加以展示
6.大数据关键技术
  1. HSDF:分布式文件系统,大数据存储技术,能提供高吞吐量的数据访问,非常适合大规模数据集的应用. 是Hadoop项目的核心子项目
  2. HBase:分布式面向列的开源数据库,大数据存储技术不同于一般的关系型数据库,是非结构化数据存储的数据库.
  3. MapReduce:大数据管理技术,一种编程模型,主要思想:概念”Map(映射)” 和”Reduce(归纳)”. 大数据管理主要用了分布式并行处理技术.
  4. Chukwa:用于监控大型分布式系统的数据收集系统.集成了Hadoop的可伸缩性和鲁棒性.
  5. Flume:是Cloudera提供的高可用,高可靠的,分布式的海量日志采集,聚合和传输的系统.
  6. kafka: 是一种高吞吐量的分布式订阅消息系统. (生产者消费者不直接通信)
  7. Producer: 消息生产 负责发布消息到Kafka broker
  8. Consumer: 消息消费 向kafka broker读取消息的客户端
  9. Apache Spark:
  • 是专门为大规模数据处理而设计的快速通用的计算引擎.是一款开源的类Hadoop MapReduce的通用并行框架,Spark 不仅拥有Hadoop MapReduce所具有的优点,而且不同于MapReduce的是,Job中间输出结果可以保存在内存中,从而不需要在读写HDFS,因此Spark能够更好的适用于数据挖掘与机器学习等需要迭代的MapReduce的算法.
  • Spark启用了内存分布数据集这使它能够提供交互式查询外,还可以优化迭代工作负载.Spark 是Scala语言实现的 和Scala紧密集成,使其可以像操作本地集合对象一样轻松操作分布式数据集.
  • 尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际
    上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通
    过名为 Mesos 的第三方集群框架可以支持此行为。
  • Spark 可用来构建大型的、低延迟的数据分析应用程序。

大数据知识
https://www.xuwx.top/2021/06/24/大数据(Big Data)/
作者
Shine_ssr
发布于
2021年6月24日
许可协议