大数据包含哪些知识点？_

大数据包含哪些知识点？

2020-03-02

大数据包含的东西太多了，大数据不仅应用技术繁复多样，根据不同的应用领域，同样的技术可能就会产生很多不同的用法，这里简单介绍几种我认为用的比较多的技术。

一、Hadoop可以说，hadoop几乎已经是大数据代名词。无论是是否赞成，hadoop已经是大部分企业的大数据标准。得益于Hadoop生态圈，从现在来看，还没有什么技术能够动摇hadoop的地位。这一块可以按照一下内容来学习：
1、Hadoop产生背景
2、Hadoop在大数据、云计算中的位置和关系
3、国内外Hadoop应用案例介绍
4、国内Hadoop的就业情况分析及课程大纲介绍
5、分布式系统概述6、Hadoop生态圈以及各组成部分的简介

二、分布式文件系统HDFSHDFS
全称 Hadoop Distributed File System ，它是一个高度容错性的系统，适合部署在廉价的机器上，同时能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。为了实现流式读取文件系统数据的目的，HDFS放宽了一部分POSIX约束。
1、分布式文件系统HDFS简介
2、HDFS的系统组成介绍
3、HDFS的组成部分详解
4、副本存放策略及路由规则
5、NameNode Federation
6、命令行接口
7、Java接口
8、客户端与HDFS的数据流讲解
9、HDFS的可用性（HA）

三、初级MapReduce这是你成为Hadoop开发人员的基础课程。
MapReduce提供了以下的主要功能:
1)数据划分和计算任务调度:
2)数据/代码互定位:
3)系统优化:
4)出错检测和恢复: 这种编程模型主要用于大规模数据集(大于1TB)的并行运算。
1、如何理解map、reduce计算模型
2、剖析伪分布式下MapReduce作业的执行过程
3、Yarn模型
4、序列化
5、MapReduce的类型与格式
6、MapReduce开发环境搭建7、MapReduce应用开发
8、熟悉MapReduce算法原理

四、高级MapReduce这一块主要是高级Hadoop开发的技能，都是MapReduce为什么我要分开写呢？
因为我真的不觉得谁能直接上手就把MapReduce搞得清清楚楚。
1、使用压缩分隔减少输入规模
2、利用Combiner减少中间数据
3、编写Partitioner优化负载均衡
4、如何自定义排序规则
5、如何自定义分组规则
6、MapReduce

优化五、Hadoop集群与管理这里会涉及到一些比较高级的数据库管理知识，乍看之下都是操作性的内容，但是做成容易，做好非常难。
1、Hadoop集群的搭建
2、Hadoop集群的监控
3、Hadoop集群的管理
4、集群下运行MapReduce程序

六、ZooKeeper基础知识 ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。
1、ZooKeeper体现结构
2、ZooKeeper集群的安装
3、操作ZooKeeper