大数据包含的东西太多了,大数据不仅应用技术繁复多样,根据不同的应用领域,同样的技术可能就会产生很多不同的用法,这里简单介绍几种我认为用的比较多的技术。
一、Hadoop可以说,hadoop几乎已经是大数据代名词。无论是是否赞成,hadoop已经是大部分企业的大数据标准。得益于Hadoop生态圈,从现在来看,还没有什么技术能够动摇hadoop的地位。这一块可以按照一下内容来学习:
1、Hadoop产生背景
2、Hadoop在大数据、云计算中的位置和关系
3、国内外Hadoop应用案例介绍
4、国内Hadoop的就业情况分析及课程大纲介绍
5、分布式系统概述6、Hadoop生态圈以及各组成部分的简介
二、分布式文件系统HDFSHDFS
全称 Hadoop Distributed File System ,它是一个高度容错性的系统,适合部署在廉价的机器上,同时能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。为了实现流式读取文件系统数据的目的,HDFS放宽了一部分POSIX约束。
1、分布式文件系统HDFS简介
2、HDFS的系统组成介绍
3、HDFS的组成部分详解
4、副本存放策略及路由规则
5、NameNode Federation
6、命令行接口
7、Java接口
8、客户端与HDFS的数据流讲解
9、HDFS的可用性(HA)
三、初级MapReduce这是你成为Hadoop开发人员的基础课程。
MapReduce提供了以下的主要功能:
1)数据划分和计算任务调度:
2)数据/代码互定位:
3)系统优化:
4)出错检测和恢复: 这种编程模型主要用于大规模数据集(大于1TB)的并行运算。
1、如何理解map、reduce计算模型
2、剖析伪分布式下MapReduce作业的执行过程
3、Yarn模型
4、序列化
5、MapReduce的类型与格式
6、MapReduce开发环境搭建7、MapReduce应用开发
8、熟悉MapReduce算法原理
四、高级MapReduce这一块主要是高级Hadoop开发的技能,都是MapReduce为什么我要分开写呢?
因为我真的不觉得谁能直接上手就把MapReduce搞得清清楚楚。
1、使用压缩分隔减少输入规模
2、利用Combiner减少中间数据
3、编写Partitioner优化负载均衡
4、如何自定义排序规则
5、如何自定义分组规则
6、MapReduce
优化五、Hadoop集群与管理 这里会涉及到一些比较高级的数据库管理知识,乍看之下都是操作性的内容,但是做成容易,做好非常难。
1、Hadoop集群的搭建
2、Hadoop集群的监控
3、Hadoop集群的管理
4、集群下运行MapReduce程序
六、ZooKeeper基础知识 ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
1、ZooKeeper体现结构
2、ZooKeeper集群的安装
3、操作ZooKeeper