HDFS知识点总结（二）_

HDFS知识点总结（二）

2020-04-20

1、数据流
HDFS读取文件过程：

过程描述：
　　（1）客户端调用FileSyste对象的open()方法在分布式文件系统中打开要读取的文件。
　　（2）分布式文件系统通过使用RPC（远程过程调用）来调用namenode，确定文件起始块的位置。
　　（3）分布式文件系统的DistributedFileSystem类返回一个支持文件定位的输入流FSDataInputStream对象，FSDataInputStream对象接着封装DFSInputStream对象（存储着文件起始几个块的datanode地址），客户端对这个输入流调用read()方法。
　　（4）DFSInputStream连接距离最近的datanode，通过反复调用read方法，将数据从datanode传输到客户端。
　　（5）到达块的末端时，DFSInputStream关闭与该datanode的连接，寻找下一个块的最佳datanode。
　　（6）客户端完成读取，对FSDataInputStream调用close()方法关闭连接。

HDFS文件写入的过程：

过程描述：
写文件过程分析：
　　（1）客户端通过对DistributedFileSystem对象调用create()函数来新建文件。
　　（2）分布式文件系统对namenod创建一个RPC调用，在文件系统的命名空间中新建一个文件。
　　（3）Namenode对新建文件进行检查无误后，分布式文件系统返回给客户端一个FSDataOutputStream对象，FSDataOutputStream对象封装一个DFSoutPutstream对象，负责处理namenode和datanode之间的通信，客户端开始写入数据。
　　（4）FSDataOutputStream将数据分成一个一个的数据包，写入内部队列“数据队列”，DataStreamer负责将数据包依次流式传输到由一组namenode构成的管线中。
　　（5）DFSOutputStream维护着确认队列来等待datanode收到确认回执，收到管道中所有datanode确认后，数据包从确认队列删除。
　　（6）客户端完成数据的写入，对数据流调用close()方法。
　　（7）namenode确认完成。
namenode如何选择在那个datanode存储复本？
需要对可靠性，写入带宽和读取带宽进行权衡。默认布局是：在运行客户端的节点上放第一个复本（如果客户端运行在集群之外，则在避免挑选存储太满或太忙的节点的情况下随机选择一个节点。）第二个复本放在与第一个不同且随机另外选择的机架中节点上。第三个复本与第二个复本放在同一个机架上，且随机选择另一个节点。其它复本放在集群中随机选择的节点中，尽量避免在同一个机架上放太多复本。
一个复本个数为3的集群放置位置如图：

HDFS一致性：HDFS在写数据务必要保证数据的一致性与持久性，目前HDFS提供的两种两个保证数据一致性的方法 hsync()方法和hflush()方法。
hflush: 保证flush的数据被新的reader读到，但是不保证数据被datanode持久化。
hsync: 与hflush几乎一样，不同的是hsync保证数据被datanode持久化。
深入hsync()和hflush()参考两篇博客
http://www.cnblogs.com/foxmailed/p/4145330.html
http://www.cnblogs.com/yangjiandan/p/3540498.html

2、通过Flume和Sqoop导入数据
可以考虑使用一些现成的工具将数据导入。
Apache Fluem是一个将大规模流数据导入HDFS的工具。典型应用是从另外一个系统中收集日志数据并实现在HDFS中的聚集操作以便用于后期的分析操作。
Apache Sqoop用来将数据从结构化存储设备批量导入HDFS中，例如关系数据库。Sqoop应用场景是组织将白天生产的数据库中的数据在晚间导入Hive数据仓库中进行分析。

3、通过distcp并行复制
distcp分布式复制程序，它从Hadoop文件系统间复制大量数据，也可以将大量的数据复制到Hadoop。
典型应用场景是在HDFS集群之间传输数据。
% hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar

4、Hadoop存档
HDFS中每个文件均按块方式存储，每个块的元数据存储在namenode的内存中，因此Hadoop存储小文件会非常低效。因为大量的小文件会耗尽namenode中的大部分内存。Hadoop的存档文件或HAR文件，将文件存入HDFS块，减少namenode内存使用，允许对文件进行透明地访问。
Hadoop存档是通过archive工具根据一组文件创建而来的。运行archive指令：
% hadoop archive -archiveName files.har /my/files /my
列出HAR文件的组成部分：
% hadoop fs -ls /my/files.har
files.har是存档文件的名称，这句指令存储 HDFS下/my/files中的文件。
HAR文件的组成部分：两个索引文件以及部分文件的集合。
存档的不足：
新建一个存档文件会创建原始文件的一个副本，因此需要与要存档的文件容量相同大小的磁盘空间。
一旦存档文件，不能从中增加或删除文件。