分布式文件系统：HDFS

发布时间：2017年05月08日作者：IT网络文摘

学习Hadoop，两个东西肯定是绕不过，MapReduce和HDFS，上一篇博客介绍了MapReduce的处理流程，这一篇博客就来学习一下HDFS。

　　HDFS是一个分布式的文件系统，就是将多台机器的存储当做一个文件系统来使用，因为在大数据的情景下，单机的存储量已经完全不够用了，所以采取分布式的方法来扩容，解决本地文件系统在文件大小、文件数量、打开文件数等的限制问题。我们首先来看一下HDFS的架构

HDFS架构

大学生就业培训,高中生培训,在职人员转行培训,企业团训

　　从上图可以看到，HDFS的主要组成部分为Namenode、Datanodes、Client，还有几个名词：Block、Metadata、Replication 、Rack，它们分别是什么意思呢？

　　对于分布式的文件系统，数据存储在很多的机器上，而Datanode代表的就是这些机器，是数据实际存储的地方，数据存好之后，我们需要知道它们具体存在哪一个Datanode上，这就是Namenode做的工作，它记录着元数据信息（也就是Metadata，其主要内容就是哪个数据块存在哪个Datanode上的哪个目录下，这也是为什么HDFS不适合存大量小文件的原因，因为为了响应速度，Namenode 把文件系统的元数据放置在内存中，所以文件系统所能容纳的文件数目是由 Namenode 的内存大小来决定。一般来说，每一个文件、文件夹和 Block 需要占据 150 字节左右的空间，如果存100 万个小文件，至少需要 300MB内存，但这么多小文件实际却没有存太多数据，这样就太浪费内存了），有了元数据信息，我们就能通过Namenode来查到数据块的具体位置了，而与Namenode打交道的工具就是Client，Client给我们用户提供存取数据的接口，我们可以通过Client进行数据存取的工作。

分类导航

分布式文件系统：HDFS

HDFS架构

网友评论

更多精彩分享