增加hadoop 简介

This commit is contained in:
LingZhaoHui 2023-10-15 12:25:29 +08:00
parent 709e444919
commit bbe2ef7bfb
Signed by: zeekling
GPG Key ID: D96E4E75267CA2CC
1 changed files with 28 additions and 0 deletions

View File

@ -23,5 +23,33 @@ Namenode全权管理数据块的复制它周期性地从集群中的每个Dat
HDFS中的文件都是一次性写入的并且严格要求在任何时候只能有一个写入者。
Namenode上保存着HDFS的名字空间。对于任何对文件系统元数据产生修改的操作Namenode都会使用一种称为EditLog的事务日志记录下来。
Namenode在本地操作系统的文件系统中存储这个Editlog。整个文件系统的名字空间包括数据块到文件的映射、文件的属性等都存储在一个称为FsImage的文件中这个文件也是放在Namenode所在的本地文件系统上。
Namenode在内存中保存着整个文件系统的名字空间和文件数据块映射(Blockmap)的映像。
当Namenode启动时它从硬盘中读取Editlog和FsImage将所有Editlog中的事务作用在内存中的FsImage上
并将这个新版本的FsImage从内存中保存到本地磁盘上然后删除旧的Editlog因为这个旧的Editlog的事务都已经作用在FsImage上了。
Datanode将HDFS数据以文件的形式存储在本地的文件系统中它并不知道有关HDFS文件的信息。它把每个HDFS数据块存储在本地文件系统的一个单独的文件中。
Datanode并不在同一个目录创建所有的文件实际上它用试探的方法来确定每个目录的最佳文件数目并且在适当的时候创建子目录。
在同一个目录中创建所有的本地文件并不是最优的选择,这是因为本地文件系统可能无法高效地在单个目录中支持大量的文件。
当一个Datanode启动时它会扫描本地文件系统产生一个这些本地文件对应的所有HDFS数据块的列表然后作为报告发送到Namenode这个报告就是块状态报告。
## 副本
在大多数情况下副本系数是3HDFS的存放策略是将一个副本存放在本地机架的节点上一个副本放在同一机架的另一个节点上最后一个副本放在不同机架的节点上。
这种策略减少了机架间的数据传输,这就提高了写操作的效率。机架的错误远远比节点的错误少,所以这个策略不会影响到数据的可靠性和可用性。
在这种策略下,副本并不是均匀分布在不同的机架上。三分之一的副本在一个节点上,三分之二的副本在一个机架上,其他副本均匀分布在剩下的机架中,
这一策略在不损害数据可靠性和读取性能的情况下改进了写的性能。
为了降低整体的带宽消耗和读取延时HDFS会尽量让读取程序读取离它最近的副本。
如果在读取程序的同一个机架上有一个副本那么就读取该副本。如果一个HDFS集群跨越多个数据中心那么客户端也将首先读本地数据中心的副本。
## 安全模式