Apache Hadoop的重要组成

微信扫一扫,分享到朋友圈

Apache Hadoop的重要组成

Hadoop = HDFS(分布式文件系统) + MapReduce(分布式计算框架) + Yarn(资源协调框架) + Common模块

HDFS

Hadoop Distribute File System 一个高可靠, 高吞量的分布式文件系统

“分而治之”

  • NameNode (nn): 存储文件的 元数据 . 比如文件名, 文件目录结构, 文件属性(生成时间, 副本数, 文件权限), 以及每个文件的块列表和块所在的DataNode等
  • SecondaryNameNode (2nn): 辅助NameNode更好地工作, 用来 监控HDFS状态 的辅助后台程序, 每隔一段时间 获取HDFS元数据快照
  • DataNode (dn): 在本地文件系统 存储 文件块数据, 以及块数据的 校验

NN, 2NN, DN 这些既是角色名称, 也是进程名称, 更是代指电脑节点名称

MapReduce

MapReduce计算 = Map阶段 + Reduce阶段

Map阶段就是 的阶段, 并行处理输入数据

Reduce阶段就是 的阶段, 对Map阶段结果进行汇总

Yarn

作业调度与集群资源管理的框架

  • ResourceManager (rm): 处理客户端请求 , 启动/监控ApplicationMaster , 监控NodeManager , 资源分配与调度
  • NodeManager (nm): 单个节点 上的资源管理, 处理来自ResourceManager的命令, 处理来自ApplicationMaster的命令
  • ApplicationMaster (am): 数据切分 , 为应用程序 申请资源并分配 给内部任务, 任务监控容错
  • Container : 对任务运行环境的抽象, 封装了CPU, 内存等多维资源以及环境变量, 启动命令等 任务运行相关的信息

ResourceManager是老大, NodeManager是小弟, ApplicationMaster是计算任务专员

聘大佬、秀技术、搞开源,开发者说:小米「很技术」

上一篇

华人计算机大牛刘炯朗教授仙逝,他是姚期智院士的博士导师,还著有离散数学教科书

下一篇

你也可能喜欢

Apache Hadoop的重要组成

长按储存图像,分享给朋友