- HDFS集群负责海量数据的存储
- YARN集群负责海量数据运算时的资源调度
- MapReduce是分布式的编程框架
- 独立模式:在一台机器运行1个java进程,主要用于调试。
- 伪分布模式:也是在一台机器上运行HDFS的NameNode/DataNode,YARN的ResourceManager和NodeManager,但是分别用单独的java进程,也是用于调试。
- 集群模式:主节点和从节点分开部署在不同的机器。
- 角色分配:
- Node-01: NameNode DataNode ResourceManager
- Node-02: DataNode NodeManager SecondaryNameNode
- Node-03:DataNode NodeManager