Apache Hadoop YARN
百度百科:
(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
架构搭建:
单点配置:
官网地址:
etc/hadoop/mapred-site.xml:
mapreduce.framework.name yarn
etc/hadoop/yarn-site.xml:
yarn.nodemanager.aux-services mapreduce_shuffle
扩展配置:ResourceManager HA
官网地址:
Sample configurations
Here is the sample of minimal setup for RM failover.
etc/hadoop/yarn-site.xml:
yarn.resourcemanager.ha.enabled true yarn.resourcemanager.cluster-id cluster1 yarn.resourcemanager.ha.rm-ids rm1,rm2 yarn.resourcemanager.hostname.rm1 master1 yarn.resourcemanager.hostname.rm2 master2 yarn.resourcemanager.zk-address zk1:2181,zk2:2181,zk3:2181
结合起来就是:
node01 下:
修改好的文件分发给node02、node03、node04。
启动YARN:
slaves 制定了nodemanager 的位置
在node01下:
执行:start-yarn.sh
在node03 和 node04 下:
执行: yarn-daemon.sh start resourcemanager
停止YARN:
在node01下:
stop-yarn.sh
在node03 和 node04 下:
yarn-daemon.sh stop resourcemanager
登录页面:
计算演示:分布式程序
输出目录:
_SUCCESS:
表示输出成功
part-r-00000:
其中 r 表示 reduce。( r 这里可以是 m (map) )
00000 表示第一台reduce, 默认只有一个reduce。
yarn-site.xml 中,有关mapreduce日志查看的aggregation配置启用
在yarn-site.xml 中加入以下配置
yarn.log-aggregation-enable true