唐河企业网站制作怎么样,wordpress 系统找不到指定的文件.,专门做水产海鲜的网站吗,移动互联网开发的几种方式#x1f947;#x1f947;【大数据学习记录篇】-持续更新中~#x1f947;#x1f947; 点击传送#xff1a;大数据学习专栏 持续更新中#xff0c;感谢各位前辈朋友们支持学习~ 文章目录 1.Spark on Yarn集群模式介绍2.搭建环境准备3.搭建步骤 1.Spark on Yarn集群模式介… 【大数据学习记录篇】-持续更新中~ 点击传送大数据学习专栏 持续更新中感谢各位前辈朋友们支持学习~ 文章目录 1.Spark on Yarn集群模式介绍2.搭建环境准备3.搭建步骤 1.Spark on Yarn集群模式介绍 Apache Spark是一个快速的、通用的大数据处理框架它支持在各种环境中进行分布式数据处理和分析。在Yarn集群模式下搭建Spark环境可以充分利用Hadoop的资源管理和调度能力。 本文将介绍如何搭建Spark on Yarn集群模式环境步骤详细代码量大准备发车~ 2.搭建环境准备
本次用到的环境有 Java 1.8.0_191 Spark-2.2.0-bin-hadoop2.7 Hadoop 2.7.4 Oracle Linux 7.4
3.搭建步骤
1.解压Spark压缩文件至/opt目录下
tar -zxvf ~/experiment/file/spark-2.2.0-bin-hadoop2.7.tgz -C /opt2.修改解压后为文件名为spark
mv /opt/spark-2.2.0-bin-hadoop2.7 /opt/spark3.复制spark配置文件首先在主节点(Master)上进入Spark安装目录下的配置文件目录{ $SPARK_HOME/conf }并复制spark-env.sh配置文件
cd /opt/spark/conf
cp spark-env.sh.template spark-env.sh4.Vim编辑器打开spark配置文件
vim spark-env.sh5.按键Shiftg键定位到最后一行按键 i 切换到输入模式下添加如下代码注意“”附近无空格
export JAVA_HOME/usr/lib/java-1.8
export SPARK_MASTER_HOSTmaster
export SPARK_MASTER_PORT70776.复制一份spark的slaves配置文件
cp slaves.template slaves7.修改spark的slaves配置文件
vim slaves8.每一行添加工作节点(Worker)名称按键Shiftg键定位到最后一行按键 i 切换到输入模式下添加如下代码
slave1
slave2按键Esc按键:wq保存退出 9.复制spark-defaults.conf
cp spark-defaults.conf.template spark-defaults.conf10.通过远程scp指令将Master主节点的Spark安装包分发至各个从节点即slave1和slave2节点
scp -r /opt/spark/ rootslave1:/opt/
scp -r /opt/spark/ rootslave2:/opt/11.配置环境变量分别在masterslave1和slave2节点上配置环境变量修改【/etc/profile】在文件尾部追加以下内容
vim /etc/profile按键Shiftg键定位到最后一行按键 i 切换到输入模式下添加如下代码
#spark install
export SPARK_HOME/opt/spark
export PATH$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin主节点master上执行截图如下
从节点1Slave1上执行截图如下
从节点2Slave2上执行截图如下
12.按键Esc按键:wq保存退出 13.分别在Slave1和Slave2上刷新配置文件
source /etc/profile14.绑定Hadoop配置目录在主节点Spark搭建On YARN模式只需修改spark-env.sh配置文件的HADOOP_CONF_DIR属性指向Hadoop安装目录中配置文件目录具体操作如下
vim /opt/spark/conf/spark-env.shexport HADOOP_CONF_DIR/opt/hadoop/etc/hadoop15.按键Esc按键:wq保存退出 16.在主节点修改完配置文件后一定要将【/opt/spark/conf/spark-env.sh】文件同步分发至所有从节点命令如下
scp -r /opt/spark/conf/spark-env.sh rootslave1:/opt/spark/conf/
scp -r /opt/spark/conf/spark-env.sh rootslave2:/opt/spark/conf/17.注意事项如不修改此项可能在提交作业时抛相关异常Yarn的资源调用超出上限需修在文件最后添加属性改默认校验属性修改文件为 {HADOOP_HOME/etc/hadoop}/yarn-site.xml
vim /opt/hadoop/etc/hadoop/yarn-site.xmlpropertynameyarn.nodemanager.pmem-check-enabled/namevaluefalse/value
/property
propertynameyarn.nodemanager.vmem-check-enabled/namevaluefalse/value
/property18.修改完成后分发至集群其它节点
scp /opt/hadoop/etc/hadoop/yarn-site.xml rootslave1:/opt/hadoop/etc/hadoop/
scp /opt/hadoop/etc/hadoop/yarn-site.xml rootslave2:/opt/hadoop/etc/hadoop/19.开启Hadoop集群在开启Spark On Yarn集群之前必须首先开启Hadoop集群指令如下
start-dfs.sh
start-yarn.sh20.开启spark shell会话
spark-shell --master yarn-client21.查看三台节点的后台守护进程
jps22.查看查看WebUI界面应用提交后进入Hadoop的Yarn资源调度页面http://master:8088查看应用的运行情况如图所示
所有配置完成如果本篇文章对你有帮助记得点赞关注收藏哦~