滨州网站建设制作,博客X WordPress主题,广州网站建设 全包,越来越多大学生喜欢虚拟空间目录
前言
初了解spark
Standalone模式
Yarn模式 前言
今天我们讲解Spark的安装配置#xff0c;spark的部署分为两种#xff0c;一种是Standalone模式#xff0c;另一种就是on yarn 模式#xff0c;我们这一节着重讲解on yarn 模式#xff0c;因为符合生产活动#…目录
前言
初了解spark
Standalone模式
Yarn模式 前言
今天我们讲解Spark的安装配置spark的部署分为两种一种是Standalone模式另一种就是on yarn 模式我们这一节着重讲解on yarn 模式因为符合生产活动但也会提到Standalone模式
初了解spark
Spark是一个快速、通用、可扩展的集群计算引擎它基于内存计算提高了在大数据环境下数据处理的实时性同时保证了高容错性和高伸缩性。Spark允许用户将其部署在大量廉价的硬件之上形成集群。Spark诞生于2009年最初由美国加州大学伯克利分校的AMP实验室开发是一个基于内存计算的大数据并行计算框架可用于构建大型的、低延迟的数据分析应用程序。
Spark的特点主要体现在以下几个方面 Spark的主要组件包括SparkCore它将分布式数据抽象为弹性分布式数据集RDD实现了应用任务调度、RPC、序列化和压缩并为运行在其上的上层组件提供API。
总的来说Spark作为一个强大而灵活的大数据处理工具以处理各种类型的大数据任务和应用场景。 快速Spark基于内存的运算速度比Hadoop的MapReduce快100倍即使基于硬盘的运算也要快10倍以上。这得益于Spark实现了高效的DAG执行引擎可以通过基于内存来高效处理数据流。通用Spark的设计容纳了其它分布式系统拥有的功能包括批处理类似Hadoop、迭代式计算机器学习、交互查询类似Hive和流处理类似Storm等这降低了维护成本。易用性Spark提供了Python、Java、Scala、SQL的API和丰富的内置库使其与其他的大数据工具整合得很好包括Hadoop、Kafka等。此外Spark还支持超过80种高级算法使用户可以快速构建不同的应用。
Standalone模式
Standalone模式是Spark自带的资源调动引擎构建一个由Master Slave构成的Spark集群Spark运行在集群中。
这个要和Hadoop中的Standalone区别开来。这里的Standalone是指只用Spark来搭建一个集群不需要借助其他的框架。是相对于Yarn和Mesos来说的。
解压
tar -zxvf spark-3.0.3-bin-hadoop3.2.tgz -C /opt/module/
修改名字
mv spark-3.0.3-bin-hadoop3.2/ spark-standalone
配置集群节点
mv slaves.template slaves
vim slaves添加内容
bigdata1
bigdata2
bigdata3
修改spark-env.sh文件添加bigdata1节点
mv spark-env.sh.template spark-env.sh
vim spark-env.sh添加内容
SPARK_MASTER_HOSTbigdata1
SPARK_MASTER_PORT7077
向其他机器分发spark-standalone包
在其他机器创建spark-standalone目录。
scp -r /opt/module/spark-standalone/ bigdata2:/opt/module/spark-standalone/
scp -r /opt/module/spark-standalone/ bigdata3:/opt/module/spark-standalone/
启动spark集群官方求PI案例
bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master spark://bigdata1:7077 \./examples/jars/spark-examples_2.12-3.0.3.jar \10 结果 Pi is roughly 3.1408591408591406 ------------------------------ 命令 --------------------------------------- bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://bigdata1:7077 \ --executor-memory 2G \ --total-executor-cores 2 \ ./examples/jars/spark-examples_2.12-3.0.3.jar \ 10 Yarn模式
saprk客户端连接Yarn不需要额外构建集群。
解压
tar -zxvf spark-3.0.3-bin-hadoop3.2.tgz -C /opt/module/
配置环境变量
#SPARK_HOME
export SPARK_HOME/opt/module/spark-3.0.3-yarn
export PATH$PATH:$SPARK_HOME/bin
修改配置文件
修改hadoop配置文件/opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml添加如下内容
propertynameyarn.nodemanager.pmem-check-enabled/namevaluefalse/value
/property
propertynameyarn.nodemanager.vmem-check-enabled/namevaluefalse/value
/property
分发配置文件
scp -r /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml bigdata2:/opt/module/hadoop-3.1.3/etc/hadoop/
scp -r /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml bigdata3:/opt/module/hadoop-3.1.3/etc/hadoop/
修改spark-env.sh mv spark-env.sh.template spark-env.sh
vim spark-env.sh内容 YARN_CONF_DIR/opt/module/hadoop-3.1.3/etc/hadoop 重启Hadoop
start-all.sh
start-yarn.sh
求PI spark-submit --master yarn --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark-examples_2.12-3.0.3.jar 结果 Pi is roughly 3.142211142211142