支付宝签约网站,培训网站设计,wordpress 扒皮,长沙网络建站一般情况下#xff0c;spark任务是用scala开发的#xff0c;但是对于一些偏业务人员#xff0c;或者是基于上手的来说python的API确实降低了开发前置条件的难度#xff0c;首当其冲的就是能跳过Java和Scala需要的知识储备#xff0c;但是在提交任务到集群的时候就很麻烦了…一般情况下spark任务是用scala开发的但是对于一些偏业务人员或者是基于上手的来说python的API确实降低了开发前置条件的难度首当其冲的就是能跳过Java和Scala需要的知识储备但是在提交任务到集群的时候就很麻烦了不只是spark自身pyspark提交时不同参数导致的大小写等问题最麻烦的是spark和python版本上的兼容与否2.x的spark一般用3.7以下的3.x需要3.8以上的python还有各种小毛病都是细节上的问题。
第一步需要下载anaconda。
清华源-》https://mirrors.tuna.tsinghua.edu.cn/# 最终下载路径-》https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2022.10-Linux-x86_64.sh
下载后在linux上运行脚本
sh Anaconda3-2022.10-Linux-x86_64.sh第二步将需要的环境打包成一个压缩包
创建一个python3.x的环境{name} 自定义后面是包含一个python3.9的包
conda create -n {name} python3.9 --offline激活这个环境并安装需要的python第三方类库比如pyspark
conda activate {name}
conda install pip --offline
pip install pyspark3.2.1当你安装完所有的需要库之后把环境打包
conda env list
看到环境所在的地址cd {环境名}zip -r {包名}.zip {环境名}第三步用你的环境包去提交任务
# client 模式
$SPARK_HOME/spark-submit \
--master yarn \
--deploy-mode client \
--num-executors 2 \
--conf spark.yarn.dist.archivesPython包路径/Python包名字.tgz#Python别名 \
--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON./Python别名/bin/python \
本地python路径比如Hello.py# cluster 模式
$SPARK_HOME/spark-submit \
--master yarn \
--deploy-mode cluster \
--num-executors 2 \
--conf spark.yarn.dist.archivesPython包路径/Python包名字.tgz#Python别名 \
--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON./Python别名/bin/python \
本地python路径比如Hello.py这里要注意的是一个大坑点spark引擎在提交pyspark任务的参数上有其他的比如--archives、spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON等这些参数慎用有兼容性问题。从使用经验上来说上面的两个就够了。 conda其他命令 1、创建环境conda create --name 环境名称用途用于创建一个新的Conda环境可以指定环境的名称。2、激活环境conda activate 环境名称用途用于激活指定名称的Conda环境。3、停用环境conda deactivate用途用于停用当前激活的Conda环境。4、删除环境conda remove --name 环境名称 --all用途用于删除指定名称的Conda环境--all参数表示删除环境及其所有安装的包。5、安装包conda install 包名称用途用于在当前环境中安装指定的包。6、升级包conda update 包名称用途用于更新已安装包的版本。7、卸载包conda remove 包名称用途用于从当前环境中卸载指定的包。8、查看已安装的包conda list用途用于列出当前环境中已安装的包。9、搜索包conda search 包名称用途用于在Conda仓库中搜索指定的包。10、创建环境配置文件conda env export environment.yaml用途用于将当前环境的配置导出到一个YAML文件中以便在其他地方进行复制或重建环境。11、查看配置信息conda config --show显示当前的Conda配置信息包括通用配置、环境配置和用户配置。12、查看某个配置项的值conda config --show 配置项显示特定配置项的当前值例如conda config --show channels用于显示当前配置的通道列表。13、设置配置项的值conda config --set 配置项值例如conda config --set channels conda-forge用于将通道设置为conda-forge。14、添加通道conda config --add channels 通道名称向配置中添加一个新的通道使Conda在包搜索和安装时优先考虑该通道。15、移除通道conda config --remove channels 通道名称从配置中移除指定的通道使Conda不再使用该通道。16、列出所有通道conda config --get channels列出当前配置中所有配置的通道。17、重置配置项conda config --remove-key 配置项重置指定配置项的值为默认值。18、编辑配置文件conda config --edit打开配置文件以进行手动编辑可以修改各种配置选项。19、创建具有指定版本的环境conda create --name myenv python3.10.620、从环境中导出和导入环境配置导出环境配置conda env export --name myenv --file environment.yaml导入环境配置conda env create --file environment.yaml21、创建一个虚拟环境的克隆conda create --name myclone --clone myenv