廉江网站建设,wordpress 迁移服务器,国内时事新闻,湖南建设人才网官网目录 一、背景简记二、本地单机spark环境配置详细步骤第一步#xff1a;python环境安装第二步#xff1a;安装jdk及配置环境变量安装包下载安装环境变量配置 第三步#xff1a;安装Spark安装包下载安装配置环境变量 第四步#xff1a;安装hadoop安装包下载安装配置环境变量… 目录 一、背景简记二、本地单机spark环境配置详细步骤第一步python环境安装第二步安装jdk及配置环境变量安装包下载安装环境变量配置 第三步安装Spark安装包下载安装配置环境变量 第四步安装hadoop安装包下载安装配置环境变量 第五步环境测试测试hadoop环境变量是否配置成功spark环境变量是否生效与本地spark是否安装成功测试winutils.exe 版本是否与操作系统兼容 第六步python环境安装pyspark 三、本地远程集群相关配置操作方式配置本地window的hosts文件连接集群Windows下Spyder远程连接pyspark配置Windows下pyspark连接Hbase操作 四、本地spyder测试本地pyspark五、结语参考教程 一、背景简记
windows环境是绝大部分比较熟悉的操作系统作为想开始入门学习spark的数据人员来说想在python的基础上进一步掌握学习spark的技术。那在windows环境配置好pyspark不失为一种最优的学习方式。本文也是基于此将个人在windows环境配置pyspark的过程进行详细记录以便后续在其它电脑上快速配置。当然如果能够帮助到和自己同样需求的其它朋友当然也不甚荣幸。下面开始正题。 本文提到的所有软件已整理放在csdn资源处当然也可以关注微信公众号【慕匠心】回复关键字【spark】获取下载方式。 二、本地单机spark环境配置详细步骤 注意所有软件的安装目录尽量避免留有任何空格以免后期方式各种不可预期的问题
第一步python环境安装
现在我们习以为常的安装python环境的方式就是通过安装anaconda来实现因此具体的annconda的过程不做记录整体简单当然网上也有很多详细的安装教程。anaconda下载地址https://repo.anaconda.com/archive/博主所用的anaconda版本为Anaconda3-2023.09-0-Windows-x86_64.exe对应的python版本是3.11.11。 如下图所示 注意事项可以查看下系统的环境变量Path确认下Anaconda路径有没有添加进去如下图标注所示 第二步安装jdk及配置环境变量
安装包下载安装
jdk的下载地址https://www.oracle.com/java/technologies/downloads/#java8根据电脑系统情况选择下载对应的安装包。 博主安装的jdk安装包jdk-8u172-windows-x64.exe对应的jdk版本1.8.0。上面的截图对应的版本也可以。
下载后安装包后直接双击安装即可。安装完成后命令行中执行java -version 确认是否配置成功如下图所示
环境变量配置
jdk安装好后有几个环境变量需要配置 新增环境变量JAVA_HOME JAVA_HOME D:\JDK(该值根据安装路径修改即可 Path路径新增信息 Path %JAVA_HOME%\bin直接粘贴该路径即可 如果没有CLASSPATH环境变量则新增 CLASSPATH .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\bin;直接粘贴该路径即可 第三步安装Spark
安装包下载安装
spark安装包下载地址https://archive.apache.org/dist/spark/博主所用的spark版本为spark-3.5.0-bin-hadoop3.tgz将其解压放在个人想存放的目录中。
配置环境变量
spark安装包解压后记住解压存放地址配置环境变量会用到。 新建环境变量SPARK_HOME SPARK_HOME D:\bigdataenv\spark-3.5.0-bin-hadoop3(该值根据存放路径修改即可 新建环境变量HADOOP_HOME HADOOP_HOME D:\bigdataenv\spark-3.5.0-bin-hadoop3 (现有的spark安装包都配置了hadoop所以路径和SPARK_HOME路径相同 Path路径新增信息 Path %SPARK_HOME%\bin直接粘贴该路径即可 新增环境变量PYSPARK_DRIVER_PYTHON PYSPARK_DRIVER_PYTHON ipython PYSPARK_DRIVER_PYTHON设置成ipython后pyspark交互模式变为ipython的交互模式如下图所示需要安装完pyspark后才有
第四步安装hadoop
安装包下载安装
hadoop安装包下载地址https://archive.apache.org/dist/hadoop/common/选择与spark对应的版本。博主所用的hadoop版本为hadoop-3.0.0.tar.gz将其解压放在个人想存放的目录中。
配置环境变量
hadoop安装包解压后记住解压存放地址配置环境变量会用到。 新建环境变量HADOOP_HOME HADOOP_HOME D:\bigdataenv\hadoop-3.0.0(该值根据存放路径修改即可 Path路径新增信息 Path %HADOOP_HOME%\bin直接粘贴该路径即可 此时bin目录 D:\bigdataenv\hadoop-3.0.0\bin下可能没有 hadoop.dll及winutils.exe文件
需要进行下载winutils https://soft.3dmgame.com/down/204154.html解压文件选择hadoop版本对应的文件夹bin目录下的hadoop.dll和winutils.exe文件将hadoop.dll和winutils.exe 拷贝到D:\bigdataenv\hadoop-3.0.0\bin 、C:\Windows\System32、D:\bigdataenv\spark-3.5.0-bin-hadoop3\bin 下两个文件各拷贝一份到三个目录中 第五步环境测试
测试hadoop环境变量是否配置成功 测试方式在cmd输入 hadoop version,出现如下界面说明hadoop环境变量配置成功。 spark环境变量是否生效与本地spark是否安装成功 测试方式继续在上述命令行中执行 spark-shell出现如下界面结果说明spark系统环境变量配置成功。 如有报错可参看博文《windows下Pyspark开发环境搭建》 解决方式。
测试winutils.exe 版本是否与操作系统兼容 测试方式在命令行中执行cd /d %SPARK_HOME%\bin切换到指定目录然后执行winutils.exe ls结果如下图所示。 如果有弹窗提示可以从网上再找下对应hadoop版本的winutils.exe即可。
第六步python环境安装pyspark 如果已安装的python版本和本文提供的版本不一致可以新建一个python版本环境。当然保险起见无论是否一致都可以在anaconda中新建一个python环境如下图所示可以建立指定版本的python环境 然后启动Anaconda Prompt 执行 conda activate 新建的环境名称 如下图所示确认新环境启动成功。 然后执行pip install pyspark py4j 安装pyspark和py4j模块因博主已安装所以提示如下图 三、本地远程集群相关配置操作方式
因暂无可直连配置的集群因此参考博文《windows下Pyspark开发环境搭建》[^2] 信息暂时整理记录如下以便后续使用。
配置本地window的hosts文件连接集群
将集群各节点IP对应别名配置在windows下的hosts文件中从而可以本地直连使用集群环境。 第一步查看linux集群各节点信息。执行命令cat /etc/hosts 第二步配置到windows下的hosts文件。本地host文件目录 : C:\Windows\System32\Drivers\etc\hosts 添加集群节点信息 第三步对每个节点做如下同样的测试保证各节点ping通。 第四步将集群相关配置文件同步window本地。由于要远程连接Linux集群需要远程服务器上以下四个配置文件同步到**%SPARK_HOME%\conf**目录下四个配置文件如下 core-site.xml --由于hdfs是基本框架两个都个同步 hdfs-site.xml yarn-site.xml --作远程操作要使用 hive-site.xml --有hive操作则要同步 第五步设置环境变量YARN_CONF_DIR。环境变量设置结果如下 **第六步测试远程连接spark。**命令 pyspark --master yarn --deploy-mode client --name ‘test’如下则说明成功了。 第七步如果报错则设置环境变量YARN_CONF_DIR。环境变量设置结果YARN_CONF_DIR %SPARK_HOME%\conf Windows下Spyder远程连接pyspark配置 针对全局 将 %SPARK_HOME%\python\lib 目录下 py4j-0.10.6-src.zip 与 pyspark.zip解压缩然后放到anaconda目录 D:\ProgramData\anaconda3\Lib\site-packages 目录下即可。 针对指定环境 在放在指定环境的Lib\site-packages 目录下。pspip install py4j pyspark后该目录下也会有配置信息可以启动对应环境的spyder即可调用 Windows下pyspark连接Hbase操作
连接Hbase需要集群相关的配置文件与jar包。 第一步将集群上的hbase-site.xml配置文件同步到本地windows的 %SPARK_HOME%\conf 目录下 第二步将连接hbase的集群相关jar同步到 %SPARK_HOME%\jars目录下 将集群上CDH的安装目录下对应hbase 的lib库目录下的jar饱全部同步下来如下是我集群的目录 /data/opt/cloudera-manager/cloudera/parcels/CDH-5.14.0-1.cdh5.14.0.p0.24/lib/hbase/lib//data/opt/cloudera-manager/cloudera/parcels/CDH-5.14.0-1.cdh5.14.0.p0.24/lib/hbase 不清楚在哪个安装目录用以下命令在确定 find /data/ -name hbase*.jar 第三步将metrics-core-2.2.0.jar 同步下来 第四步将SHC编译好的shc-core-spark2.3.0-hbase1.2.0.jar也放在%SPARK_HOME%\jars目录下并上传到集群上spark2安装目录下这样就不需要在启动部署spark程序时指定jar包。 /data/opt/cloudera-manager/cloudera/parcels/SPARK2/lib/spark2/jars/ 测试spyder连接测试集群是否成功。测试代码
from pyspark.sql import SparkSession
import time
from pyspark import SQLContextprint(开始启动会话..................)
sparkSparkSession.builder \.master(yarn-client) \.appName(test spyder) \.config(spark.some.config.option, some-value) \.config(spark.dynamicAllocation.enabled, false) \.config(hive.exec.dynamic.partition.mode, nonstrict) \.config(spark.executor.instances, 3)\.enableHiveSupport()\.getOrCreate()
print(完成启动会话..................)dep org.apache.spark.sql.execution.datasources.hbase
#查询表结构
catalog {table:{namespace:default, name:student},rowkey:key,columns:{rowkey:{cf:rowkey, col:key, type:string},age:{cf:info, col:age, type:string},name:{cf:info, col:name, type:string}}}
sql_sc SQLContext(spark)
#从hbage表查询数据
df sql_sc.read.options(catalog catalog).format(dep).load()
#将表数据注册为临时表并展示出来
df.createOrReplaceTempView(test1)
spark.sql(select * from test1).show()
spark.stop()结果如下则说明配置成功。
四、本地spyder测试本地pyspark
测试脚本1
from pyspark.sql import SparkSession
import timeprint(开始启动会话..................)
ss SparkSession.builder \.appName(Test PySpark) \.master(local[*]) \.getOrCreate()
print(完成启动会话..................)print(开始parallelize启动..................)
scss.sparkContext
datasc.parallelize(range(1000),7)
print(data.count())
print(结束parallelize..................)ss.stop()测试结果如下说明成功了。
五、结语
本地学习使用pyspark用上述描述的第二节内容**《二、本地单机spark环境配置详细步骤》**即可配置完成本地环境。每一次安装可能都会遇到新问题多尝试查找网上给的一些解决方案终会找到出路希望本文也可以给路过的你有所帮助。
参考教程
《windows搭建pyspark环境详细教程》《windows下Pyspark开发环境搭建》https://repo.anaconda.com/archive/https://soft.3dmgame.com/down/204154.htmlhttps://archive.apache.org/dist/hadoop/common/https://www.oracle.com/java/technologies/downloads/#java8