零基础学习网站开发,中国企业500强,南京网站维护公司,数字创意设计包括哪些案例Spark 小白的spark学习笔记 2024/5/30 10:14 文章目录 Spark安装解压改名配置spark-env.sh重命名#xff0c;配置slaves启动查看配置环境变量 工作流程maven创建maven项目配置maven更改pom.xml WordCount按照用户求消费额上传到spark集群上运行 安装
上传#xff0c;直接拖拽…Spark 小白的spark学习笔记 2024/5/30 10:14 文章目录 Spark安装解压改名配置spark-env.sh重命名配置slaves启动查看配置环境变量 工作流程maven创建maven项目配置maven更改pom.xml WordCount按照用户求消费额上传到spark集群上运行 安装
上传直接拖拽
解压
tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /usr/local/改名
cd /usr/local
mv spark-2.1.1-bin-hadoop2.7/ sparkcd spark/conf
mv spark-env.sh.template spark-env.sh配置spark-env.sh
vi spark-env.sh在该配置文件中添加如下配置
export JAVA_HOME/usr/local/jdk
export SPARK_MASTER_IPcentos1
export SPARK_MASTER_PORT7077 master work通信用
保存退出 上面三条分别是
jdk的位置
主机名查询主机名hostname
端口
重命名配置slaves
mv slaves.template slaves
vi slaves在该文件中添加子节点所在的位置Worker节点
将配置好的Spark拷贝到其他节点上
启动
命令也是start-all.sh,跟Hadoop的启动命令冲突所以改一下名
在/usr/local/spark/sbin下
mv start-all.sh start_all.sh
mv stop-all.sh stop_all.sh查看
启动后执行jps命令主节点上有Master进程其他子节点上有Work进行登录Spark管理界面查看集群状态主节点http://centos1:8080/
配置环境变量
vim /etc/profilesource /etc/profile工作流程 maven
下载jar根据groupid,artifactld,version
创建maven项目 配置maven 更改pom.xml
WordCount
求单词出现次数
import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSessionobject HelloWorld {def main(args: Array[String]): Unit {val confignew SparkConf()//是用来创建spark上下文driverval sparkSparkSession.builder().master(local[*]).config(config).appName(hello).getOrCreate()val rddLine: RDD[String] spark.sparkContext.textFile(D:\\Study\\Hadoop\\input\\word.txt)//求单词出现的次数//1.
// rddLine.flatMap(xx.split( )).map(x(x,1)).groupByKey().map(x(x._1,x._2.sum)).foreach(xprintln(x))
// rddLine.flatMap(xx.split( )).map(x(x,1)).groupByKey().foreach(xprintln(x-----bkbk))
// //这个groupByKey方法直接按照key来分组后面的集合是key对应的值的集合
// //(ss,CompactBuffer(1, 1))-----bkbk//2.用reduce直接做rddLine.flatMap(xx.split( )).map(x(x,1)).reduceByKey((x,y)xy).foreach(xprintln(x))}
}按照用户求消费额
import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession
//数据如下
//1,2020-12-12,10
//1,2020-12-13,16
//2,2020-12-12,89
//2,2020-12-13,22
object SumByUser {def main(args: Array[String]): Unit {val confnew SparkConf()val sparkSparkSession.builder().master(local[*]).config(conf).appName(hello).getOrCreate()//创建spark上下文driverval rddLine: RDD[String] spark.sparkContext.textFile(D:\\Study\\Hadoop\\input\\sumbyuser.txt)//文件读入地址//按,分割取第一列和第三列reducebykeyrddLine.map(xx.split(,)).map(x(x(0),x(2).toInt)).reduceByKey((x,y)xy).foreach(xprintln(x))}
}
上传到spark集群上运行
代码中去掉master改一下文件读入路径
打包
import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession
//数据如下
//1,2020-12-12,10
//1,2020-12-13,16
//2,2020-12-12,89
//2,2020-12-13,22
object SumByUser {def main(args: Array[String]): Unit {val confnew SparkConf()//如果提交到spark集群上运行就不需要master,文件地址也要改val sparkSparkSession.builder().config(conf).appName(hello).getOrCreate()//创建spark上下文driverval rddLine: RDD[String] spark.sparkContext.textFile(args(0))//文件读入地址//按,分割取第一列和第三列reducebykeyrddLine.map(xx.split(,)).map(x(x(0),x(2).toInt)).reduceByKey((x,y)xy).foreach(xprintln(x))}
}把jar和数据传到虚拟机上
执行
类名、master、内存大小、核的个数、jar的名、数据的名
spark-submit --class com.oracle.spark.SumByUser --master spark://centos1:7077 --executor-memory 500M --total-executor-cores 2 jt_sparkz-1.0-SNAPSHOT-jar-with-dependencies.jar sumbyuser.txt 类名