当前位置：首页 > news >正文

零基础学习网站开发中国企业500强

news 2025/12/29 22:54:43

零基础学习网站开发,中国企业500强,南京网站维护公司,数字创意设计包括哪些案例Spark 小白的spark学习笔记 2024/5/30 10:14 文章目录 Spark安装解压改名配置spark-env.sh重命名#xff0c;配置slaves启动查看配置环境变量工作流程maven创建maven项目配置maven更改pom.xml WordCount按照用户求消费额上传到spark集群上运行安装上传#xff0c;直接拖拽…Spark 小白的spark学习笔记 2024/5/30 10:14 文章目录 Spark安装解压改名配置spark-env.sh重命名配置slaves启动查看配置环境变量工作流程maven创建maven项目配置maven更改pom.xml WordCount按照用户求消费额上传到spark集群上运行安装上传直接拖拽解压 tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /usr/local/改名 cd /usr/local mv spark-2.1.1-bin-hadoop2.7/ sparkcd spark/conf mv spark-env.sh.template spark-env.sh配置spark-env.sh vi spark-env.sh在该配置文件中添加如下配置 export JAVA_HOME/usr/local/jdk export SPARK_MASTER_IPcentos1 export SPARK_MASTER_PORT7077 master work通信用保存退出上面三条分别是 jdk的位置主机名查询主机名hostname 端口重命名配置slaves mv slaves.template slaves vi slaves在该文件中添加子节点所在的位置Worker节点将配置好的Spark拷贝到其他节点上启动命令也是start-all.sh,跟Hadoop的启动命令冲突所以改一下名在/usr/local/spark/sbin下 mv start-all.sh start_all.sh mv stop-all.sh stop_all.sh查看启动后执行jps命令主节点上有Master进程其他子节点上有Work进行登录Spark管理界面查看集群状态主节点http://centos1:8080/ 配置环境变量 vim /etc/profilesource /etc/profile工作流程 maven 下载jar根据groupid,artifactld,version 创建maven项目配置maven 更改pom.xml WordCount 求单词出现次数 import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.sql.SparkSessionobject HelloWorld {def main(args: Array[String]): Unit {val confignew SparkConf()//是用来创建spark上下文driverval sparkSparkSession.builder().master(local[*]).config(config).appName(hello).getOrCreate()val rddLine: RDD[String] spark.sparkContext.textFile(D:\\Study\\Hadoop\\input\\word.txt)//求单词出现的次数//1. // rddLine.flatMap(xx.split( )).map(x(x,1)).groupByKey().map(x(x._1,x._2.sum)).foreach(xprintln(x)) // rddLine.flatMap(xx.split( )).map(x(x,1)).groupByKey().foreach(xprintln(x-----bkbk)) // //这个groupByKey方法直接按照key来分组后面的集合是key对应的值的集合 // //(ss,CompactBuffer(1, 1))-----bkbk//2.用reduce直接做rddLine.flatMap(xx.split( )).map(x(x,1)).reduceByKey((x,y)xy).foreach(xprintln(x))} }按照用户求消费额 import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.sql.SparkSession //数据如下 //1,2020-12-12,10 //1,2020-12-13,16 //2,2020-12-12,89 //2,2020-12-13,22 object SumByUser {def main(args: Array[String]): Unit {val confnew SparkConf()val sparkSparkSession.builder().master(local[*]).config(conf).appName(hello).getOrCreate()//创建spark上下文driverval rddLine: RDD[String] spark.sparkContext.textFile(D:\\Study\\Hadoop\\input\\sumbyuser.txt)//文件读入地址//按,分割取第一列和第三列reducebykeyrddLine.map(xx.split(,)).map(x(x(0),x(2).toInt)).reduceByKey((x,y)xy).foreach(xprintln(x))} } 上传到spark集群上运行代码中去掉master改一下文件读入路径打包 import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.sql.SparkSession //数据如下 //1,2020-12-12,10 //1,2020-12-13,16 //2,2020-12-12,89 //2,2020-12-13,22 object SumByUser {def main(args: Array[String]): Unit {val confnew SparkConf()//如果提交到spark集群上运行就不需要master,文件地址也要改val sparkSparkSession.builder().config(conf).appName(hello).getOrCreate()//创建spark上下文driverval rddLine: RDD[String] spark.sparkContext.textFile(args(0))//文件读入地址//按,分割取第一列和第三列reducebykeyrddLine.map(xx.split(,)).map(x(x(0),x(2).toInt)).reduceByKey((x,y)xy).foreach(xprintln(x))} }把jar和数据传到虚拟机上执行类名、master、内存大小、核的个数、jar的名、数据的名 spark-submit --class com.oracle.spark.SumByUser --master spark://centos1:7077 --executor-memory 500M --total-executor-cores 2 jt_sparkz-1.0-SNAPSHOT-jar-with-dependencies.jar sumbyuser.txt 类名

查看全文

http://www.w-s-a.com/news/807031/