当前位置: 首页 > news >正文

湖南北山建设集团股份有限公司官方网站国产cms

湖南北山建设集团股份有限公司官方网站,国产cms,网站建设和网站维护,做交流网站join是两个结果集之间的链接#xff0c;需要进行数据的匹配。 演示一下join是否存在shuffle。 1. 如果两个rdd没有分区器#xff0c;分区个数一致 #xff0c;会发生shuffle。但分区数量不变。 scala val arr Array((zhangsan,300),(lisi,…join是两个结果集之间的链接需要进行数据的匹配。 演示一下join是否存在shuffle。 1. 如果两个rdd没有分区器分区个数一致 会发生shuffle。但分区数量不变。 scala val arr Array((zhangsan,300),(lisi,400),(wangwu,350),(zhaosi,450)) arr: Array[(String, Int)] Array((zhangsan,300), (lisi,400), (wangwu,350), (zhaosi,450))scala val arr1 Array((zhangsan,22),(lisi,24),(wangwu,30),(guangkun,5)) arr1: Array[(String, Int)] Array((zhangsan,22), (lisi,24), (wangwu,30), (guangkun,5))scala sc.makeRDD(arr,3) res116: org.apache.spark.rdd.RDD[(String, Int)] ParallelCollectionRDD[108] at makeRDD at console:27scala sc.makeRDD(arr1,3) res117: org.apache.spark.rdd.RDD[(String, Int)] ParallelCollectionRDD[109] at makeRDD at console:27scala res116 join res117 res118: org.apache.spark.rdd.RDD[(String, (Int, Int))] MapPartitionsRDD[112] at join at console:28scala res118.collect res119: Array[(String, (Int, Int))] Array((zhangsan,(300,22)), (wangwu,(350,30)), (lisi,(400,24))) 2. 如果分区个数不一致有shuffle且产生的rdd的分区个数以多的为主。 3. 如果分区个数一样并且分区器一样那么是没有shuffle的 scala sc.makeRDD(arr,3) res128: org.apache.spark.rdd.RDD[(String, Int)] ParallelCollectionRDD[118] at makeRDD at console:27scala sc.makeRDD(arr1,3) res129: org.apache.spark.rdd.RDD[(String, Int)] ParallelCollectionRDD[119] at makeRDD at console:27scala res128.reduceByKey(__) res130: org.apache.spark.rdd.RDD[(String, Int)] ShuffledRDD[120] at reduceByKey at console:26scala res129.reduceByKey(__) res131: org.apache.spark.rdd.RDD[(String, Int)] ShuffledRDD[121] at reduceByKey at console:26scala res130 join res131 res132: org.apache.spark.rdd.RDD[(String, (Int, Int))] MapPartitionsRDD[124] at join at console:28scala res132.collect res133: Array[(String, (Int, Int))] Array((zhangsan,(300,22)), (wangwu,(350,30)), (lisi,(400,24)))scala res132.partitions.size res134: Int 3 4. 都存在分区器但是分区个数不同也会存在shuffle scala val arr Array((zhangsan,300),(lisi,400),(wangwu,350),(zhaosi,450)) arr: Array[(String, Int)] Array((zhangsan,300), (lisi,400), (wangwu,350), (zhaosi,450))scala val arr1 Array((zhangsan,22),(lisi,24),(wangwu,30),(guangkun,5)) arr1: Array[(String, Int)] Array((zhangsan,22), (lisi,24), (wangwu,30), (guangkun,5))scala sc.makeRDD(arr,3) res0: org.apache.spark.rdd.RDD[(String, Int)] ParallelCollectionRDD[0] at makeRDD at console:27scala sc.makeRDD(arr1,4) res1: org.apache.spark.rdd.RDD[(String, Int)] ParallelCollectionRDD[1] at makeRDD at console:27scala res0.reduceByKey(__) res2: org.apache.spark.rdd.RDD[(String, Int)] ShuffledRDD[2] at reduceByKey at console:26scala res1.reduceByKey(__) res3: org.apache.spark.rdd.RDD[(String, Int)] ShuffledRDD[3] at reduceByKey at console:26scala res2 join res3 res4: org.apache.spark.rdd.RDD[(String, (Int, Int))] MapPartitionsRDD[6] at join at console:28scala res4.collect res5: Array[(String, (Int, Int))] Array((zhangsan,(300,22)), (wangwu,(350,30)), (lisi,(400,24)))scala res4.partitions.size res6: Int 4 这里为啥stage3里reduceByKey和join过程是连在一起的因为分区多的RDD是不需要进行shuffle的数据该在哪个分区就在哪个分区反而是分区少的RDD要进行join要进行数据的打散。 分区以多的为主。 5. 一个带有分区器一个没有分区器那么以带有分区器的rdd分区数量为主并且存在shuffle scala arr res7: Array[(String, Int)] Array((zhangsan,300), (lisi,400), (wangwu,350), (zhaosi,450))scala arr1 res8: Array[(String, Int)] Array((zhangsan,22), (lisi,24), (wangwu,30), (guangkun,5))scala sc.makeRDD(arr,3) res9: org.apache.spark.rdd.RDD[(String, Int)] ParallelCollectionRDD[7] at makeRDD at console:27scala sc.makeRDD(arr,4) res10: org.apache.spark.rdd.RDD[(String, Int)] ParallelCollectionRDD[8] at makeRDD at console:27scala res9.reduceByKey(__) res11: org.apache.spark.rdd.RDD[(String, Int)] ShuffledRDD[9] at reduceByKey at console:26scala res10 join res11 res12: org.apache.spark.rdd.RDD[(String, (Int, Int))] MapPartitionsRDD[12] at join at console:28scala res12.partitions.size res13: Int 3scala res12.collect res14: Array[(String, (Int, Int))] Array((zhangsan,(300,300)), (wangwu,(350,350)), (lisi,(400,400)), (zhaosi,(450,450))) 同理stage6的reduceByKey过程和join过程是连在一起的是因为有分区器的RDD并不需要进行shuffle操作原来的数据该在哪在哪而没有分区器的RDD要进行join要进行数据的打散有shuffle过程所以有stage4到stage6的连线。
http://www.w-s-a.com/news/156433/

相关文章:

  • 长寿做网站的电话怎么快速刷排名
  • 上海市中学生典型事例网站邯郸全网推广
  • 厦门网站建设680元好男人的最好的影院
  • 石家庄网站建设设计产品设计专业就业前景
  • 网站移动排名做最好最全的命理网站
  • 网站怎么防黑客杭州市做外贸网站的公司
  • 网站推广公司认准乐云seo易语言做网站登录
  • 配色设计网站推荐网站下拉菜单重叠
  • 内容展示型网站特点在北京注册公司需要多少钱
  • h5网站源代码创意设计理念
  • 岳阳网站开发服务推广运营平台
  • 网站开发得多长时间湖南建设人力资源网证书查询
  • 论坛网站开发网络营销是什么时候产生的
  • 帮人做网站赚钱无忧软文网
  • 做网站要不要营业执照重庆网站优化seo公司
  • 学院宣传网站建设简介做网站没灵感
  • 网站建设终稿确认书网站意义学校
  • 3小时网站建设平台专业制作教学课件
  • 曲阜网站建设百度开户现货黄金什么网站可以做直播
  • 比较好的企业建站平台小程序开发外包该注意些什么
  • 建行官网官网网站吗二次元风格wordpress模板
  • 怎样开通自己的网站网址导航哪个主页最好
  • 大良o2o网站建设详情页设计说明怎么写
  • 您与此网站之间建立的连接不安全汽车cms系统是什么意思
  • 有没有做logo的网站企业网站的内容营销
  • 哈尔滨做企业网站怎么做网站自动响应
  • 网站建设硬件和软件技术环境配置签约做网站模板
  • 教育网站建设的素材手机app制作流程
  • 免费行情软件网站大全下载网站备案查询
  • flex网站模板wordpress实时预览