织梦做的网站怎么加弹窗,漳浦网站设计,公司装修设计公司,免费快速网站数据计算
map方法
map算子
map算子#xff08;成员方法#xff09;接受一个处理函数#xff0c;可用lambda快速编写#xff0c;对RDD内的元素一一处理#xff0c;返回RDD对象
链式调用
对于返回值是新的RDD的算子#xff0c;可以通过链式调用的方式多次调用算子
成员方法接受一个处理函数可用lambda快速编写对RDD内的元素一一处理返回RDD对象
链式调用
对于返回值是新的RDD的算子可以通过链式调用的方式多次调用算子 演示RDD的map成员方法的使用from pyspark import SparkConf, SparkContext
import os
os.environ[PYSPARK_PYTHON] C:/Microsoft/WindowsApps/python.exe
conf SparkConf().setMaster(local[*]).setAppName(test_spark)
sc SparkContext(confconf)# 准备一个RDD
rdd sc.parallelize([1, 2, 3, 4, 5])
# 通过map方法将全部数据都乘以10
# def func(data):
# return data * 10rdd2 rdd.map(lambda x: x * 10).map(lambda x: x 5)print(rdd2.collect())
# (T) - U
# (T) - T# 链式调用flatMap方法
flatmap方法用于解除嵌套操作。 演示RDD的flatMap成员方法的使用from pyspark import SparkConf, SparkContext
import os
os.environ[PYSPARK_PYTHON] C:/Microsoft/WindowsApps/python.exe
conf SparkConf().setMaster(local[*]).setAppName(test_spark)
sc SparkContext(confconf)# 准备一个RDD
rdd sc.parallelize([itcast 666, 777 itcast, python 666])# 需求将RDD数据里面的一个个单词提取出来
rdd2 rdd.flatMap(lambda x: x.split( ))
print(rdd2.collect())