当前位置：首页 > news >正文

照片变年轻在线制作网站有谁做分销网站

news 2025/12/20 8:14:04

照片变年轻在线制作网站,有谁做分销网站,网站搭建什么意思,临淄网站建设yx718文章目录视频资料#xff1a;一、Spark基础入门#xff08;环境搭建、入门概念#xff09;第二章#xff1a;Spark环境搭建-Local2.1 课程服务器环境2.2 Local模式基本原理2.3 安装包下载2.4 Spark Local模式部署第三章#xff1a;Spark环境搭建-StandAlone3.1 StandAlone… 文章目录视频资料一、Spark基础入门环境搭建、入门概念第二章Spark环境搭建-Local2.1 课程服务器环境2.2 Local模式基本原理2.3 安装包下载2.4 Spark Local模式部署第三章Spark环境搭建-StandAlone3.1 StandAlone的运行原理3.2 StandAlone环境安装操作3.3 StandAlone程序测试3.4 Spark程序运行层次结构3.5 总结第四章Spark环境搭建-StandAlone-HA4.1 StandAlone HA运行原理4.2 基于Zookeeper实现HAspark配置双master时一直处于standby的情况4.3 总结第五章Spark环境搭建-Spark On YARN5.1 Spark On YARN的运行原理5.2 Spark On YARN部署和测试5.3 部署模式DeployMode5.4 两种部署模式的演示和总结5.5 两种模式任务提交流程5.6 总结第六章PySpark库6.1 框架 VS 类库6.2 PySpark类库介绍6.3 PySpark安装6.4 总结第七章本机开发环境搭建7.1 本机配置Python环境7.2 PyCharm本地和远程解释器配置7.3 编程入口SparkContext对象以及WordCount演示7.4 WordCount代码流程解析7.5 提交WordCount到Linux集群运行7.6 总结第八章分布式代码执行分析8.1 Spark运行角色回顾8.2 分布式代码执行分析8.3 Python On Spark执行原理8.4 总结2.Spark核心学习目标第一章RDD详解1.1 什么是RDD1.2 RDD五大特性-特性11.3 RDD五大特性-特性21.4 RDD五大特性-特性31.5 RDD五大特性-特性41.6 RDD五大特性-特性51.7 WordCount结合RDD特性进行执行分析1.8 第一章总结第二章RDD编程入门2.1 程序执行入口SparkContext对象2.2 RDD的创建方式一通过并行化集合创建本地对象转分布式RDD方式二读取外部数据源2.3 RDD算子概念和分类2.4 常用转换算子转换算子-map转换算子-flatMap转换算子-reduceByKey转换算子-mapValuesWordCount案例回顾转换算子-groupBy转换算子-filter转换算子-distinct转换算子-union转换算子-join转换算子-intersection转换算子-glom转换算子-groupByKey转换算子-sortBy转换算子-sortByKeyRDD算子-案例RDD算子-案例-提交到YARN执行2.5 常用Action算子Action算子-countByKeyAction算子-collectAction算子-reduceAction算子-fold-了解Action算子-firstAction算子-takeAction算子-topAction算子-countAction算子-takeSampleAction算子-takeOrderedAction算子-foreachAction算子-saveAsTextFile2.6 分区操作算子转换算子-mapPartitionsAction算子-foreachPartition转换算子-partitionBy转换算子-repartition面试题groupByKey和reduceByKey的区别2.7 第二章总结第三章RDD的持久化3.1 RDD的数据是过程数据3.2 RDD缓存3.3 RDD CheckPoint3.4 第三章总结第四章Spark案例练习4.1 搜索引擎日志分析案例4.2 提交到集群运行4.3 第四章作业和总结作业总结第五章共享变量5.1 广播变量5.2 累加器5.3 广播变量累加器综合案例5.4 第五章总结第六章Spark内核调度重点理解6.1 DAG6.2 DAG的宽窄依赖和阶段划分6 .3 内存迭代计算6.4 Spark并行度6.5 Spark任务调度DAG调度器Task调度器6.6 拓展-Spark概念名称大全6.7 第六章总结3.SparkSQL学习目标第一章SparkSQL快速入门1.1 什么是SparkSQL1.2 为什么要学习SparkSQL1.3 SparkSQL特点1.4 SparkSQL发展历史1.5 第一章总结第二章SparkSQL概述2.1 SparkSQL和Hive的异同2.2 SparkSQL的数据抽象2.3 SparkSQL数据抽象的发展2.4 DataFrame数据抽象2.5 SparkSession对象2.6 SparkSQL HelloWorld2.7 第二章总结第三章DataFrame入门3.1 DataFrame的组成3.2 DataFrame的代码构建基于RDD方式1-通过createDataFrame方法基于RDD方式2-通过StructType对象基于RDD方式3-使用toDF方法基于Pandas的DataFrame读取外部数据读取Text文件读取json文件读取csv文件读取parquet文件3.3 DataFrame的入门操作DSL风格SQL风格3.4 词频统计案例3.5 电影数据分析遇到问题3.6 SparkSQL Shuffle 分区数目3.7 SparkSQL 数据清洗API3.8 DataFrame数据写出3.9 DataFrame通过JDBC读写数据库(MySQL示例)3.10 第三章总结第四章SparkSQL函数定义4.1 SparkSQL定义UDF函数sparksession.udf.register()pyspark.sql.functions.udf注册一个ArraryType返回类型的UDF注册一个字典返回类型的UDF拓展-通过RDD代码模拟UDAF效果4.2 SparkSQL使用窗口函数4.3 第四章总结第五章SparkSQL的运行流程5.1 SparkRDD的执行流程回顾5.2 SparkSQL的自动优化5.3 Catalyst优化器5.4 SparkSQL的执行流程5.5 第五章总结第六章Spark On Hive6.1 原理6.2 配置6.3 在代码中集成6.4 第六章总结第七章分布式SQL执行引擎7.1 概念7.2 客户端工具连接配置数据库工具连接ThriftServer7.3 代码JDBC连接Pycharm软件连接ThriftServer7.4 第七章总结4.Spark综合案例需求分析需求1需求2需求3需求45.Spark新特性核心回顾学习目标第一章Spark Shuffle1.1 Spark Shuffle1.2 HashShuffleManager1.3 SortShuffleManager1.4 第一章总结第二章Spark3.0新特性2.2 Adaptive Query Execution自适应查询SparkSQLAQE总结2.3 Dynamic Partition Pruning动态分区裁剪SparkSQL2.4 增强的Python APIPySpark和Koalas2.5 Koalas入门演示-Koalas DataFrame构建视频资料黑马程序员Spark全套视频教程4天spark3.2快速入门到精通基于Python语言的spark教程一、Spark基础入门环境搭建、入门概念学习目标 1.[了解]Spark诞生背景 2.[了解]Saprk的应用场景 3.[掌握]Spark环境的搭建 4.[掌握]Spark的入门案例 5.[了解]Spark的基本原理第一章Spark框架概述 1.1 Spark是什么定义Apache Spark是用于大规模数据large-scala data处理的统一unified分析引擎。 1.2 Spark风雨十年 1.3 扩展阅读Spark VS Hadoop 1.4 Spark四大特点 1.5 Spark框架模型-了解 1.6 Spark运行模式 1.7 Spark架构角色 Spark解决什么问题海量数据的计算可以进行离线批处理、实时流计算、机器学习计算、图计算、通过SQL完成结构化数据的处理。 Spark有哪些模块核心SparkCore、SQL计算SparkSQL支持离线批处理其上面也有structured streaming支持实时流计算、流计算SparkStreaming有缺陷、图计算GraphX、机器学习MLlib Spark特点有哪些速度快、使用简单、通用性强、多种模式运行。 Spark的运行模式本地模式Local模式在一个集群模式StandAlone、YARN、K8S 云模式 Spark的运行角色对比YARN Master集群资源管理类同ResourceManager Worker单机资源管理类同NodeManager Driver单任务管理者类同ApplicationMaster Executor单任务执行者类同YARN容器内的Task 第二章Spark环境搭建-Local 2.1 课程服务器环境 2.2 Local模式基本原理 2.3 安装包下载 PS软连接与硬链接参考资料https://www.bilibili.com/video/BV1CZ4y1v7SR/?spm_id_from333.1007.top_right_bar_window_history.content.clickvd_sourcec1627e67b359df87544f502955497bf7 配置环境变量 2.4 Spark Local模式部署 Local模式的运行原理 Local模式就是以一个独立进程配合其内部线程来提供完成Spark运行时环境。Local模式可以通过spark-shell/pyspark/spark-submit等来开启。 bin/pyspark是什么程序是一个交互式的解释器执行环境环境启动后就得到了一个Local Spark环境可以运行Python代码去进行Spark计算类似Python自带解释器。 Spark的4040端口是什么 Spark的任务在运行后会在Driver所在机器绑定到4040端口提供当前任务的监控页面供查看。 PS如果有多个Local模式下的Spark任务在一台机器上执行则绑定的端口会依次顺延。第三章Spark环境搭建-StandAlone 3.1 StandAlone的运行原理 3.2 StandAlone环境安装操作详看视频 3.3 StandAlone程序测试 3.4 Spark程序运行层次结构 3.5 总结 StandAlone的原理 Master和Worker角色以独立进程的形式存在并组成Spark运行时环境集群 Spark角色在StandAlone中的分布 Master角色Master进程 Worker角色Worker进程 Driver角色以线程运行在Master中 Executor角色以线程运行在Worker中 StandAlone如何提交Spark应用 bin/spark-submit --master spark://server:7077 4040\8080\18080分别是什么 4040是单个程序运行的时候绑定的端口可供查看本任务运行情况4040和Driver绑定也和Spark的应用程序绑定。 8080是Master运行的时候默认的WebUI端口Master进程是守护进程。 18080是Spark历史服务器的端口可供我们查看历史运行程序的运行状态。 Job\State\Task的关系一个Spark应用程序会被分成多个子任务Job运行每一个Job会分成多个Stage阶段来运行每一个Stage内会分出来多个Task线程来执行具体任务。第四章Spark环境搭建-StandAlone-HA 4.1 StandAlone HA运行原理 Spark Standalone集群存在Master单点故障SPOF的问题。 4.2 基于Zookeeper实现HA spark配置双master时一直处于standby的情况 4.3 总结 StandAloneHA的原理基于Zookeeper做状态的维护开启多个Master进程一个作为活跃其他的作为备份当活跃进程宕机备份的Master进行接管。第五章Spark环境搭建-Spark On YARN 5.1 Spark On YARN的运行原理 5.2 Spark On YARN部署和测试详见视频 5.3 部署模式DeployMode 5.4 两种部署模式的演示和总结 Cluster模式 bin/spark-submit --master yarn --deploy-mode cluster --driver-memory 512m --executor-memory 512m --num-executors 3 --total-executor-cores 3 /export/server/spark/examples/src/main/python/pi.py 100需要通过下面命令打开Yarn的历史服务器JobHistoryServer mapred --daemon start historyserverClient模式 bin/spark-submit --master yarn --deploy-mode client --driver-memory 512m --executor-memory 512m --num-executors 3 --total-executor-cores 3 /export/server/spark/examples/src/main/python/pi.py 1005.5 两种模式任务提交流程 5.6 总结 SparkOnYarn本质 Master由ResourceManager代替 Worker由NodeManager代替 Driver可以运行在容器内Cluster模式或客户端进程中Client模式 Executor全部运行在YARN提供的容器内 Why Spark On YARN 提供资源利用率在已有YARN的场景下让Spark收到YARN的调度可以更好的管控资源提高利用率并方便管理。第六章PySpark库 6.1 框架 VS 类库 6.2 PySpark类库介绍 6.3 PySpark安装详见视频 6.4 总结 PySpark是什么和bin/pyspark程序有何区别 PySpark是一个Python的类库提供Spark的操作API bin/pyspark是一个交互式的程序可以提供交互式编程并执行Spark计算本课程的Python运行环境由什么来提供由Anaconda提供并使用虚拟环境环境名称叫做pyspark 第七章本机开发环境搭建 7.1 本机配置Python环境 7.2 PyCharm本地和远程解释器配置详见视频 7.3 编程入口SparkContext对象以及WordCount演示 PS解决WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform…警告找了好几个都不行。 PS解决参考资料https://blog.csdn.net/weixin_51951625/article/details/117452855 https://blog.csdn.net/OWBY_Phantomhive/article/details/123088763 https://blog.csdn.net/qq_20540901/article/details/123499540 需要配置环境变量 7.4 WordCount代码流程解析 7.5 提交WordCount到Linux集群运行通过spark-submit yarn提交到集群的py文件中的地址集群会默认去hdfs里面找。在yarn模式或者standalone这样的集群下访问的文件路径要么是网络地址要么是hdfs这样每台机器都能访问到。 7.6 总结 Python语言开发Spark程序步骤主要是获取SparkContext对象基于SparkContext对象作为执行环境入口。如何提交Spark应用将程序代码上传到服务器上通过spark-submit客户端工具进行提交。 1.在代码中不要设置master如果设置了会以代码为准spark-submit工具的设置就无效了。 2.提交程序到集群中的时候读取的文件一定是各个机器都能访问到的地址。比如HDFS。第八章分布式代码执行分析 8.1 Spark运行角色回顾 8.2 分布式代码执行分析 8.3 Python On Spark执行原理 8.4 总结分布式代码执行的重要特征是什么代码在集群上运行是被分布式运行的。在Spark中非任务处理部分由Driver执行非RDD代码。任务处理部分由Executor执行RDD代码。 Executor的数量很多所以任务的计算是分布式在运行的。简述PySpark的架构体系。 Python On SparkDriver端由JVM执行Executor端由JVM做命令转发底层由Python解释器进行工作。 2.Spark核心学习目标了解RDD产生背景掌握RDD的创建掌握RDD的重要算子掌握RDD的缓存和检查点机制熟悉Spark执行的基本原理第一章RDD详解 1.1 什么是RDD 1.2 RDD五大特性-特性1 1.3 RDD五大特性-特性2 1.4 RDD五大特性-特性3 1.5 RDD五大特性-特性4 1.6 RDD五大特性-特性5 1.7 WordCount结合RDD特性进行执行分析 1.8 第一章总结如何正确理解RDD 不可变、可分区、并行计算的弹性分布式数据集分布式计算的实现载体数据抽象 RDD五大特点分别是 RDD有分区RDD的方法会作用在所有分区上RDD之间有依赖关系KV型的RDD是有分区器的RDD的分区规划会尽量靠近数据所在服务器。第二章RDD编程入门 2.1 程序执行入口SparkContext对象 2.2 RDD的创建方式一通过并行化集合创建本地对象转分布式RDD 在local[*]方法下parallelize方法没有给定分区数的情况下默认分区数是根据CPU核心数来定。方式二读取外部数据源 2.3 RDD算子概念和分类 2.4 常用转换算子转换算子-map 转换算子-flatMap 转换算子-reduceByKey PS报错UserWarning: Please install psutil to have better support with spilling 参考资料https://blog.csdn.net/sqlserverdiscovery/article/details/102936203 PS未正确退出conda环境会报错参考资料https://blog.csdn.net/weixin_44211968/article/details/122483304 conda deactivate转换算子-mapValues WordCount案例回顾转换算子-groupBy 转换算子-filter 转换算子-distinct 转换算子-union 转换算子-join 转换算子-intersection 转换算子-glom 转换算子-groupByKey groupByKey只保留同组的值而groupBy还保留key。转换算子-sortBy 注意如果选择多个分区来进行排序那么就意味着有多个excutor每个excutor只能保证局部有序。所以如果要全局有序排序分区的并行任务数请设置为1 转换算子-sortByKey RDD算子-案例 RDD算子-案例-提交到YARN执行 2.5 常用Action算子 Action算子-countByKey Action算子-collect Action算子-reduce Action算子-fold-了解 Action算子-first Action算子-take Action算子-top Action算子-count Action算子-takeSample Action算子-takeOrdered Action算子-foreach Action算子-saveAsTextFile rdd有几个分区写出的数据就有几个part-xxxx文件 2.6 分区操作算子转换算子-mapPartitions mapPartitions并没有节省CPU执行层面的东西但节省了网络管道IO开销所以他的性能比map好。 Action算子-foreachPartition 转换算子-partitionBy 转换算子-repartition shuffle是有状态计算有状态计算涉及到状态的获取就会导致性能下降。而没有shuffle大部分都是无状态计算可以并行执行效果很快。 coalesce有安全机制当增加分区但没有设置shuffle参数为True时分区并不会增加 repartition底层调用的是coalesce只是参数shuffle默认设置为True 面试题groupByKey和reduceByKey的区别 2.7 第二章总结 RDD创建有哪几种方法通过并行化集合的方式本地集合转分布式集合或者读取数据的方式创建TextFile\WholeTextFile RDD分区数如何查看通过getNumPartitions API查看返回Int Transformation和Action的区别? 转换算子的返回值100%是RDD而Action算子的返回值100%不是RDD。转换算子是懒加载的只有遇到Action才会执行。Action就是转换算子处理链条的开关。哪两个Action算子的结果不经过Driver直接输出 foreach和saveAsTextFile直接由Executor执行后输出不会将结果发送到Driver上去foreachPartition也是 reduceByKey和groupByKey的区别 reduceByKey自带聚合逻辑groupByKey不带如果做数据聚合reduceByKey的效果更好因为可以先聚合后shuffle再最终聚合传输的IO小 mapPartitions和foreachPartition的区别 mapPartitions带有返回值是个转换算子foreachPartition不带返回值是个Action算子对于分区操作有什么要注意的地方尽量不要增加分区可能破坏内存迭代的计算管道第三章RDD的持久化 3.1 RDD的数据是过程数据 3.2 RDD缓存 PSlinux下kill -9不能强制杀死spark-submit进程参考资料https://blog.csdn.net/intersting/article/details/84492999原因分析 https://blog.csdn.net/qq_41870111/article/details/126068306 https://blog.csdn.net/agonysome/article/details/125722926如何清理僵尸进程 3.3 RDD CheckPoint 3.4 第三章总结 Cache和Checkpoint区别 Cache是轻量化保存RDD数据可存储在内存和硬盘是分散存储设计上数据是不安全的保留RDD血缘关系 CheckPoint是重量级保存RDD数据是集中存储只能存储在硬盘HDFS上设计上是安全的不保留RDD血缘关系 Cache和CheckPoint的性能对比 Cache性能更好因为是分散存储各个Executor并行效率高可以保存到内存中占内存更快 CheckPoint比较慢因为是集中存储涉及到网络IO但是存储在HDFS上更加安全多副本第四章Spark案例练习 4.1 搜索引擎日志分析案例 4.2 提交到集群运行 4.3 第四章作业和总结作业总结案例中使用的分词库是 jieba库为什么要在全部的服务器安装jieba库因为YARN是集群运行Executor可以在所有服务器上执行所以每个服务器都需要有jieba库提供支撑如何尽量提高任务计算的资源计算CPU核心和内存量通过–executor-memory指定executor内存通过–executor-cores指定executor的核心数通过–num-executors指定总executor数量第五章共享变量 5.1 广播变量 5.2 累加器 5.3 广播变量累加器综合案例 5.4 第五章总结广播变量解决了什么问题分布式集合RDD和本地集合进行关联使用的时候降低内存占用以及减少网络IO传输提高性能。累加器解决了什么问题分布式代码执行中进行全局累加。第六章Spark内核调度重点理解 6.1 DAG 6.2 DAG的宽窄依赖和阶段划分 6 .3 内存迭代计算 6.4 Spark并行度 6.5 Spark任务调度 DAG调度器如果一台服务器内开多个executor会进行进程间的通信所以建议一台服务器就开一个executor Task调度器 6.6 拓展-Spark概念名称大全 6.7 第六章总结 DAG是什么有什么用 DAG有向无环图用以描述任务执行流程主要作用是协助DAG调度器构建Task分配用以做任务管理。内存迭代/阶段划分? 基于DAG的宽窄依赖划分阶段阶段内部都是窄依赖可以构建内存迭代的管道。 DAG调度器是构建Task分配用以做任务管理。 3.SparkSQL 学习目标了解SparkSQL框架模块的基础概念和发展历史掌握SparkSQL DataFrame API开发理解SparkSQL的运行流程掌握SparkSQL和Hive的集成第一章SparkSQL快速入门 1.1 什么是SparkSQL 1.2 为什么要学习SparkSQL 1.3 SparkSQL特点 1.4 SparkSQL发展历史 1.5 第一章总结第二章SparkSQL概述 2.1 SparkSQL和Hive的异同 2.2 SparkSQL的数据抽象 2.3 SparkSQL数据抽象的发展 2.4 DataFrame数据抽象 2.5 SparkSession对象 2.6 SparkSQL HelloWorld 2.7 第二章总结第三章DataFrame入门 3.1 DataFrame的组成 3.2 DataFrame的代码构建基于RDD方式1-通过createDataFrame方法基于RDD方式2-通过StructType对象基于RDD方式3-使用toDF方法基于Pandas的DataFrame 读取外部数据读取Text文件读取json文件读取csv文件读取parquet文件 3.3 DataFrame的入门操作 DSL风格 SQL风格 3.4 词频统计案例 3.5 电影数据分析遇到问题 1.dataframe对象经过多次.之后IDE无法自动补全得到withColumnRenamed方法仍未解决。其他解决方案使用AI代码补全插件 2.需要安装pytest模块解决方案在虚拟环境中安装pytest 3.6 SparkSQL Shuffle 分区数目可以看出速度变快了 3.7 SparkSQL 数据清洗API 3.8 DataFrame数据写出 3.9 DataFrame通过JDBC读写数据库(MySQL示例) 3.10 第三章总结 DataFrame在结构层面上由StructField组成列描述由StructType构造表描述。在数据层面上Column对象记录列数据Row对象记录行数据。DataFrame可以从RDD转换、Pandas DF转换、读取文件、读取JDBC等方法构建spark.read.format()和df.write.format()是DataFrame读取和写出的统一化标准APISParkSQL默认在Shuffle阶段200个分区可以修改参数获得最好性能dropDuplicates可以去重dropna可以删除缺失值、fillna可以填充缺失值SparkSQL支持JDBC读写可用标准API对数据库进行读写操作第四章SparkSQL函数定义 4.1 SparkSQL定义UDF函数 sparksession.udf.register() pyspark.sql.functions.udf 注册一个ArraryType返回类型的UDF 注册一个字典返回类型的UDF 拓展-通过RDD代码模拟UDAF效果 4.2 SparkSQL使用窗口函数 4.3 第四章总结 SparkSQL支持UDF和UDAF定义但在Python中暂时只能定义UDF UDAF可以通过rdd的mapPartitions算子模拟实现 UDTF可以通过返回array或者dict类型来模拟实现 UDF定义支持2种方式1使用SparkSession对象构建。2使用functions包种提供的UDF API构建。要注意方式1可用DSL和SQL风格方式2仅可用DSL风格SparkSQL支持窗口函数使用常用SQL中的窗口函数均支持如聚合窗口\排序窗口\NTILE分组窗口等第五章SparkSQL的运行流程 5.1 SparkRDD的执行流程回顾 5.2 SparkSQL的自动优化 5.3 Catalyst优化器 5.4 SparkSQL的执行流程 5.5 第五章总结第六章Spark On Hive 6.1 原理 6.2 配置 nohup /export/server/hive/bin/hive --service metastore 21 /export/server/hive/metastore.log PS21的含义将标准错误输出重定向到标准输出。 https://blog.csdn.net/icanlove/article/details/38018169 6.3 在代码中集成 6.4 第六章总结第七章分布式SQL执行引擎 7.1 概念 7.2 客户端工具连接配置数据库工具连接ThriftServer 7.3 代码JDBC连接 Pycharm软件连接ThriftServer 通过yum命令安装依赖 yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel libffi-devel gcc make gcc-c python-devel cyrus-sasl-devel cyrus-sasl-devel cyrus-sasl-plain cyrus-sasl-gssapi -y切换到pyspark虚拟环境通过pip命令安装 pip install pyhive pymysql sasl thrift thrift_sasl7.4 第七章总结 4.Spark综合案例需求分析需求1 PS: 遇到问题解决方案https://blog.csdn.net/debimeng/article/details/113101894 # 1.查看数据库和表的编码 SHOW CREATE DATABASE mydb; # 2.修改数据库和表的编码 ALTER DATABASE mydb DEFAULT CHARACTER SET utf8; 3.检查数据库和表的编码 SHOW CREATE DATABASE mydb;需求2 需求3 需求4 5.Spark新特性核心回顾学习目标掌握Spark的Shuffle流程掌握Spark3.0新特性理解并复习Spark的核心概念第一章Spark Shuffle 1.1 Spark Shuffle 1.2 HashShuffleManager 1.3 SortShuffleManager 1.4 第一章总结第二章Spark3.0新特性 2.2 Adaptive Query Execution自适应查询SparkSQL AQE总结 2.3 Dynamic Partition Pruning动态分区裁剪SparkSQL 2.4 增强的Python APIPySpark和Koalas 2.5 Koalas入门演示-Koalas DataFrame构建略

查看全文

http://www.w-s-a.com/news/537423/