番禺区网站建设哪里有,规模以上工业企业总产值,展会搭建设计案例网站,项目网站建设应入哪个科目FlinkSpark相关记录 FlinkSQL Flink Streaming的一些点覆写RichSource、RichSink、RichMap 1.Source自动负载均衡#xff0c;CDC源端加入一个全局调控的节点监控流量流速 2.Sink并发写入 3.Map与Iterator与增量迭代等用法关于Checkpoint几个用法 1.提交Commit至目的端数据库 2…FlinkSpark相关记录 FlinkSQL Flink Streaming的一些点覆写RichSource、RichSink、RichMap 1.Source自动负载均衡CDC源端加入一个全局调控的节点监控流量流速 2.Sink并发写入 3.Map与Iterator与增量迭代等用法关于Checkpoint几个用法 1.提交Commit至目的端数据库 2.UnalignedCheckpoint与ChandyLamport与ChangeLog存增量快照 3.Buffer写盘 4.ckp与record共抢一把锁独占writeBuffer1.16版本ckp禁止太快 5.State写盘broadcastJVMkeyStateoperatorState并行度自动扩缩容时恢复 Spark记录
groupByKeyreduceByKeycombineByKey(createCombinermergeValuemergeCombiner)aggregate(n)(seqOp,combOp)关于ByKey和Join不一定会产生shuffle先设置好new HashPartition或Custom或Range、之后直接forward不需要shuffleDriver产生一个DAG 1.一个DAG里的一个节点一个RDD 2.一个RDD多个分区 3.一个分区一个Task 一个DAG有多个RDD一个RDD有多个Task 也就是DAG控制多个弹性数据集流转 JVM与堆外内存JVM里的StorageMemory读RDD用和ExecutionMemoryshuffle/agg/join用关于合理设计Block-TaskPartition大小(4G-200M)*0.5又因为动态可以弹性可直接3.8GSpark设置cache和persist缓存级别每个分区的都会cachecache务必保证100%否则重算对于Flink又有一个slot(JVM)里运行多个算子所以可以考虑slot内数据总量和资源消耗整体分析关于Executor add后很久才执行说明任务调度拥堵堆外内存