海南网站建设介绍,新手学做网站从哪里开始,本地wordpress 上传到服务器,优化方案数学2023版电子版大数据系列之#xff1a;读取parquet文件统计数据量 一、Spark读取parquet文件统计数据量二、parquet-tools统计parquet文件数据量三、实际应用案例 一、Spark读取parquet文件统计数据量
首先#xff0c;创建一个 SparkSession 对象#xff1a;
val spark SparkSession.b… 大数据系列之读取parquet文件统计数据量 一、Spark读取parquet文件统计数据量二、parquet-tools统计parquet文件数据量三、实际应用案例 一、Spark读取parquet文件统计数据量
首先创建一个 SparkSession 对象
val spark SparkSession.builder().appName(Parquet Data Count).getOrCreate()然后使用 SparkSession 读取 Parquet 文件并将其转换为 DataFrame
val data spark.read.format(parquet).load(/path/to/hdfs/parquet/file)最后使用 DataFrame 的 count 方法进行数据量统计
val count data.count()二、parquet-tools统计parquet文件数据量
下载parquet-tools工具
使用 Hadoop 命令行工具
首先使用 Hadoop 命令行工具 hadoop 运行以下命令
hadoop fs -cat /path/to/hdfs/parquet/file | parquet-tools rowcount该命令将读取 Parquet 文件并使用 parquet-tools 工具来统计数据量并输出结果。
三、实际应用案例
读取hdfs上的parquet文件
%sparkval data spark.read.format(parquet).load(/optics/ods_optics_prod/packing_data_item_1h_a/datetime2023122514/part-00000-2675f81c-3c90-4af7-a489-bd8ce5cfec2c-c000.zstd.parquet)查看数据量
%spark
val count data.count()count: Long 433173