如何建设网站站点,安全网站开发,为成长持续赋能,网站建设的最终目标文章目录Spark on hive Hive on sparkHive 架构与基本原理Spark on hiveHive on sparkSpark on hive Hive on spark
Hive 架构与基本原理 Hive 的核心部件主要是 User Interface#xff08;1#xff09;和 Driver#xff08;3#xff09;。而不论是元数据库 Hive on sparkHive 架构与基本原理Spark on hiveHive on sparkSpark on hive Hive on spark
Hive 架构与基本原理 Hive 的核心部件主要是 User Interface1和 Driver3。而不论是元数据库4、存储系统5还是计算引擎6Hive 都以“可插拔”的方式交给第三方独立组件。
Hive sql查询工作流程 接收到 SQL 查询之后 Hive 的 Driver 首先使用其 Parser 组件将查询语句转化为 ASTAbstract Syntax Tree查询语法树。 Planner 组件根据 AST 生成执行计划而 Optimizer 则进一步优化执行计划。要完成这一系列的动作Hive 必须要拿到相关数据表的元信息比如表名、列名、字段类型、数据文件存储路径、文件格式等等元信息存储在“Hive Metastore”4的数据库中。
Hive Metastore 是一个普通的关系型数据库RDBMS它的作用
辅助SQL 语法解析、执行计划的生成与优化帮助底层计算引擎高效地定位并访问分布式文件系统中的数据源
Spark on hive Spark on Hive是spark做sql解析并转换成RDD执行hive仅仅是做为外部数据源
Spark SQL 对 SQL 查询语句先后进行语法解析、语法树构建、逻辑优化、物理优化、数据结构优化、以及执行代码优化等等。然后Spark SQL 将优化过后的执行计划交付给 Spark Core执行引。
Hive on spark “Hive on Spark” 指的是 Hive 采用 Spark 作为其后端的分布执行引擎。
Hive on Spark 是由 Hive 的 Driver 来完成 SQL 语句的解析、规划与优化还需要把执行计划“翻译”成 RDD 语义下的 DAG然后再把 DAG 交付给 Spark Core执行。【Spark on hive是由Spark SQL Spark Core执行性能更好】