当前位置: 首页 > news >正文

赶集的网站怎么做温州专业营销网站费用

赶集的网站怎么做,温州专业营销网站费用,微信营销软件,胖哥网站的建设目标文章目录 集成hive metastoreSQL测试spark-sql 语法SQL执行流程两种数仓架构的选择hive on spark数仓配置经验 spark-sql没有元数据管理功能#xff0c;只有sql 到RDD的解释翻译功能#xff0c;所以需要和hive的metastore服务集成在一起使用。 集成hive metastore 在spark安… 文章目录 集成hive metastoreSQL测试spark-sql 语法SQL执行流程两种数仓架构的选择hive on spark数仓配置经验 spark-sql没有元数据管理功能只有sql 到RDD的解释翻译功能所以需要和hive的metastore服务集成在一起使用。 集成hive metastore 在spark安装目录conf下新增hive-site.xml配置文件内容如下 configuration!-- 指定存储元数据metastore要连接的地址 --propertynamehive.metastore.uris/namevaluethrift://127.0.0.1:9083/valuedescriptionURI for client to connect to metastore server/description/property!--配置数据表数据存储目录--propertynamehive.metastore.warehouse.dir/namevalue/home/datahouse/hive/warehouse/value/property /configuration然后就是要保证hive hadoop的数仓已能正常运行。因为spark需要使用hive的metastore服务所以hive的相关服务得正常运行。可以参考 【数据仓库】hive hadoop数仓搭建实践文章。 集成完成后就可以开始启动spark-sql了。 SQL测试 到spark 的bin目录执行 ./spark-sql如下 [rootyd-ss bin]# ./spark-sql 24/12/27 14:49:53 WARN Utils: Your hostname, yd-ss resolves to a loopback address: 127.0.0.1; using XX.XX.XX.XX instead (on interface bond0) 24/12/27 14:49:53 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address Using Sparks default log4j profile: org/apache/spark/log4j-defaults.properties Setting default log level to WARN. To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). 24/12/27 14:49:54 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Spark master: local[*], Application Id: local-1735282198034 spark-sql 执行如下脚本 show database;输出 spark-sql show databases; db_msg default test Time taken: 6.644 seconds, Fetched 3 row(s)可以看到之前在hivehadoop数仓下建的库都可以通过spark-sql 查出来了因为两者共用了一个metastore服务元数据是一样的数仓地址也是一样的。 spark-sql 语法 由于spark-sql 使用的元数据管理是hive的元数据服务所以spark-sql的语法可以理解为和hive SQL是一样的。 SQL执行流程 上图是hive sql 和 spark sql的执行流程图及框架图。可以看出 1 hive 偏重的是 hive sql 解释 和 元数据管理分布式计算和存储依赖于hadoop的MR和HDFS; 2 spark 偏重的是spark sql 解释 和 RDD分布式计算元数据管理和分布式存储依赖于hive 的 metastore服务和hadoop的HDFS 3 提供两种数仓数据分析工具 hive sql 和 spark sql都可以使用数据库客户端工具去连接访问。 两种数仓架构的选择 上图体现了两种数仓的架构。 hive hadoop 数仓分布式计算使用MR性能计算很慢在BI数据集配置时经常会超时 spark hive (metastore) hadoop(HDFS)数仓分布式计算使用spark RDD ,性能计算快但还要维护hive 架构较复杂 如果基于hive hadoop 数仓将MR分布式计算框架换成 Spark RDD的计算框架是不是就很完美了强强联合。 hive on spark数仓配置 hive sql 会被解释为Spark RDD 计算执行。 一开始也是怀着激动的心来的因为hive on MR 实在是太慢了spark又非常快两者强强联合岂不是最佳实践。网上也搜到了很多教程但都是对于hive的低版本的。但是现实却发生了变化。 在进行该配置之前需要了解下hive和spark的匹配关系。 hive 4.0 版本的源码pom中已经看不到引用的spark版本了有可能在4.0版本放弃了spark的支持。 经过查找4.0版本的官方文档可以看到 https://hive.apache.org/docs/latest/overview-of-major-changes_283118379/ 可以看到直接就是移除了spark还不是废弃。最新的版本hive4.0已经不支持spark集成了。这也是为什么在hive sql 会话下执行 set hive.execution.enginespark;会报错 [42000][1] Error while processing statement: SET hive.execution.enginespark FAILED in validation : Invalid value.. expects one of [mr, tez].如果想继续使用hive on spark 架构就只能使用hive 4.0 以前的版本了。 在hive4.0之前的版本hive3.1.3中依赖的spark 版本为2.3.0太旧了。 但是可以尝试基于hive3.1.3的源码修改saprk的版本为新版本重新编译。这里不再往下探究。 毕竟hive4.0 已经移除了spark数仓搭建技术还是以hive为主因为它稳定。官方提供了Tez的执行引擎替代MR。也能提高hive的执行效率。 经验 1 hive 4.0移除了saprk支持只能使用MR和Tez,意味着往后版本hive on spark就不存在了若想使用需要将hive换到4,0以前的版本 2 spark on hive可以继续使用但这个是以spark为主利用hive的元数据服务但总是感觉没有hive专业 3 hive4.0往后当数仓使用需要集成TEz引擎以提升效率。
http://www.w-s-a.com/news/466364/

相关文章:

  • 沈阳公司建站seo课程培训班
  • 杭州做微信网站软件公司网站建设毕业设计中期进度报告
  • 怎么做谷歌这样的网站如何建立一个网站放视频
  • 园区网站建设调研报告北京朝阳区哪里有网站开发
  • 网站角色权限wordpress 优化版
  • 购物网站ppt怎么做网络公司注册多少钱
  • 学做衣服上什么网站好贴吧高级搜索
  • 贵州 跨境电商网站建设做淘宝店铺有哪些好的网站
  • 广州正规网站制作公司网站搭建公司
  • ui设计零基础好学吗珠海网站建设优化推广
  • 网站开发多少费用火车头采集wordpress发布时间
  • 有没有做皮艺的网站教育培训网站建设ppt
  • 建设外贸商城网站制作如何建设景区旅游网站
  • 网站建设服务的具体条件怎么建设一个响应式网站
  • 做flash的网站wordpress设置前台投稿
  • 商务网站开发文档迅雷资源做下载网站
  • 无极磁铁网站如何把地图放到自己做的网站上
  • 青浦赵巷网站建设公司网站开发需求文档
  • 苏州网站建设的公司哪家好无锡网站制作那些
  • 装饰公司网站模板科技成果鉴定机构
  • 给公司做的东西放到私人网站上十堰为企业做网站的单位
  • 手机网站建设价钱手机自己做网站
  • 网站建设属于哪种公司电子商务查询网站
  • 工程建设标准强制性条文最新版本网站关键词排名优化应该怎么做
  • 网站网页设计内容品牌高端网站建设公司
  • 网站开发报价 福州中国建筑网官网手机版
  • 网站 图片 自动往右移专门做定制化的网站
  • 最好用的cms手机百度关键词排名 网站优化软件
  • 凉山州城乡规划建设局网站长沙网站建设哪家强
  • 广州网站开发创意设计公司企业自己怎么制作网站首页