当前位置: 首页 > news >正文

外贸网站logo高端母婴网站模板

外贸网站logo,高端母婴网站模板,wordpress头像网站,品牌建设工作前言 1、ODS 层开发 ODS层的设计要点如下#xff1a; #xff08;1#xff09;ODS层的表结构设计依托于从业务系统同步过来的数据结构#xff08;JSON/CSV/TSV#xff09;。 #xff08;2#xff09;ODS层要保存全部历史数据#xff0c;故其压缩格式应选择高压缩比的…前言 1、ODS 层开发 ODS层的设计要点如下 1ODS层的表结构设计依托于从业务系统同步过来的数据结构JSON/CSV/TSV。 2ODS层要保存全部历史数据故其压缩格式应选择高压缩比的算法此处选择gzip。 3ODS层表名的命名规范为ods_表名_单分区增量全量标识inc/full。 注意ODS 层的表都是分区表因为我们每天都会有数据被采集到数仓所以我们的表是按照日期分区的每天一张表。 我们当前保存在 HDFS 路径下的数据主要有两类log 和 dblog 目录下存放是我们从 Flume 传过来的用户行为日志文件我们已经用 gzip 压缩过了可以通过下面的命令查看 hadoop fs -cat /origin_data/gmall/log/topic_log/2020-06-14/* | zcat 可以看到我们的格式是一个 JSON 格式那我们要建表的话就得考虑怎么把 JSON 格式的数据映射到我们的 Hive 表中了。 对于 db 目录下的文件主要有两类DataX 同步过来的以 full 为目录后缀的全量业务数据和 Maxwell 同步过来的首日全量数据和以 inc 为目录后缀的增量业务数据。 hadoop fs -cat /origin_data/gmall/db/activity_rule_full/2020-06-14/* | zcat 可以看到 DataX 传输过来的文件是 .tsv 文件我们将来只要拿 \t 分隔即可。 hadoop fs -cat /origin_data/gmall/db/comment_info_inc/2020-06-14/* | zcat 可以看到拿 Maxwell 同步过来的数据和 Flume 一样都是 JSON 格式的。  1.1、用户行为日志表 1.1.1、ROW FORMAT 和 STORE AS  打开 Hive 官网 - LanguageManual - DDL - JSON ​ 查看 Hive 3.x 版本支持的通过解析 JSON 映射表的语法 CREATE TABLE my_table(a string, b bigint, ...) ROW FORMAT SERDE org.apache.hadoop.hive.serde2.JsonSerDe -- 声明行的格式 STORED AS TEXTFILE; -- 声明怎么解析文件 这里的 ROW FORMAT 和 STORE AS 都是 Hive 建表是所必须指定的只不过 Hive 帮我们简化了这部分语法 ROW FORMAT 用 DELIMITED 关键字表示对文件中的每个字段按照特定分割符进行分割用 SERDE 关键字来指定 Hive 内置的 SERDE 或者 用户自定义的 SERDE。 STORE AS 用 STORED AS 简写文件格式来指定 InputFormat 和 OutputFormat 默比如 TextFileInputFormat 和 TextFileOutputFormat 可以用 STORE AS TEXTFILE 来表示。 Hive SerDe ​ Hive 的 ROW FORMAT 的 SERDE 属性指定了 Hive 的序列化器和反序列化器映射 HDFS 文件时使用反序列化器进行解析写出文件时使用序列化器来封装数据。 1.1.2、复杂数据类型 对于用户行为日志它的存储格式是 json 格式那我们就需要把它的每个字段映射到我们 Hive 表中。首先回顾一下 Hive 的三种复杂类型 array 声明arraystring取值arr[0]构造array(val1,val2...)split()collect_set()map 声明mapstring,bigint取值map[key]构造map(key1,val1,key2,val2...)struct 声明structid:int,name:strnig取值struct.id构造named_struct(name1,val1,name2,val2...) 对于上面的 common 字段它虽然是键值对格式但是我们不能使用 map 因为 map 的 value 是同一数据类型而我们这里的 common 字段不同键的值有的是 int 有的是 string。所以我们使用 struct。 对于 displays 字段由于它存储的是数组类型然后数组嵌套键值对所以我们需要使用 array(struct) 的嵌套类型。 1.1.3、设计日志表 DROP TABLE IF EXISTS ods_log_inc; CREATE EXTERNAL TABLE ods_log_inc (common STRUCTar :STRING,ba :STRING,ch :STRING,is_new :STRING,md :STRING,mid :STRING,os :STRING,uid :STRING,vc:STRING COMMENT 公共信息,page STRUCTduring_time :STRING,item :STRING,item_type :STRING,last_page_id :STRING,page_id:STRING,source_type :STRING COMMENT 页面信息,actions ARRAYSTRUCTaction_id:STRING,item:STRING,item_type:STRING,ts:BIGINT COMMENT 动作信息,displays ARRAYSTRUCTdisplay_type :STRING,item :STRING,item_type :STRING,order :STRING,pos_id:STRING COMMENT 曝光信息,start STRUCTentry :STRING,loading_time :BIGINT,open_ad_id :BIGINT,open_ad_ms :BIGINT,open_ad_skip_ms:BIGINT COMMENT 启动信息,err STRUCTerror_code:BIGINT,msg:STRING COMMENT 错误信息,ts BIGINT COMMENT 时间戳 ) COMMENT 活动信息表PARTITIONED BY (dt STRING)ROW FORMAT SERDE org.apache.hadoop.hive.serde2.JsonSerDeLOCATION /warehouse/gmall/ods/ods_log_inc/;注意我们数仓建的基本都是外部表防止误删数据 gzip 和 bzip2 格式的文件可以直接以 textfile 的格式来 load 而不需要在建表时指定压缩格式其实就是指定 STORE AS 。 但是其他压缩格式是不行的比如 LZO 压缩的话必须指定 STORE AS 的 InputFormat 和 OutputFormat CREATE EXTERNAL TABLE IF NOT EXISTS hive_table_name (column_1 datatype_1......column_N datatype_N)PARTITIONED BY (partition_col_1 datatype_1 ....col_P datatype_P)ROW FORMAT DELIMITED FIELDS TERMINATED BY \tSTORED AS INPUTFORMAT \com.hadoop.mapred.DeprecatedLzoTextInputFormat\OUTPUTFORMAT \org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat\; 1.1.4、装载脚本 我们的日志数据每天都要 load 到一张新的分区表中。 load data inpath /origin_data/gmall/log/topic_log/2020-06-14 into table ods_log_inc partition(dt2020-06-14)剩下的明天补
http://www.w-s-a.com/news/282963/

相关文章:

  • wordpress网站响应很慢只有asp网站代码可以重新编译吗
  • 哪个网站教做饭做的好wordpress热点文章
  • 可以做推广东西的网站重庆网站建设 重庆网站制作
  • 珠海网站建设培训学校wordpress去版权 合法
  • 建设食品商购网站学校网站设计实验报告
  • 建个网站多少钱沭阳奥体小区做网站的
  • 广州视频网站建站公司php网页设计作业代码
  • 成都公司网站设计如何制作网址最简单的方法
  • 温州 做网站福建住房城乡建设部网站
  • 网站自动化采集成都网站设计费用
  • 广东专业网站定制建设淘宝网站的人员组织结构
  • 网站改版seo无锡有多少家公司
  • h5美食制作网站模板下载wordpress大学百度云
  • 零陵做网站建立网站的公司平台
  • 某企业电子商务网站建设网站开发实验结论
  • 自己做的网站突然打不开杭州哪些做网站公司好
  • 株洲专业建设网站免费cms内容管理系统
  • 网上建立网站赚钱网站建设方案书纯文字
  • 专业网站设计哪家好it外包合同模板
  • 个人网站备案都需要什么中小企业服务网
  • 佛山网站建设哪个在公司网站投简历该怎么做
  • 八戒网站做推广老域名全部失效请拿笔记好
  • iss服务器网站建设甘肃建设厅网站执业注册中心
  • 域名访问网站 过程网站 免费 托管运营
  • 下单的网站建设教程wordpress php7.1
  • 爱网站查询怎么做网站的图片跳转
  • 阿里云建站百度收录吗北京的设计公司排名
  • 网站制作方案包含哪些内容布吉网站建设方案
  • 吉林省建设安全信息网站宜宾市建设工程质量监督站网站
  • 镇江网站建设远航网络帝国cms 网站地图 自定义