书法网站模版,网站建设报价模块,钦州做网站的公司,国家住房和城乡建设局网站目录
Hive优化
1、开启本地模式
2、explain分析SQL语句
3、修改Fetch操作
4、开启hive的严格模式【提高了安全性】
5、JVM重用
6、分区、分桶以及压缩
7、合理设置map和reduce的数量
合理设置map数量#xff1a;
设置合理的reducer的个数
8、设置并行执行
9、CBO优…目录
Hive优化
1、开启本地模式
2、explain分析SQL语句
3、修改Fetch操作
4、开启hive的严格模式【提高了安全性】
5、JVM重用
6、分区、分桶以及压缩
7、合理设置map和reduce的数量
合理设置map数量
设置合理的reducer的个数
8、设置并行执行
9、CBO优化-成本优化器
10、谓词下推
11、小表Join大表-使用MapJoin
12、大表和大表 SMB Join
13、可以在hive表上创建索引【了解】
14、列裁剪与分区裁剪
15、避免数据倾斜(一般单独问)
1、数据倾斜的表现
2、出现的原因
1数据类型不一致造成数据倾斜
2数据中出现大量的null值
3单表group by 出现数据倾斜
第一种方案使用参数优化
第二种方案增加Reduce数量
4多表join出现数据倾斜
解决方案一使用参数解决
第二种解决方案大小表join
第三种解决方案大表大表join Hive优化
大数据的学习
1、学习工具及其原理50%~70%
2、学习重要的java、scala、python、sql[mysql\hivesql\sparksql\flink sql](30%~40%)
1、开启本地模式
大多数的Hadoop Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过有时Hive的输入数据量是非常小的。在这种情况下为查询触发执行任务消耗的时间可能会比实际job的执行时间要多的多。对于大多数这种情况Hive可以通过本地模式在单台机器上处理所有的任务。对于小数据集执行时间可以明显被缩短。用户可以通过设置hive.exec.mode.local.auto的值为true来让Hive在适当的时候自动启动这个优化。
set hive.exec.mode.local.autotrue;
//开启本地mr
//设置local mr的最大输入数据量当输入数据量小于这个值时采用local mr的方式默认为134217728即128M
set hive.exec.mode.local.auto.inputbytes.max50000000;
//设置local mr的最大输入文件个数当输入文件个数小于这个值时采用local mr的方式默认为4
set hive.exec.mode.local.auto.input.files.max10;
2、explain分析SQL语句
explain只有对hql语句的解释。Hive SQL
Explain extended对hql语句的解释以及抽象表达式树的生成
explain select * from emp;
explain extended select * from emp;
explain select deptno, avg(salary) avg_sal from emp group by deptno;
打印结果如下
STAGE DEPENDENCIES:-- 此处表示这个sql分为两步执行第一步Stage-1 第二步Stage-0Stage-0依赖于Stage-1Stage-1 is a root stageStage-0 depends on stages: Stage-1STAGE PLANS:-- 执行第一步Stage: Stage-1Map Reduce -- 执行了MR任务Map Operator Tree:-- Map阶段执行的任务树TableScan -- 扫描表alias: empStatistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONESelect Operator -- 查询两个字段salary 和 deptnoexpressions: salary (type: int), deptno (type: int)outputColumnNames: salary, deptnoStatistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONE-- 分组操作Group By Operator-- 聚合操作 算出总的薪水和薪水的总个数aggregations: sum(salary), count(salary)keys: deptno (type: int)mode: hashoutputColumnNames: _col0, _col1, _col2Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONEReduce Output Operator -- 输出操作key expressions: _col0 (type: int)sort order: Map-reduce partition columns: _col0 (type: int)Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONEvalue expressions: _col1 (type: bigint), _col2 (type: bigint)Execution mode: vectorizedReduce Operator Tree: -- Reduce操作的树Group By Operatoraggregations: sum(VALUE._col0), count(VALUE._col1)keys: KEY._col0 (type: int)mode: mergepartialoutputColumnNames: _col0, _col1, _col2Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONESelect Operatorexpressions: _col0 (type: int), (_col1 / _col2) (type: double)outputColumnNames: _col0, _col1Statistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONEFile Output Operatorcompressed: falseStatistics: Num rows: 1 Data size: 0 Basic stats: PARTIAL Column stats: NONEtable:input format: org.apache.hadoop.mapred.SequenceFileInputFormatoutput format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormatserde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDeStage: Stage-0 -- 执行Stage-0 Fetch Operator --执行抓取操作limit: -1 --没有什么限制Processor Tree:ListSinkTime taken: 0.79 seconds, Fetched: 53 row(s)
1stage 相当于一个job一个stage可以是limit、也可以是一个子查询、也可以是group by等。
2hive默认一次只执行一个stage但是如果stage之间没有相互依赖将可以并行执行。
3任务越复杂hql代码越复杂stage越多运行的时间一般越长。
我们可以通过explain关键字来分析一个语句但作为一个初学者只需要知道可以通过explain分析即可没有必要每一个语句都分析分析而是应该把重心放在hql语句的业务编写上。
3、修改Fetch操作
Fetch抓取是指Hive中对某些情况的查询可以不必使用MapReduce计算。
例如
SELECT * FROM employees;
在这种情况下Hive可以简单地读取employee对应的存储目录下的文件然后输出查询结果到控制台。
在hive-default.xml.template【hive-site.xml】文件中hive.fetch.task.conversion默认是more老版本hive默认是minimal该属性修改为more以后在全局查找、字段查找、limit查找等都不走mapreduce。
propertynamehive.fetch.task.conversion/namevaluemore/valuedescriptionExpects one of [none, minimal, more].Some select queries can be converted to single FETCH task minimizing latency.Currently the query should be single sourced not having any subquery and should not have any aggregations or distincts (which incurs RS), lateral views and joins.0. none : disable hive.fetch.task.conversion1. minimal : SELECT STAR, FILTER on partition columns, LIMIT only2. more : SELECT, FILTER, LIMIT only (support TABLESAMPLE and virtual columns)/description
/property
举例说明
hive (default) set hive.fetch.task.conversionnone;
hive (default) select * from emp;
hive (default) select ename from emp;
hive (default) select ename from emp limit 3;1把hive.fetch.task.conversion设置成none然后执行查询语句都会执行mapreduce程序。
2把hive.fetch.task.conversion设置成more然后执行查询语句如下查询方式都不会执行mapreduce程序。
4、开启hive的严格模式【提高了安全性】
防止写的烂sql影响集群比如 select * from emp;
开启严格模式以后以下情况多报SQL错误
1分区表不使用分区过滤
select * from emp where day20231001
2) 使用order by没有limit过滤
3) 笛卡尔积不允许出现 select * from emp,dept ;
5、JVM重用
Hadoop中有个参数是mapred.job.reuse.jvm.num.tasks默认是1表示一个JVM上最多可以顺序执行的task数目属于同一个Job是1。也就是说一个task启一个JVM 这样JVM的效率就比较低需要JVM重用。
比如编写了一个sql语句启动多少个mapTask多少个reduceTask,取决于数据量的大小。
假如启动了100个MapTask,50个ReduceTask, 如果每一个task都启动一个jvm虚拟机的话开启和关闭虚拟机需要消耗时间的。jvm重用就是一个虚拟机开启以后执行多个task任务再关闭。大大提高执行效率。
propertynamemapreduce.job.jvm.numtasks/namevalue10/valuedescriptionHow many tasks to run per jvm. If set to -1, there is no limit. /description
/property
也可以通过set mapred.job.reuse.jvm.num.tasks10;进行设置
6、分区、分桶以及压缩
7、合理设置map和reduce的数量
合理设置map数量
1通常情况下作业会通过input的目录产生一个或者多个map任务。
主要的决定因素有input的文件总个数input的文件大小集群设置的文件块大小。
一个文件不够128M它不是一个片儿吗 是一个片 -- map任务
一个文件很大被切割为了好几个片儿是不是一个片儿对应一个map任务。
2map数不是越多越好
如果一个任务有很多小文件远远小于块大小128m则每个小文件也会被当做一个 片儿用一个map任务来完成而一个map任务启动和初始化的时间远远大于逻辑处理的时间就会造成很大的资源浪费。而且同时可执行的map数是受限的。这种情况下就需要减少map数量
3每个map处理接近128m的文件块也不一定就算完美
比如有一个127m的文件正常会用一个map去完成但这个文件只有一个或者两个小字段却有几千万的记录如果map处理的逻辑比较复杂用一个map任务去做肯定也比较耗时。这种情况下就需要增加map数量。
4复杂文件增加Map数
当input的文件都很大任务逻辑复杂map执行非常慢的时候可以考虑增加Map数来使得每个map处理的数据量减少从而提高任务的执行效率。
增加map的方法为根据
computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))blocksize128M公式调整maxSize最大值。即 让最大切片值maxSize最大值低于blocksize就可以增加map的个数。
maxSize 256M
minSize 1字节
blocksize 128M
Math.max(minSize,Math.min(maxSize,blocksize) 128M
500M-- 128M -- 4 个 map 任务
500M -- 86M -- 大于 4所以 map 数量增加了
将这个结果变小 -- map数量变多了
Math.max(minSize,Math.min(maxSize,blocksize) 86M
修改maxSize ,让其小于blocksize 大于minSize
maxSize 86M
将这个结果变大 -- map数量变少了
修改minSize ,让其大于blocksize 小于maxSize
minSize 200M
Math.max(minSize,Math.min(maxSize,blocksize) 200M
假如一个任务的数量是500M一个片假如是128M的话就启动4个map任务
假如一个片假如是64M就启动8个map任务所以片的大小可以决定map的数量。
实战一下
比如hive (default) select count(*) from emp;
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1
只有一个Map任务
设置最大切片值为100个字节
hive (default) set mapreduce.input.fileinputformat.split.maxsize100;
hive (default) select count(*) from emp;
发现map任务数变为了6个。
Hadoop job information for Stage-1: number of mappers: 6; number of reducers: 1
开启小文件进行合并
1在map执行前合并小文件减少map数CombineHiveInputFormat具有对小文件进行合并的功能系统默认的格式。HiveInputFormat没有对小文件合并功能。
set hive.input.format org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
2在Map-Reduce的任务结束时合并小文件的设置
在map-only任务结束时合并小文件默认true
SET hive.merge.mapfiles true;
在map-reduce任务结束时合并小文件默认false
SET hive.merge.mapredfiles true;
合并文件的大小默认256M
SET hive.merge.size.per.task 268435456;
当输出文件的平均大小小于该值时启动一个独立的map-reduce任务进行文件merge
SET hive.merge.smallfiles.avgsize 16777216;
设置合理的reducer的个数
1调整reduce个数方法一
1每个Reduce处理的数据量默认是256MB
hive.exec.reducers.bytes.per.reducer256000000
2每个任务最大的reduce数默认为1009
hive.exec.reducers.max1009
3计算reducer数的公式
Nmin(参数2总输入数据量/参数1)举例假如数据量是512M
默认启动 512/256 2
假如我想启动更多的reduce怎么办
可以修改参数1 为 128M ,或者直接修改 参数2 3 最后启动reduce的数量为3。2调整reduce个数方法二
在hadoop的mapred-default.xml文件中修改
设置每个job的Reduce个数
set mapreduce.job.reduces 15;reduce个数并不是越多越好
1过多的启动和初始化reduce也会消耗时间和资源
2另外有多少个reduce就会有多少个输出文件如果生成了很多个小文件那么如果这些小文件作为下一个任务的输入则也会出现小文件过多的问题
8、设置并行执行
hive会将一个查询转化成一个或者多个阶段Stage。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。或者Hive执行过程中可能需要的其他阶段。默认情况下Hive一次只会执行一个阶段。不过某个特定的job可能包含众多的阶段而这些阶段可能并非完全互相依赖的也就是说有些阶段是可以并行执行的这样可能使得整个job的执行时间缩短。不过如果有更多的阶段可以并行执行那么job可能就越快完成。通过设置参数hive.exec.parallel值为true就可以开启并发执行。不过在共享集群中需要注意下如果job中并行阶段增多那么集群利用率就会增加.
set hive.exec.paralleltrue; //打开任务并行执行
set hive.exec.parallel.thread.number16; //同一个sql允许最大并行度默认为8。
设置该并行执行的前提是集群的资源利用率不高的情况下。
9、CBO优化-成本优化器
select a., b., c.* from a join b on a.id b.id join c on b.tt c.tt; Hive 自 0.14.0 开始加入了一项 Cost based Optimizer ,简称CBO来对 HQL 执行计划进行优化这个功能通过 hive.cbo.enable 来开启。在 Hive 1.1.0 之后这个属性是默认开启的它可以自动优化HQL中多个Join的顺序并选择合适的Join算法。CBO成本优化器代价最小的执行计划就是最好的执行计划。传统的数据库成本优化器做出最优化的执行计划是依据统计信息来计算的。
实战
set hive.cbo.enabletrue;
set hive.compute.query.using.statstrue;
set hive.stats.fetch.column.statstrue;
set hive.stats.fetch.partition.statstrue;这个设置在Hive 3.0.0以后就被删除了
10、谓词下推
所谓的谓词下推就是将where条件提前执行比如先执行where过滤数据在进行join关联表的表。
比如 student teacher 关联 假如只需要男生的数据可以先过滤出来男生在跟teacher表关联概念所谓的谓词简单理解为where后面的条件所谓谓词下推就是保证结果正确的前提下将SQL语句中的where谓词逻辑都尽可能提前执行减少下游处理的数据量。操作对应逻辑优化器是PredicatePushDown配置项为hive.optimize.ppd默认为true。好处通过谓词下推过滤条件将在map端提前执行减少了map端的输出降低了数据IO节约资源提升性能。
举例说明
-- 创建一个大表
create table bigtable(id bigint, t bigint, uid string, keyword string, url_rank int, click_num int, click_url string) row format delimited fields terminated by \t;-- 导入数据load data local inpath /home/hivedata/bigtable into table bigtable;--打开谓词下推优化属性
hive set hive.optimize.ppd true; #谓词下推默认是true-- 测试先关联两张表再用where条件过滤
hive select o.id from bigtable b join bigtable o on o.id b.id where o.id 10;
Time taken: 3.648 seconds, Fetched: 1081 row(s)
-- 通过子查询后再关联表
hive select b.id from bigtable b join (select id from bigtable where id 10 ) o on b.id o.id;
Time taken: 2.675 seconds, Fetched: 1081 row(s)
11、小表Join大表-使用MapJoin
小表Join大表Map Join 小表缓存并发送到各个节点没有Shuffle的过程 将key相对分散并且数据量小的表放在join的左边这样可以有效减少内存溢出错误发生的几率再进一步可以使用map join让小的维度表1000条以下的记录条数先进内存。在map端完成join.如果不指定MapJoin或者不符合MapJoin的条件那么Hive解析器会将Join操作转换成Common Join即在Reduce阶段完成Join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在Map端进行Join避免Reducer处理。总结
1mapjoin --只有map没有reduce,当然也不会有shuffle
2) common join shuffle join : 就是普通的join走MR程序select * from dept join emp on emp.detpno dept.deptno;
实战
实战设置
1设置自动选择Mapjoin
set hive.auto.convert.join true; 默认为true
2大表小表的阈值设置默认25M以下认为是小表
set hive.mapjoin.smalltable.filesize 25000000;一般情况下小表放在join的左边大表放右边但是新版本的hive放左放右无所谓了它会自动优化。hive的查询永远是小表(结果集)驱动大表(结果集)
hive中的on的条件只能是等值连接。
12、大表和大表 SMB Join
SMB sort merge bucket join
hive 的三种join
1、ReduceJoin 也叫 Common Join、Shuffle Join
2. MapJoin
3. Sort Merge Bucket Join(分桶表Join)
-- 再创建一个大表
hive(default) create table bigtable2(id bigint,t bigint,uid string,keyword string,url_rank int,click_num int,click_url string)
row format delimited fields terminated by \t;
-- 加载数据
hive(default) load data local inpath /home/hivedata/bigtable into table bigtable2;-- 创建join表
create table jointable(id bigint, t bigint, uid string, keyword string, url_rank int, click_num int, click_url string) row format delimited fields terminated by \t;
-- 测试两个大表直接join: 此处花费时间非常的长
insert overwrite table jointable
select b.id, b.t, b.uid, b.keyword, b.url_rank, b.click_num, b.click_url
from bigtable s
join bigtable2 b
on b.id s.id;-- 创建两个分桶表并导入数据
create table bigtable_buck1(id bigint,t bigint,uid string,keyword string,url_rank int,click_num int,click_url string)
clustered by(id)
sorted by(id)
into 2 buckets -- 桶的个数和CPU核数和Reduce数需要一致
row format delimited fields terminated by \t;
-- 导入第一个分桶表insert into bigtable_buck1 select * from bigtable;
-- 创建第二个分桶表
create table bigtable_buck2 like bigtable_buck1;
-- 导入数据
insert into bigtable_buck2 select * from bigtable;
--开启SMB设置
hive set hive.optimize.bucketmapjoin true;
hive set hive.optimize.bucketmapjoin.sortedmerge true;
hive set hive.input.formatorg.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;
-- 两张大表关联
hive insert overwrite table jointable
select b.id, b.t, b.uid, b.keyword, b.url_rank, b.click_num, b.click_url
from bigtable_buck1 s
join bigtable_buck2 b
on b.id s.id;
-- 对比两种方式总耗时时间前提是需要进行分布式计算不要在伪分布或本地模式下计算。
假如有两个大表如何join速度快就是创建两个分桶表表把大表的数据导入进去然后让分桶表和分桶表进行join速度会快当然在执行之前需要开启smb join的设置。
13、可以在hive表上创建索引【了解】
索引其实就是作用在数据库的一种算法以mysql为例
create table stu(id int,name varchar(20),INDEX idx_name (id)
)在某一个或者多个字段上添加索引好处就是假如你的sql语句使用到了索引字段查询速度会很快
总而言之好处是提高查询效率。不加索引是自行车加了索引是火箭索引不是越多越好而是根据实际情况而定
1、经常查询的字段加索引
2、多个表经常关联的字段加索引select * from emp ,dept where emp.deptno dept.deptno;
3、主键天然是索引
4、一个表中假如有20个字段的话最多4~5个字段加索引。添加索引查询速度变快插入速度变慢 CREATE INDEX index_student2_class_id
ON TABLE student2 (class_id)
AS org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler
WITH DEFERRED REBUILD
IDXPROPERTIES (creator bigdata,created_at 2023-02-22 18:00:00)
IN TABLE INDEX index_student2_class_id_table
COMMENT index_student2;假如以后的sql语句中出现class_id 查询速度就变快了。
还需要进行设置才可以使用
SET hive.input.formatorg.apache.hadoop.hive.ql.io.HiveInputFormat;
SET hive.optimize.index.filtertrue;hive的索引仅供参考因为hive在3.0版本已经被删除参考文献https://cwiki.apache.org/confluence/display/Hive/LanguageManualIndexing#LanguageManualIndexing-IndexingIsRemovedsince3.0
14、列裁剪与分区裁剪
sql语句在进行查询的时候不要全部查询使用哪个字段就查询哪个字段不要动不动就 * ;
需要哪个分区就查询哪个分区不要全查。列裁剪就是在查询时只读取需要的列分区裁剪就是只读取需要的分区。当列很多或者数据量很大时如果 select * 或者不指定分区全列扫描和全表扫描效率都很低。 Hive 在读数据的时候可以只读取查询中所需要用到的列而忽略其他的列。这样做可以节省读取开销中间表存储开销和数据整合开销。
-- 列裁剪
select name,age from emp;
-- 分区裁剪
select * from emp where dept技术部;
15、避免数据倾斜(一般单独问)
1、数据倾斜的表现
数据倾斜是由于数据分布不均匀造成数据大量的集中到一点造成数据热点的现象。主要表现任务进度长时间维持在 99%或者 100%的附近查看任务监控页面发现只有少量 reduce 子任务未完成因为其处理的数据量和其他的 reduce 差异过大。 单一 reduce 处理的记录数和平均记录数相差太大通常达到好几倍之多最长时间远大于平均时长。
2、出现的原因
其实数据倾斜这个问题在MapReduce编程模型中十分常见根本原因就是大量相同的key被分配到一个reduce里造成一个reduce任务处理不过来但是其他的reduce任务没有数据可以处理。下面罗列一下常见的数据倾斜有哪些原因 1数据类型不一致造成数据倾斜
情形比如用户表users中user_id字段为intlogs表中user_id字段string类型。当按照user_id进行两个表的Join操作时。解决方式把数字类型转换成字符串类型select * from users a
left outer join logs b
on a.usr_id cast(b.user_id as int)
2数据中出现大量的null值
统计 a-p 放入一个文件 100q-z 另一个文件中 200其他类型 放入第三个文件中 100万
分为两种情况第一种情况null值是异常值就不应该出现比如 userId 出现 null
比如一个员工表中员工的姓名为null一个银行系统表中没有银行卡号null.
对于异常值如果不需要的话最好是提前在where条件里过滤掉这样可以使计算量大大减少。
实战
-- 处理方式是在left join 前直接通过where条件过滤掉
select n.* from (select * from nullidtable where id is not null) n
left join bigtable o on n.id o.id;
第二种情况出现null的数据不是异常数据需要保留。【麻烦了】
虽然某个 key 为空对应的数据很多但是相应的数据不是异常数据必须要包含在join 的结果中此时我们可以表 a 中 key 为空的字段赋一个随机的值使得数据随机均匀地分不到不同的 reducer 上。
实战一下
-- 设置reducer数量
set mapreduce.job.reduces 5;
-- 解决方案是给null值产生随机数
本来是真么写的出现倾斜
-- 设置reducer数量
set mapreduce.job.reduces 5;
-- 解决方案是给null值产生随机数
select n.* from nullidtable n full join bigtable o on nvl(n.id,rand()) o.id;
select n.* from nullidtable n full join bigtable o on n.id o.id;
修改
-- 设置reducer数量
set mapreduce.job.reduces 5;
-- 解决方案是给null值产生随机数
hive (default) select rand();
OK
_c0
0.7662188287998238select n.* from nullidtable n full join bigtable o on n.id o.id;
select n.* from nullidtable n full join bigtable o on nvl(n.id,rand()) o.id;以上两条数据查询的结果是一样的。思考
本来 n id null 不可能等于 o.id ,因为 o.id(正整数 1 2 3 4 5 1000等)
3单表group by 出现数据倾斜
导致数据倾斜的主要原因在于按照 Key 分组以后少量的任务负责绝大部分数据
的计算也就是说产生数据倾斜的 HQL 中一定存在分组操作那么从 HQL 的角度我们可以将数据倾斜分为单表携带了 GroupBy 字段的查询和两表或者多表Join 的查询。
解决方案
第一种方案使用参数优化
当任务中存在group by操作同时聚合函数为count或者sum可以设置参数来处理数据倾斜的问题。 并不是所有的聚合操作都需要在Reduce端完成很多聚合操作都可以先在Map端进行部分聚合最后在Reduce端得出最终结果。突然让我们想起了Combine操作就是运行在map端的reduce.
1、是否在Map端进行聚合默认为True
hive(default) set hive.map.aggr true
2、在Map端进行聚合操作的条目数目
hive(default) set hive.groupby.mapaggr.checkinterval 100000
3、有数据倾斜的时候进行负载均衡默认是false
hive(default) set hive.groupby.skewindata true
4、当开启数据负载均衡时生成的查询计划会有两个MRJob。
第一个MRJob中Map的输出结果会随机分布到Reduce中每个Reduce做部分聚合操作并输出结果这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce中从而达到负载均衡的目的
第二个MRJob再根据预处理的数据结果按照Group By Key分布到Reduce中这个过程可以保证相同的Group By Key被分布到同一个Reduce中最后完成最终的聚合操作. select sex,count(sex) from student group by sex;
第二种方案增加Reduce数量
当数据中的多个key同时导致数据倾斜可以通过增加reduce的数量解决数据倾斜问题
1调整Reduce个数方法1
① 每个Reduce处理的数据量默认是256MB
hive(default) set hive.exec.reducers.bytes.per.reducer256000000
② 每个任务最大的reduce数默认为1009
hive(default) set hive.exec.reducers.max1009
③ 计算reducer数的公式
Nmin(参数2总输入数据量/参数1)
2调整Reduce个数方法2
通过参数配置的方式三种直接指定reduce的个数参数mapreduce.job.reduces。
hive(default) set mapreduce.job.reduces 15;
4多表join出现数据倾斜
解决方案一使用参数解决
在编写 Join 查询语句时如果确定是由于 join 出现的数据倾斜那么请做如下设置
select * from emp a join dept b on a.deptno b.detpno;#join的键对应的记录条数超过这个值则会进行拆分值根据具体数据量设置
set hive.skewjoin.key100000;
# 如果是join过程出现倾斜应该设置为true
set hive.optimize.skewjoinfalse;
如果开启了在Join过程中Hive会将计数超过阈值hive.skewjoin.key默认100000的倾斜key对应的行临时写进文件中然后再启动另一个job做map join生成结果。
通过 hive.skewjoin.mapjoin.map.tasks参数还可以控制第二个job的mapper数量默认10000。
set hive.skewjoin.mapjoin.map.tasks10000;
第二种解决方案大小表join
可以使用MapJoin没有Reduce阶段就不会出现数据倾斜参考11.
还可以使用大表打散小表扩容的手段解决。
具体如下首先看如下数据 从上面的图可以得知数据出现了倾斜。
使用大表打散小表扩容
方案 实操一下
-- reduce个数设置为3个
hive set mapreduce.job.reduces3;
-- mapjoin关闭否则会走mapjoin优化看不到效果
hive set hive.auto.convert.joinfalse;
创建两个表
create table student2(class_id int,name string
)
row format delimited
fields terminated by ,
tblproperties(bucketing_version3);create table class(id int,class_name string
)
row format delimited
fields terminated by ,
tblproperties(bucketing_version3);tblproperties设置表的属性一般存放一些不太重要的数据比如作者创建日期等
bucketing_version3不是将数据分为三个桶而是底层使用到了桶技术可以帮助我们提高查询效率。删除也不影响。
导入数据
student2.txt
10,张同学
10,李同学
10,王同学
10,闫同学
10,赵同学
10,米同学
11,杜同学
12,马同学class.txt
10,bigdata2201
11,bigdata2202
12,bigdata2203load data local inpath /home/hivedata/student2.txt overwrite into table student2;
load data local inpath /home/hivedata/class.txt overwrite into table class;
优化前的现象
-- 优化前
insert overwrite local directory /home/hivedata/out/test01
row format delimited fields terminated by \t
select s.class_id,s.name,c.class_namefrom student2 sjoin class c on s.class_id c.id;
--查看运行结果发现数据倾斜
[rootbigdata01 test01]# cat 000000_0
12 马同学 bigdata2203
[rootbigdata01 test01]# cat 000001_0
10 米同学 bigdata2201
10 赵同学 bigdata2201
10 闫同学 bigdata2201
10 王同学 bigdata2201
10 李同学 bigdata2201
10 张同学 bigdata2201
[rootbigdata01 test01]# cat 000002_0
11 杜同学 bigdata2202
优化方案实战
-- 给每一个class_id 随机添加值 0 1 2
hive (qfdb) select *,concat(class_id,_,floor(rand()*10)%3) pin_id from student2;
OK
10 张同学 10_0
10 李同学 10_0
10 王同学 10_1
10 闫同学 10_1
10 赵同学 10_2
10 米同学 10_0
11 杜同学 11_1
12 马同学 12_2
Time taken: 0.493 seconds, Fetched: 8 row(s)
-- 创建新表
-- 大表打散
create table student_testtblproperties(bucketing_version3)as select *,concat(class_id,_,floor(rand()*10)%3) pin_id from student2;-- 小表扩容create table class_test tblproperties(bucketing_version3)as select *,concat(id,_,0) pin_id from classunion allselect *,concat(id,_,1) pin_id from classunion allselect *,concat(id,_,2) pin_id from class;-- 重新joininsert overwrite local directory /home/hivedata/out/test02row format delimited fields terminated by \t
select s.class_id,s.name,c.class_name,c.pin_id,hash(c.pin_id)%3 parNumfrom student_test sjoin class_test c on s.pin_id c.pin_id;-- 查看结果[rootbigdata01 test02]# cat 000000_0
10 闫同学 bigdata2201 10_0 0
10 李同学 bigdata2201 10_0 0
11 杜同学 bigdata2202 11_2 0
12 马同学 bigdata2203 12_1 0
[rootbigdata01 test02]# cat 000001_0
10 张同学 bigdata2201 10_1 1
[rootbigdata01 test02]# cat 000002_0
10 米同学 bigdata2201 10_2 2
10 赵同学 bigdata2201 10_2 2
10 王同学 bigdata2201 10_2 2
-- 由于每次随机的学生的id不尽相同结果也略有不同
第三种解决方案大表大表join
使用smb join解决具体参考第12项。