��/��/��ţ

��

�ɻ� | Я��ƽ̨��̬��֮·

��Դ��infoqЯ�̼��

һ��

��ݵ��Ҫ�Բ��Զ��ÿ��ݹ��ʦÿ��ݣ��Щ��ռ�õĳɱ��ļ�ֵ��Σ��Լ��ڱ�֤��ȫ��ǰ��Ƿ��ܹ��Ч��ʹ�ã��ÿ��˾�ڴ��ݷ�չ��һ��׶κ󶼻��⡣��Я��漰��ҵ��߶࣬��ŶӶ࣬��ݰ�ȫ��Ч��ͨҲ��һ��ѵ㡣

��˼·

��Ϊ��ڶ��ѧ��һ��Ҳ�кܶ��ֶ��塣IBM ��Ϊ��Ǹ��ҵ��ݹܿ��ߣ��֯��Ա��̺ͼ��໥Э��ʹ��ҵ�ܹ��Ϊ�ʲ��Ӧ�á��ݲ�ɭ�ͶŲ��Ķ��壬��һ��ע�ڹ��Ϣ��һ��ԡ��ԡ��ȫ�ԺͿɵ��ԵĹ��̡��ݵ�ӵ�к͹��ְ��ء�

ͨ��Ϊ��Χ��ʲ�չ��һϵ�й��Է��֯��ΪĿ�꣬��ݹ��̡��׼��ߵļ��ϡ�

��ϣ��벻��ʲ��ĳ��ֻ�ж��к�۵ذѿء��ϸ��̽��Խ��Ҫ��м��Ų��Ҫ��Ų��ʲ�ƽ̨��Я��ʲ��ƽ̨��Ӧ�˶��Я��ϵ��Ŀ��ǿ��ÿһλ��߶Ը��ӵ�е��ݽ��г�̬��Ŀǰ�׶��ĺ��Ŀ��ݼ�ֵ��ٽ��ͨ��

��ݼ�ֵ��Ҫ��ľ��ǵͼ�ֵ��޼�ֵ��ݣ��糤��޷��ʡ��ڹ��ݡ��μ��Դ��Ľ϶��Ҫ��й��Ż��
����Ʊ��Ԫ��Ϣ��ˡ��ֲַ㡢��⡢��Ҫ�ȼ��еȼ��أ��ص��ά��ݡ�
��ͨ��ϰ�ȫ��ǰ��£��Ȩ��Ч�ʣ��ٽ��ת��

��ʵʩ

3.1 Ԫ��ݽ��

��Ҫ��ǴԪ��֡�Ԫ��һ��Ϊ��ࣺ��Ԫ��ݡ��Ԫ��ݡ��Ԫ��ݺ�ҵ��Ԫ��ݣ��ֱ��ݵ��̡��̼��ݶ��塣

��Ԫ��ݣ��洢��ݣ��Ԫ��ݡ��ֶ�Ԫ��ݵȡ�
��Ԫ��ݣ�ETL ��ݣ��Ԫ��ݡ�ִ��Ԫ��ݡ��֮��ѪԵԪ��ݵȡ�
��Ԫ��ݣ��Ϣ��־��־��Ч�ȡ�
ҵ��Ԫ��ݣ��ݱ�׼��ָ�ꡢ��ֵ䡢��ݴ��롢��ݰ�ȫ�ȡ�

�ֽ׶��Ϊ�ḻ��Ǽ��Ԫ��ݺͲ��Ԫ��ݣ� ��ЩԪ��ݾͿ��ԶԼ��/�洢�ɱ��Ԫ��ȡ��صĸ��/ͨ��ʡ��ʱ��ά��Ƚ��ͳ�Ʒ��ƽ��ר��

3.2 ר��

3.2.1 �ɱ��

��ݹ��ʦ��ע��󽻸��Դ洢��ɱ��ʶ��㡣Ŀǰ��Ŵ��ݼ�Ⱥ��ɱ��ʹ洢�ɱ�� 4��6��ͨ��ɽ�Լ��ɱ��ǧ��Ԫ��ڴ��ʲ��ƽ̨��Ͽ��ֱ�۵ؿ��ÿ��Ա��ӵ�е� Hive ��վ��洢�ɱ��վ��ɱ��Ԥ�ƽ�ʡ��ɱ��

3.2.1.1 ��ɱ�

��ɱ��Ҫ�� CPU ��Դ��ģ��ÿ�� CPU ��ʱ��ռ��ɱ��CPU ��гɱ��ݼ�Ⱥ��Ӫ��Ϊ 10 Ԫ/1M VCS��ÿ�� CPU ��ռ�õ��

��Դ��Ҫ�� ETL ��Ⱥ� Adhoc ��ѯ��ɴ��ǶԵ��͵�Ч SQL ��˹��ѡ�񲿷� BU ��Ϊ�Ե㣬��Ե��Ĵ�� 10 Ԫ�ĸ��ĵ��Ƚ��Ż��Ȼ��Щ��ĵ��ռ�� 1%��ռ��ǧ��ɱ��

�� 1��򼰽��

�� Adhoc ��ѯ��ԣ�1%�� 30 Ԫ/�Σ�13%�� 0.3 Ԫ/�Ρ�� 14%�Ĳ�ѯ��ռ��˳�һ��ɱ��߼��ҵ�񡢷��Ż��Ż�Ҳ��ȫ��ƹ㡣��糣��ļ�� MR �Ż��

1��ϲ�С�ļ�� Map ��ϲ��Map/Reduce ��ϲ��

2�� reducer ��

�� 1��hive.exec.reducers.bytes.per.reducer��Ĭ�� 1G��

�� 2��hive.exec.reducers.max��Ĭ��Ϊ 999��

reducer �ļ��㹫ʽΪ��min�� 2��/�� 1��Ҳ��ͨ�� mapred.reduce.tasks ֱ�ӿ�� reducer ��

3��ʹ��ͬ��Ӽ�� 3 �Ż�� join ʱ�� on ��ʹ��ͬ�ֶΣ��ϲ�Ϊһ�� MapReduce Job��

4��SMB��sort merge bucket join��Ŵ�� join��ҪԤ�ȸ�ÿ�Ŵ�� join ��ֶν��Ͱ��

set hive.enforce.bucketing = true; --��Ͱ��

set hive.optimize.bucketmapjoin = true;?

set hive.optimize.bucketmapjoin.sortedmerge = true;?

set hive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;?

��н��б��쳣ֵ��ɢ�򵥶��ѹ��ʸ��ִ�еȡ�

3.2.1.2 �洢�ɱ�

�洢�ɱ��ص��޷��ݺ��û��Ϊ��ݣ�UBT��ͳһ��洢��ʽΪ ORC��ȴ洢��EC �洢��ظ��Ĵ��ļ��ҵ��Ҫ��ݡ�ͨ��Щ��ֶΣ��洢�� 50%��ռ�ܴ洢�� 20%��

1�� 30 ��޷��ʱ��ĳɱ�ռ��ܴ洢�� 20%�� 99%��ʱ��Щ�޷��ʱ�� BU �ڲ��ȷ��һЩ��־��߼��ŵ��û��Ϊ��ݵ��Ҫ��ڱ��Ļ��û�м��ı��Զ�ɾ��

2��û��Ϊ��֮ǰȫ��·��ʷ��ͨ��ݵ��ڴﵽ��ɱ��Ŀ�ġ�Ϊ��޸�֪��ԭ��Ϊ��ݱ��ٴ��һ��ԭ��ͼ��ͼ�ɶ��ʱ�䷶Χ��ʹ��쳣֮��ɽ��ݱ��̡��Ż��ʡ�˴��洢�ɱ��

3��ʷ��⣬֮ǰ��ݸ�ʽδ��ȫͳһ��RCFile ռ�� 13.46%��Avro ռ�� 1.99%��ѹ��ռ�� 5.4%��ǽṹ��ռ�� 24.15%��Խ��Щ��ת��Ϊ ORC ��ʽ��ͬʱ��Ч�ʺʹ洢��

4��õ��Ҫ��ݽ��洢��洢�ĳɱ�Ϊ�ȴ洢�� 40%��ʹ�� EC ��ɽ�һ��ѹ�� 20%��洢��Ӱ��ѯ��ܣ��Ҫ��ݵ�ʹ�ó��ۺϿ��ǡ��Ż�Ҳ��ʡ�˲�С�Ĵ洢�ɱ��

3.2.2 ��淶

��Ʊ��Ԫ��Ϣ��أ�DQC��ص��ά��ı��ʱ��

1��Ԫ��Ϣ��

��Ԫ��Ϣ

Ŀǰͳ�Ƶ��ı��ֶε�Ԫ��Ϣ��ͼ��ѡȡ�� 12 ��Ҫָ��Ϊ��ά�ȵ�ͳ�ƣ��ͼ��ʷ��Ҳ�ᰴ��趨�Ľ�ֹʱ��䣬ͬʱ�½��ʽ��ϸ��ԵĹ淶��޷��

2�� DQC��ԭ��ÿ��ʽʹ�õı��Ҫ�� DQC У�飬��籣֤��ɺ��Ҫ��һ��ݲ��Ҫ��һ��ķ�Χ��ĳЩ�龳��Ҫ��Ψһ��Զ��У��У��Ϊǿ��ǿ��۶��Σ��ֹ��Ӱ�쵽��ε�ʹ�ã��ɲ��Ӱ�졣��ᴥ��ʼ��档

3��ά��Ϊ��ְת�ڵ�ԭ��Щ��ȱʧ��ʹ��һЩ��ѡ��Ƚ��ά��ϸ��Ÿ�� BU��ƶ� BU ��ȫ��Ϣ��ڿ��Դת��ϵͳ��ְ��ת��ǰ�Ὣ��µ��Դ��һ��ת�ơ�

4��ʱ��ʱ��ռ�ܱ��ı��ϸߣ��Ҫ��ȷ��ʱ��ʹ�ù淶��ֻ��Ϊ��ʱʹ�ã��Զ�ɾ��̽��Է��ϣ��ǲ��ڱ��ݴ��䡣��в��м��Ҫ��ɾ��

3.2.3 ��ͨ

��ͨ��Ҫ��ע��ǹ��ݡ��Դ�� BU ��Ŀ��̨�ṩ�ķ��ȫҵ��ݱ��磺ͳһ��ݵȡ��ص��ǿ� BU ��Ŀ��֯�ܹ��ĸı䡢��Ŀ��䶯��Դ��ԭ��Ȩ��硣

�ֽ׶ε��棺��Ҫ�� BU ֮��ͨ�ԡ��ݼ�ֵ��Ҫ��ʱ��Ȩ��硢��й¶��밲ȫ��֮��ƽ��һ��ս��Ϊ��߼��ܡ��ü��ı��α��Ȩ��Ҫ��α� owner ��ͬ��룬��һ��ǿ��ݰ�ȫ�ԡ�ͬʱ��˻��ܼ��Ĳ��컯��̡��ڸ��ܱ��ϰѿأ��ܱ��̣��ݿ��ͨ��

�ġ�ƽ̨��볣̬��

��ʲ��ƽ̨Ŀǰ��ģ�飬�ֱ��ʲ��̵㡢��ߡ��ģ��Ĺ�ϵ��ͼ��ʾ��

��ʲ��̵��Ҫ��ʲ��ݿ��壬��š�BU ��֯�͸��˵��ʲ��ɱ��ݹ��ָ�ꡣ

�ڶ��ģ��ڡ��ҵĹ��̨��ݽ��б�ݵ��Ҫ��ݶ��ǩ��ʽ��з��չʾ��

��ģ��ݽ��Ϊ��Դ��á��淶��ɹ��ݰ�ȫ�ĸ�ά�ȶ��ݵĽ��״̬��ͳ�ơ�BU �ڲ��Ҫ��ʽ��߿��Ч�ʣ��ֻ��һ��ֱ�۵�ָ�ꡣ�� BU ��ô��Ӧ�Ľ��ֺ� BU ֮��ͻ��½��Դ��ٽ��̬��ͼΪ��ݽ��

��Դ���� 7 �� CPU ��ɢϵ��ĵ��ȳɱ�ϵ�� 45 ��޷��ʱ��ɱ�ռ�ȡ�

��Դ��ý��

��淶��Ԫ��ݣ��ֲַ㡢��ˡ��Ҫ�ȼ��ߡ��еȼ��ȣ��ԡ�

��淶��

�ɹ����ʧ�ܵ��ռ�ȺͲ�ѯʱ��

�ɹ��

��ݰ�ȫ��ص㿼��ݵ�ʹ��Ƿ��ڷ��ա�

�塢�ܽ�

��һ��ȽϿ��ĸ��ÿ��˾��Ҫ��ݲ�һ��ͬһ��˾��ͬ�ķ�չ�׶��Ҳ��һ��Ҫ��߲��ϵ��չ�Ľ׶�ȷ��׶��ĺ��Ŀ�꣬�Դ��չ��

�ֽ׶��ݵĳɱ��ͨ��ά�ȵ��ص��½׶ν��и��ߵ��Ҫ��ͬʱ��ڲ��ϲ��Ҳ��һ��ݵģ��Խ��ƽ̨��ÿ��߿��Ա�ݵؽ��г�̬��Ǳؾ�֮·��

��ת��ԣ�Я�̼��ģ�ID��ctriptech��

ԭ��ӣ��ɻ� | Я��ƽ̨��̬��֮·

��: 2021-06-292021-06-29 08:00:00
��Ϊ InfoQ ��վ�ع��
�׷��ַ��https://www.infoq.cn/article/DsWYsyHAGyLtFbeTkkh5
��Ȩ��ϵ cloudcommunity@tencent.com ɾ��

��Ѷ

ɨ��

��վ�� Ⱥ

��ȡר�� 10Ԫ��ż�ȯ

˽�� ��ɻ�

�ɻ� | Я��ƽ̨��̬��֮·

һ��

��˼·

��ʵʩ

3.1 Ԫ��ݽ��

3.2 ר��

3.2.1 �ɱ��

3.2.2 ��淶

3.2.3 ��ͨ

�ġ�ƽ̨��볣̬��

�塢�ܽ�

��Ѷ

ɨ��

��

�

��Դ

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�

�ɻ� | Я��ƽ̨����̬����������֮·

һ������

��������˼·

��������ʵʩ

3.1 Ԫ���ݽ���

3.2 ר������

3.2.1 �ɱ�����

3.2.2 �����淶

3.2.3 ������ͨ

�ġ�ƽ̨���볣̬��

�塢�ܽ�

�����Ѷ

����

�

��Դ

����

��Ѷ�ƿ�����

���Ų�Ʒ

�����Ƽ�

�����Ƽ�

�ɻ� | Я��ƽ̨��̬��֮·

һ��

��˼·

��ʵʩ

3.1 Ԫ��ݽ��

3.2 ר��

3.2.1 �ɱ��

3.2.2 ��淶

3.2.3 ��ͨ

�ġ�ƽ̨��볣̬��

��Ѷ

��

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�