Hive でサポートされているファイル形式と圧縮アルゴリズム

[[194194]]

概要

正しいファイルタイプと圧縮タイプ (Textfile+Gzip、SequenceFile+Snappy など) が構成されている限り、Hive は期待どおりにデータを読み取って解析し、SQL 関数を提供できます。

SequenceFile 自体の構造はコンテンツを圧縮するように設計されています。したがって、SequenceFile ファイルの圧縮では、最初に SequenceFile ファイルを生成してからファイルを圧縮する必要はありません。代わりに、SequenceFile ファイルを生成するときに、コンテンツフィールドが圧縮されます。最終圧縮後も、外部には SequenceFile として表示されます。

RCFile、ORCFile、Parquet、Avro は、SequenceFile と同じ方法で圧縮を処理します。

ファイル形式

テキストファイル
シーケンスファイル
RCファイル
ORCファイル
寄木細工
アブロ

圧縮アルゴリズムコーデック

テキストファイル

--テキスト ファイル形式でテーブルを作成します。  
外部テーブルstudent_text (id 文字列、 name文字列)を作成します。
行の区切り形式
    フィールド終了  ','   
    終了した回線  '\n'  
テキストファイルとして保存されます。
 --このテーブルにデータをインポートし、MRタスクを開始します 
 INSERT OVERWRITE TABLE student_text SELECT * FROM student;

生成されたデータファイルの形式は、圧縮されていないテキストファイルであることがわかります。

 hdfs dfs -cat /ユーザー/hive/warehouse/student_text/000000_0 
 
 1001810081,チェヨ
1001810082,pku
 1001810083,ロッキー
1001810084、スティーブン
2002820081、SQL
 2002820082、こんにちは
2002820083,ヒジ
3001810081、ああああああ
3001810082、あぶぶぶ

テキストファイル、DEFLATE圧縮

--ファイル形式でテーブルを作成します。  
作成する テーブルstudent_text_def (id 文字列、名前文字列)
行の区切り形式
    フィールド終了  ','  
    終了した回線  '\n'  
テキストファイルとして保存されます。
 --圧縮タイプをGzip圧縮に設定する 
 hive.exec.compress.outputをtrueに設定します。
 mapred.output.compress = true に設定する;
 mapredを設定します。出力.compression.codec=org.apache.hadoop.io.compress.DefaultCodec;
 --データのインポート:  
 INSERT OVERWRITE TABLE student_text_def SELECT * FROM student;
 --データを表示 
 student_text_defから*を選択します。

データファイルを見ると、データファイルが複数の .deflate ファイルであることがわかります。

 hdfs dfs -ls /ユーザー/hive/warehouse/student_text_def/
 -rw-r --r-- 2015-09-16 12:48 /user/hive/warehouse/student_text_def/000000_0.deflate  
 -rw-r --r-- 2015-09-16 12:48 /user/hive/warehouse/student_text_def/000001_0.deflate  
 -rw-r --r-- 2015-09-16 12:48 /user/hive/warehouse/student_text_def/000002_0.deflate

テキストファイル、Gzip圧縮

--ファイル形式でテーブルを作成します。  
作成する テーブルstudent_text_gzip (id 文字列、名前文字列)
行の区切り形式
    フィールド終了  ','  
    終了した回線  '\n'  
テキストファイルとして保存されます。
 --圧縮タイプをGzip圧縮に設定する 
 hive.exec.compress.outputをtrueに設定します。
 mapred.output.compress = true に設定する;
 mapredを設定します。出力.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
 --データのインポート:  
 INSERT OVERWRITE TABLE student_text_gzip SELECT * FROM student;
 --データを表示 
 student_text_gzipから*を選択します。

データファイルを確認すると、データファイルが複数の .gz ファイルであることがわかります。 .gz ファイルを解凍すると、プレーンテキストが表示されます。

 hdfs dfs -ls /ユーザー/hive/warehouse/student_text_gzip/
 -rw-r --r-- 2015-09-15 10:03 /user/hive/warehouse/student_text_gzip/000000_0.gz  
 -rw-r --r-- 2015-09-15 10:03 /user/hive/warehouse/student_text_gzip/000001_0.gz  
 -rw-r --r-- 2015-09-15 10:03 /user/hive/warehouse/student_text_gzip/000002_0.gz

テキストファイル、Bzip2 圧縮

--ファイル形式でテーブルを作成します。  
作成する テーブルstudent_text_bzip2 (id 文字列、名前 文字列)
行の区切り形式
    フィールド終了  ','  
    終了した回線  '\n'  
テキストファイルとして保存されます。
 --圧縮タイプを Bzip2 圧縮に設定します。  
 hive.exec.compress.outputをtrueに設定します。
 mapred.output.compress = true に設定する;
 mapredを設定します。出力.compression.codec=org.apache.hadoop.io.compress.BZip2Codec;
 --データのインポート 
 INSERT OVERWRITE TABLE student_text_bzip2 SELECT * FROM student;
 --データを表示:  
 student_text_bzip2から*を選択します。

データファイルを表示すると、データファイルが複数の .bz2 ファイルであることがわかります。 .bz2 ファイルを解凍すると、プレーンテキストが表示されます。

 hdfs dfs -ls /ユーザー/hive/warehouse/student_text_bzip2
 -rw-r --r-- 2015-09-15 10:09 /user/hive/warehouse/student_text_bzip2/000000_0.bz2  
 -rw-r --r-- 2015-09-15 10:09 /user/hive/warehouse/student_text_bzip2/000001_0.bz2  
 -rw-r --r-- 2015-09-15 10:09 /user/hive/warehouse/student_text_bzip2/000002_0.bz2

テキストファイル、LZO圧縮

--テーブルを作成 
作成する テーブルstudent_text_lzo (id 文字列、名前文字列)
行の区切り形式
    フィールド終了  ','  
    終了した回線  '\n'  
テキストファイルとして保存されます。
 --LZO圧縮に設定 
 hive.exec.compress.outputをtrueに設定します。
 mapred.output.compress = true に設定する;
 mapredを設定します。出力.compression.codec=com.hadoop.compression.lzo.LzopCodec;
 --データのインポート 
 INSERT OVERWRITE TABLE student_text_lzo SELECT * FROM student;
 --クエリデータ 
 student_text_lzoから*を選択します。

データファイルを確認すると、データファイルが複数の .lzo ファイルに圧縮されていることがわかります。 .lzo ファイルを解凍すると、プレーンテキストが表示されます。

テストされていません。lzop ライブラリをインストールする必要があります。

テキストファイル、lz4 圧縮

--テーブルを作成 
作成する テーブルstudent_text_lz4 (id 文字列、名前文字列)
行の区切り形式
    フィールド終了  ','  
    終了した回線  '\n'  
テキストファイルとして保存されます。
 --LZ4圧縮に設定 
 hive.exec.compress.outputをtrueに設定します。
 mapred.output.compress = true に設定する;
 mapredを設定します。出力.compression.codec=org.apache.hadoop.io.compress.Lz4Codec;
 --データのインポート 
 INSERT OVERWRITE TABLE student_text_lz4 SELECT * FROM student;

データファイルを見ると、データファイルが複数の .lz4 ファイルに圧縮されていることがわかります。 cat を使用して .lz4 ファイルを表示すると、圧縮されたテキストであることがわかります。

 hdfs dfs -ls /ユーザー/hive/warehouse/student_text_lz4
 -rw-r --r-- 2015-09-16 12:06 /user/hive/warehouse/student_text_lz4/000000_0.lz4  
 -rw-r --r-- 2015-09-16 12:06 /user/hive/warehouse/student_text_lz4/000001_0.lz4  
 -rw-r --r-- 2015-09-16 12:06 /user/hive/warehouse/student_text_lz4/000002_0.lz4

テキストファイル、Snappy圧縮

--テーブルを作成 
作成する テーブルstudent_text_snappy (id 文字列、名前文字列)
行の区切り形式
    フィールド終了  ','  
    終了した回線  '\n'  
テキストファイルとして保存されます。
 --圧縮を設定する 
 hive.exec.compress.outputをtrueに設定します。
 mapred.compress.map.outputをtrueに設定します。
 mapred.output.compress = true に設定する;
 mapredを設定します。出力。圧縮 = org.apache.hadoop.io.compress.SnappyCodec;
 mapredを設定します。出力.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
 io.compression.codecs=org.apache.hadoop.io.compress.SnappyCodecを設定します。
 --データのインポート 
 INSERT OVERWRITE TABLE student_text_snappy SELECT * FROM student;
 --クエリデータ 
 student_text_snappyから*を選択します。

データファイルを確認すると、データファイルが複数の .snappy 圧縮ファイルであることがわかります。 cat を使用して .snappy ファイルを表示すると、圧縮されたテキストであることがわかります。

 hdfs dfs -ls /ユーザー/hive/warehouse/student_text_snappy
 3 件のアイテムが見つかりました
-rw-r --r-- 2015-09-15 16:42 /user/hive/warehouse/student_text_snappy/000000_0.snappy  
 -rw-r --r-- 2015-09-15 16:42 /user/hive/warehouse/student_text_snappy/000001_0.snappy  
 -rw-r --r-- 2015-09-15 16:42 /user/hive/warehouse/student_text_snappy/000002_0.snappy

シーケンスファイル

シーケンスファイル、DEFLATE圧縮

--ファイル形式でテーブルを作成します。  
作成する テーブルstudent_seq_def (id 文字列、名前文字列)
行の区切り形式
    フィールド終了  ','  
    終了した回線  '\n'  
シーケンスファイルとして保存されます。
 --圧縮タイプをGzip圧縮に設定する 
 hive.exec.compress.outputをtrueに設定します。
 mapred.output.compress = true に設定する;
 mapredを設定します。出力.compression.codec=org.apache.hadoop.io.compress.DefaultCodec;
 --データのインポート:  
 INSERT OVERWRITE TABLE student_seq_def SELECT * FROM student;
 --データを表示 
 student_seq_defから*を選択します。

データファイルを表示します。これは暗号テキストファイルです。

 hdfs dfs -ls /ユーザー/hive/warehouse/student_seq_def/
 -rw-r --r-- /user/hive/warehouse/student_seq_def/000000_0

シーケンスファイル、Gzip圧縮

--ファイル形式でテーブルを作成します。  
作成する テーブルstudent_seq_gzip (id 文字列、名前文字列)
行の区切り形式
    フィールド終了  ','  
    終了した回線  '\n'  
シーケンスファイルとして保存されます。
 --圧縮タイプをGzip圧縮に設定する 
 hive.exec.compress.outputをtrueに設定します。
 mapred.output.compress = true に設定する;
 mapredを設定します。出力.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
 --データのインポート:  
 INSERT OVERWRITE TABLE student_seq_gzip SELECT * FROM student;
 --データを表示 
 student_seq_gzipから*を選択します。

データファイルを確認してください。これは暗号テキストファイルであり、gzip で解凍することはできません。

 hdfs dfs -ls /ユーザー/hive/warehouse/student_seq_gzip/
 -rw-r --r-- /user/hive/warehouse/student_seq_gzip/000000_0

RCFILE

RCFILE、Gzip 圧縮

作成する テーブルstudent_rcfile_gzip (id 文字列、名前 文字列)
行の区切り形式
    フィールド終了  ','  
    終了した回線  '\n'  
 RCFILEとして保存されます。 
 
 --圧縮タイプをGzip圧縮に設定する 
 hive.exec.compress.outputをtrueに設定します。
 mapred.output.compress = true に設定する;
 mapredを設定します。出力.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
 --データのインポート:  
 INSERT OVERWRITE TABLE student_rcfile_gzip SELECT id, name  学生より;
 --データを表示 
 student_rcfile_gzipから*を選択します。

ORCファイル

ORCFile には圧縮形式を設定するための独自のパラメータがあり、通常は上記の Hive パラメータを使用して圧縮パラメータを設定することはありません。

ORCFile、ZLIB 圧縮

--テーブルを作成 
作成する テーブルstudent_orcfile_zlib (id 文字列、名前文字列)
行の区切り形式
    フィールド終了  ','  
    終了した回線  '\n'  
 ORCFILE TBLPROPERTIES ( "orc.compress" = "ZLIB" )として保存されます。 
 
 --データのインポート 
 INSERT OVERWRITE TABLE student_orcfile_zlib SELECT id, name  学生より;
 --クエリデータ 
 student_orcfile_zlibから*を選択します。

ORCFILE、Snappy 圧縮

--テーブルを作成 
作成する テーブルstudent_orcfile_snappy2 (id 文字列、名前 文字列)
行の区切り形式
    フィールド終了  ','  
    終了した回線  '\n'  
 ORCFILE TBLPROPERTIES ( "orc.compress" = "SNAPPY" )として保存されます。 
 
 --データのインポート 
 INSERT OVERWRITE TABLE student_orcfile_snappy2 SELECT id, name  学生より;
 --クエリデータ 
 student_orcfile_snappy2から*を選択します。

以下の方法は一般的には使用されません。次の圧縮方法では、上記の同じタイプの圧縮 (SNAPPY) とは異なる結果になります。具体的な理由についてはさらに調査する必要がある。

 --テーブルを作成 
作成する テーブルstudent_orcfile_snappy (id 文字列、名前文字列)
行の区切り形式
    フィールド終了  ','  
    終了した回線  '\n'  
 ORCFILEとして保存されます。
 --圧縮を設定する 
 hive.exec.compress.outputをtrueに設定します。
 mapred.compress.map.outputをtrueに設定します。
 mapred.output.compress = true に設定する;
 mapredを設定します。出力。圧縮 = org.apache.hadoop.io.compress.SnappyCodec;
 mapredを設定します。出力.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
 io.compression.codecs=org.apache.hadoop.io.compress.SnappyCodecを設定します。
 --データのインポート 
 INSERT OVERWRITE TABLE student_orcfile_snappy SELECT id, name  学生より;
 --クエリデータ 
 student_orcfile_snappyから*を選択します。

寄木細工

Parquet、Snappy 圧縮

--テーブルを作成 
作成する テーブルstudent_parquet_snappy (id 文字列、名前文字列)
行の区切り形式
    フィールド終了  ','  
    終了した回線  '\n'  
寄木細工として保管されます。
 --圧縮を設定する 
 hive.exec.compress.outputをtrueに設定します。
 mapred.compress.map.outputをtrueに設定します。
 mapred.output.compress = true に設定する;
 mapredを設定します。出力。圧縮 = org.apache.hadoop.io.compress.SnappyCodec;
 mapredを設定します。出力.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
 io.compression.codecs=org.apache.hadoop.io.compress.SnappyCodecを設定します。
 --データのインポート 
 INSERT OVERWRITE TABLE student_parquet_snappy SELECT id, name  学生より;
 --クエリデータ 
 student_parquet_snappyから*を選択します。

アブロ

Avro、Snappy圧縮

--テーブルを作成 
作成する テーブルstudent_avro_snappy (id 文字列、名前文字列)
行の区切り形式
    フィールド終了  ','  
    終了した回線  '\n'  
 AVROとして保存されます。
 --圧縮を設定する 
 hive.exec.compress.outputをtrueに設定します。
 mapred.compress.map.outputをtrueに設定します。
 mapred.output.compress = true に設定する;
 mapredを設定します。出力。圧縮 = org.apache.hadoop.io.compress.SnappyCodec;
 mapredを設定します。出力.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
 io.compression.codecs=org.apache.hadoop.io.compress.SnappyCodecを設定します。
 --データのインポート 
 INSERT OVERWRITE TABLE student_avro_snappy SELECT id, name  学生より;
 --クエリデータ 
 student_avro_snappyから*を選択します。