Snowflake への転送時にはGZIP形式(.csv.gz)で圧縮しています。
圧縮率は格納するデータの特性によりますが、おおよそ3倍〜10倍程度の圧縮効果が見込まれます。
GZIPの圧縮率は、データ内に含まれる繰り返し情報の多さによって変わります。
圧縮率が高いケース
日付やステータス値など、同じ文字列やパターンが繰り返されるデータ。
例として、2024-01-15 10:30:00 2024-01-15 11:30:00のようなデータでは、
2024-01-15などの共通部分が繰り返しとして認識され、効率よく圧縮されます。圧縮率が低いケース
UUID、ハッシュ値、高精度なランダム小数など、ユニークな情報が多いデータは、繰り返しが少ないため圧縮率は低くなります。
なお、Snowflakeへの転送時は、転送元から取得したデータを一度Snowflakeの内部ステージ(S3)にアップロードし、その後 COPY INTO によりテーブルへロードします。
この内部ステージへのアップロード前に、データは .csv.gz 形式に圧縮されています。
コメント
0件のコメント
記事コメントは受け付けていません。