転送モードが並列転送かつファイルの命名規則が未設定の場合に発生します。
ファイルを転送するコネクタ(SFTPやAmazon S3など)では、転送モードが並列転送の場合、複数の転送処理を並列実行します。また、ファイルの命名規則が未設定の場合、データの出力先となるファイル名は1つです。並列して転送処理を行う中で、データの出力先となるファイルが1つしかない場合、1つのファイルに対してデータを上書きしていくため、転送先のファイルに残るレコード数が少なくなります。
事象を解消するには、以下の方法がございます。
データの出力先のファイルを1つにする場合
- データ転送の設定の「STEP1 転送元・転送先の設定」にて、転送モードに「出力ファイル数抑制転送」を選択
※転送元がGoogle BigQueryの場合、データサイズによっては出力先のファイルが複数に分かれるため、出力先のファイルを1つにすることができません。「 補足:転送元がGoogle BigQueryの場合 」をご参照ください。
データの出力先のファイルを複数に分ける場合
- データ転送の設定の「STEP1 転送元・転送先の設定」にて、転送モードに「並列転送」を選択
- 「STEP2 データプレビュー・詳細設定」の出力オプションにある複数ファイル出力時の命名規則を設定
※転送先Google Cloud Storageのみ、「STEP1 転送元・転送先の設定」の詳細設定に設定欄がございます。
補足:転送元がGoogle BigQueryの場合
転送元Google BigQueryでは、転送するデータをGoogle Cloud Storageに一時ファイルとして出力し、一時ファイルからデータの転送が行われます。
Google Cloud Storageに出力可能なファイルサイズの上限が1GBとなっており、データサイズが1GBを超える場合は一時ファイルが分割して作成されます。分割された一時ファイルからそれぞれデータの転送を行うため、複数のファイルに出力できるよう、「STEP2 データプレビュー・詳細設定」の出力オプションにある複数ファイル出力時の命名規則の設定をお願いします。
以下のドキュメントの「 一時データエクスポート指定にてカスタムパス設定を選択した場合 」をあわせてご参照ください。
コメント
0件のコメント
記事コメントは受け付けていません。