TROCCOの転送設定を作成していると、STEP1からSTEP2へ進む際の「自動データ設定」や、STEP2にある「変更をプレビュー」など、設定の反映や更新、確認するための機能が複数あります。
「これらの機能に違いはあるの?」「どちらを実行すればいいのか迷ってしまう」「せっかく設定した内容が消えてしまった」といったお悩みを防ぐため、それぞれの役割と使い分けるコツをご紹介します。
役割の違い
- 自動データ設定:転送元のデータ構造が変わったため、TROCCO側の設定をリセットして最新の状態に反映する機能
- 変更をプレビュー:転送設定STEP2にてデータを加工・編集した際に、その結果をテスト表示して設定の不備がないか確認する機能
「自動データ設定」を使うタイミング
主にSTEP1(転送元の設定)に変更を加えた場合に使用します。
- 転送元のデータで、カラム(列)が増えたり減ったりしたとき
- 転送元のデータで、カラム名やデータ型が変わったとき
- 読み込むファイルの形式(CSVなど)や解凍形式を変更したとき
- データベース系コネクタやDWH系コネクタなどで、クエリを書き換えたとき
自動データ設定の注意事項
自動データ設定を実行すると、STEP2で設定していた「テンプレートETL(マスキング設定や文字列置換など)」や「カラムの追加・削除」などの設定がすべて初期化されてしまいます。
回避策
転送元でカラムが増えたけれど、STEP2で設定したテンプレートETLなどの設定は維持したいという場合は、自動データ設定をスキップしてSTEP2へ進み、画面右上にある「カラム定義を再読み込み」をご活用ください。 既存のSTEP2の設定を保持したまま、転送元の最新のカラム状態だけを反映させることができます。
※コネクタによっては「カラム定義を再読み込み」ボタンが表示されない場合があります。
※コネクタによっては「カラム定義を再読み込み」ボタンが表示されない場合があります。
「変更をプレビュー」を使うタイミング
主にSTEP2のデータ設定や入力オプションの設定を追加・変更した場合に使用します。
※ 出力オプションの設定を変更してもプレビューを実行する必要はございません。
※ 出力オプションの設定を変更してもプレビューを実行する必要はございません。
- カラム定義でデータ型を変更したり、不要なカラムを削除したとき
- テンプレートETL機能(マスキング、文字列置換、フィルターなど)を追加したとき
プレビューの注意事項
STEP2で設定を変更した後、「変更をプレビュー」をクリックする必要は必ずしもありません。
変更をプレビューを実行することで、プレビュー画面にて結果を確認しエラーが発生しないか確認するために利用します。
ただし、STEP1にてカラムのデータ型を設定することができないコネクタの場合は、転送元で自動判定されたデータ型を変更するために「変更をプレビュー」を実行して変更を反映する必要があります。
もっと理解したい人向け情報
裏側で動いている「Embulk」と「パーサー(Parser)」
TROCCOのデータ転送処理の裏側では、Embulkというオープンソースのデータ転送ツールが利用されています。 さらに、ファイル系のデータ(CSV、JSON、Excelなど)を読み込む際には、パーサー(Parser)と呼ばれる機能が重要な役割を果たしています。
パーサー(Parser)とは?
ファイルのデータを読み解き、TROCCOで扱えるテーブル形式(カラムと行)のデータに変換する役割があります。
例えば「カンマ(,)で区切る」「改行で次のレコードにする」といった処理を担っています。
例えば「カンマ(,)で区切る」「改行で次のレコードにする」といった処理を担っています。
これらを踏まえると、「自動データ設定」と「プレビュー」はそれぞれ以下のような処理を行っています。
- 自動データ設定(
embulk guess+embulk previewコマンドに相当)- データの一部を読み込み、「どんな設定(区切り文字やデータ型など)にするのが最適か」を推測(guess)して、ベースとなる設定を自動生成する
- 変更をプレビュー(
embulk previewコマンドに相当)- 設定されたパーサーを使って実際にデータをパースし、TROCCO上での加工や変換が正しく行われるかテスト表示(preview)する
プレビューやジョブ実行時に「パースエラー(ParseException など)」が出た場合は、このパーサーによるデータの読み取りがうまくいかなかったことを意味します。
(例:日時データとして設定した列に、数値などの対応していない文字が入っている場合など)
(例:日時データとして設定した列に、数値などの対応していない文字が入っている場合など)
まとめ
転送元のデータ構造の変化を取り込み最適な読み込み方を探るのが「自動データ設定」、読み込んだデータへの加工結果を確認・確定するのが「変更をプレビュー」です。
この役割を意識して、転送設定の作成を行ってみましょう。
この役割を意識して、転送設定の作成を行ってみましょう。
コメント
0件のコメント
記事コメントは受け付けていません。