エラー
Error: java.lang.RuntimeException: org.embulk.spi.DataException: Invalid record at {ファイルパス}:{文字化けした文字列} 原因
転送設定が「非圧縮ファイル」を前提とした設定になっていることが原因です。
TROCCOでは、ファイルが圧縮されているか(.gzなど)どうかによって、内部的な読み取り処理が異なります。 非圧縮ファイルを前提とした設定のまま圧縮ファイルを読み込もうとすると、システムが正しくデータを解釈できず、文字コードエラーや「Invalid record」として検出されてしまいます。
対処法
以下の2ステップで、転送設定を「圧縮ファイル用」に更新してください。
1. ファイルパスのマッチパターンを変更する
入力設定画面にて、対象ファイルのパスを指定する「マッチパターン」を、圧縮ファイル(.gz)のみを指定する形式に変更します。
修正前例:
example/*\.tsv修正後例:
example/*\.tsv\.gz
2. 自動データ設定を再実行する
パスを変更した後、設定画面内の「自動データ設定を実行」ボタンをクリックしてください。
この操作により、TROCCOが「このファイルはgzip形式である」と正しく再認識し、圧縮ファイル専用のスキーマやオプションが自動的に再生成されます。
コメント
0件のコメント
記事コメントは受け付けていません。