CData Sync を使って Amazon S3 バケット内の複数ファイルからデータをレプリケーションする方法
Amazon S3 は、Web 規模のコンピューティングを実現するために設計されたインターネットストレージサービスです。 S3 を使えば、いつでもどこからでも、あらゆる量のデータを保存・取得できます。 開発者は、Amazon が使用しているのと同じインフラストラクチャを活用して、スケーラブルで信頼性が高く、高速かつコスト効率の良いストレージにアクセスできます。
CData Sync は、ディレクトリやフォルダーを指定して、同じ形式のファイルをすべて取得し、 1 つの同期先テーブルにレプリケーションできます。初回のレプリケーション後は、 CData Sync がディレクトリ内の各ファイルの最終更新日をチェックし、新しいファイルのみを取り込むため、 重複データのレプリケーションを防止します。
組織では、定期的なデータ(領収書、請求書など)に関連するファイルを定期的に生成することがよくあります。 この記事では、CSV ファイルを含む S3 バケットがあることを前提に、これらのファイルから関連データを Snowflake データウェアハウスにレプリケーションする方法を解説します。
それでは、CData Sync インスタンスにログインして、CData Sync から CSV ファイルをソースコネクタとして設定していきましょう。
複数ファイルからデータを読み取る CSV ソースの設定
CSV ファイルからデータをレプリケーションするには、まず CData Sync で CSV ソース接続を設定します。
- CData Sync にログインし、[Connections]タブに移動します。[+ Add Connection]をクリックし、[Sources]を選択して、 CSV を検索して選択します。
- Connection Type、AWS Region、Auth Scheme、AWS Access Key、AWS Secret Key、URI などの接続プロパティを入力します。 URI は、S3 バケットフォルダー内で「Copy S3 URI」をクリックして取得できます。
- 複数ファイルにわたってデータをレプリケーションするには、Aggregate Files を True に設定します。[Save and Test]をクリックします。

Snowflake を同期先として設定
CSV 接続をテストして保存したら、次に同期先(この場合は Snowflake)に接続します。
- [Connections]タブをクリックし、[Destinations]を選択して、Snowflake を選びます。
- Warehouse、URL、Auth Scheme、User、Password、Database、Schema などの Snowflake 接続プロパティを入力し、
[Save and Test]をクリックします。

複数ファイルから Snowflake へのデータレプリケーション
これで、S3 バケット内の複数ファイルから Snowflake データウェアハウスにレプリケーションするジョブを作成する準備が整いました。
- Sync インターフェースで[Jobs]をクリックし、[+ Add Job]を選択します。
- ジョブに名前を付け、先ほど作成した CSV ソースと Snowflake 同期先の接続を選択します。
[Add Job]をクリックします。

-
ジョブが作成されたら、ジョブを選択して[Task]タブをクリックします。[+ Add Tasks]をクリックし、
AggregatedFiles テーブルを選択します。[Add Tasks (1)]をクリックします。

- 既存のテーブルにデータをレプリケーションするか、新しいテーブルを作成できます(同期先テーブルを変更するには、 タスクの[Overview]タブで Destination Information の編集ボタンをクリックします)。
- タスクの[Column]タブに移動し、カラムマッピングが正しいことを確認します。

- [Job]画面で[Run]をクリックします。

- 次に、Snowflake インスタンスを確認して、CSV ファイルのデータが正しくレプリケーションされたことを確認します。

無料トライアル & 詳細情報
Amazon S3 に保存された複数ファイルからデータをレプリケーションする方法をご覧いただきました。 CData Sync のページで詳細情報をご確認いただき、 無料トライアルをダウンロードしてください。今すぐエンタープライズデータの統合を始めましょう!ご質問がございましたら、 サポートチームがいつでもお手伝いいたします。