CData Sync と dbt Core によるデータ変換



CData Sync は、dbt Core、dbt Cloud、またはカスタム SQL 変換を使用して、ETL および ELT プロセスを柔軟に実行できます。

Data Build Tool(dbt)Core は、オープンソースのコマンドラインツールです。SQL を使用してデータの操作や集計を行い、データ変換ワークフローを定義・実行できます。dbt Core のコードファーストなアプローチにより、組織はデータ変換プロセスのデプロイ、セットアップ、カスタマイズを完全にコントロールできます。

この記事では、CData Sync で dbt Core を使用する手順をステップバイステップで解説します。

CData Sync での dbt Core の使用

サポートされる同期先

dbt Core タイプの変換は、以下の同期先でサポートされています。

  • Snowflake
  • Amazon Redshift
  • Databricks
  • PostgreSQL
  • Google BigQuery

dbt 変換用のツールのセットアップ

dbt 変換を有効にするには、まず dbt Core およびその他のツールをセットアップする必要があります。以下の手順で進めてください。

  1. Microsoft Windows 用の Git for Windows と Python 3.7 以降をインストールします。

    注意:Git のようなアプリケーションは必須ではありませんが、バージョン管理、プロジェクトの共有、ソースコードの管理が容易になるため、リポジトリの使用をお勧めします。

    Git で、以下の情報を確認してコピーしておきます。これらは後ほど Sync の dbt 変換設定で使用します。

    • Git リポジトリURL - リポジトリURL は Git リポジトリウィンドウで確認できます。Code をクリックして Clone ダイアログを開きます。URL はダイアログの HTTPS タブに表示されます。URL フィールドの右端にあるコピーアイコンをクリックして URL をコピーします。後で Sync で使用するために保存しておきます。
    • 個人用アクセストークン - 個人用アクセストークンを取得するには、以下の手順に従います。
      1. Git ウィンドウの右上にあるプロフィールアイコンをクリックし、Settings を選択して Profile settings ページを開きます。
      2. 左側メニューの下部にある Developer Settings を選択します。これにより Developer Settings ページが開きます。
      3. このページで、Personal access tokens > Tokens (classic) を選択します。Personal access tokens (classic) ページが開き、Generate new token をクリックして個人用アクセストークンを作成できます。
      4. Select scopes カテゴリの Repo チェックボックスを選択します(このカテゴリで他の条件を設定することもできますが、必須ではありません)。例えば、Expiration カテゴリでトークンの有効期限(または無期限)を設定することもできます。
      5. ページ下部の Generate token をクリックします。生成されたトークンをコピーして、後で Sync で使用するために保存しておきます。

      個人用アクセストークンの取得方法の詳細については、個人用アクセストークンの作成を参照してください。

  2. Sync がインストールされているマシンに、dbt Core と同期先用のアダプタープラグインをインストールします。上記にリストされている各同期先用のプラグインが用意されており、pip コマンドでインストールできます。例えば、以下の pip コマンドは dbt Core と Google BigQuery プラグインをインストールします。
    pip install dbt-bigquery
    インストールが完了したら、以下のコマンドでインストールを確認できます。
    dbt --version
  3. Git リポジトリをローカルマシンにクローンして、dbt プロジェクトをローカルにダウンロードします。Sync はセットアップ時および各実行前にリポジトリをクローンし、プロジェクトへの変更が次回の Sync 実行に反映されるようにします。
  4. 次のセクションで説明するように、Sync で変換を作成します(YML または SQL ファイルを含む dbt プロジェクトを使用)。

dbt 変換の作成

dbt 変換を作成するには、以下の手順に従います。

  1. Sync を開き、Transformations ページに移動します。次に、Add Transformations をクリックします。
  2. Add Transformation ダイアログボックスで、以下のフィールドを入力します。
    • Name: 変換の名前を入力します。
    • Type: 変換タイプとして dbt Core を選択します。
    • Project Folder: 以下のオプションから選択します。デフォルトのオプションは Local です。
      • Local: 既存のローカルプロジェクトフォルダーのパスを入力します。このオプションでは、Folder Path フィールドに dbt プロジェクトフォルダーのパスも入力する必要があります。
      • Github: 先ほど Git で作成したプロジェクトの URL を入力します。このオプションでは、以下の情報を入力します。
        • Git Repository URL: Git リポジトリURL を https://github.com/Owner/Repository.git の形式で入力します。
        • Token: 先ほど Git でコピーした個人用アクセストークンを入力します。
    • Destination Schema - 任意の同期先スキーマを追加します。
  3. Add Transformation をクリックします。

無料トライアルと詳細情報

CData Sync と dbt Core の統合方法をご確認いただきました。CData Sync ページで詳細情報をご覧いただき、ぜひ無料トライアルをお試しください。ご不明な点がございましたら、サポートチームまでお気軽にお問い合わせください。