Jitterbit でライブ Databricks のデータと連携

Mohsin Turki
Mohsin Turki
Technical Marketing Engineer
CData Connect AI を使用して、Jitterbit でライブ Databricks のデータ に接続・連携します。

Jitterbit は、データワークフローを効率化できるエンタープライズ iPaaS(Integration Platform as a Service)です。CData Connect AI と組み合わせることで、Jitterbit からライブ Databricks のデータ にアクセスできます。この記事では、Connect AI を使用して Databricks に接続し、Jitterbit でライブ Databricks のデータ と連携する方法を説明します。

CData Connect AI は Databricks 用の純粋な OData インターフェースを提供し、ネイティブにサポートされているデータベースにデータをレプリケーションすることなく、Databricks からデータをクエリできます。CData Connect AI は最適化されたデータ処理機能を標準で備えており、サポートされているすべての SQL 操作(フィルタ、JOIN など)を Databricks に直接プッシュし、サーバーサイド処理を活用して、リクエストされた Databricks のデータ を迅速に返します。

Databricks データ連携について

CData を使用すれば、Databricks のライブデータへのアクセスと統合がこれまでになく簡単になります。お客様は CData の接続機能を以下の目的で利用しています:

  • Runtime バージョン 9.1 - 13.X から Pro および Classic Databricks SQL バージョンまで、すべてのバージョンの Databricks にアクセスできます。
  • あらゆるホスティングソリューションとの互換性により、お好みの環境で Databricks を使用し続けることができます。
  • パーソナルアクセストークン、Azure サービスプリンシパル、Azure AD など、さまざまな方法で安全に認証できます。
  • Databricks ファイルシステム、Azure Blob ストレージ、AWS S3 ストレージを使用して Databricks にデータをアップロードできます。

多くのお客様が、さまざまなシステムから Databricks データレイクハウスにデータを移行するために CData のソリューションを使用していますが、ライブ接続ソリューションを使用して、データベースと Databricks 間の接続をフェデレートしているお客様も多数います。これらのお客様は、SQL Server リンクサーバーまたは Polybase を使用して、既存の RDBMS 内から Databricks へのライブアクセスを実現しています。

一般的な Databricks のユースケースと CData のソリューションがデータの問題解決にどのように役立つかについては、ブログをご覧ください:What is Databricks Used For? 6 Use Cases


はじめに


Jitterbit 向けに Databricks 接続を構成

Jitterbit から Databricks のデータ を操作するには、Connect AI から Databricks に接続し、ユーザーにアクセス権を付与し、Databricks のデータ 用のワークスペースを作成する必要があります。

Connect AI から Databricks に接続

CData Connect AI は、シンプルなポイント&クリック インターフェースを使用してデータソースに接続します。

  1. Connect AI にログインし、Sources をクリックして、 Add Connection をクリックします。
  2. Add Connection パネルから「Databricks」を選択します。
  3. Databricks に接続するために必要な認証プロパティを入力します。

    Databricks 接続プロパティの取得・設定方法

    Databricks クラスターに接続するには、以下のプロパティを設定します。

    • Database:Databricks データベース名。
    • Server:Databricks クラスターのサーバーのホスト名
    • HTTPPath:Databricks クラスターのHTTP パス。
    • Token:個人用アクセストークン。この値は、Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。
    Databricks インスタンスで必要な値は、クラスターに移動して目的のクラスターを選択し、Advanced Options の下にあるJDBC/ODBC タブを選択することで見つけることができます。

    Databricks への認証

    CData は、次の認証スキームをサポートしています。

    • 個人用アクセストークン
    • Microsoft Entra ID(Azure AD)
    • Azure サービスプリンシパル
    • OAuthU2M
    • OAuthM2M

    個人用アクセストークン

    認証するには、次を設定します。

    • AuthSchemePersonalAccessToken
    • Token:Databricks サーバーへの接続に使用するトークン。Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。

    その他の認証方法については、ヘルプドキュメント の「はじめに」セクションを参照してください。

  4. Save & Test をクリックします。
  5. Add Databricks Connection ページの Permissions タブに移動し、User-based permissions を更新します。

パーソナルアクセストークンの追加

REST API、OData API、または仮想 SQL Server を介して Connect AI に接続する場合、パーソナルアクセストークン(PAT)を使用して Connect AI への接続を認証します。アクセスの粒度を維持するために、サービスごとに別々の PAT を作成することをお勧めします。

  1. Connect AI アプリの右上にある歯車アイコン()をクリックして、設定ページを開きます。
  2. Settings ページで Access Tokens セクションに移動し、 Create PAT をクリックします。
  3. PAT に名前を付け、Create をクリックします。
  4. パーソナルアクセストークンは作成時にのみ表示されるため、必ずコピーして安全な場所に保存してください。

Jitterbit 向けに Databricks エンドポイントを構成

Databricks に接続した後、目的のテーブル用のワークスペースを作成します。

  1. Workspaces ページに移動し、 Add をクリックして新しいワークスペースを作成します(または既存のワークスペースを選択します)。
  2. Add をクリックして、ワークスペースに新しいアセットを追加します。
  3. Databricks 接続(例:Databricks1)を選択し、Next をクリックします。
  4. 操作するテーブルを選択し、Confirm をクリックします。
  5. ワークスペースの OData Service URL(例:https://cloud.cdata.com/api/odata/{workspace_name})をメモしておきます。

接続、PAT、およびワークスペースの構成が完了すると、Jitterbit から Databricks のデータ に接続する準備が整います。

Connect AI を使用して Jitterbit から Databricks に接続

OData プロトコルを使用して Jitterbit から CData Connect AI への接続を確立するには、以下の手順に従います。

  1. Jitterbit にログインします。
  2. Cloud Studio でプロジェクトを作成し、ワークスペース環境を設定します。
  3. Sources をクリックし、検索バーに OData と入力します。
  4. OData コネクタを選択します。
  5. OData 接続プロパティを入力します。
    • Connection Name:接続名を入力します。
    • OData Metadata URL:https://cloud.cdata.com/api/odata/{workspace_name} と入力します。
    • Authentication:Basic Auth を選択します。
    • User Name:CData Connect AI のユーザー名を入力します。これは CData Connect AI インターフェースの右上に表示されます(例:[email protected])。
    • Password:Settings ページで生成した PAT を入力します。
  6. Test をクリックして接続をテストし、Save Changes をクリックします。
  7. 実行する操作を選択し、プロジェクトのワークフローにドラッグします。
  8. クエリ操作をダブルクリックすると、OData エンドポイントで使用可能なすべてのテーブルと派生ビューが表示されます。
  9. テーブルを選択し、クエリを構成します。

これで、Jitterbit でライブ Databricks のデータ を変換・連携できます。

CData Connect AI の入手

Jitterbit から 300 以上の SaaS、ビッグデータ、NoSQL ソースへのリアルタイムデータアクセスを実現するには、 CData Connect AI をぜひお試しください!

はじめる準備はできましたか?

CData Connect AI の詳細、または無料トライアルにお申し込みください:

無料トライアル お問い合わせ