Jitterbit でライブ Spark のデータと連携

Mohsin Turki
Technical Marketing Engineer

CData Connect AI を使用して、Jitterbit でライブ Spark のデータに接続・連携します。

Jitterbit は、データワークフローを効率化できるエンタープライズ iPaaS（Integration Platform as a Service）です。CData Connect AI と組み合わせることで、Jitterbit からライブ Spark のデータにアクセスできます。この記事では、Connect AI を使用して Spark に接続し、Jitterbit でライブ Spark のデータと連携する方法を説明します。

CData Connect AI は Spark 用の純粋な OData インターフェースを提供し、ネイティブにサポートされているデータベースにデータをレプリケーションすることなく、Spark からデータをクエリできます。CData Connect AI は最適化されたデータ処理機能を標準で備えており、サポートされているすべての SQL 操作（フィルタ、JOIN など）を Spark に直接プッシュし、サーバーサイド処理を活用して、リクエストされた Spark のデータを迅速に返します。

Jitterbit 向けに Spark 接続を構成

Jitterbit から Spark のデータを操作するには、Connect AI から Spark に接続し、ユーザーにアクセス権を付与し、Spark のデータ用のワークスペースを作成する必要があります。

Connect AI から Spark に接続

CData Connect AI は、シンプルなポイント＆クリックインターフェースを使用してデータソースに接続します。

Connect AI にログインし、Sources をクリックして、 Add Connection をクリックします。

Add Connection パネルから「Spark」を選択します。

Spark に接続するために必要な認証プロパティを入力します。
SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。
- Server：SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
- Port：SparkSQL インスタンスへの接続用のポートに設定。
- TransportMode：SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
- AuthScheme：使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note：必要な値は、「クラスター」に移動して目的のクラスターを選択し、「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。
- Server：Databricks クラスターのサーバーのホスト名に設定。
- Port：443
- TransportMode：HTTP
- HTTPPath：Databricks クラスターのHTTP パスに設定。
- UseSSL：True
- AuthScheme：PLAIN
- User：'token' に設定。
- Password：パーソナルアクセストークンに設定（値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます）。
Save & Test をクリックします。
Add Spark Connection ページの Permissions タブに移動し、User-based permissions を更新します。

パーソナルアクセストークンの追加

REST API、OData API、または仮想 SQL Server を介して Connect AI に接続する場合、パーソナルアクセストークン（PAT）を使用して Connect AI への接続を認証します。アクセスの粒度を維持するために、サービスごとに別々の PAT を作成することをお勧めします。

Connect AI アプリの右上にある歯車アイコン（）をクリックして、設定ページを開きます。
Settings ページで Access Tokens セクションに移動し、 Create PAT をクリックします。
PAT に名前を付け、Create をクリックします。
パーソナルアクセストークンは作成時にのみ表示されるため、必ずコピーして安全な場所に保存してください。

Jitterbit 向けに Spark エンドポイントを構成

Spark に接続した後、目的のテーブル用のワークスペースを作成します。

Workspaces ページに移動し、 Add をクリックして新しいワークスペースを作成します（または既存のワークスペースを選択します）。
Add をクリックして、ワークスペースに新しいアセットを追加します。
Spark 接続（例：SparkSQL1）を選択し、Next をクリックします。
操作するテーブルを選択し、Confirm をクリックします。
ワークスペースの OData Service URL（例：https://cloud.cdata.com/api/odata/{workspace_name}）をメモしておきます。

接続、PAT、およびワークスペースの構成が完了すると、Jitterbit から Spark のデータに接続する準備が整います。

Connect AI を使用して Jitterbit から Spark に接続

OData プロトコルを使用して Jitterbit から CData Connect AI への接続を確立するには、以下の手順に従います。

Jitterbit にログインします。
Cloud Studio でプロジェクトを作成し、ワークスペース環境を設定します。
Sources をクリックし、検索バーに OData と入力します。
OData コネクタを選択します。
OData 接続プロパティを入力します。

Connection Name：接続名を入力します。
OData Metadata URL：https://cloud.cdata.com/api/odata/{workspace_name} と入力します。
Authentication：Basic Auth を選択します。
User Name：CData Connect AI のユーザー名を入力します。これは CData Connect AI インターフェースの右上に表示されます（例：[email protected]）。
Password：Settings ページで生成した PAT を入力します。