datapine で Spark に接続したビジュアライゼーションを構築

Dibyendu Datta
Lead Technology Evangelist

CData Connect AI と datapine を使用して、リアルタイムのSpark のデータにアクセスしたビジュアライゼーションとダッシュボードを構築します。

datapine は、ブラウザベースのビジネスインテリジェンスプラットフォームです。CData Connect AI と組み合わせることで、datapine のビジュアライゼーションやダッシュボードから直接Spark のデータにアクセスできます。この記事では、CData Connect AI で Spark に接続し、datapine でシンプルな Spark 連携ビジュアライゼーションを構築する方法を説明します。

CData Connect AI は、Spark 向けの純粋な SQL Server インターフェースを提供し、ネイティブにサポートされたデータベースにデータをレプリケーションすることなく Spark のデータをクエリできます。最適化されたデータ処理を標準で備えており、サポートされているすべての SQL 操作（フィルター、JOIN など）を Spark に直接プッシュし、サーバーサイド処理を活用して要求されたSpark のデータを迅速に返します。

datapine 用の Spark 接続を設定

datapine から Spark への接続は、CData Connect AI によって実現されます。datapine からSpark のデータを扱うには、まず Spark 接続を作成・設定します。

Connect AI にログインし、Sources をクリック、次に Add Connection をクリック

Add Connection パネルから「Spark」を選択

Spark に接続するために必要な認証プロパティを入力します。
SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。
- Server：SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
- Port：SparkSQL インスタンスへの接続用のポートに設定。
- TransportMode：SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
- AuthScheme：使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note：必要な値は、「クラスター」に移動して目的のクラスターを選択し、「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。
- Server：Databricks クラスターのサーバーのホスト名に設定。
- Port：443
- TransportMode：HTTP
- HTTPPath：Databricks クラスターのHTTP パスに設定。
- UseSSL：True
- AuthScheme：PLAIN
- User：'token' に設定。
- Password：パーソナルアクセストークンに設定（値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます）。
Save & Test をクリック
Add Spark Connection ページで Permissions タブに移動し、ユーザーベースの権限を更新します。

Personal Access Token を追加

REST API、OData API、または仮想 SQL Server 経由で Connect AI に接続する場合、Personal Access Token（PAT）が Connect AI への接続認証に使用されます。アクセスの粒度を維持するため、サービスごとに個別の PAT を作成することをお勧めします。

Connect AI アプリの右上にある歯車アイコン（）をクリックして Settings ページを開きます。
Settings ページで Access Tokens セクションに移動し、 Create PAT をクリック。
PAT に名前を付けて Create をクリック。
Personal Access Token は作成時にのみ表示されるので、必ずコピーして安全な場所に保存してください。

接続の設定と PAT の生成が完了したら、datapine からSpark のデータに接続する準備が整いました。

datapine から Spark に接続

Connect AI で Spark への接続を設定したら、datapine から Spark に接続する準備が整いました。

datapine にログイン
Connect をクリックして「Connect」ページに移動
データソースとして MS SQL Server を選択
Integration ステップで接続プロパティを入力し、「Save and Proceed」をクリック
- Internal Name を設定
- Database Name を先ほど設定した接続名に設定（例：SparkSQL1）
- Host / IP を「tds.cdata.com」に設定
- Username を Connect AI のユーザー名に設定（例：[email protected]）
- Password を対応する PAT に設定
- Database Port を「14333」に設定
Data Schema ステップで、ビジュアライズするテーブルとフィールドを選択し、「Save and Proceed」をクリック
References ステップで、選択したテーブル間のリレーションシップを定義し、「Save and Proceed」をクリック
Data Transfer ステップで「Go to Analyzer」をクリック

datapine で Spark のデータをビジュアライズ

CData Connect AI に接続したら、datapine でSpark のデータをビジュアライズする準備が整いました。ビジュアライズしたいディメンションとメジャーを選択するだけです！

datapine から Spark に接続できたので、どこにいてもリアルタイムのSpark のデータをビジュアライズ・分析できるようになりました。datapine から 300 以上の SaaS、ビッグデータ、NoSQL ソースへのリアルタイムデータアクセスを実現するには、CData Connect AI をお試しください！

はじめる準備はできましたか？

CData Connect AI の詳細、または無料トライアルにお申し込みください：

無料トライアルお問い合わせ

datapine で Spark に接続したビジュアライゼーションを構築

datapine 用の Spark 接続を設定

SparkSQL への接続

Databricks への接続

Personal Access Token を追加

datapine から Spark に接続

datapine で Spark のデータをビジュアライズ

はじめる準備はできましたか？

この記事の内容

関連記事

datapine で Spark に接続したビジュアライゼーションを構築

datapine 用の Spark 接続を設定

SparkSQL への接続

Databricks への接続

Personal Access Token を追加

datapine から Spark に接続

datapine で Spark のデータ をビジュアライズ

はじめる準備はできましたか？

この記事の内容

関連記事

datapine で Spark のデータをビジュアライズ