datapine で Spark に接続したビジュアライゼーションを構築
datapine は、ブラウザベースのビジネスインテリジェンスプラットフォームです。CData Connect AI と組み合わせることで、datapine のビジュアライゼーションやダッシュボードから直接Spark のデータにアクセスできます。この記事では、CData Connect AI で Spark に接続し、datapine でシンプルな Spark 連携ビジュアライゼーションを構築する方法を説明します。
CData Connect AI は、Spark 向けの純粋な SQL Server インターフェースを提供し、ネイティブにサポートされたデータベースにデータをレプリケーションすることなく Spark のデータをクエリできます。最適化されたデータ処理を標準で備えており、サポートされているすべての SQL 操作(フィルター、JOIN など)を Spark に直接プッシュし、サーバーサイド処理を活用して要求されたSpark のデータを迅速に返します。
datapine 用の Spark 接続を設定
datapine から Spark への接続は、CData Connect AI によって実現されます。datapine からSpark のデータを扱うには、まず Spark 接続を作成・設定します。
- Connect AI にログインし、Sources をクリック、次に Add Connection をクリック
- Add Connection パネルから「Spark」を選択
-
Spark に接続するために必要な認証プロパティを入力します。
SparkSQL への接続
SparkSQL への接続を確立するには以下を指定します。
- Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
- Port:SparkSQL インスタンスへの接続用のポートに設定。
- TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
- AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
Databricks への接続
Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。
- Server:Databricks クラスターのサーバーのホスト名に設定。
- Port:443
- TransportMode:HTTP
- HTTPPath:Databricks クラスターのHTTP パスに設定。
- UseSSL:True
- AuthScheme:PLAIN
- User:'token' に設定。
- Password:パーソナルアクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。
- Save & Test をクリック
-
Add Spark Connection ページで Permissions タブに移動し、ユーザーベースの権限を更新します。
Personal Access Token を追加
REST API、OData API、または仮想 SQL Server 経由で Connect AI に接続する場合、Personal Access Token(PAT)が Connect AI への接続認証に使用されます。アクセスの粒度を維持するため、サービスごとに個別の PAT を作成することをお勧めします。
- Connect AI アプリの右上にある歯車アイコン()をクリックして Settings ページを開きます。
- Settings ページで Access Tokens セクションに移動し、 Create PAT をクリック。
-
PAT に名前を付けて Create をクリック。
- Personal Access Token は作成時にのみ表示されるので、必ずコピーして安全な場所に保存してください。
接続の設定と PAT の生成が完了したら、datapine からSpark のデータに接続する準備が整いました。
datapine から Spark に接続
Connect AI で Spark への接続を設定したら、datapine から Spark に接続する準備が整いました。
- datapine にログイン
- Connect をクリックして「Connect」ページに移動
- データソースとして MS SQL Server を選択
- Integration ステップで接続プロパティを入力し、「Save and Proceed」をクリック
- Internal Name を設定
- Database Name を先ほど設定した接続名に設定(例:SparkSQL1)
- Host / IP を「tds.cdata.com」に設定
- Username を Connect AI のユーザー名に設定(例:[email protected])
- Password を対応する PAT に設定
- Database Port を「14333」に設定
- Data Schema ステップで、ビジュアライズするテーブルとフィールドを選択し、「Save and Proceed」をクリック
- References ステップで、選択したテーブル間のリレーションシップを定義し、「Save and Proceed」をクリック
- Data Transfer ステップで「Go to Analyzer」をクリック
datapine で Spark のデータ をビジュアライズ
CData Connect AI に接続したら、datapine でSpark のデータをビジュアライズする準備が整いました。ビジュアライズしたいディメンションとメジャーを選択するだけです!
datapine から Spark に接続できたので、どこにいてもリアルタイムのSpark のデータをビジュアライズ・分析できるようになりました。datapine から 300 以上の SaaS、ビッグデータ、NoSQL ソースへのリアルタイムデータアクセスを実現するには、CData Connect AI をお試しください!