DBxtra でSpark のデータを使ってダッシュボードを構築

Jerod Johnson
Director, Technology Evangelism

DBxtra でSpark のデータを基にしたダイナミックなダッシュボードの作成やデータ分析を行う方法を解説します。

CData のSpark 用 ODBC ドライバーは、ODBC 標準経由でSpark のリアルタイムデータにアクセスし、使い慣れた SQL クエリで各種 BI、レポート、ETL ツールからSpark のデータを利用可能にします。この記事では、汎用 ODBC データプロバイダーとしてSpark に接続し、DBxtra でSpark のデータを基にしたチャート、レポート、ダッシュボードを作成する方法を解説します。

Spark のデータへの接続設定

まだ設定していない場合は、データソース名（DSN）で必要な接続プロパティを指定します。DSN の設定は組み込みの Microsoft ODBC データソースアドミニストレーターを使用して行えます。これはドライバーインストールの最終ステップでもあります。Microsoft ODBC データソースアドミニストレーターを使用して DSN を作成・設定する方法については、ヘルプドキュメントの「はじめに」の章をご参照ください。

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。
- Server：SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
- Port：SparkSQL インスタンスへの接続用のポートに設定。
- TransportMode：SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
- AuthScheme：使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note：必要な値は、「クラスター」に移動して目的のクラスターを選択し、「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。
- Server：Databricks クラスターのサーバーのホスト名に設定。
- Port：443
- TransportMode：HTTP
- HTTPPath：Databricks クラスターのHTTP パスに設定。
- UseSSL：True
- AuthScheme：PLAIN
- User：'token' に設定。
- Password：パーソナルアクセストークンに設定（値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます）。
DSN を設定する際には、Max Rows 接続プロパティも設定することをお勧めします。これにより返される行数が制限され、レポートやビジュアライゼーションの設計時にパフォーマンスを向上させるのに役立ちます。
DBxtra アプリケーションを開き、New メニューから Project をクリックしてプロジェクト名を入力します。
Data Connection Type として ODBC Connection を選択します。
Data Source の参照オプション（）をクリックします。
Data Link Properties ウィンドウの Provider タブで、Microsoft OLE DB Provider for ODBC Drivers を選択します。
Connection タブで、Data Source Name と使用する初期カタログ（CData）を選択します。
接続名を入力し、適切なユーザーグループを選択します。
プロジェクト内で接続をダブルクリックしてデータに接続します。

Spark のデータでダッシュボードを作成

これでSpark のデータを使ってダッシュボードを作成する準備が整いました。

プロジェクト内の Report Objects を右クリックし、New Report Object を選択します。
新しい Report Object で、リンクをクリックしてクエリを作成します。
Select Data Connection ウィンドウで、先ほど作成したデータ接続を選択します。
Query タブで、接続オブジェクトを展開し、ダッシュボードに含めたいテーブル、ビュー、特定のカラムを選択します。検索条件を指定したり、JOIN や集計を含む複雑なクエリを作成することもできます。
Dashboard タブで、ダッシュボードのビジュアライゼーションと機能を選択します。クエリからのデータ値をダッシュボード項目の適切なフィールド（Values、Series など）に割り当てます。