Power Map で Spark のデータ の地理的関係を探索
CData ODBC Driver for Spark は、Power BI などのセルフサービス分析ソリューションと簡単にセットアップして使用できます。Microsoft Excel は ODBC 標準を組み込みでサポートしています。この記事では、現在のSpark のデータを Excel に読み込み、Power Map でSpark のデータの位置情報に基づく分析を開始する方法を説明します。
Spark 用の ODBC データソースを作成
まだ設定していない場合は、ODBC DSN(データソース名)で接続プロパティを指定します。これはドライバーインストールの最後のステップです。Microsoft ODBC データソースアドミニストレーターを使用して、ODBC DSN を作成・設定できます。
SparkSQL への接続
SparkSQL への接続を確立するには以下を指定します。
- Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
- Port:SparkSQL インスタンスへの接続用のポートに設定。
- TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
- AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
Databricks への接続
Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。
- Server:Databricks クラスターのサーバーのホスト名に設定。
- Port:443
- TransportMode:HTTP
- HTTPPath:Databricks クラスターのHTTP パスに設定。
- UseSSL:True
- AuthScheme:PLAIN
- User:'token' に設定。
- Password:パーソナルアクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。
DSN を設定する際に、Max Rows 接続プロパティも設定することをお勧めします。これにより返される行数が制限され、レポートやビジュアライゼーションの設計時のパフォーマンス向上に役立ちます。
DSN を設定する際に、Max Rows 接続プロパティも設定することをお勧めします。これにより返される行数が制限され、レポートやビジュアライゼーションの設計時のパフォーマンス向上に役立ちます。
Spark のデータ を Excel にインポート
データを Power Map にインポートするには、Excel スプレッドシートまたは Power Pivot を使用します。いずれかの方法でSpark のデータをインポートする手順については、ヘルプドキュメントの「ODBC ドライバの使用」セクションを参照してください。
Spark のデータ をジオコーディング
Spark のデータ を Excel スプレッドシートまたは PowerPivot にインポートしたら、Power Map で Spark エンティティをドラッグ&ドロップできます。Power Map を開くには、スプレッドシート内の任意のセルをクリックし、[挿入] -> [マップ] をクリックします。
[地理の選択] メニューで、Power Map が地理情報を持つカラムを検出します。[レイヤーペイン] の [地理とマップレベル] メニューで、使用するカラムを選択できます。Power Map がデータをプロットします。ドットは、この値を持つレコードを表します。使用する地理カラムを選択したら、[次へ] をクリックします。
メジャーとカテゴリを選択
次に、カラムを選択するだけで済みます。メジャーとカテゴリは自動的に検出されます。利用可能なチャートタイプは、積み上げ縦棒、クラスター縦棒、バブル、ヒートマップ、リージョンです。