OpenOffice Base で Spark のデータを簡単にクエリする方法

Mohsin Turki
Technical Marketing Engineer

CData ODBC Driver for Apache Spark を使用して OpenOffice Base で Spark のデータに接続し、リアルタイムのインサイトを活用したレポートを作成する方法を紹介します。

Apache OpenOffice Base は、データの接続と管理を簡単にする多機能で無料のデータベースツールです。CData ODBC Driver for Apache Spark を使用すると、リアルタイムの Spark データをシームレスに統合してクエリでき、OpenOffice に直接インサイトを取り込むことができます。

本ガイドでは、Spark を OpenOffice Base に接続するセットアップを簡潔に説明し、使い慣れたワークスペース内でレポートの作成、トレンドの分析、情報に基づいた意思決定を容易に行えるようにします。

概要

本記事の手順の概要は以下のとおりです。

設定： CData ODBC Driver for Apache Spark でSpark のデータ用の DSN を必要な接続プロパティで設定します。
接続： 設定した DSN を使用して OpenOffice Base で ODBC 接続をセットアップします。
インポート： 接続後、利用可能なメタデータとテーブルを確認します。
作成： クエリしたSpark のデータデータに基づいてレポートを作成します。

CData ODBC Driver for Apache Spark で Spark DSN を設定

まず、CData ODBC Driver for Apache Spark を使用してシステムでSpark のデータ用の DSN（データソース名）を設定します。こちらから全機能を備えた 30日間の無償トライアルをダウンロードしてインストールしてください。

インストールが完了したら、ODBC データソースアドミニストレーターを起動します。

Windows の場合：スタートメニューで ODBC データソースアドミニストレーター を検索してアプリケーションを開きます。
Mac の場合：アプリケーションを開き、ユーティリティに移動して ODBC Manager を選択します。
Linux の場合：コマンドラインを使用して ODBC データソースアドミニストレーター を起動するか、インストールされている場合は unixODBC を使用します。

起動したら、CDataSpark のデータSource をダブルクリックして、接続を確立するために必要な値を入力します。

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

Server：SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
Port：SparkSQL インスタンスへの接続用のポートに設定。
TransportMode：SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
AuthScheme：使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note：必要な値は、「クラスター」に移動して目的のクラスターを選択し、「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

Server：Databricks クラスターのサーバーのホスト名に設定。
Port：443
TransportMode：HTTP
HTTPPath：Databricks クラスターのHTTP パスに設定。
UseSSL：True
AuthScheme：PLAIN
User：'token' に設定。
Password：パーソナルアクセストークンに設定（値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます）。

OpenOffice Base で ODBC 接続をセットアップ

DSN を設定したら、OpenOffice Base で接続してデータのクエリを開始しましょう。

OpenOffice Base を起動し、ホーム画面から「Database」を選択します。

データベースウィザードで、「Connect to an existing database」オプションから「ODBC」を選択し、「Next」をクリックします。

「Browse」をクリックして作成した DSN を見つけて選択し、「OK」をクリックします。

Apache OpenOffice Base DSN（Salesforce の例）

DSN に関連付けられたユーザー名を入力し、「Test Connection」をクリックして確認してから、「Next」をクリックします。

Apache OpenOffice Base データベースウィザード（Salesforce の例）

最後に、「Finish」をクリックして新しいデータベースファイルを目的のディレクトリに保存します。これにより、OpenOffice Base がリアルタイムのSpark のデータデータに接続され、クエリと分析の準備が整います。

これで接続が確立されました。OpenOffice Base 内でデータをシームレスにクエリおよび分析する準備ができました。

メタデータとテーブルを確認

データベースファイルが作成され、接続が確立されると、利用可能なすべてのSpark のデータオブジェクトがテーブル一覧に自動的に表示されます。

Spark のデータオブジェクト一覧を確認：左ペインで「Tables」をクリックして、OpenOffice Base 内で利用可能になったSpark のデータオブジェクトを表示します。
オブジェクトデータを表示：任意のオブジェクトをクリックして内容を表示します。Spark のデータデータは OpenOffice Base 内に直接表示され、レコードとフィールドを簡単に確認できます。