Dremio でSpark のデータに外部ソースとして接続

Jerod Johnson
Senior Technology Evangelist

CData JDBC Driver を使用して、Dremio でSpark に外部ソースとして接続します。

CData JDBC Driver for Apache Spark はJDBC 標準を実装しており、Dremio を含むさまざまなアプリケーションでリアルタイムのSpark のデータを扱えるようにします。Dremio は、データレイク上でのセルフサービス型インタラクティブ分析を実現するために設計されたデータレイクハウスプラットフォームです。CData JDBC ドライバーを使用することで、エンタープライズデータレイクの一部としてリアルタイムSpark のデータを活用できます。この記事では、Dremio でSpark のデータに外部ソースとして接続する方法について説明します。

CData JDBC Driver を使用すると、Dremio でリアルタイムSpark のデータへの高速アクセスが可能になります。ドライバーをインストールしてSpark で認証すれば、データレイク内でSpark のデータにすぐにアクセスできます。ネイティブのデータ型を使用してSpark のデータを表示し、複雑なフィルタ、集計、その他の操作を自動的に処理することで、CData JDBC Driver はSpark のデータへのシームレスなアクセスを提供します。

前提条件

この記事では、Docker を使用して Dremio を実行することを想定しています。以下のようなコマンドで Dremio サービスを含む Docker コンテナを作成できます。

docker run -d --name dremio -p 9047:9047 -p 31010:31010 dremio/dremio-oss

ここで、dremio はコンテナの名前、9047 は Dremio Web インターフェース用のコンテナポート、31010 は Dremio クエリサービスにマッピングされるポートです。dremio/dremio-oss は使用するイメージを指定します。

ARP コネクタのビルド

CData JDBC Driver を Dremio で使用するには、Advanced Relation Pushdown（ARP）コネクタをビルドする必要があります。GitHub でソースコードを確認するか、ZIP ファイル（GitHub.com）を直接ダウンロードできます。ファイルをコピーまたは展開したら、コネクタのルートディレクトリ（pom.xml ファイルがあるディレクトリ）から以下のコマンドを実行してコネクタをビルドします。

mvn clean install

NOTE：CData ARP コネクタは Java 11 でコンパイルするようにビルドされています。Java 11 をインストールし、正しいバージョンを使用していることを確認してください。以下のようなコマンドで Java バージョンを更新できます。

sudo update-alternatives --config java

コネクタ用の JAR ファイルが（target ディレクトリに）ビルドされたら、ARP コネクタと JDBC Driver を Dremio インスタンスにコピーする準備が整いました。

コネクタと JDBC Driver のインストール

ARP コネクタを %DREMIO_HOME%/jars/ に、Spark 用の JDBC Driver を %DREMIO_HOME%/jars/3rdparty にインストールします。以下のようなコマンドを使用できます。

ARP コネクタ

docker cp PATH\TO\dremio-sparksql-plugin-{DREMIO_VERSION}.jar dremio_image_name:/opt/dremio/jars/

Spark 用 JDBC Driver

docker cp PATH\TO\cdata.jdbc.sparksql.jar dremio_image_name:/opt/dremio/jars/3rdparty/

Spark への接続

これで、Dremio の外部ソースオプションに Spark が表示されるようになりました。ビルドした ARP コネクタは、JDBC URL を使用してSpark のデータに接続します。JDBC Driver には、接続文字列を作成できるビルトインの接続文字列デザイナーがあります（以下を参照）。

CData JDBC Driver 経由の外部ソース（Amazon DynamoDB と Couchbase を表示）

ビルトイン接続文字列デザイナー

JDBC URL の構成については、Spark JDBC Driver に組み込まれている接続文字列デザイナーを使用してください。JAR ファイルをダブルクリックするか、コマンドラインから JAR ファイルを実行します。

java -jar cdata.jdbc.sparksql.jar

接続プロパティを入力し、接続文字列をクリップボードにコピーします。

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

Server：SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
Port：SparkSQL インスタンスへの接続用のポートに設定。
TransportMode：SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
AuthScheme：使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note：必要な値は、「クラスター」に移動して目的のクラスターを選択し、「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

Server：Databricks クラスターのサーバーのホスト名に設定。
Port：443
TransportMode：HTTP
HTTPPath：Databricks クラスターのHTTP パスに設定。
UseSSL：True
AuthScheme：PLAIN
User：'token' に設定。
Password：パーソナルアクセストークンに設定（値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます）。

ビルトイン接続文字列デザイナーを使用して JDBC URL を生成（Salesforce の例）

NOTE：Dremio で JDBC Driver を使用するには、ライセンス（正式版または評価版）とランタイムキー（RTK）が必要です。このライセンス（または評価版）の取得については、営業チームにお問い合わせください。

ランタイムキー（RTK）を JDBC URL に追加します。最終的に、以下のような JDBC URL になります。

jdbc:sparksql:RTK=5246...;Server=127.0.0.1;

Spark に外部ソースとしてアクセス

Spark を外部ソースとして追加するには、新しいソースを追加するためにクリックし、SparkSQL を選択します。JDBC URL をコピーして、New SparkSQL Source ウィザードに貼り付けます。

接続を保存すれば、Dremio でリアルタイムSpark のデータをクエリする準備が整い、Spark のデータをデータレイクに簡単に取り込むことができます。

詳細情報と無償トライアル

Dremio で CData JDBC Driver for Apache Spark を使用すると、リアルタイムSpark のデータをデータレイクに取り込むことができます。Spark への接続の詳細については、CData JDBC Driver for Apache Spark ページをご覧ください。CData JDBC Driver for Apache Spark の30日間無償トライアルをダウンロードして、今すぐ始めましょう。

はじめる準備はできましたか？

Apache Spark Driver の無料トライアルをダウンロードしてお試しください：

ダウンロード

詳細：

Apache Spark JDBC Driver お問い合わせ

Apache Spark 連携のパワフルなJava アプリケーションを素早く作成して配布。