Databricks のデータの PostgreSQL インターフェースを作成（MySQL リモーティング経由の JDBC）

Jerod Johnson
Senior Technology Evangelist

Databricks JDBC Driver のリモート機能を使用して、データアクセス用の PostgreSQL エントリポイントを作成します。

PostgreSQL には多くの対応クライアントがあります。標準のドライバーから BI、アナリティクスツールまで、PostgreSQL はデータ接続の人気のインターフェースです。JDBC ドライバーのリモーティング機能を使用することで、任意の標準クライアントから接続できる PostgreSQL エントリポイントを簡単に作成できます。

Databricks のデータに PostgreSQL データベースとしてアクセスするには、CData JDBC Driver for Databricks のリモーティング機能と、EnterpriseDB の MySQL Foreign Data Wrapper（FDW）を使用します。この記事では、FDW をインストールし、PostgreSQL Server からDatabricks のデータにクエリを実行する方法を説明します。

Databricks データ連携について

CData を使用すれば、Databricks のライブデータへのアクセスと統合がこれまでになく簡単になります。お客様は CData の接続機能を以下の目的で利用しています：

Runtime バージョン 9.1 - 13.X から Pro および Classic Databricks SQL バージョンまで、すべてのバージョンの Databricks にアクセスできます。
あらゆるホスティングソリューションとの互換性により、お好みの環境で Databricks を使用し続けることができます。
パーソナルアクセストークン、Azure サービスプリンシパル、Azure AD など、さまざまな方法で安全に認証できます。
Databricks ファイルシステム、Azure Blob ストレージ、AWS S3 ストレージを使用して Databricks にデータをアップロードできます。

多くのお客様が、さまざまなシステムから Databricks データレイクハウスにデータを移行するために CData のソリューションを使用していますが、ライブ接続ソリューションを使用して、データベースと Databricks 間の接続をフェデレートしているお客様も多数います。これらのお客様は、SQL Server リンクサーバーまたは Polybase を使用して、既存の RDBMS 内から Databricks へのライブアクセスを実現しています。

一般的な Databricks のユースケースと CData のソリューションがデータの問題解決にどのように役立つかについては、ブログをご覧ください：What is Databricks Used For? 6 Use Cases

はじめに

Databricks への接続を設定

以下の手順に従って、Databricks への接続に必要な認証情報やその他の接続プロパティをドライバーの MySQL デーモンに設定します。MySQL デーモンは、Databricks のデータを CDataDatabricks という名前の MySQL データベースとして公開します。デーモンの設定ファイル内の databases セクションに接続プロパティを追加します。設定ファイルは、ドライバーのインストールディレクトリの lib サブフォルダにあります。

以下は一般的な接続文字列です：


[databases]
databricks = "Server=127.0.0.1;HTTPPath=MyHTTPPath;User=MyUser;Token=MyToken;"

また、users セクションにユーザーを作成します。

MySQL デーモンのすべての設定オプションについては、ヘルプドキュメントをご参照ください。

リモーティングサービスを開始

以下の手順に従って、CData JDBC Driver for Databricks の MySQL リモーティング機能を有効にします。

ドライバーはテスト用に適したデフォルト設定を作成します。サービスを開始するだけでDatabricks のデータに接続できます。
以下のコマンドで MySQL リモーティングサービスを開始します：
```
java -jar cdata.jdbc.databricks.jar -f cdata.jdbc.databricks.remoting.ini
```

MySQL Foreign Data Wrapper をビルドしてインストール

Foreign Data Wrapper は、PostgreSQL を再コンパイルせずに、PostgreSQL の拡張機能としてインストールできます。

お使いの OS で pgxn が利用可能な場合は、以下のコマンドでインストールできます：

pgxn install mysql_fdw USE_PGXS=1

利用できない場合は、以下の手順で自分でビルドしてください：

MySQL C クライアントライブラリをインストールし、EnterpriseDB の MySQL 用 FDW のソースを取得します（例：GitHub から）。
FDW をビルドします。pg_config と mysql_config の実行ファイルを PATH に追加してください：
```
env PATH=/usr/local/pgsql/bin:/usr/local/mysql/bin:$PATH make USE_PGXS=1
```
FDW をインストールします：
```
make USE_PGXS=1 install
```

インストールを完了するには、libmysqlclient ライブラリを環境にロードする必要があります（例：パスに追加するなど）。

Databricks のデータを PostgreSQL データベースとしてクエリ

拡張機能をインストールした後、以下の手順に従ってDatabricks のデータへのクエリ実行を開始します：

データベースにログインします。
データベースの拡張機能をロードします：
```
postgres=#CREATE EXTENSION mysql_fdw;
```

Databricks のデータ用のサーバーオブジェクトを作成します：

postgres=# CREATE SERVER Databricks FOREIGN DATA WRAPPER mysql_fdw OPTIONS (host
'127.0.0.1', port '3309');

MySQL デーモンに認識されているユーザーのユーザー名とパスワードでユーザーマッピングを作成します：
```
postgres=# CREATE USER MAPPING for postgres SERVER Databricks OPTIONS (username
'admin', password 'test');
```
ローカルスキーマを作成します：
```
postgres=# CREATE SCHEMA Databricks_db;
```
デーモン設定ファイルで定義した Databricks データベース内のすべてのテーブルをインポートします：
```
postgres=# IMPORT FOREIGN SCHEMA "Databricks" FROM SERVER Databricks INTO Databricks_db;
```

これで Databricks に対して読み取り/書き込みコマンドを実行できます：

postgres=# SELECT * FROM Databricks_db."customers";

はじめる準備はできましたか？

Databricks Driver の無料トライアルをダウンロードしてお試しください：

ダウンロード

詳細：

Databricks JDBC Driver お問い合わせ

Databricks 連携のパワフルなJava アプリケーションを素早く作成して配布。

Databricks のデータの PostgreSQL インターフェースを作成（MySQL リモーティング経由の JDBC）

Databricks データ連携について

はじめに

Databricks への接続を設定

リモーティングサービスを開始

MySQL Foreign Data Wrapper をビルドしてインストール

Databricks のデータを PostgreSQL データベースとしてクエリ

はじめる準備はできましたか？

この記事の内容

関連記事

Databricks のデータ の PostgreSQL インターフェースを作成（MySQL リモーティング経由の JDBC）

Databricks データ連携について

はじめに

Databricks への接続を設定

リモーティングサービスを開始

MySQL Foreign Data Wrapper をビルドしてインストール

Databricks のデータ を PostgreSQL データベースとしてクエリ

はじめる準備はできましたか？

この記事の内容

関連記事

Databricks のデータの PostgreSQL インターフェースを作成（MySQL リモーティング経由の JDBC）

Databricks のデータを PostgreSQL データベースとしてクエリ