QuerySurge で Databricks のデータ を検証

Jerod Johnson
Jerod Johnson
Senior Technology Evangelist
CData JDBC Driver を使用して、QuerySurge からDatabricks のデータにアクセスし、データを検証します。

QuerySurge は、データの検証とテストを自動化するスマートなデータテストソリューションです。CData JDBC Driver for Databricks と組み合わせることで、QuerySurge からライブのDatabricks のデータを操作できます。この記事では、QuerySurge からDatabricks のデータに接続する方法を説明します。

CData JDBC Driver は最適化されたデータ処理機能を備えており、ライブのDatabricks のデータとのやり取りにおいて比類のないパフォーマンスを提供します。Databricks に複雑な SQL クエリを発行すると、ドライバーはフィルタや集計などのサポートされている SQL 操作を直接 Databricks にプッシュし、サポートされていない操作(主に SQL 関数や JOIN 操作)はクライアント側の組み込み SQL エンジンで処理します。また、ビルトインの動的メタデータクエリ機能により、ネイティブなデータ型を使用してDatabricks のデータを操作・分析できます。

Databricks データ連携について

CData を使用すれば、Databricks のライブデータへのアクセスと統合がこれまでになく簡単になります。お客様は CData の接続機能を以下の目的で利用しています:

  • Runtime バージョン 9.1 - 13.X から Pro および Classic Databricks SQL バージョンまで、すべてのバージョンの Databricks にアクセスできます。
  • あらゆるホスティングソリューションとの互換性により、お好みの環境で Databricks を使用し続けることができます。
  • パーソナルアクセストークン、Azure サービスプリンシパル、Azure AD など、さまざまな方法で安全に認証できます。
  • Databricks ファイルシステム、Azure Blob ストレージ、AWS S3 ストレージを使用して Databricks にデータをアップロードできます。

多くのお客様が、さまざまなシステムから Databricks データレイクハウスにデータを移行するために CData のソリューションを使用していますが、ライブ接続ソリューションを使用して、データベースと Databricks 間の接続をフェデレートしているお客様も多数います。これらのお客様は、SQL Server リンクサーバーまたは Polybase を使用して、既存の RDBMS 内から Databricks へのライブアクセスを実現しています。

一般的な Databricks のユースケースと CData のソリューションがデータの問題解決にどのように役立つかについては、ブログをご覧ください:What is Databricks Used For? 6 Use Cases


はじめに


QuerySurge から Databricks のデータ に接続

QuerySurge からライブのDatabricks のデータに接続するには、JDBC Driver の JAR ファイルを QuerySurge Agent にデプロイし、QuerySurge の Admin ビューから新しい接続を追加する必要があります。

JDBC Driver をデプロイ

  1. CData JDBC Driver for Databricks のインストーラをダウンロードし、パッケージを解凍して JAR ファイルを実行し、ドライバーをインストールします。
  2. ドライバーのインストールが完了したら、Agent Service を停止します。
  3. インストール先(通常は C:\Program Files\CData\CData JDBC Driver for Databricks\lib\)から JAR ファイル(ライセンスファイルがある場合はそれも)を Agent(QuerySurge_install_dir\agent\jdbc)にコピーします。
  4. Agent Service を再起動します。

QuerySurge への JDBC ドライバーのデプロイについての詳細は、QuerySurge ナレッジベースをご参照ください。

Databricks への新しい接続を設定

  1. QuerySurge にログインし、Admin ビューに移動します。
  2. Administration Tree で Configuration -> Connections をクリックします。
  3. Add をクリックして新しい接続を作成します。
  4. QuerySurge Connection Wizard で Next をクリックします。
  5. 接続の名前を入力します(例:CData JDBC Connection to Databricks)。
  6. Data Source を「All Other JDBC Connections (Connection Extensibility)」に設定し、Next をクリックします。
  7. Driver Class を cdata.jdbc.databricks.DatabricksDriver に設定し、Next をクリックします。
  8. Databricks への認証に必要な接続プロパティを使用して Connection URL を設定します。Connection URL は以下のような形式になります:

    jdbc:databricks:Server=127.0.0.1;HTTPPath=MyHTTPPath;User=MyUser;Token=MyToken;

    ビルトイン接続文字列デザイナ

    JDBC URL の構成については、Databricks JDBC Driver に組み込まれている接続文字列デザイナを使用できます。JAR ファイルをダブルクリックするか、コマンドラインから JAR ファイルを実行してください。

    java -jar cdata.jdbc.databricks.jar
    	

    接続プロパティを入力し、接続文字列をクリップボードにコピーします。

    Databricks 接続プロパティの取得・設定方法

    Databricks クラスターに接続するには、以下のプロパティを設定します。

    • Database:Databricks データベース名。
    • Server:Databricks クラスターのサーバーのホスト名
    • HTTPPath:Databricks クラスターのHTTP パス。
    • Token:個人用アクセストークン。この値は、Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。
    Databricks インスタンスで必要な値は、クラスターに移動して目的のクラスターを選択し、Advanced Options の下にあるJDBC/ODBC タブを選択することで見つけることができます。

    Databricks への認証

    CData は、次の認証スキームをサポートしています。

    • 個人用アクセストークン
    • Microsoft Entra ID(Azure AD)
    • Azure サービスプリンシパル
    • OAuthU2M
    • OAuthM2M

    個人用アクセストークン

    認証するには、次を設定します。

    • AuthSchemePersonalAccessToken
    • Token:Databricks サーバーへの接続に使用するトークン。Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。

    その他の認証方法については、ヘルプドキュメント の「はじめに」セクションを参照してください。

  9. 接続の Test Connection ボタンを有効にするため、Test Query を設定し(例:SELECT * FROM Customers LIMIT 1)、Next をクリックします。
  10. Test Connection をクリックして接続が正しく設定されていることを確認し、Save をクリックして接続を追加します。

接続を追加したら、QuerySurge でDatabricks のデータに対して SQL クエリを実行できます。

QueryPair で Databricks のデータ クエリを比較

接続を設定したら、以下の手順に従って QueryPair でDatabricks のデータのクエリを比較できます。

  1. Design メニューから「Design Library」を選択します
  2. QuerySurge Design の下の QueryPairs をクリックします
  3. 「Create New QueryPair」をクリックします
  4. QueryPair に名前を付けて Save をクリックします
  5. Source または Target ペインで、上記で作成した接続を選択します(Databricks を2回クエリする場合は同じ接続を選択するか、比較を実行する場合は別の接続を選択します)
  6. 各ペインの Editor にクエリを入力します(例:SELECT * FROM Customers
  7. 「Design-Time Run」タブをクリックしてクエリを実行します
  8. クエリの実行が完了したら、「View Query Results」をクリックしてクエリから返されたDatabricks のデータを確認します

30 日間の無償トライアルをダウンロードして、QuerySurge でライブのDatabricks のデータを活用してみてください。ご不明な点がございましたら、サポートチームまでお問い合わせください。

はじめる準備はできましたか?

Databricks Driver の無料トライアルをダウンロードしてお試しください:

 ダウンロード

詳細:

Databricks Icon Databricks JDBC Driver お問い合わせ

Databricks 連携のパワフルなJava アプリケーションを素早く作成して配布。