DBeaver でDatabricks のデータに接続
NOTE: DBeaver Community Edition 23.1 以降では、レガシーODBC ドライバーが廃止されています。代わりに CData JDBC Driver を使用できます(詳細はJDBC 経由で DBeaver からDatabricks に接続する方法をご参照ください)。ODBC ドライバーを使用する必要がある場合は、DBeaver のドキュメントをご確認ください。
CData ODBC Driver for Databricks は、ODBC 標準経由でDatabricks のリアルタイムデータにアクセスし、使い慣れた SQL クエリで各種 BI、レポート、ETL ツールからDatabricks のデータを利用可能にします。この記事では、DBeaver のクエリブラウザなどのビジュアルツールを使ってDatabricks のデータを操作する方法を解説します。
CData ODBC ドライバーは、ドライバーに組み込まれた最適化されたデータ処理により、DBeaver でのリアルタイムDatabricks データ操作において卓越したパフォーマンスを実現します。DBeaver からDatabricks に複雑な SQL クエリを発行すると、ドライバーはフィルタや集計などのサポートされた SQL 操作を直接Databricks にプッシュし、サポートされていない操作(多くの場合 SQL 関数や JOIN 操作)は組み込みの SQL エンジンを使用してクライアント側で処理します。また、動的メタデータクエリ機能を内蔵しているため、Databricks のデータを効率的に管理・分析できます。
Databricks データ連携について
CData を使用すれば、Databricks のライブデータへのアクセスと統合がこれまでになく簡単になります。お客様は CData の接続機能を以下の目的で利用しています:
- Runtime バージョン 9.1 - 13.X から Pro および Classic Databricks SQL バージョンまで、すべてのバージョンの Databricks にアクセスできます。
- あらゆるホスティングソリューションとの互換性により、お好みの環境で Databricks を使用し続けることができます。
- パーソナルアクセストークン、Azure サービスプリンシパル、Azure AD など、さまざまな方法で安全に認証できます。
- Databricks ファイルシステム、Azure Blob ストレージ、AWS S3 ストレージを使用して Databricks にデータをアップロードできます。
多くのお客様が、さまざまなシステムから Databricks データレイクハウスにデータを移行するために CData のソリューションを使用していますが、ライブ接続ソリューションを使用して、データベースと Databricks 間の接続をフェデレートしているお客様も多数います。これらのお客様は、SQL Server リンクサーバーまたは Polybase を使用して、既存の RDBMS 内から Databricks へのライブアクセスを実現しています。
一般的な Databricks のユースケースと CData のソリューションがデータの問題解決にどのように役立つかについては、ブログをご覧ください:What is Databricks Used For? 6 Use Cases
はじめに
Databricks への接続設定
まだ設定していない場合は、データソース名(DSN)で必要な接続プロパティを指定します。DSN の設定は Microsoft ODBC データソースアドミニストレーターを使用して行えます。これはドライバーインストールの最終ステップでもあります。Microsoft ODBC データソースアドミニストレーターを使用して DSN を作成・設定する方法については、ヘルプドキュメントの「はじめに」の章をご参照ください。
Databricks 接続プロパティの取得・設定方法
Databricks クラスターに接続するには、以下のプロパティを設定します。
- Database:Databricks データベース名。
- Server:Databricks クラスターのサーバーのホスト名。
- HTTPPath:Databricks クラスターのHTTP パス。
- Token:個人用アクセストークン。この値は、Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。
Databricks への認証
CData は、次の認証スキームをサポートしています。
- 個人用アクセストークン
- Microsoft Entra ID(Azure AD)
- Azure サービスプリンシパル
- OAuthU2M
- OAuthM2M
個人用アクセストークン
認証するには、次を設定します。
- AuthScheme:PersonalAccessToken。
- Token:Databricks サーバーへの接続に使用するトークン。Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。
その他の認証方法については、ヘルプドキュメント の「はじめに」セクションを参照してください。
最後に、ドライバーの DSN 設定画面で「Map To WVarchar」接続プロパティを False に設定します。この設定により、文字列型が SQL_VARCHAR にマッピングされ、SQL_WVARCHAR 型が NULL として表示されるのを防ぐことができます。
DBeaver でDatabricks ODBC データソースに接続
- DBeaver アプリケーションを開き、Database メニューから New Database Connection オプションを選択します。
- 「Connect to a database」ウィンドウで ODBC を選択し、Next をクリックします。
- Database/Schema フィールドに DSN 名(デフォルトでは CData Databricks Source)を入力します。この名前は JDBC URL にも自動的に追加されます。
- Test Connection ボタンをクリックします。DBeaver が DSN を検出すると「Connected」メッセージが表示され、接続が成功した場合はドライバーの詳細情報も表示されます。
Databricks のデータをクエリ
これで、データソース接続から公開されているテーブルの情報をクエリできるようになりました。データベース構造を展開して、すべてのテーブルを表示できます。テーブル名を右クリックして View data を選択すると、そのテーブルのデータを取得できます。データは Data タブに表示されます。
無償トライアルと詳細情報
これで DBeaver からリアルタイムのDatabricks データに接続できました。詳細については、CData ODBC Driver のページをご覧ください。30日間の無償トライアルをダウンロードして、今すぐ DBeaver でDatabricks のリアルタイムデータを活用してみましょう。