PowerBI.com でDatabricks Dataflows を作成

Jerod Johnson
Jerod Johnson
Senior Technology Evangelist
CData Power BI Connector を PowerBI.com から接続し、リアルタイムデータで Power BI Dataflows を作成。

CData Power BI Connector for Databricks は、Power BI のツールやウィザードとシームレスに統合し、PowerBI.com 上のリアルタイムデータワークフローにも対応しています。以下の手順に従って、PowerBI.com の DataFlows にデータを直接取り込み、Power BI Gateway を使用して自動更新を設定しましょう。

Databricks データ連携について

CData を使用すれば、Databricks のライブデータへのアクセスと統合がこれまでになく簡単になります。お客様は CData の接続機能を以下の目的で利用しています:

  • Runtime バージョン 9.1 - 13.X から Pro および Classic Databricks SQL バージョンまで、すべてのバージョンの Databricks にアクセスできます。
  • あらゆるホスティングソリューションとの互換性により、お好みの環境で Databricks を使用し続けることができます。
  • パーソナルアクセストークン、Azure サービスプリンシパル、Azure AD など、さまざまな方法で安全に認証できます。
  • Databricks ファイルシステム、Azure Blob ストレージ、AWS S3 ストレージを使用して Databricks にデータをアップロードできます。

多くのお客様が、さまざまなシステムから Databricks データレイクハウスにデータを移行するために CData のソリューションを使用していますが、ライブ接続ソリューションを使用して、データベースと Databricks 間の接続をフェデレートしているお客様も多数います。これらのお客様は、SQL Server リンクサーバーまたは Polybase を使用して、既存の RDBMS 内から Databricks へのライブアクセスを実現しています。

一般的な Databricks のユースケースと CData のソリューションがデータの問題解決にどのように役立つかについては、ブログをご覧ください:What is Databricks Used For? 6 Use Cases


はじめに


DSN の作成

Power BI Connector をインストールすると、CData Power BI Databricks という名前の DSN(データソース名)が作成されます。これは、Power BI がデータソースへの接続を要求する際に使用する DSN 名です。必要な接続プロパティを入力して DSN を設定します。

Microsoft ODBC データソースアドミニストレーターを使用して、新しい DSN を作成するか、既存の DSN を設定(および名前変更)できます。スタートメニューから「ODBC データソース」と入力します。Power BI Desktop のインストールに対応するビット数(32 ビットまたは 64 ビット)の ODBC アドミニストレーターを実行してください。

Databricks 接続プロパティの取得・設定方法

Databricks クラスターに接続するには、以下のプロパティを設定します。

  • Database:Databricks データベース名。
  • Server:Databricks クラスターのサーバーのホスト名
  • HTTPPath:Databricks クラスターのHTTP パス。
  • Token:個人用アクセストークン。この値は、Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。
Databricks インスタンスで必要な値は、クラスターに移動して目的のクラスターを選択し、Advanced Options の下にあるJDBC/ODBC タブを選択することで見つけることができます。

Databricks への認証

CData は、次の認証スキームをサポートしています。

  • 個人用アクセストークン
  • Microsoft Entra ID(Azure AD)
  • Azure サービスプリンシパル
  • OAuthU2M
  • OAuthM2M

個人用アクセストークン

認証するには、次を設定します。

  • AuthSchemePersonalAccessToken
  • Token:Databricks サーバーへの接続に使用するトークン。Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。

その他の認証方法については、ヘルプドキュメント の「はじめに」セクションを参照してください。

Databricks データを Dataflow に直接取り込む

データソースの設定が完了したら、以下の手順に従って Databricks テーブルから DataFlow にデータを読み込みます。

Power BI Gateway の設定

以下の手順に従って、お使いのマシンでゲートウェイを設定します:

  1. CData Power BI Connector インストーラーを実行します。まだダウンロードしていない場合は、Power BI Gateway をダウンロードしてください。
  2. オンプレミスデータゲートウェイ(推奨)オプションを選択します。
  3. ゲートウェイにサインインします。
  4. ゲートウェイに名前を付け、回復キーを指定します。
  5. Connectors ステップで、ゲートウェイが CData Power BI Connector を検索するフォルダを選択します。この記事では C:\Users\PBIEgwService\Documents\Power BI Desktop\Custom Connectors\ を使用します。CData Connector の .pqx ファイル(C:\Users\USERNAME\Documents\Power BI Desktop\Custom Connectors\ にあります)を設定したフォルダにコピーします。

    注意:サービス用に設定されたアカウント(NT SERVICE\PBIEgwService)が、ゲートウェイ用に選択したフォルダにアクセスできる必要があります。必要に応じて、ゲートウェイインストーラーの Service Settings セクションでサービスアカウントを変更できます。

  6. Connectors セクションのリストに CData.PowerBI.Databricks エントリが表示されていることを確認します。

Power BI Online で Dataflow を設定する

  1. Power BI Online で、まだお持ちでない場合は新しいワークスペース(アプリとも呼ばれます)を作成します。これは Power BI Pro 以上でのみ利用可能です。
  2. オンプレミスゲートウェイを設定します。手順はこの記事の「ゲートウェイの設定」セクションに記載されています。
  3. Power BI Online に戻ります。設定で「ゲートウェイの管理」に移動し、ゲートウェイに新しいデータソースを追加します
    • Data Source Name(Power BI Online 内でデータソースを参照する名前)を入力します
    • Data Source Type(例:CData Power BI Connector for Databricks)を選択し、Data Source Name(例:CData Power BI Databricks)を設定します
    • Authentication Method を「Anonymous」に設定します
    • 必要に応じて Privacy Level を設定します
  4. Add をクリックして設定を完了します(接続が成功したかどうかを確認することが重要なため、テスト接続をスキップしないでください)。

    このデータソースにアクセスできるユーザーを管理する場合は、Users タブに移動できます。

Dataflow を設定してDatabricks データを取得する

  1. 新しいワークスペースで、Create > Dataflow > Add New Entities に移動します。
  2. ODBC データソースを選択し、正しい接続プロパティを入力します。
    ODBC connection string セクションに DSN 名を入力します:dsn=CData Power BI Databricks。ゲートウェイを選択し、認証タイプを Anonymous に設定します。
  3. 使用するテーブルを選択し、Transform data をクリックします。
    クエリを変更する場合は、クエリを右クリックして Advanced Editor をクリックします。

PowerBI.com でデータ更新を設定

Dataflow を更新して、最新のデータを取得します。

  • 手動で更新するには、ワークスペース -> Dataflows から Dataflow のオプションメニューを開き、Refresh Now をクリックします。
  • スケジュール更新を設定するには、ワークスペース -> Dataflows から Dataflow のオプションメニューを開き、Schedule Refresh をクリックします。 データを最新の状態に保つオプションを有効にし、メニューで更新頻度を指定します。

これで、リアルタイムのDatabricks のデータ上に構築された Dataflow が完成しました。Databricks 用 CData Power BI Connector の詳細については、CData Power BI Connector for Databricks ページで無料トライアルをダウンロードしてご確認ください。ご質問がある場合は、サポートチームまでお問い合わせください。

はじめる準備はできましたか?

Databricks Power BI Connector の無料トライアルをダウンロードしてお試しください:

 ダウンロード

詳細:

Databricks Icon Databricks Power BI Connector お問い合わせ

高速かつ簡単に、Power BI からDatabricks データに接続。包括的な高機能データアクセス、リアルタイム連携、メタデータ自動検出、SQL-92 のパワフルなサポートを提供します。