PowerShell からDatabricks のデータに接続してデータの取得・更新・挿入・削除・CSV エクスポートを実行する方法

加藤龍彦
加藤龍彦
デジタルマーケティング
CData PowerShell Cmdlets を使って、Databricks のデータに接続、データの取得・更新・挿入・削除・CSV エクスポートを実行する方法を紹介します。

CData Cmdlets for Databricks を使えば、PowerShell からDatabricks に手軽に連携して、データのCRUD やエクスポートを実行できます。

本記事では、Databricks への接続方法からCSV エクスポート、データの操作までサンプルコード付きで解説していきます。

Databricks への接続を設定

それでは、まずはDatabricks への接続設定からはじめていきましょう。接続設定にはCData Databricks Cmdlets が必要となります。右側のサイドバーから製品の全機能が使える30日間の無償トライアルがダウンロードできるので、ぜひご利用ください。

インストールが完了したら、プロファイルに以下の行を追加してください。次のPowerShell セッションでモジュールがロードされます。

    Import-Module DatabricksCmdlets;

Connect-Databricks コマンドを使ってDatabricks との接続を設定します。各接続プロパティの取得方法は次に説明します。

    $conn = Connect-Databricks  -Server "$Server" -HTTPPath "$HTTPPath" -User "$User" -Token "$Token"

Databricks 接続プロパティの取得・設定方法

Databricks クラスターに接続するには、以下のプロパティを設定します。

  • Database:Databricks データベース名。
  • Server:Databricks クラスターのサーバーのホスト名
  • HTTPPath:Databricks クラスターのHTTP パス。
  • Token:個人用アクセストークン。この値は、Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。
Databricks インスタンスで必要な値は、クラスターに移動して目的のクラスターを選択し、Advanced Options の下にあるJDBC/ODBC タブを選択することで見つけることができます。

Databricks への認証

CData は、次の認証スキームをサポートしています。

  • 個人用アクセストークン
  • Microsoft Entra ID(Azure AD)
  • Azure サービスプリンシパル
  • OAuthU2M
  • OAuthM2M

個人用アクセストークン

認証するには、次を設定します。

  • AuthSchemePersonalAccessToken
  • Token:Databricks サーバーへの接続に使用するトークン。Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。

その他の認証方法については、ヘルプドキュメント の「はじめに」セクションを参照してください。

これで接続設定は完了です。

Databricks のデータを取得してCSV にパイプライン

接続が完了したので、Customers テーブルデータを取得して結果をCSV ファイルにエクスポートします。

Select-Databricks -Connection $conn -Table Customers | Select -Property * -ExcludeProperty Connection,Table,Columns | Export-Csv -Path c:\myCustomersData.csv -NoTypeInformation

このコードでは、Select-Databricks から取得した結果をSelect-Object に流して、Export-Csv に渡す前にいくつかのプロパティを除外しています。これは、CData Cmdlets が接続情報、テーブル、およびカラム情報を結果セットのそれぞれの行に挿入するためです。それらの情報を表示したくない場合に、Export-Csv コマンドに渡す前に除外を先に行い、そのあとでCSV ファイルにエクスポートします。

それでは、続いてデータの削除や挿入・更新を実行してみます。

データの削除

以下のように、フィルタリングで合致するレコードを削除することができます。

Select-Databricks -Connection $conn -Table Customers -Where "Country = US" | Remove-Databricks

データの挿入と更新

データの挿入や更新を使って、加工やクレンジングも行えます。以下の手順では、CSV ファイルのデータを読み込んで挿入対象のオブジェクトに同じレコードが存在するかを確認した上で、存在する場合にはデータを更新、存在しない場合にはデータの挿入を行います。

Import-Csv -Path C:\MyCustomersUpdates.csv | %{
  $record = Select-Databricks -Connection $Databricks -Table Customers -Where ("Id = `'"+$_.Id+"`'")
  if($record){
    Update-Databricks -Connection $databricks -Table Customers -Columns ("City","CompanyName") -Values ($_.City, $_.CompanyName) -Where ("Id = `'"+$_.Id+"`'")
  }else{
    Add-Databricks -Connection $databricks -Table Customers -Columns ("City","CompanyName") -Values ($_.City, $_.CompanyName)
  }
}

おわりに

このように、CData Cmdlets を使えばPowerShell でのDatabricks のデータへの連携をシンプルに実現できます。ぜひCData PowerShell Cmdlets の30日間無償トライアルをダウンロードして、シンプルかつパワフルなデータ連携をお試しください。

はじめる準備はできましたか?

Databricks Cmdlets の無料トライアルをダウンロードしてお試しください:

 ダウンロード

詳細:

Databricks Icon Databricks Data Cmdlets お問い合わせ

Databricks にリアルタイムアクセスできる簡単に使えるPowerShell Cmdlets セット。Cmdlets を使って、SQL サーバーと同じようにデータを簡単に読み出し、書き込みができます。