CData SSIS Components を使用して SQL Server から Databricks レコードを新規挿入または既存を更新
SQL Server データベースは、エンタープライズレコードの保存に広く使用されています。このデータを他の場所に移動する必要がある場合がよくあります。CData SSIS Components for Databricks を使用すると、SQL Server から Databricks にデータを簡単に転送できます。
この記事では、CData SSIS Components for Databricks を SQL Server Integration Services ワークフロー内で使用して、SQL Server から Databricks にデータをエクスポートする方法を説明します。ルックアップコンポーネントを活用して、既存のレコードを検索・更新するか、新しいレコードを挿入します。
Databricks データ連携について
CData を使用すれば、Databricks のライブデータへのアクセスと統合がこれまでになく簡単になります。お客様は CData の接続機能を以下の目的で利用しています:
- Runtime バージョン 9.1 - 13.X から Pro および Classic Databricks SQL バージョンまで、すべてのバージョンの Databricks にアクセスできます。
- あらゆるホスティングソリューションとの互換性により、お好みの環境で Databricks を使用し続けることができます。
- パーソナルアクセストークン、Azure サービスプリンシパル、Azure AD など、さまざまな方法で安全に認証できます。
- Databricks ファイルシステム、Azure Blob ストレージ、AWS S3 ストレージを使用して Databricks にデータをアップロードできます。
多くのお客様が、さまざまなシステムから Databricks データレイクハウスにデータを移行するために CData のソリューションを使用していますが、ライブ接続ソリューションを使用して、データベースと Databricks 間の接続をフェデレートしているお客様も多数います。これらのお客様は、SQL Server リンクサーバーまたは Polybase を使用して、既存の RDBMS 内から Databricks へのライブアクセスを実現しています。
一般的な Databricks のユースケースと CData のソリューションがデータの問題解決にどのように役立つかについては、ブログをご覧ください:What is Databricks Used For? 6 Use Cases
はじめに
コンポーネントの追加
まず、新しい OLE DB ソース、CData Databricks ルックアップ、および 2 つの CData Databricks デスティネーション(ルックアップで一致した場合と一致しなかった場合をそれぞれ処理)を新しい Data Flow Task に追加します。
OLE DB ソースの設定
以下の手順に従って、SQL Server インスタンスへの接続に必要なプロパティを指定します。
- OLE DB Source を開き、新しい接続を追加します。ここでサーバーとデータベースの情報を入力します。
- Data access mode メニューで「Table or view」を選択し、Databricks にエクスポートするテーブルまたはビューを選択します。
- OLE DB Source ウィザードを閉じ、CData Databricks Destination に接続します。
Databricks 用の新しい Connection Manager を作成
以下の手順に従って、Connection Manager に接続プロパティを保存します。
- 新しい Connection Manager を作成します:Connection Manager ウィンドウで右クリックし、New Connection をクリックします。Add SSIS Connection Manager ダイアログが表示されます。
- Connection Manager type メニューで CData Databricks Connection Manager を選択します。
- 接続プロパティを設定します。通常、Databricks 接続には以下が必要です:
- User
- Password
- AccessToken
Databricks ルックアップの設定
ルックアップコンポーネントの Transform Editor で、SQL Server ソーステーブルから Databricks ルックアップテーブルへのマッピングを定義します。
- Databricks ルックアップをダブルクリックして、ルックアップコンポーネントエディタを開きます。
- Connection タブで、先ほど作成した Connection Manager を選択します。
- Connection タブで、Connection Manager を指定(または新規作成)し、データがアップサートされるテーブルを指定します。この例では、Account レコードを転送します。

- Columns タブで、入力カラムの主キーからルックアップカラムの主キーへのマッピングを設定します。

Databricks デスティネーションの設定
ルックアップコンポーネントを使用すると、データソースのどのエントリが Databricks に既に存在し、どのエントリが新規であるかがわかります。一致が見つかった場合と見つからなかった場合を処理する 2 つの Databricks コンポーネントを設定します。
ルックアップ一致デスティネーション
ルックアップコンポーネントが一致を返した場合、Databricks の既存レコードを更新します。
- Lookup Match Output を Databricks デスティネーションコンポーネントにマップします。
- Databricks デスティネーションをダブルクリックして、デスティネーションコンポーネントエディタを開きます。
- Connection Manager タブで、先ほど作成した Connection Manager を選択します。
- 更新するテーブルを指定し、Action を「Update」に設定します。

- Column Mappings タブで、入力カラムからデスティネーションカラムへのマッピングを設定します(SQL Server の主キーカラムを Databricks の主キーカラムにマップすることを忘れずに)。

ルックアップ不一致デスティネーション
ルックアップコンポーネントが一致を返さなかった場合、Databricks に新しいレコードを追加します。
- Lookup No Match Output を Databricks デスティネーションコンポーネントにマップします。
- Databricks デスティネーションをダブルクリックして、デスティネーションコンポーネントエディタを開きます。
- Connection Manager タブで、先ほど作成した Connection Manager を選択します。
- 新しいレコードを挿入するテーブルを指定し、Action を「Insert」に設定します。

- Column Mappings タブで、入力カラムからデスティネーションカラムへのマッピングを設定します。

プロジェクトの実行
これでプロジェクトを実行できます。 SSIS Task の実行が完了すると、SQL テーブルのデータが選択したテーブルにエクスポートされます。