CData SSIS Components を使用して HubDB のデータを Databricks にマイグレーション

Cameron Leblanc
Technology Evangelist

CData SSIS Tasks for HubDB と Databricks を使用して、HubDB のデータを Databricks に簡単にプッシュできます。

Databricks は、大量のデータを簡単に処理、分析、可視化できる統合データ分析プラットフォームです。データエンジニアリング、データサイエンス、機械学習の機能を単一のプラットフォームに統合し、チームがコラボレーションしてデータからインサイトを得ることを容易にします。

CData SSIS Components は、SQL Server Integration Services を拡張し、さまざまなソースやデスティネーションからデータを簡単にインポート・エクスポートできるようにします。

この記事では、Databricks へのエクスポート時のデータ型マッピングの考慮事項を確認し、CData SSIS Components for HubDB と Databricks を使用してHubDB のデータを Databricks にマイグレーションする方法を説明します。

データ型マッピング

Databricks スキーマ	CData スキーマ
int, integer, int32	int
smallint, short, int16	smallint
double, float, real	float
date	date
datetime, timestamp	datetime
time, timespan	time
string, varchar	長さ > 4000 の場合：nvarchar(max)、それ以外：nvarchar(length)
long, int64, bigint	bigint
boolean, bool	tinyint
decimal, numeric	decimal
uuid	nvarchar(length)
binary, varbinary, longvarbinary	binary(1000) または SQL Server 2000 以降は varbinary(max)

特別な考慮事項

String/VARCHAR: Databricks の String カラムは、カラムの長さによって異なるデータ型にマッピングされます。カラムの長さが 4000 を超える場合、カラムは nvarchar(max) にマッピングされます。それ以外の場合は、nvarchar(length) にマッピングされます。
DECIMAL: Databricks は最大 38 桁の精度の DECIMAL 型をサポートしていますが、それを超えるソースカラムはロードエラーを引き起こす可能性があります。

前提条件

Visual Studio 2022
Visual Studio 2022 用 SQL Server Integration Services Projects 拡張機能
CData SSIS Components for Databricks
CData SSIS Components for HubDB

プロジェクトの作成とコンポーネントの追加

Visual Studio を開き、新しい Integration Services プロジェクトを作成します。
Control Flow 画面に新しい Data Flow Task を追加し、Data Flow Task を開きます。
Data Flow Task に CData HubDB Source コントロールと CData Databricks Destination コントロールを追加します。

HubDB ソースの設定

以下の手順に従って、HubDB への接続に必要なプロパティを指定します。

CData HubDB Source をダブルクリックしてソースコンポーネントエディタを開き、新しい接続を追加します。
CData HubDB Connection Manager で接続プロパティを設定し、接続をテストして保存します。
HubDBデータソースへの接続には、パブリックHubSpotアプリケーションを使用したOAuth認証とプライベートアプリケーショントークンを使用した認証の2つの方法があります。

カスタムOAuthアプリを使用する

すべてのOAuthフローでAuthSchemeを"OAuth"に設定する必要があります。特定の認証ニーズ（デスクトップアプリケーション、Webアプリケーション、ヘッドレスマシン）に必要な接続プロパティについては、ヘルプドキュメントを確認してください。

アプリケーションを登録し、OAuthクライアント認証情報を取得するには、以下の手順を実行してください。
1. HubSpotアプリ開発者アカウントにログインします。
  - アプリ開発者アカウントである必要があります。標準のHubSpotアカウントではパブリックアプリを作成できません。
2. 開発者アカウントのホームページで、アプリタブをクリックします。
3. アプリを作成をクリックします。
4. アプリ情報タブで、ユーザーが接続する際に表示される値を入力し、必要に応じて変更します。これらの値には、パブリックアプリケーション名、アプリケーションロゴ、アプリケーションの説明が含まれます。
5. 認証タブで、「リダイレクトURL」ボックスにコールバックURLを入力します。
  - デスクトップアプリケーションを作成する場合は、http://localhost:33333のようなローカルにアクセス可能なURLに設定します。
  - Webアプリケーションを作成する場合は、ユーザーがアプリケーションを承認した際にリダイレクトされる信頼できるURLに設定します。
6. アプリを作成をクリックします。HubSpotがアプリケーションとそれに関連する認証情報を生成します。
7. 認証タブで、クライアントIDとクライアントシークレットを確認します。これらは後でドライバーを設定する際に使用します。
8. スコープの下で、アプリケーションの意図する機能に必要なスコープを選択します。
  
  テーブルにアクセスするには、最低限以下のスコープが必要です：
  - hubdb
  - oauth
  - crm.objects.owners.read
9. 変更を保存をクリックします。
10. 統合に必要な機能にアクセスできる本番ポータルにアプリケーションをインストールします。
  - 「インストールURL（OAuth）」の下で、完全なURLをコピーをクリックして、アプリケーションのインストールURLをコピーします。
  - コピーしたリンクをブラウザで開きます。アプリケーションをインストールする標準アカウントを選択します。
  - アプリを接続をクリックします。結果のタブは閉じて構いません。
プライベートアプリを使用する

HubSpotプライベートアプリケーショントークンを使用して接続するには、AuthSchemeプロパティを"PrivateApp"に設定します。

以下の手順に従ってプライベートアプリケーショントークンを生成できます：
1. HubDBアカウントで、メインナビゲーションバーの設定アイコン（歯車）をクリックします。
2. 左サイドバーメニューで、統合 > プライベートアプリに移動します。
3. プライベートアプリを作成をクリックします。
4. 基本情報タブで、アプリケーションの詳細（名前、ロゴ、説明）を設定します。
5. スコープタブで、プライベートアプリケーションがアクセスできるようにしたい各スコープに対して読み取りまたは書き込みを選択します。
6. テーブルにアクセスするには、最低限hubdbとcrm.objects.owners.readが必要です。
7. アプリケーションの設定が完了したら、右上のアプリを作成をクリックします。
8. アプリケーションのアクセストークンに関する情報を確認し、作成を続行をクリックし、その後トークンを表示をクリックします。
9. コピーをクリックして、プライベートアプリケーショントークンをコピーします。
接続するには、PrivateAppTokenを取得したプライベートアプリケーショントークンに設定します。
接続を保存後、「Table or view」を選択し、Databricks にエクスポートするテーブルまたはビューを選択して、CData HubDB Source Editor を閉じます。

Databricks デスティネーションの設定

HubDB Source を設定したら、Databricks 接続を設定してカラムをマッピングします。

CData Databricks Destination をダブルクリックしてデスティネーションコンポーネントエディタを開き、新しい接続を追加します。
CData Databricks Connection Manager で接続プロパティを設定し、接続をテストして保存します。Databricks クラスターに接続するには、以下のようにプロパティを設定します。
注意：必要な値は、Databricks インスタンスで Clusters に移動し、目的のクラスターを選択して、Advanced Options の下にある JDBC/ODBC タブを選択することで確認できます。
- Server：Databricks クラスターの Server Hostname を設定します。
- HTTPPath：Databricks クラスターの HTTP Path を設定します。
- Token：個人用アクセストークンを設定します（この値は、Databricks インスタンスの User Settings ページに移動し、Access Tokens タブを選択することで取得できます）。
その他の便利な接続プロパティ
- QueryPassthrough: True に設定すると、クエリは Databricks に直接渡されます。
- ConvertDateTimetoGMT: True に設定すると、コンポーネントはローカルマシンの時刻ではなく、日時値を GMT に変換します。
- UseUploadApi: このプロパティを true に設定すると、Bulk INSERT 操作で大量のデータがある場合にパフォーマンスが向上します。
- UseCloudFetch: このオプションは、テーブルに 100 万件を超えるエントリがある場合にクエリ効率を向上させるために CloudFetch を使用するかどうかを指定します。
接続を保存後、Use a Table メニューでテーブルを選択し、Action メニューで Insert を選択します。
Column Mappings タブで、入力カラムからデスティネーションカラムへのマッピングを設定します。