CData SSIS Components を使用して DB2 のデータを Databricks にマイグレーション

Cameron Leblanc
Cameron Leblanc
Technology Evangelist
CData SSIS Tasks for DB2 と Databricks を使用して、DB2 のデータを Databricks に簡単にプッシュできます。

Databricks は、大量のデータを簡単に処理、分析、可視化できる統合データ分析プラットフォームです。データエンジニアリング、データサイエンス、機械学習の機能を単一のプラットフォームに統合し、チームがコラボレーションしてデータからインサイトを得ることを容易にします。

CData SSIS Components は、SQL Server Integration Services を拡張し、さまざまなソースやデスティネーションからデータを簡単にインポート・エクスポートできるようにします。

この記事では、Databricks へのエクスポート時のデータ型マッピングの考慮事項を確認し、CData SSIS Components for DB2 と Databricks を使用してDB2 のデータを Databricks にマイグレーションする方法を説明します。

データ型マッピング

Databricks スキーマ CData スキーマ

int, integer, int32

int

smallint, short, int16

smallint

double, float, real

float

date

date

datetime, timestamp

datetime

time, timespan

time

string, varchar

長さ > 4000 の場合:nvarchar(max)、それ以外:nvarchar(length)

long, int64, bigint

bigint

boolean, bool

tinyint

decimal, numeric

decimal

uuid

nvarchar(length)

binary, varbinary, longvarbinary

binary(1000) または SQL Server 2000 以降は varbinary(max)


特別な考慮事項

  • String/VARCHAR: Databricks の String カラムは、カラムの長さによって異なるデータ型にマッピングされます。カラムの長さが 4000 を超える場合、カラムは nvarchar(max) にマッピングされます。それ以外の場合は、nvarchar(length) にマッピングされます。
  • DECIMAL: Databricks は最大 38 桁の精度の DECIMAL 型をサポートしていますが、それを超えるソースカラムはロードエラーを引き起こす可能性があります。

前提条件

プロジェクトの作成とコンポーネントの追加

  1. Visual Studio を開き、新しい Integration Services プロジェクトを作成します。
  2. Control Flow 画面に新しい Data Flow Task を追加し、Data Flow Task を開きます。
  3. Data Flow Task に CData DB2 Source コントロールと CData Databricks Destination コントロールを追加します。

DB2 ソースの設定

以下の手順に従って、DB2 への接続に必要なプロパティを指定します。

  1. CData DB2 Source をダブルクリックしてソースコンポーネントエディタを開き、新しい接続を追加します。
  2. CData DB2 Connection Manager で接続プロパティを設定し、接続をテストして保存します。

    DB2 に接続するには以下のプロパティを設定します。

    • Server: DB2 を実行するサーバー名。
    • Port: DB2 サーバーのポート。
    • Database: DB2 データベース名。

    接続の準備ができたら、認証スキームを選択し、以下で説明するように適切なプロパティを設定します。

    CData 製品 は、DB2 への認証に4つの異なるスキームをサポートします。DB2 ユーザー資格情報(デフォルト)、暗号化されたユーザー資格情報、IBM Identity and Access Management(IAM)認証、および Kerberos です。

    DB2 ユーザー資格情報

    ユーザー資格情報を使用して認証するには、次のプロパティを設定します。
    • AuthSchemeUSRIDPWD
    • User:データベースへのアクセス権を持つユーザーのユーザー名。
    • Password:データベースへのアクセス権を持つユーザーのパスワード。

    暗号化されたユーザー資格情報

    サーバーがセキュア認証に対応しており、暗号化されたユーザー資格情報を使用して認証を行いたい場合は、このプロパティを設定します。
    • AuthSchemeEUSRIDPWD

    IAM、Kerberos で認証したい場合は、ヘルプドキュメントの「はじめに」セクションを参照してください。

    パスワード方式によるSSH 接続

    パスワード方式によるSSH接続時に必要なプロパティ一覧を以下に示します。

    • User: DB2 のユーザ
    • Password: DB2 のパスワード
    • Database: DB2 の接続先データベース
    • Server: DB2 のサーバー
    • Port: DB2 のポート
    • UserSSH: "true"
    • SSHAuthMode: "Password"
    • SSHPort: SSH のポート
    • SSHServer: SSH サーバー
    • SSHUser: SSH ユーザー
    • SSHPassword: SSH パスワード

    接続文字列形式では以下のようになります。

    Server=10.0.1.2;Port=50000;User=admin;Password=admin;Database=testUseSSH=true;SSHAuthMode=Password;SSHPort=22;SSHServer=ssh-server;SSHUser=root;SSHPassword=sshpasswd;

    公開鍵認証方式方式によるSSH 接続

    公開鍵認証によるSSH接続時に必要なプロパティ一覧を以下に示します。

    • User: DB2 のユーザ
    • Password: DB2 のパスワード
    • Database: DB2 の接続先データベース
    • Server: DB2 のサーバー
    • Port: DB2 のポート
    • UserSSH: "true"
    • SSHAuthMode: "Public_Key"
    • SSHClientCertType: キーストアの種類
    • SSHPort: SSH のポート
    • SSHServer: SSH サーバー
    • SSHUser: SSH ユーザー
    • SSHClientCert: 秘密鍵ファイルのパス

    接続文字列形式では以下のようになります。

    Server=10.0.1.2;Port=50000;User=admin;Password=admin;Database=test;UseSSH=true;SSHAuthMode=Public_Key;SSHClientCertType=PUBLIC_KEY_FILE;SSHPort=22;SSHServer=ssh-server;SSHUser=root;SSHClientCert=C:\Keys\key.pem;
  3. 接続を保存後、「Table or view」を選択し、Databricks にエクスポートするテーブルまたはビューを選択して、CData DB2 Source Editor を閉じます。

Databricks デスティネーションの設定

DB2 Source を設定したら、Databricks 接続を設定してカラムをマッピングします。

  1. CData Databricks Destination をダブルクリックしてデスティネーションコンポーネントエディタを開き、新しい接続を追加します。
  2. CData Databricks Connection Manager で接続プロパティを設定し、接続をテストして保存します。Databricks クラスターに接続するには、以下のようにプロパティを設定します。

    注意:必要な値は、Databricks インスタンスで Clusters に移動し、目的のクラスターを選択して、Advanced Options の下にある JDBC/ODBC タブを選択することで確認できます。

    • Server:Databricks クラスターの Server Hostname を設定します。
    • HTTPPath:Databricks クラスターの HTTP Path を設定します。
    • Token:個人用アクセストークンを設定します(この値は、Databricks インスタンスの User Settings ページに移動し、Access Tokens タブを選択することで取得できます)。

    その他の便利な接続プロパティ

    • QueryPassthrough: True に設定すると、クエリは Databricks に直接渡されます。
    • ConvertDateTimetoGMT: True に設定すると、コンポーネントはローカルマシンの時刻ではなく、日時値を GMT に変換します。
    • UseUploadApi: このプロパティを true に設定すると、Bulk INSERT 操作で大量のデータがある場合にパフォーマンスが向上します。
    • UseCloudFetch: このオプションは、テーブルに 100 万件を超えるエントリがある場合にクエリ効率を向上させるために CloudFetch を使用するかどうかを指定します。
  3. 接続を保存後、Use a Table メニューでテーブルを選択し、Action メニューで Insert を選択します。
  4. Column Mappings タブで、入力カラムからデスティネーションカラムへのマッピングを設定します。

プロジェクトの実行

これでプロジェクトを実行できます。SSIS Task の実行が完了すると、SQL テーブルのデータが選択したテーブルにエクスポートされます。

はじめる準備はできましたか?

IBM DB2 SSIS Component の無料トライアルをダウンロードしてお試しください:

 ダウンロード

詳細:

IBM DB2 Icon IBM DB2 SSIS Components お問い合わせ

SSIS ソース & デスティネーションコンポーネントは、SQL Server SSIS のワークフロー内で簡単にIBM DB2 互換のデータベースエンジンに接続できる強力なツールです。

データフロー内のIBM DB2 コンポーネントを使ってIBM DB2 データベースを同期できます。データ同期、ローカルバックアップ、ワークフローの自動化などに最適!