Google Data Fusion で Azure Data Lake Storage に連携した ETL プロセスを作成

Jerod Johnson
Director, Technology Evangelism

CData JDBC Driver を Google Data Fusion にロードし、Azure Data Lake Storage のデータにリアルタイムでアクセスできる ETL プロセスを作成します。

Google Data Fusion を使用すると、セルフサービス型のデータ連携を行い、異なるデータソースを統合できます。CData JDBC Driver for Azure Data Lake Storage をアップロードすることで、Google Data Fusion のパイプライン内から Azure Data Lake Storage のデータにリアルタイムでアクセスできるようになります。CData JDBC Driver を使用すると、Azure Data Lake Storage のデータを Google Data Fusion でネイティブにサポートされている任意のデータソースにパイプできますが、この記事では、Azure Data Lake Storage から Google BigQuery へデータをパイプする方法を説明します。

CData JDBC Driver for Azure Data Lake Storage を Google Data Fusion にアップロード

CData JDBC Driver for Azure Data Lake Storage を Google Data Fusion インスタンスにアップロードして、Azure Data Lake Storage のデータにリアルタイムでアクセスしましょう。Google Data Fusion では JDBC ドライバーの命名規則に制限があるため、JAR ファイルを driver-version.jar という形式に合わせてコピーまたはリネームしてください。例：cdataadls-2020.jar

Google Data Fusion インスタンスを開きます
をクリックしてエンティティを追加し、ドライバーをアップロードします
"Upload driver" タブで、リネームした JAR ファイルをドラッグまたは参照します。
"Driver configuration" タブで以下を設定します：
- Name: ドライバーの名前（cdata.jdbc.adls）を作成し、メモしておきます
- Class name: JDBC クラス名を設定します：（cdata.jdbc.adls.ADLSDriver）
"Finish" をクリックします

Google Data Fusion で Azure Data Lake Storage のデータに接続

JDBC Driver をアップロードしたら、Google Data Fusion のパイプラインで Azure Data Lake Storage のデータにリアルタイムでアクセスできます。

Pipeline Studio に移動して、新しいパイプラインを作成します
"Source" オプションから "Database" をクリックして、JDBC Driver 用のソースを追加します
Database ソースの "Properties" をクリックしてプロパティを編集します
NOTE：Google Data Fusion で JDBC Driver を使用するには、ライセンス（製品版またはトライアル）とランタイムキー（RTK）が必要です。ライセンス（またはトライアル）の取得については、CData までお問い合わせください。
- Label を設定します
- Reference Name を将来の参照用の値に設定します（例：cdata-adls）
- Plugin Type を "jdbc" に設定します
- Connection String を Azure Data Lake Storage の JDBC URL に設定します。例：
  
  jdbc:adls:RTK=5246...;Schema=ADLSGen2;Account=myAccount;FileSystem=myFileSystem;AccessKey=myAccessKey;
  
  Azure Data Lake Storage 接続プロパティの取得・設定方法
  
  Azure Data Lake Storage Gen2 への接続
  
  それでは、Gen2 Data Lake Storage アカウントに接続していきましょう。接続するには、以下のプロパティを設定します。
  - Account：ストレージアカウントの名前
  - FileSystem：このアカウントに使用されるファイルシステム名。例えば、Azure Blob コンテナの名前
  - Directory（オプション）：レプリケートされたファイルが保存される場所へのパス。パスが指定されない場合、ファイルはルートディレクトリに保存されます
  Azure Data Lake Storage Gen2への認証
  
  続いて、認証方法を設定しましょう。CData 製品では、5つの認証方法をサポートしています：アクセスキー（AccessKey）の使用、共有アクセス署名（SAS）の使用、Azure Active Directory OAuth（AzureAD）経由、Azure サービスプリンシパル（AzureServicePrincipal またはAzureServicePrincipalCert）経由、およびManaged Service Identity（AzureMSI）経由です。
  
  アクセスキー
  
  アクセスキーを使用して接続するには、まずADLS Gen2ストレージアカウントで利用可能なアクセスキーを取得する必要があります。
  
  Azure ポータルでの手順は以下のとおりです：
  1. ADLS Gen2ストレージアカウントにアクセスします
  2. 設定でアクセスキーを選択します
  3. 利用可能なアクセスキーの1つの値をAccessKey 接続プロパティにコピーします
  接続の準備ができたら、以下のプロパティを設定してください。
  - AuthScheme：AccessKey
  - AccessKey：先ほどAzure ポータルで取得したアクセスキーの値
  共有アクセス署名（SAS）
  
  共有アクセス署名を使用して接続するには、まずAzure Storage Explorer ツールを使用して署名を生成する必要があります。
  
  接続の準備ができたら、以下のプロパティを設定してください。
  - AuthScheme：SAS
  - SharedAccessSignature：先ほど生成した共有アクセス署名の値
  その他の認証方法については、 href="/kb/help/" target="_blank">ヘルプドキュメントの「Azure Data Lake Storage Gen2への認証」セクションをご確認ください。
  
  ビルトイン接続文字列デザイナー
  
  JDBC URL の作成には、Azure Data Lake Storage JDBC Driver に組み込まれている接続文字列デザイナーを使用できます。JAR ファイルをダブルクリックするか、コマンドラインから JAR ファイルを実行してください。
```
      java -jar cdata.jdbc.adls.jar
      
```
  接続プロパティを入力し、接続文字列をクリップボードにコピーします。
- Import Query を Azure Data Lake Storage から取得したいデータを抽出する SQL クエリに設定します。例：
  SELECT * FROM Resources
"Sink" タブから、同期先シンクを追加します（この例では Google BigQuery を使用します）
BigQuery シンクの "Properties" をクリックしてプロパティを編集します
- Label を設定します
- Reference Name を adls-bigquery のような値に設定します
- Project ID を特定の Google BigQuery プロジェクト ID に設定します（またはデフォルトの "auto-detect" のままにします）
- Dataset を特定の Google BigQuery データセットに設定します
- Table を Azure Data Lake Storage のデータを挿入するテーブル名に設定します

Source と Sink を設定すると、Azure Data Lake Storage のデータを Google BigQuery にパイプする準備が整います。パイプラインを保存してデプロイしてください。パイプラインを実行すると、Google Data Fusion が Azure Data Lake Storage からリアルタイムデータをリクエストし、Google BigQuery にインポートします。

これはシンプルなパイプラインの例ですが、変換、分析、条件などを使用してより複雑な Azure Data Lake Storage パイプラインを作成できます。CData JDBC Driver for Azure Data Lake Storage の 30日間の無償トライアルをダウンロードして、今すぐ Google Data Fusion で Azure Data Lake Storage のデータをリアルタイムで活用しましょう。

はじめる準備はできましたか？

Azure Data Lake Storage Driver の無料トライアルをダウンロードしてお試しください：

ダウンロード

詳細：

Azure Data Lake Storage JDBC Driver お問い合わせ

Azure Data Lake Storage データに連携するJava アプリケーションを素早く、簡単に開発できる便利なドライバー。

Google Data Fusion で Azure Data Lake Storage に連携した ETL プロセスを作成

CData JDBC Driver for Azure Data Lake Storage を Google Data Fusion にアップロード

Google Data Fusion で Azure Data Lake Storage のデータに接続

Azure Data Lake Storage 接続プロパティの取得・設定方法

Azure Data Lake Storage Gen2 への接続

Azure Data Lake Storage Gen2への認証

アクセスキー

共有アクセス署名（SAS）

ビルトイン接続文字列デザイナー

はじめる準備はできましたか？

この記事の内容

関連記事

Google Data Fusion で Azure Data Lake Storage に連携した ETL プロセスを作成

CData JDBC Driver for Azure Data Lake Storage を Google Data Fusion にアップロード

Google Data Fusion で Azure Data Lake Storage のデータ に接続

Azure Data Lake Storage 接続プロパティの取得・設定方法

Azure Data Lake Storage Gen2 への接続

Azure Data Lake Storage Gen2への認証

アクセスキー

共有アクセス署名（SAS）

ビルトイン接続文字列デザイナー

はじめる準備はできましたか？

この記事の内容

関連記事

Google Data Fusion で Azure Data Lake Storage のデータに接続