Dremio でGoogle Cloud Storage のデータに外部ソースとして接続

Jerod Johnson
Jerod Johnson
Senior Technology Evangelist
CData JDBC Driver を使用して、Dremio でGoogle Cloud Storage に外部ソースとして接続します。

CData JDBC Driver for Google Cloud Storage はJDBC 標準を実装しており、Dremio を含むさまざまなアプリケーションでリアルタイムのGoogle Cloud Storage のデータを扱えるようにします。Dremio は、データレイク上でのセルフサービス型インタラクティブ分析を実現するために設計されたデータレイクハウスプラットフォームです。CData JDBC ドライバーを使用することで、エンタープライズデータレイクの一部としてリアルタイムGoogle Cloud Storage のデータを活用できます。この記事では、Dremio でGoogle Cloud Storage のデータに外部ソースとして接続する方法について説明します。

CData JDBC Driver を使用すると、Dremio でリアルタイムGoogle Cloud Storage のデータへの高速アクセスが可能になります。ドライバーをインストールしてGoogle Cloud Storage で認証すれば、データレイク内でGoogle Cloud Storage のデータにすぐにアクセスできます。ネイティブのデータ型を使用してGoogle Cloud Storage のデータを表示し、複雑なフィルタ、集計、その他の操作を自動的に処理することで、CData JDBC Driver はGoogle Cloud Storage のデータへのシームレスなアクセスを提供します。

前提条件

この記事では、Docker を使用して Dremio を実行することを想定しています。以下のようなコマンドで Dremio サービスを含む Docker コンテナを作成できます。

docker run -d --name dremio -p 9047:9047 -p 31010:31010 dremio/dremio-oss

ここで、dremio はコンテナの名前、9047 は Dremio Web インターフェース用のコンテナポート、31010 は Dremio クエリサービスにマッピングされるポートです。dremio/dremio-oss は使用するイメージを指定します。

ARP コネクタのビルド

CData JDBC Driver を Dremio で使用するには、Advanced Relation Pushdown(ARP)コネクタをビルドする必要があります。GitHub でソースコードを確認するか、ZIP ファイル(GitHub.com)を直接ダウンロードできます。ファイルをコピーまたは展開したら、コネクタのルートディレクトリ(pom.xml ファイルがあるディレクトリ)から以下のコマンドを実行してコネクタをビルドします。

mvn clean install

NOTE:CData ARP コネクタは Java 11 でコンパイルするようにビルドされています。Java 11 をインストールし、正しいバージョンを使用していることを確認してください。以下のようなコマンドで Java バージョンを更新できます。

sudo update-alternatives --config java

コネクタ用の JAR ファイルが(target ディレクトリに)ビルドされたら、ARP コネクタと JDBC Driver を Dremio インスタンスにコピーする準備が整いました。

コネクタと JDBC Driver のインストール

ARP コネクタを %DREMIO_HOME%/jars/ に、Google Cloud Storage 用の JDBC Driver を %DREMIO_HOME%/jars/3rdparty にインストールします。以下のようなコマンドを使用できます。

ARP コネクタ

docker cp PATH\TO\dremio-googlecloudstorage-plugin-{DREMIO_VERSION}.jar dremio_image_name:/opt/dremio/jars/

Google Cloud Storage 用 JDBC Driver

docker cp PATH\TO\cdata.jdbc.googlecloudstorage.jar dremio_image_name:/opt/dremio/jars/3rdparty/

Google Cloud Storage への接続

これで、Dremio の外部ソースオプションに Google Cloud Storage が表示されるようになりました。ビルドした ARP コネクタは、JDBC URL を使用してGoogle Cloud Storage のデータに接続します。JDBC Driver には、接続文字列を作成できるビルトインの接続文字列デザイナーがあります(以下を参照)。

ビルトイン接続文字列デザイナー

JDBC URL の構成については、Google Cloud Storage JDBC Driver に組み込まれている接続文字列デザイナーを使用してください。JAR ファイルをダブルクリックするか、コマンドラインから JAR ファイルを実行します。

java -jar cdata.jdbc.googlecloudstorage.jar

接続プロパティを入力し、接続文字列をクリップボードにコピーします。

ユーザーアカウントでの認証

ユーザー資格情報の接続プロパティを設定することなく接続できます。InitiateOAuth をGETANDREFRESH に設定したら、接続の準備が完了です。

接続すると、Google Cloud Storage OAuth エンドポイントがデフォルトブラウザで開きます。ログインして権限を付与すると、OAuth プロセスが完了します。

サービスアカウントでの認証

サービスアカウントには、ブラウザでユーザー認証を行わないサイレント認証があります。サービスアカウントを使用して、企業全体のアクセススコープを委任することもできます。

このフローでは、OAuth アプリケーションを作成する必要があります。詳しくは、ヘルプドキュメントを参照してください。以下の接続プロパティを設定したら、接続の準備が完了です:

  • InitiateOAuth: GETANDREFRESH に設定。
  • OAuthJWTCertType: PFXFILE に設定。
  • OAuthJWTCert: 生成した.p12 ファイルへのパスに設定。
  • OAuthJWTCertPassword: .p12 ファイルのパスワードに設定。
  • OAuthJWTCertSubject: 証明書ストアの最初の証明書が選ばれるように"*" に設定。
  • OAuthJWTIssuer: 「サービスアカウント」セクションで「サービスアカウントの管理」をクリックし、このフィールドをサービスアカウントID フィールドに表示されているE メールアドレスに設定。
  • OAuthJWTSubject: サブジェクトタイプが"enterprise" に設定されている場合はエンタープライズID に設定し、"user" に設定されている場合はアプリユーザーID に設定。
  • ProjectId: 接続するプロジェクトのID に設定。

これで、サービスアカウントのOAuth フローが完了します。

NOTE:Dremio で JDBC Driver を使用するには、ライセンス(正式版または評価版)とランタイムキー(RTK)が必要です。このライセンス(または評価版)の取得については、営業チームにお問い合わせください

ランタイムキー(RTK)を JDBC URL に追加します。最終的に、以下のような JDBC URL になります。

jdbc:googlecloudstorage:RTK=5246...;ProjectId='project1';

Google Cloud Storage に外部ソースとしてアクセス

Google Cloud Storage を外部ソースとして追加するには、新しいソースを追加するためにクリックし、GoogleCloudStorage を選択します。JDBC URL をコピーして、New GoogleCloudStorage Source ウィザードに貼り付けます。

接続を保存すれば、Dremio でリアルタイムGoogle Cloud Storage のデータをクエリする準備が整い、Google Cloud Storage のデータをデータレイクに簡単に取り込むことができます。

詳細情報と無償トライアル

Dremio で CData JDBC Driver for Google Cloud Storage を使用すると、リアルタイムGoogle Cloud Storage のデータをデータレイクに取り込むことができます。Google Cloud Storage への接続の詳細については、CData JDBC Driver for Google Cloud Storage ページをご覧ください。CData JDBC Driver for Google Cloud Storage の30日間無償トライアルをダウンロードして、今すぐ始めましょう。

はじめる準備はできましたか?

Google Cloud Storage Driver の無料トライアルをダウンロードしてお試しください:

 ダウンロード

詳細:

Google Cloud Storage Icon Google Cloud Storage JDBC Driver お問い合わせ

Google Cloud Storage データを組み込んだパワフルなJava アプリケーションを短時間・低コストで作成して配布できます。