Dremio でExcel のデータに外部ソースとして接続
CData JDBC Driver for Microsoft Excel はJDBC 標準を実装しており、Dremio を含むさまざまなアプリケーションでリアルタイムのExcel のデータを扱えるようにします。Dremio は、データレイク上でのセルフサービス型インタラクティブ分析を実現するために設計されたデータレイクハウスプラットフォームです。CData JDBC ドライバーを使用することで、エンタープライズデータレイクの一部としてリアルタイムExcel のデータを活用できます。この記事では、Dremio でExcel のデータに外部ソースとして接続する方法について説明します。
CData JDBC Driver を使用すると、Dremio でリアルタイムExcel のデータへの高速アクセスが可能になります。ドライバーをインストールしてExcel で認証すれば、データレイク内でExcel のデータにすぐにアクセスできます。ネイティブのデータ型を使用してExcel のデータを表示し、複雑なフィルタ、集計、その他の操作を自動的に処理することで、CData JDBC Driver はExcel のデータへのシームレスなアクセスを提供します。
前提条件
この記事では、Docker を使用して Dremio を実行することを想定しています。以下のようなコマンドで Dremio サービスを含む Docker コンテナを作成できます。
docker run -d --name dremio -p 9047:9047 -p 31010:31010 dremio/dremio-oss
ここで、dremio はコンテナの名前、9047 は Dremio Web インターフェース用のコンテナポート、31010 は Dremio クエリサービスにマッピングされるポートです。dremio/dremio-oss は使用するイメージを指定します。
ARP コネクタのビルド
CData JDBC Driver を Dremio で使用するには、Advanced Relation Pushdown(ARP)コネクタをビルドする必要があります。GitHub でソースコードを確認するか、ZIP ファイル(GitHub.com)を直接ダウンロードできます。ファイルをコピーまたは展開したら、コネクタのルートディレクトリ(pom.xml ファイルがあるディレクトリ)から以下のコマンドを実行してコネクタをビルドします。
mvn clean install
NOTE:CData ARP コネクタは Java 11 でコンパイルするようにビルドされています。Java 11 をインストールし、正しいバージョンを使用していることを確認してください。以下のようなコマンドで Java バージョンを更新できます。
sudo update-alternatives --config java
コネクタ用の JAR ファイルが(target ディレクトリに)ビルドされたら、ARP コネクタと JDBC Driver を Dremio インスタンスにコピーする準備が整いました。
コネクタと JDBC Driver のインストール
ARP コネクタを %DREMIO_HOME%/jars/ に、Excel 用の JDBC Driver を %DREMIO_HOME%/jars/3rdparty にインストールします。以下のようなコマンドを使用できます。
ARP コネクタ
docker cp PATH\TO\dremio-excel-plugin-{DREMIO_VERSION}.jar dremio_image_name:/opt/dremio/jars/
Excel 用 JDBC Driver
docker cp PATH\TO\cdata.jdbc.excel.jar dremio_image_name:/opt/dremio/jars/3rdparty/
Excel への接続
これで、Dremio の外部ソースオプションに Excel が表示されるようになりました。ビルドした ARP コネクタは、JDBC URL を使用してExcel のデータに接続します。JDBC Driver には、接続文字列を作成できるビルトインの接続文字列デザイナーがあります(以下を参照)。
ビルトイン接続文字列デザイナー
JDBC URL の構成については、Excel JDBC Driver に組み込まれている接続文字列デザイナーを使用してください。JAR ファイルをダブルクリックするか、コマンドラインから JAR ファイルを実行します。
java -jar cdata.jdbc.excel.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
Authentication セクションのExcelFile には有効なExcel ファイルを設定する必要があります。
Amazon S3 内のExcel への接続
URI をバケット内のExcel ファイルに設定します。さらに、次のプロパティを設定して認証します。
- AWSAccessKey:AWS アクセスキー(username)に設定。
- AWSSecretKey:AWS シークレットキーに設定。
Box 内のExcel への接続
URI をExcel ファイルへのパスに設定します。Box へ認証するには、OAuth 認証標準を使います。 認証方法については、Box への接続 を参照してください。
Dropbox 内のExcel への接続
URI をExcel ファイルへのパスに設定します。Dropbox へ認証するには、OAuth 認証標準を使います。 認証方法については、Dropbox への接続 を参照してください。ユーザーアカウントまたはサービスアカウントで認証できます。ユーザーアカウントフローでは、以下の接続文字列で示すように、ユーザー資格情報の接続プロパティを設定する必要はありません。
SharePoint Online SOAP 内のExcel への接続
URI をExcel ファイルを含むドキュメントライブラリに設定します。認証するには、User、Password、およびStorageBaseURL を設定します。
SharePoint Online REST 内のExcel への接続
URI をExcel ファイルを含むドキュメントライブラリに設定します。StorageBaseURL は任意です。指定しない場合、ドライバーはルートドライブで動作します。 認証するには、OAuth 認証標準を使用します。
FTP 内のExcel への接続
URI をExcel ファイルへのパスが付いたサーバーのアドレスに設定します。認証するには、User およびPassword を設定します。
Google Drive 内のExcel への接続
デスクトップアプリケーションからのGoogle への認証には、InitiateOAuth をGETANDREFRESH に設定して、接続してください。詳細はドキュメントの「Google Drive への接続」を参照してください。
NOTE:Dremio で JDBC Driver を使用するには、ライセンス(正式版または評価版)とランタイムキー(RTK)が必要です。このライセンス(または評価版)の取得については、営業チームにお問い合わせください。
ランタイムキー(RTK)を JDBC URL に追加します。最終的に、以下のような JDBC URL になります。
jdbc:excel:RTK=5246...;Excel File='C:/MyExcelWorkbooks/SampleWorkbook.xlsx';
Excel に外部ソースとしてアクセス
Excel を外部ソースとして追加するには、新しいソースを追加するためにクリックし、Excel を選択します。JDBC URL をコピーして、New Excel Source ウィザードに貼り付けます。
接続を保存すれば、Dremio でリアルタイムExcel のデータをクエリする準備が整い、Excel のデータをデータレイクに簡単に取り込むことができます。
詳細情報と無償トライアル
Dremio で CData JDBC Driver for Microsoft Excel を使用すると、リアルタイムExcel のデータをデータレイクに取り込むことができます。Excel への接続の詳細については、CData JDBC Driver for Microsoft Excel ページをご覧ください。CData JDBC Driver for Microsoft Excel の30日間無償トライアルをダウンロードして、今すぐ始めましょう。