CData Connect AI を使用して Google Cloud Data Fusion でリアルタイムの Elasticsearch のデータ パイプラインを構築
Google Cloud Data Fusion は、ビジュアルインターフェースを使用してさまざまなソースと同期先間でデータを接続、変換、移動できるため、データパイプラインの構築と管理を簡素化します。CData Connect AI と組み合わせることで、ELT/ETL データパイプラインの構築と管理にElasticsearch のデータへのアクセスが可能になります。この記事では、CData Connect AI を使用して Elasticsearch へのライブ接続を作成する方法と、Cloud Data Fusion プラットフォームからリアルタイムのElasticsearch のデータに接続・アクセスする方法を説明します。
Elasticsearch データ連携について
CData を使用すれば、Elasticsearch のライブデータへのアクセスと統合がこれまでになく簡単になります。お客様は CData の接続機能を以下の目的で利用しています:
- SQL エンドポイントと REST エンドポイントの両方にアクセスでき、接続を最適化し、Elasticsearch データの読み書きに関してより多くのオプションを提供します。
- v2.2 以降およびオープンソース Elasticsearch サブスクリプションを含む、ほぼすべての Elasticsearch インスタンスに接続できます。
- SCORE() 関数を明示的に要求することなく、常にクエリ結果の関連性スコアを受け取ることができます。これにより、サードパーティツールからのアクセスが簡素化され、クエリ結果のテキスト関連性のランキングを簡単に確認できます。
- 複数のインデックスを検索でき、クライアントマシンではなく Elasticsearch がクエリと結果の管理・処理を担当します。
ユーザーは、Crystal Reports、Power BI、Excel などの分析ツールと Elasticsearch データを統合し、当社のツールを活用して、Elasticsearch を含むすべてのデータソースへの単一のフェデレートアクセスレイヤーを実現しています。
CData の Elasticsearch ソリューションの詳細については、ナレッジベース記事をご覧ください:CData Elasticsearch Driver Features & Differentiators
はじめに
Cloud Data Fusion 用の Elasticsearch 接続を設定
Cloud Data Fusion から Elasticsearch への接続は、CData Connect AI によって実現されます。Cloud Data Fusion からElasticsearch のデータを扱うには、まず Elasticsearch 接続を作成・設定します。
- Connect AI にログインし、Sources をクリック、次に Add Connection をクリック
- Add Connection パネルから「Elasticsearch」を選択
-
Elasticsearch に接続するために必要な認証プロパティを入力します。
Elasticsearch 接続プロパティの取得・設定方法
接続するには、Server およびPort 接続プロパティを設定します。 認証には、User とPassword プロパティ、PKI (public key infrastructure)、またはその両方を設定します。 PKI を使用するには、SSLClientCert、SSLClientCertType、SSLClientCertSubject、およびSSLClientCertPassword プロパティを設定します。
CData 製品は、認証とTLS/SSL 暗号化にX-Pack Security を使用しています。TLS/SSL で接続するには、Server 値に'https://' を接頭します。Note: PKI を 使用するためには、TLS/SSL およびクライアント認証はX-Pack 上で有効化されていなければなりません。
接続されると、X-Pack では、設定したリルムをベースにユーザー認証およびロールの許可が実施されます。
- Save & Test をクリック
-
Add Elasticsearch Connection ページで Permissions タブに移動し、ユーザーベースの権限を更新します。
Personal Access Token を追加
REST API、OData API、または仮想 SQL Server 経由で Connect AI に接続する場合、Personal Access Token(PAT)が Connect AI への接続認証に使用されます。アクセスの粒度を維持するため、サービスごとに個別の PAT を作成することをお勧めします。
- Connect AI アプリの右上にある歯車アイコン()をクリックして Settings ページを開きます。
- Settings ページで Access Tokens セクションに移動し、 Create PAT をクリック。
-
PAT に名前を付けて Create をクリック。
- Personal Access Token は作成時にのみ表示されるので、必ずコピーして安全な場所に保存してください。
接続の設定と PAT の生成が完了したら、Cloud Data Fusion からElasticsearch のデータに接続する準備が整いました。
Cloud Data Fusion から Elasticsearch に接続
以下の手順に従って、CData Connect AI JDBC ドライバーを介して Cloud Data Fusion から Elasticsearch への接続を確立します:
- CData Connect AI JDBC ドライバーをダウンロード・インストール:
- CData Connect AI の Integrations ページを開きます。
- JDBC を検索・選択します。
- セットアップファイルをダウンロードして実行します。
- インストールが完了したら、インストールディレクトリ(例:C:\Program Files\CData\JDBC Driver for CData Connect\lib)から JAR ファイル(cdata.jdbc.connect.jar)をコピーします。
- Cloud Data Fusion にログイン。
- 右上の緑色の「+」ボタンをクリックしてエンティティを追加。
- Driver の下で Upload をクリック。
- CData Connect AI JDBC ドライバー(JAR ファイル)をアップロード。
- ドライバー設定を入力:
- Name:ドライバー名を入力
- Class name:「cdata.jdbc.connect.ConnectDriver」 と入力
- Version:ドライバーのバージョンを入力
- Description(オプション):ドライバーの説明を入力
- Finish をクリック。
- ソース設定を入力:
- Label:接続を識別するための名前
- JDBC driver name:ステップ 6 で設定したドライバーを識別する JDBC ドライバー名を入力
- Connection string:JDBC 接続文字列を入力(例:
jdbc:connect:AuthScheme=Basic;user=username;password=PAT;
- User:CData Connect AI のユーザー名(CData Connect AI インターフェースの右上に表示)を入力(例:「[email protected]」)
- Password:Settings ページで生成した PAT を入力
- 右上の Validate をクリック。
- 接続が成功したら、UI を通じてパイプラインを編集・管理できます。
- 作成したパイプラインを実行。
トラブルシューティング
Cloud Data Fusion では、ソースデータの 「int」 型が自動的に 「long」 にキャストされる既知の問題があることにご注意ください。
クラウドアプリケーションから Elasticsearch のデータ へのリアルタイムアクセス
これで、Google Cloud Data Fusion からリアルタイムのElasticsearch のデータへの直接接続が確立されました。Elasticsearch のデータ をレプリケーションすることなく、さまざまなソースと同期先間でデータをスムーズに移動できる接続を追加作成し、データ統合プロセスを効率化できます。
クラウドアプリケーションから Elasticsearch を含む 300 以上の SaaS、ビッグデータ、NoSQL ソースへのリアルタイムデータアクセスについては、CData Connect AI をご覧ください。