Apache NiFi で XML に接続
Apache NiFi は、強力かつスケーラブルなデータルーティング、変換、システム間連携ロジックの有向グラフをサポートしています。CData JDBC Driver for XML と組み合わせることで、NiFi からリアルタイムのXML のデータ を操作できます。この記事では、Apache NiFi Flow からXML のデータ に接続してクエリを実行する方法を説明します。
CData JDBC Driver は、最適化されたデータ処理機能が組み込まれており、リアルタイムのXML のデータ とのやり取りにおいて比類のないパフォーマンスを提供します。複雑なSQL クエリをXML に発行すると、ドライバーはフィルタや集計などのサポートされているSQL 操作を直接XML にプッシュし、サポートされていない操作(多くの場合SQL 関数やJOIN 操作)は組み込みのSQL エンジンでクライアント側に処理します。また、組み込みの動的メタデータクエリにより、ネイティブのデータ型を使用してXML のデータ を操作・分析できます。
Apache NiFi でXML のデータ に接続
- CData JDBC Driver for XML のインストーラーをダウンロードし、パッケージを解凍して、.exe ファイルを実行してドライバーをインストールします。
CData JDBC Driver のJAR ファイル(およびライセンスファイルがある場合はそれも)、cdata.jdbc.xml.jar(および cdata.jdbc.xml.lic)を Apache NiFi の lib サブフォルダにコピーします(例:C:\nifi-1.3.0-bin\nifi-1.3.0\lib)。
Windows では、CData JDBC Driver のデフォルトのインストール場所は C:\Program Files\CData\CData JDBC Driver for XML です。
bin サブフォルダにある run-nifi.bat ファイルを実行して Apache NiFi を起動します(例:C:\nifi-1.3.0-bin\nifi-1.3.0\bin)。
(または)
コマンドプロンプトで対象のディレクトリに移動し、run-nifi.bat ファイルを実行します:
cd C:\nifi-1.3.0-bin\nifi-1.3.0\bin .\run-nifi.bat
Web ブラウザで Apache NiFi の UI に移動します:https://localhost:8443/nifi でアクセスできます。
注意:古いバージョンの Apache NiFi を使用している場合は、http://localhost:8080/nifi からアクセスする必要があります。以前のバージョンでは HTTP プロトコルが使用されていましたが、最新バージョンでは HTTPS が標準になっています。デフォルトでは、HTTP はポート 8080 で動作し、HTTPS はポート 8443 を使用します。
URL から Apache NiFi にアクセスすると、ログイン用のユーザー名とパスワードの入力を求められます。
ログイン資格情報を取得するには、NiFi のインストールディレクトリ内の log ディレクトリにある「App.log」ファイルを確認してください。このファイルには通常、NiFi インターフェースにアクセスするために必要な情報が含まれています。
- NiFi Flow のワークスペースを右クリックし、「Controller Services」をクリックします。
- ボタンをクリックして、新しいコントローラーサービスを作成します。
- Controller Services セクションで、新しく作成した「DBCPConnection Pool」を見つけ、メニュー()から「Edit」をクリックして新しい接続を設定します。
以下のプロパティを入力します:
- Database Connection URL:jdbc:xml:URI=C:/people.xml;DataModel=Relational;
- Database Driver Class Name:cdata.jdbc.xml.XMLDriver
- Database Driver Location(s):Apache NiFi の lib フォルダへのパス(JAR ファイルが配置されている場所)。
組み込みの接続文字列デザイナー
JDBC URL の構築には、XML JDBC Driver に組み込まれている接続文字列デザイナーを使用できます。JAR ファイルをダブルクリックするか、コマンドラインから JAR ファイルを実行してください。
java -jar cdata.jdbc.xml.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
データソースを認証するには、データプロバイダーのドキュメント内の「はじめに」セクションをご覧ください。 データプロバイダーはXML API を双方向データベーステーブルとしてモデル化し、XML ファイルをread-only ビュー(ローカルファイル、人気のクラウドサービスに格納されたファイル、およびFTP サーバー)としてモデル化します。 HTTP Basic、Digest、NTLM、OAuth、およびFTP を含む主な認証スキームはサポートされています。認証のガイドについては、データプロバイダーのドキュメント内の「はじめに」セクションをご覧ください。
URI と認証値を設定した後で、DataModel を設定することでデータの構造によりよくマッチするようデータの抽象化を調整できます。
DataModel プロパティはデータがどのようにテーブルとして抽象化されるかを制御するプロパティであり、次の基本的な設定を調整します。
- Document(デフォルト):XML データのトップレベルのドキュメントビューをモデル化します。データプロバイダーは入れ子化した要素をデータの集約値として返します。
- FlattenedDocuments:入れ子化したドキュメントとその親を結合して単一のテーブルに入力します。
- Relational:個別の関連テーブルを階層化されたデータから返します。テーブルは主キーと、親ドキュメントにリンクする外部キーを含みます。
リレーショナルな抽象化の設定についての詳細は、「XML データのモデリング」セクションを参照してください。次の例で使用されているサンプルデータも存在します。 このデータには、人名、その人たちが所有する車、車に施されたさまざまなメンテナンスに関する情報が含まれます。
- Controller Services セクションで、新しく作成した DBCPConnection Pool を見つけ、メニュー()から「Enable」をクリックして新しい接続を有効にします。
- 「Enable Controller Service」ウィンドウで、Scope を「Service and referencing components」に設定します。
- 接続を確立し、SELECT クエリを実行するには、プロセッサー(黄色でハイライトされている部分)をワークスペースにドラッグ&ドロップします。
- 「ExecuteSQL」プロセッサーを選択し、「Add」ボタンをクリックしてワークスペースに表示させます。
- 追加したプロセッサー(ExecuteSQL)をダブルクリックして、接続ページを開きます。
- Properties セクションで、必要な情報を入力します。Database Connection Pooling Service を作成した DBCPConnectionPool に一致させ、SQL select query セクションに実行したい SQL クエリを設定してください。
- Relationships に移動し、実行プロセスの成功時と失敗時にコンポーネントがどのように処理を進めるかのオプションを選択してください。
- ExecuteSQL コンポーネントを有効にするには、それを選択して Operation セクションの「Enable」をクリックするか、右クリックして「Enable」を選択します。
これでXML のデータ が Apache NiFi で使用できるようになりました。たとえば、DBCPConnection Pool を QueryDatabaseTable プロセッサーのソースとして使用できます(以下に表示)。
30日間の無料トライアルをダウンロードして、Apache NiFi でリアルタイムのXML のデータ を操作してみてください。ご不明な点は、サポートチームまでお気軽にお問い合わせください。