Pentaho Data Integration でPDFMonkey のデータを連携

Jerod Johnson
Director, Technology Evangelism

Pentaho Data Integration で PDFMonkey のデータをベースにした ETL パイプラインを構築します。

CData API Driver for JDBC を使用すると、データパイプラインからリアルタイムデータにアクセスできます。Pentaho Data Integration は、ETL（Extraction, Transformation, and Loading）エンジンであり、データをクレンジングし、アクセス可能な統一フォーマットでデータを格納します。この記事では、PDFMonkey のデータに JDBC データソースとして接続し、Pentaho Data Integration で PDFMonkey のデータをベースにしたジョブやトランスフォーメーションを構築する方法を説明します。

PDFMonkey への接続を設定

API キー認証の設定

PdfMonkey は API キー認証を使用します。API キーを取得するには、以下のステップで進めます：

https://app.pdfmonkey.io で PdfMonkey アカウントにログインします
アカウント設定に移動します
API Key ページを開きます
API キーをコピーします

API キーを取得したら、以下の接続プロパティを設定します：

AuthScheme：APIKey に設定します。

ProfileSettings 接続プロパティには以下を設定します：

APIKey：PdfMonkey の API キーに設定します。

接続文字列の例

Profile=C:\profiles\PdfMonkey.apip;AuthScheme=APIKey;ProfileSettings="APIKey=your_api_key"

PdfMonkey への接続

認証を設定すると、PdfMonkey に接続して、CurrentUser、DocumentCards、Documents、DocumentTemplateCards、DocumentTemplates などの利用可能なテーブルからデータをクエリできます。

組み込みの接続文字列デザイナー

JDBC URL の構築を支援するには、PDFMonkey JDBC Driver に組み込まれている接続文字列デザイナーを使用してください。JAR ファイルをダブルクリックするか、コマンドラインから JAR ファイルを実行します。

java -jar cdata.jdbc.api.jar

接続プロパティを設定し、接続文字列をクリップボードにコピーします。

組み込みの接続文字列デザイナーを使用して JDBC URL を生成（Salesforce の例）

JDBC URL を設定する際には、Max Rows 接続プロパティの設定も検討してください。これにより返される行数が制限され、レポートやビジュアライゼーションの設計時にパフォーマンスを向上させることができます。

一般的な JDBC URL は次のようになります：

jdbc:api:Profile=C:\profiles\PdfMonkey.apip;AuthScheme=APIKey;ProfileSettings="APIKey=your_api_key"

接続文字列を保存して、Pentaho Data Integration で使用します。

Pentaho DI から PDFMonkey に接続

Pentaho Data Integration を開き、「Database Connection」を選択して CData API Driver for JDBC への接続を設定します。

「General」をクリックします。
Connection name を設定します（例：PDFMonkey Connection）。
Connection type を「Generic database」に設定します。
Access を「Native (JDBC)」に設定します。

Custom connection URL に PDFMonkey の接続文字列を設定します（例：

jdbc:api:Profile=C:\profiles\PdfMonkey.apip;AuthScheme=APIKey;ProfileSettings="APIKey=your_api_key"

）。

Custom driver class name を「cdata.jdbc.api.APIDriver」に設定します。
接続をテストし、「OK」をクリックして保存します。

PDFMonkey のデータパイプラインを作成

CData JDBC Driver を使用して PDFMonkey への接続が設定されたら、新しいトランスフォーメーションまたはジョブを作成する準備が整いました。

「File」>>「New」>>「Transformation/job」をクリックします。
「Table input」オブジェクトをワークフローパネルにドラッグし、PDFMonkey 接続を選択します。
「Get SQL select statement」をクリックし、Database Explorer を使用して利用可能なテーブルとビューを表示します。
テーブルを選択し、必要に応じてデータをプレビューして確認します。

ここから、適切な同期先を選択し、レプリケーション中にデータを変更、フィルタリング、その他の処理を行うトランスフォーメーションを追加することで、トランスフォーメーションまたはジョブを続行できます。

無料トライアルと詳細情報

CData API Driver for JDBC の 30日間無料トライアルをダウンロードして、Pentaho Data Integration で PDFMonkey のデータのリアルタイムデータを今すぐ活用しましょう。

はじめる準備はできましたか？

API Driver で PDFMonkey のライブデータに接続

PDFMonkey に接続

CData は、AI を本番環境で機能させるデータレイヤーです。数百の主要エンタープライズソースへのライブコネクティビティとレプリケーション、セマンティックコンテキスト、組み込みガバナンスを提供。Databricks、Microsoft、Google、Palantir をはじめ、世界中の 10,000 以上のお客様の AI を支えています。

お問い合わせ