Pentaho Data Integration でScrapingBee のデータを連携

Jerod Johnson
Director, Technology Evangelism

Pentaho Data Integration で ScrapingBee のデータをベースにした ETL パイプラインを構築します。

CData API Driver for JDBC を使用すると、データパイプラインからリアルタイムデータにアクセスできます。Pentaho Data Integration は、ETL（Extraction, Transformation, and Loading）エンジンであり、データをクレンジングし、アクセス可能な統一フォーマットでデータを格納します。この記事では、ScrapingBee のデータに JDBC データソースとして接続し、Pentaho Data Integration で ScrapingBee のデータをベースにしたジョブやトランスフォーメーションを構築する方法を説明します。

ScrapingBee への接続を設定

API キー認証の設定

ScrapingBee は API キー認証を使用します。API キーを取得するには、以下のステップで進めます：

https://app.scrapingbee.com で ScrapingBee アカウントにサインインします
Dashboard に移動して、上部のセクションで API キーを確認します。
接続文字列で使用する API キーをコピーします。

API キーを取得したら、以下の接続プロパティを設定します：

AuthScheme：APIKey に設定します。

ProfileSettings 接続プロパティには以下を設定します：

APIKey：ScrapingBee の API キーに設定します。

接続文字列の例

Profile=C:\profiles\ScrapingBee.apip;AuthScheme=APIKey;ProfileSettings="APIKey=your_api_key";

ScrapingBee への接続

認証を設定すると、ScrapingBee に接続して、利用可能なテーブルからデータをクエリできます。すべてのテーブルでは、データを取得するために少なくとも 1 つの入力パラメータ（検索クエリや商品 ID など）が必要です。

組み込みの接続文字列デザイナー

JDBC URL の構築を支援するには、ScrapingBee JDBC Driver に組み込まれている接続文字列デザイナーを使用してください。JAR ファイルをダブルクリックするか、コマンドラインから JAR ファイルを実行します。

java -jar cdata.jdbc.api.jar

接続プロパティを設定し、接続文字列をクリップボードにコピーします。

組み込みの接続文字列デザイナーを使用して JDBC URL を生成（Salesforce の例）

JDBC URL を設定する際には、Max Rows 接続プロパティの設定も検討してください。これにより返される行数が制限され、レポートやビジュアライゼーションの設計時にパフォーマンスを向上させることができます。

一般的な JDBC URL は次のようになります：

jdbc:api:Profile=C:\profiles\ScrapingBee.apip;AuthScheme=APIKey;ProfileSettings="APIKey=your_api_key";

接続文字列を保存して、Pentaho Data Integration で使用します。

Pentaho DI から ScrapingBee に接続

Pentaho Data Integration を開き、「Database Connection」を選択して CData API Driver for JDBC への接続を設定します。

「General」をクリックします。
Connection name を設定します（例：ScrapingBee Connection）。
Connection type を「Generic database」に設定します。
Access を「Native (JDBC)」に設定します。

Custom connection URL に ScrapingBee の接続文字列を設定します（例：

jdbc:api:Profile=C:\profiles\ScrapingBee.apip;AuthScheme=APIKey;ProfileSettings="APIKey=your_api_key";

）。

Custom driver class name を「cdata.jdbc.api.APIDriver」に設定します。
接続をテストし、「OK」をクリックして保存します。

ScrapingBee のデータパイプラインを作成

CData JDBC Driver を使用して ScrapingBee への接続が設定されたら、新しいトランスフォーメーションまたはジョブを作成する準備が整いました。

「File」>>「New」>>「Transformation/job」をクリックします。
「Table input」オブジェクトをワークフローパネルにドラッグし、ScrapingBee 接続を選択します。
「Get SQL select statement」をクリックし、Database Explorer を使用して利用可能なテーブルとビューを表示します。
テーブルを選択し、必要に応じてデータをプレビューして確認します。

ここから、適切な同期先を選択し、レプリケーション中にデータを変更、フィルタリング、その他の処理を行うトランスフォーメーションを追加することで、トランスフォーメーションまたはジョブを続行できます。

無料トライアルと詳細情報

CData API Driver for JDBC の 30日間無料トライアルをダウンロードして、Pentaho Data Integration で ScrapingBee のデータのリアルタイムデータを今すぐ活用しましょう。

はじめる準備はできましたか？

API Driver で ScrapingBee のライブデータに接続

ScrapingBee に接続

CData は、AI を本番環境で機能させるデータレイヤーです。数百の主要エンタープライズソースへのライブコネクティビティとレプリケーション、セマンティックコンテキスト、組み込みガバナンスを提供。Databricks、Microsoft、Google、Palantir をはじめ、世界中の 10,000 以上のお客様の AI を支えています。

お問い合わせ