RapidMiner からScrapingBee のデータに連携
この記事では、CData JDBC Driver for API をRapidMiner のプロセスと簡単に統合する方法を示します。この記事では、CData JDBC Driver for API を使用してScrapingBee をRapidMiner のプロセスに転送します。
RapidMiner のScrapingBee にJDBC Data Source として接続する
以下のステップに従ってScrapingBee へのJDBC 接続を確認できます。
- ScrapingBee 用の新しいデータベースドライバーを追加します。[Connections]->[Manage Database Drivers]とクリックします。
- 表示されるウィザードで[Add]ボタンをクリックし、接続に名前を入力します。
- JDBC URL のプレフィックスを入力します。
jdbc:api:
- インストールディレクトリのlib サブフォルダにあるcdata.jdbc.api.jar ファイルにパスを入力して下さい。
- ドライバークラスを入力します。
cdata.jdbc.api.APIDriver
- 新しいScrapingBee 接続を作成します。[Connections]->[Manage Database Connections]とクリックします。
- 接続の名前を入力します。
- データベースシステムの場合は、以前構成したScrapingBee ドライバーを選択します。
- Host ボックスで接続文字列を入力します。
API キー認証の設定
ScrapingBee は API キー認証を使用します。API キーを取得するには、以下のステップで進めます:
- https://app.scrapingbee.com で ScrapingBee アカウントにサインインします
- Dashboard に移動して、上部のセクションで API キーを確認します。
- 接続文字列で使用する API キーをコピーします。
API キーを取得したら、以下の接続プロパティを設定します:
- AuthScheme:APIKey に設定します。
- APIKey:ScrapingBee の API キーに設定します。
接続文字列の例
Profile=C:\profiles\ScrapingBee.apip;AuthScheme=APIKey;ProfileSettings="APIKey=your_api_key";
ScrapingBee への接続
認証を設定すると、ScrapingBee に接続して、利用可能なテーブルからデータをクエリできます。すべてのテーブルでは、データを取得するために少なくとも 1 つの入力パラメータ(検索クエリや商品 ID など)が必要です。
ビルトイン接続文字列デザイナ
JDBC URL の構成については、ScrapingBee JDBC Driver に組み込まれている接続文字列デザイナを使用してください。JAR ファイルのダブルクリック、またはコマンドラインからJAR ファイルを実行します。
java -jar cdata.jdbc.api.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
以下は一般的な接続文字列です。
Profile=C:\profiles\ScrapingBee.apip;AuthScheme=APIKey;ProfileSettings="APIKey=your_api_key";
- 必要であればユーザー名とパスワードを入力します。
プロセス内の様々なRapidMiner オペレーターとのScrapingBee 接続を使用できます。ScrapingBee を取得するには、[Operators]ビューから[Retrieve]をドラッグします。
[Retrieve]オペレータを選択した状態で、[repository entry]の横にあるフォルダアイコンをクリックして[Parameters]ビューで取得するテーブルを定義できます。表示されるRepository ブラウザで接続ノードを展開し、目的のサンプルセットを選択できます。
最後に、[Retrieve]プロセスから結果に出力をワイヤリングし、プロセスを実行してScrapingBee を確認します。