ScrapingBee のデータ のPostgreSQL インターフェースを作成
PostgreSQL には多くの対応クライアントがあります。標準のドライバーからBI、アナリティクスツールまで、PostgreSQL はデータ接続の人気のインターフェースです。JDBC ドライバーを使用することで、簡単に任意の標準クライアントから接続できるPostgreSQL エントリポイントを作成できます。
ScrapingBee にPostgreSQL データベースとしてアクセスするには、CData JDBC Driver for API とJDBC foreign data wrapper (FDW) を使用します。この記事ではFDW をコンパイルしてインストールし、PostgreSQL サーバーからScrapingBee にクエリを実行します。
JDBC データソースとしてScrapingBee のデータに接続する
JDBC データソースとしてScrapingBee に接続するには、以下が必要です。
- Driver のJAR パス:JAR ファイルは、インストールディレクトリのlib サブフォルダにあります。
Driver クラス
cdata.jdbc.api.APIDriver
- JDBC URL:
URL は、"jdbc:api:" で始まり、セミコロンで区切られた名前と値の組み合わせで任意の接続プロパティを含めることができます。
API キー認証の設定
ScrapingBee は API キー認証を使用します。API キーを取得するには、以下のステップで進めます:
- https://app.scrapingbee.com で ScrapingBee アカウントにサインインします
- Dashboard に移動して、上部のセクションで API キーを確認します。
- 接続文字列で使用する API キーをコピーします。
API キーを取得したら、以下の接続プロパティを設定します:
- AuthScheme:APIKey に設定します。
- APIKey:ScrapingBee の API キーに設定します。
接続文字列の例
Profile=C:\profiles\ScrapingBee.apip;AuthScheme=APIKey;ProfileSettings="APIKey=your_api_key";
ScrapingBee への接続
認証を設定すると、ScrapingBee に接続して、利用可能なテーブルからデータをクエリできます。すべてのテーブルでは、データを取得するために少なくとも 1 つの入力パラメータ(検索クエリや商品 ID など)が必要です。
ビルトイン接続文字列デザイナ
JDBC URL の構成については、ScrapingBee JDBC Driver に組み込まれている接続文字列デザイナを使用できます。JAR ファイルのダブルクリック、またはコマンドラインからJAR ファイルを実行します。
java -jar cdata.jdbc.api.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
以下は一般的なJDBC URL です。
jdbc:api:Profile=C:\profiles\ScrapingBee.apip;AuthScheme=APIKey;ProfileSettings="APIKey=your_api_key";
JDBC FDW を構築する
FDW は、PostgreSQL を再コンパイルせずに、PostgreSQL の拡張機能としてインストールできます。例としてjdbc2_fdw 拡張子を使用します。
- ご使用のバージョンのJRE 共有オブジェクトから、/usr/lib/libjvm.so にシンボリックリンクを追加します。コマンド例:
ln -s /usr/lib/jvm/java-6-openjdk/jre/lib/amd64/server/libjvm.so /usr/lib/libjvm.so
- ビルドするには、以下のコマンドを実行してください。
make install USE_PGXS=1
ScrapingBee のデータをPostgreSQL データベースとしてクエリする
拡張機能をインストールした後、以下のステップに従ってScrapingBee へのクエリの実行を開始します。
- データベースにログイン
-
データベースの拡張機能をロード
CREATE EXTENSION jdbc2_fdw;
-
ScrapingBee のオブジェクトを作成
CREATE SERVER API FOREIGN DATA WRAPPER jdbc2_fdw OPTIONS ( drivername 'cdata.jdbc.api.APIDriver', url 'jdbc:api:Profile=C:\profiles\ScrapingBee.apip;AuthScheme=APIKey;ProfileSettings="APIKey=your_api_key";', querytimeout '15', jarfile '/home/MyUser/CData/CData\ JDBC\ Driver\ for\ Salesforce MyDriverEdition/lib/cdata.jdbc.api.jar');
-
PostgreSQL デーモンに認識されているユーザーのユーザー名とパスワードのユーザーマッピングを作成
CREATE USER MAPPING for postgres SERVER API OPTIONS ( username 'admin', password 'test');
-
ローカルデータベースに外部テーブルを作成
postgres=# CREATE FOREIGN TABLE googlesearchresults ( googlesearchresults_id text, googlesearchresults_ text, googlesearchresults_ numeric) SERVER API OPTIONS ( table_name 'googlesearchresults');
postgres=# SELECT * FROM googlesearchresults;
おわりに
このようにCData JDBC Driver for API を使って簡単にScrapingBee のデータを取得して検索対象にすることができました。ぜひ、30日の無償評価版 をお試しください。