Scrapfly のデータ のPostgreSQL インターフェースを作成

加藤龍彦
加藤龍彦
デジタルマーケティング
Scrapfly JDBC Driver のリモート機能を使用し、データアクセス用のPostgreSQL エントリポイントを作成します。



PostgreSQL には多くの対応クライアントがあります。標準のドライバーからBI、アナリティクスツールまで、PostgreSQL はデータ接続の人気のインターフェースです。JDBC ドライバーを使用することで、簡単に任意の標準クライアントから接続できるPostgreSQL エントリポイントを作成できます。

Scrapfly にPostgreSQL データベースとしてアクセスするには、CData JDBC Driver for API とJDBC foreign data wrapper (FDW) を使用します。この記事ではFDW をコンパイルしてインストールし、PostgreSQL サーバーからScrapfly にクエリを実行します。

JDBC データソースとしてScrapfly のデータに接続する

JDBC データソースとしてScrapfly に接続するには、以下が必要です。

  • Driver のJAR パス:JAR ファイルは、インストールディレクトリのlib サブフォルダにあります。
  • Driver クラス

    cdata.jdbc.api.APIDriver
    
  • JDBC URL: URL は、"jdbc:api:" で始まり、セミコロンで区切られた名前と値の組み合わせで任意の接続プロパティを含めることができます。

    Scrapfly API は API キー認証を使用します。API キーは、すべてのリクエストで key クエリパラメータとして渡されます。

    API キー認証の設定

    接続を作成するには、Scrapfly の API キーが必要です。API キーを取得するには、以下のステップで進めます:

    1. scrapfly.io で Scrapfly アカウントにログインします。
    2. Dashboard に移動して API Keys を選択します。
    3. API キーをコピーします(本番環境用は scp-live-、テスト環境用は scp-test- で始まります)。

    API キーを取得したら、以下の接続プロパティを設定します:

    • AuthScheme:APIKey に設定します。
    • APIKey:Scrapfly の API キーに設定します。

    接続文字列の例:

    Profile=C:\profiles\Scrapfly.apip;AuthScheme=APIKey;ProfileSettings='APIKey=your_api_key';
    

    ビルトイン接続文字列デザイナ

    JDBC URL の構成については、Scrapfly JDBC Driver に組み込まれている接続文字列デザイナを使用できます。JAR ファイルのダブルクリック、またはコマンドラインからJAR ファイルを実行します。

    java -jar cdata.jdbc.api.jar
    

    接続プロパティを入力し、接続文字列をクリップボードにコピーします。

    Using the built-in connection string designer to generate a JDBC URL (Salesforce is shown.)

    以下は一般的なJDBC URL です。

    jdbc:api:Profile=C:\profiles\Scrapfly.apip;AuthScheme=APIKey;ProfileSettings='APIKey=your_api_key';
    

JDBC FDW を構築する

FDW は、PostgreSQL を再コンパイルせずに、PostgreSQL の拡張機能としてインストールできます。例としてjdbc2_fdw 拡張子を使用します。

  1. ご使用のバージョンのJRE 共有オブジェクトから、/usr/lib/libjvm.so にシンボリックリンクを追加します。コマンド例:
    ln -s /usr/lib/jvm/java-6-openjdk/jre/lib/amd64/server/libjvm.so /usr/lib/libjvm.so
    
  2. ビルドするには、以下のコマンドを実行してください。
    make install USE_PGXS=1
    

Scrapfly のデータをPostgreSQL データベースとしてクエリする

拡張機能をインストールした後、以下のステップに従ってScrapfly へのクエリの実行を開始します。

  1. データベースにログイン
  2. データベースの拡張機能をロード
    CREATE EXTENSION jdbc2_fdw;
    
  3. Scrapfly のオブジェクトを作成
    CREATE SERVER API
    FOREIGN DATA WRAPPER jdbc2_fdw OPTIONS (
    drivername 'cdata.jdbc.api.APIDriver',
    url 'jdbc:api:Profile=C:\profiles\Scrapfly.apip;AuthScheme=APIKey;ProfileSettings='APIKey=your_api_key';',
    querytimeout '15',
    jarfile '/home/MyUser/CData/CData\ JDBC\ Driver\ for\ Salesforce MyDriverEdition/lib/cdata.jdbc.api.jar');
    
  4. PostgreSQL デーモンに認識されているユーザーのユーザー名とパスワードのユーザーマッピングを作成
    CREATE USER MAPPING for postgres SERVER API OPTIONS (
    username 'admin',
    password 'test');
    
  5. ローカルデータベースに外部テーブルを作成
    postgres=# CREATE FOREIGN TABLE account (
    account_id text,
    account_ text,
    account_ numeric)
    SERVER API OPTIONS (
    table_name 'account');
    
Scrapfly に対してSELECTコマンドを実行可能にする
postgres=# SELECT * FROM account;

おわりに

このようにCData JDBC Driver for API を使って簡単にScrapfly のデータを取得して検索対象にすることができました。ぜひ、30日の無償評価版 をお試しください。

はじめる準備はできましたか?

API Driver で Scrapfly のライブデータに接続

Scrapfly に接続