Pentaho Data Integration でWordPress のデータを連携

Jerod Johnson
Jerod Johnson
Senior Technology Evangelist
Pentaho Data Integration で WordPress のデータ をベースにした ETL パイプラインを構築します。

CData JDBC Driver for Wordpress を使用すると、データパイプラインからリアルタイムデータにアクセスできます。Pentaho Data Integration は、ETL(Extraction, Transformation, and Loading)エンジンであり、データをクレンジングし、アクセス可能な統一フォーマットでデータを格納します。この記事では、WordPress のデータ に JDBC データソースとして接続し、Pentaho Data Integration で WordPress のデータ をベースにしたジョブやトランスフォーメーションを構築する方法を説明します。

WordPress への接続を設定

WordPress 接続プロパティの取得・設定方法

現時点では、CData JDBC Driver for WordPress はセルフホスト型のWordPress インスタンスへの接続のみをサポートしています。データに接続するには、Url を自身のwordpress サイトに指定し、次に以下に説明するように認証を行います。

URL を完全な形式で記入します。例えば、あなたのサイトが'http://localhost/wp/wordpress' でホストされている場合、URL は'http://localhost' ではなく、'http://localhost/wp/wordpress' となるべきです。 URL を完全な形式で入力しないと、'site not found' というエラーが発生します。

WordPress は2種類の認証をサポートします。

  • Basic 認証は、テスト環境での使用が推奨されます。
  • OAuth 2.0 認証は、デスクトップアプリケーション、Web アプリケーション、またはヘッドレスマシンからのブラウザベースのアクセスをサポートします。

Basic 認証

Basic 認証を使用するようにWordPress を設定する前に:

  • WordPress ログインに管理者権限があることを確認してください。
  • ローカルホストで実行されているWordPress のバージョンを確認します。(WordPress 4.7 以降はネイティブでWordPress REST API サポートしていますが、それより前のバージョンでは、REST API へのアクセスを安全に行うには、Basic 認証プラグインの使用が必要です。)
Basic 認証を構成するには:
  1. WordPress ホストにログインします。
  2. 4.7より前のバージョンのWordPress を実行している場合は、REST API プラグインをインストールしてください。
  3. Basic Authentication プラグインをインストールします。
  4. カスタムタクソノミーを作成するには、Simple Taxonomy Refreshed をインストールします。プラグインを手動でインストールしたい場合は、圧縮されたフォルダをwp-content\plugins フォルダに展開してからWordPress 管理者インターフェース経由でプラグインを有効にします。
  5. 次の接続プロパティを設定します。
    • AuthSchemeBasic
    • Url:WordPress URL。
    • User:ユーザーネーム。
    • Password:パスワード。
OAuth 2.0 認証についてはヘルプドキュメントを参照してください。

組み込みの接続文字列デザイナー

JDBC URL の構築を支援するには、WordPress JDBC Driver に組み込まれている接続文字列デザイナーを使用してください。JAR ファイルをダブルクリックするか、コマンドラインから JAR ファイルを実行します。

java -jar cdata.jdbc.wordpress.jar

接続プロパティを設定し、接続文字列をクリップボードにコピーします。

JDBC URL を設定する際には、Max Rows 接続プロパティの設定も検討してください。これにより返される行数が制限され、レポートやビジュアライゼーションの設計時にパフォーマンスを向上させることができます。

一般的な JDBC URL は次のようになります:

jdbc:wordpress:Url=http://www.yourwordpresshost.com;

接続文字列を保存して、Pentaho Data Integration で使用します。

Pentaho DI から WordPress に接続

Pentaho Data Integration を開き、「Database Connection」を選択して CData JDBC Driver for Wordpress への接続を設定します。

  1. 「General」をクリックします。
  2. Connection name を設定します(例:WordPress Connection)。
  3. Connection type を「Generic database」に設定します。
  4. Access を「Native (JDBC)」に設定します。
  5. Custom connection URL に WordPress の接続文字列を設定します(例:
    jdbc:wordpress:Url=http://www.yourwordpresshost.com;
    )。
  6. Custom driver class name を「cdata.jdbc.wordpress.WordPressDriver」に設定します。
  7. 接続をテストし、「OK」をクリックして保存します。

WordPress のデータパイプラインを作成

CData JDBC Driver を使用して WordPress への接続が設定されたら、新しいトランスフォーメーションまたはジョブを作成する準備が整いました。

  1. 「File」>>「New」>>「Transformation/job」をクリックします。
  2. 「Table input」オブジェクトをワークフローパネルにドラッグし、WordPress 接続を選択します。
  3. 「Get SQL select statement」をクリックし、Database Explorer を使用して利用可能なテーブルとビューを表示します。
  4. テーブルを選択し、必要に応じてデータをプレビューして確認します。

ここから、適切な同期先を選択し、レプリケーション中にデータを変更、フィルタリング、その他の処理を行うトランスフォーメーションを追加することで、トランスフォーメーションまたはジョブを続行できます。

無料トライアルと詳細情報

CData JDBC Driver for Wordpress の 30日間無料トライアルをダウンロードして、Pentaho Data Integration で WordPress のデータ のリアルタイムデータを今すぐ活用しましょう。

はじめる準備はできましたか?

Wordpress Driver の無料トライアルをダウンロードしてお試しください:

 ダウンロード

詳細:

Wordpress Icon Wordpress JDBC Driver お問い合わせ

Java デベロッパーにウェブ、デスクトップ、モバイルアプリケーションから簡単にWordpress のPages、Posts、Tags、Users データへの連携を提供。