CData Sync CLI で Spark のデータを複数のデータベースにレプリケーションする方法

Jerod Johnson
Senior Technology Evangelist

1つの設定ファイルでSpark のデータを複数の異なるデータベースにレプリケーションする方法をご紹介します。

常時稼働のアプリケーションには、自動フェイルオーバー機能とリアルタイムのデータアクセスが欠かせません。CData Sync for Spark を使えば、ミラーリングデータベース、常時稼働のクラウドデータベース、レポーティングサーバーなど、さまざまなデータベースにSpark のデータをリアルタイム連携できます。Windows やJava が動作するあらゆるマシンから、リモートのSpark のデータとの自動同期が可能です。

Sync のコマンドラインインターフェース（CLI）を使えば、レプリケーションのほぼすべての設定を簡単に制御できます。設定を変更することなく、Spark のデータを1つまたは複数のデータベースにレプリケーションすることが可能です。

Spark のデータに接続する

接続文字列やメール通知などの設定は、XML 設定ファイルに保存できます。

以下は、SQLite へレプリケーションする場合の設定例です。

Windows

<?xml version="1.0" encoding="UTF-8" ?>
<CDataSync><DatabaseType>SQLite</DatabaseType>
  <DatabaseProvider>System.Data.SQLite</DatabaseProvider>
  <ConnectionString>Server=127.0.0.1;</ConnectionString>
  <ReplicateAll>False</ReplicateAll>
  <NotificationUserName></NotificationUserName>
  <DatabaseConnectionString>Data Source=C:\my.db</DatabaseConnectionString>
  <TaskSchedulerStartTime>09:51</TaskSchedulerStartTime>
  <TaskSchedulerInterval>Never</TaskSchedulerInterval>
</CDataSync>

Java

<?xml version="1.0" encoding="UTF-8" ?>
<CDataSync><DatabaseType>SQLite</DatabaseType><DatabaseProvider>org.sqlite.JDBC</DatabaseProvider>
<ConnectionString>Server=127.0.0.1;</ConnectionString>
<ReplicateAll>False</ReplicateAll>
<NotificationUserName></NotificationUserName>
<DatabaseConnectionString>Data Source=C:\my.db</DatabaseConnectionString>
</CDataSync>

SparkSQL への接続

SparkSQL への接続を確立するには以下を指定します。

Server：SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
Port：SparkSQL インスタンスへの接続用のポートに設定。
TransportMode：SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
AuthScheme：使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。

Databricks への接続

Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note：必要な値は、「クラスター」に移動して目的のクラスターを選択し、「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。

Server：Databricks クラスターのサーバーのホスト名に設定。
Port：443
TransportMode：HTTP
HTTPPath：Databricks クラスターのHTTP パスに設定。
UseSSL：True
AuthScheme：PLAIN
User：'token' に設定。
Password：パーソナルアクセストークンに設定（値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます）。

レプリケーションクエリの設定

Sync では、標準 SQL を使ってレプリケーションを制御できます。REPLICATE 文は、データベース内のテーブルをキャッシュして維持するための高レベルコマンドです。 Spark API がサポートする任意の SELECT クエリを定義できます。以下の文は、Spark のデータのテーブルをキャッシュし、差分更新を行います：

REPLICATE Customers;

レプリケーションクエリを含むファイルを指定することもできます。これにより、同じレプリケーションクエリを使って複数のデータベースへレプリケーションできます。

Sync を実行する

接続文字列とレプリケーションクエリを設定したら、以下のコマンドラインオプションで Sync を実行できます：

Windows

SparkSQLSync.exe -g MySQLiteConfig.xml -f SparkSQLSync.sql

Java

java -Xbootclasspath/p:c:\sqlitejdbc.jar -jar SparkSQLSync.jar -g MySQLiteConfig.xml -f SparkSQLSync.sql

はじめる準備はできましたか？

詳細はこちら、または無料トライアルにお申し込みください：

CData Sync お問い合わせ

CData Sync CLI で Spark のデータを複数のデータベースにレプリケーションする方法

Spark のデータに接続する

Windows

Java

SparkSQL への接続

Databricks への接続

レプリケーションクエリの設定

Sync を実行する

Windows

Java

はじめる準備はできましたか？

この記事の内容

関連記事

CData Sync CLI で Spark のデータ を複数のデータベースにレプリケーションする方法

Spark のデータ に接続する

Windows

Java

SparkSQL への接続

Databricks への接続

レプリケーションクエリの設定

Sync を実行する

Windows

Java

はじめる準備はできましたか？

この記事の内容

関連記事

CData Sync CLI で Spark のデータを複数のデータベースにレプリケーションする方法

Spark のデータに接続する