CData Sync でオンプレミスデータをコンプライアンスを保ちながら Microsoft Fabric へレプリケーションする方法



Microsoft Fabric は、データエンジニアリング、ウェアハウス、リアルタイム分析、Power BI を1つの環境にまとめた統合型クラウド分析プラットフォームです。ただし、Fabric は クラウド専用 で、オンプレミスでのデプロイはできませんヘルスケア金融サービス政府機関 などの組織にとって、これは悩ましい課題となります。HIPAASOXデータ主権に関する法規制 などのコンプライアンス要件では、機密データをオンプレミスに保持することが求められるケースが多く、Fabric へのフルマイグレーションは現実的ではありません。

CData Sync は、管理された自社環境内で動作し、Fabric の OneLake にレプリケーションするデータを細かくコントロールできるため、このギャップを埋めてくれます。機密レコードはオンプレミスに残したまま、承認したテーブルだけをクラウドに移動可能です。この ハイブリッドアプローチ により、コンプライアンス重視の組織でも規制上の義務を守りながら Fabric の分析機能を活用できます。

本記事では、CData Sync をオンプレミスのデータソースに接続し、Microsoft Fabric OneLake を同期先として設定したうえで、保護対象レコードをローカル管理下に置いたまま、機密性のないデータだけを選択的にレプリケーションする方法を紹介します。ここでは SQL Server を例に手順を解説していますが、CData Sync は Oracle、PostgreSQL、MySQL、IBM DB2、SAP など、さまざまなオンプレミスデータベースに接続できます。

前提条件

  1. オンプレミスのデータベース。本記事では SQL Server を使用していますが、CData Sync がサポートするソース であれば利用できます
  2. オンプレミスにインストール済みの CData Sync
  3. 有効なトライアルまたは有償キャパシティを持つ Microsoft Fabric アカウント
  4. Fabric ポータルで作成済みの Fabric ワークスペースと Lakehouse

CData Sync でソース接続を構成する

それでは、早速接続を設定していきましょう。ブラウザで CData Sync ダッシュボード(デフォルト:http://localhost:8181)を開きます。

  1. Connections タブに移動し、Add Connection をクリックして Sources タブを選択します
  2. ソースコネクタ(例:SQL Server)を選択します。コネクタがインストールされていない場合は、ダウンロードアイコンをクリックして先にインストールしてください
  3. 続いて、ソースに接続するために必要な接続プロパティを入力します
  4. Create & Test をクリックして接続を検証します

CData Sync で OneLake 同期先を構成する

次に、OneLake コネクタを使って Fabric Lakehouse への接続を設定していきます。

  1. Connections タブに移動し、Add Connection をクリックしてから Destinations タブを選び、Microsoft OneLake を検索します。コネクタがインストールされていない場合は、ダウンロードアイコンをクリックして先にインストールしてください
  2. 以下の接続プロパティを入力します。
    • Connection Name:わかりやすい接続名を入力します
    • URI:
      onelake://Your_Workspace_Name/Your_Lakehouse.Lakehouse/Files/Your_File_Name
  3. Auth SchemeAzureAD に設定し、Connect to Microsoft OneLake をクリックします。Fabric で使用したものと同じ Microsoft アカウントでサインインしてください
  4. Create & Test をクリックして接続を確認します

テーブルを選択してレプリケーションジョブを作成する

ここが、コンプライアンスアーキテクチャの要となるステップです。データベース全体をレプリケーションするのではなく、クラウドにプッシュするテーブルを明示的に選べます。

  1. Jobs タブに移動し、Add Job を選択します
  2. わかりやすいジョブ名(例:OnPrem-to-Fabric)を入力してジョブを構成します。次に、Select Source ドロップダウンから構成済みのソース接続を選び、同期先についても同じように設定しましょう
  3. Add Job をクリックし、Task タブに移動して Add Tasks をクリックします
  4. ソースデータベース内の利用可能なすべてのテーブルが表示されます。レプリケーションしたい機密性のないテーブルを選択しましょう。今回の例では、Companies(ビジネスデータ)と Contacts(氏名、メール、電話番号などの個人情報)の2つのテーブルがあります。Companies テーブルのみチェックを入れ、Contacts テーブルはチェックを外すことで、個人データをオンプレミスに残します
  5. Add Tasks をクリックして確定します

これこそが、コンプライアンスにおいて最も重要なステップです。個人連絡先情報や保護された医療記録を含むテーブルは、オンプレミス環境の外に出ることはありません。クラウド分析に使用しても安全と判断したデータだけがレプリケーションされる仕組みです。

レプリケーションを実行して Fabric で確認する

  1. ジョブ概要で Run をクリックします
  2. 実行完了後、Sync はレプリケーションされた行数と所要時間を表示します
  3. Fabric Lakehouse に切り替えます。Explorer パネルで Files を展開すると、レプリケーションされたデータを確認できます
  4. SQL analytics endpoint または Fabric の Notebook を使ってデータをクエリし、その上に Power BI レポートを構築できます

これで、オンプレミスのビジネスデータが Microsoft Fabric に取り込まれ、ダッシュボード、分析、機械学習で活用できるようになりました。一方、機密性の高いレコードは、引き続き管理下の環境内にとどまります。

CData Sync でコンプライアンス対応データを Microsoft Fabric に取り込もう

CData Sync は、何を、いつ、どのように変換して移動するかを完全にコントロールできるため、オンプレミスデータの管理とクラウド分析の橋渡し役となります。オンプレミスへのデプロイと 数百種類のソース に対応した選択的レプリケーションにより、規制業界の組織でもコンプライアンスを損なうことなく Fabric を導入できます。

自社の管理された環境で試してみませんか?CData Sync の30日間無料トライアル をダウンロードして、今すぐ Fabric へのレプリケーションを始めましょう。ご不明な点があれば、いつでも当社のサポートチームにお気軽にお問い合わせください。