CData Sync でオンプレミスデータをコンプライアンスを保ちながら Microsoft Fabric へレプリケーションする方法
Microsoft Fabric は、データエンジニアリング、ウェアハウス、リアルタイム分析、Power BI を1つの環境にまとめた統合型クラウド分析プラットフォームです。ただし、Fabric は クラウド専用 で、オンプレミスでのデプロイはできません。ヘルスケア、金融サービス、政府機関 などの組織にとって、これは悩ましい課題となります。HIPAA、SOX、データ主権に関する法規制 などのコンプライアンス要件では、機密データをオンプレミスに保持することが求められるケースが多く、Fabric へのフルマイグレーションは現実的ではありません。
CData Sync は、管理された自社環境内で動作し、Fabric の OneLake にレプリケーションするデータを細かくコントロールできるため、このギャップを埋めてくれます。機密レコードはオンプレミスに残したまま、承認したテーブルだけをクラウドに移動可能です。この ハイブリッドアプローチ により、コンプライアンス重視の組織でも規制上の義務を守りながら Fabric の分析機能を活用できます。
本記事では、CData Sync をオンプレミスのデータソースに接続し、Microsoft Fabric OneLake を同期先として設定したうえで、保護対象レコードをローカル管理下に置いたまま、機密性のないデータだけを選択的にレプリケーションする方法を紹介します。ここでは SQL Server を例に手順を解説していますが、CData Sync は Oracle、PostgreSQL、MySQL、IBM DB2、SAP など、さまざまなオンプレミスデータベースに接続できます。
前提条件
- オンプレミスのデータベース。本記事では SQL Server を使用していますが、CData Sync がサポートするソース であれば利用できます
- オンプレミスにインストール済みの CData Sync
- 有効なトライアルまたは有償キャパシティを持つ Microsoft Fabric アカウント
- Fabric ポータルで作成済みの Fabric ワークスペースと Lakehouse
CData Sync でソース接続を構成する
それでは、早速接続を設定していきましょう。ブラウザで CData Sync ダッシュボード(デフォルト:http://localhost:8181)を開きます。
- Connections タブに移動し、Add Connection をクリックして Sources タブを選択します
- ソースコネクタ(例:SQL Server)を選択します。コネクタがインストールされていない場合は、ダウンロードアイコンをクリックして先にインストールしてください
- 続いて、ソースに接続するために必要な接続プロパティを入力します
- Create & Test をクリックして接続を検証します

CData Sync で OneLake 同期先を構成する
次に、OneLake コネクタを使って Fabric Lakehouse への接続を設定していきます。
- Connections タブに移動し、Add Connection をクリックしてから Destinations タブを選び、Microsoft OneLake を検索します。コネクタがインストールされていない場合は、ダウンロードアイコンをクリックして先にインストールしてください
-
以下の接続プロパティを入力します。
- Connection Name:わかりやすい接続名を入力します
- URI:
onelake://Your_Workspace_Name/Your_Lakehouse.Lakehouse/Files/Your_File_Name
-
Auth Scheme を AzureAD に設定し、Connect to Microsoft OneLake をクリックします。Fabric で使用したものと同じ Microsoft アカウントでサインインしてください

- Create & Test をクリックして接続を確認します
テーブルを選択してレプリケーションジョブを作成する
ここが、コンプライアンスアーキテクチャの要となるステップです。データベース全体をレプリケーションするのではなく、クラウドにプッシュするテーブルを明示的に選べます。
- Jobs タブに移動し、Add Job を選択します
- わかりやすいジョブ名(例:OnPrem-to-Fabric)を入力してジョブを構成します。次に、Select Source ドロップダウンから構成済みのソース接続を選び、同期先についても同じように設定しましょう
- Add Job をクリックし、Task タブに移動して Add Tasks をクリックします
-
ソースデータベース内の利用可能なすべてのテーブルが表示されます。レプリケーションしたい機密性のないテーブルを選択しましょう。今回の例では、Companies(ビジネスデータ)と Contacts(氏名、メール、電話番号などの個人情報)の2つのテーブルがあります。Companies テーブルのみチェックを入れ、Contacts テーブルはチェックを外すことで、個人データをオンプレミスに残します

- Add Tasks をクリックして確定します

これこそが、コンプライアンスにおいて最も重要なステップです。個人連絡先情報や保護された医療記録を含むテーブルは、オンプレミス環境の外に出ることはありません。クラウド分析に使用しても安全と判断したデータだけがレプリケーションされる仕組みです。
レプリケーションを実行して Fabric で確認する
-
ジョブ概要で Run をクリックします

- 実行完了後、Sync はレプリケーションされた行数と所要時間を表示します
-
Fabric Lakehouse に切り替えます。Explorer パネルで Files を展開すると、レプリケーションされたデータを確認できます

- SQL analytics endpoint または Fabric の Notebook を使ってデータをクエリし、その上に Power BI レポートを構築できます
これで、オンプレミスのビジネスデータが Microsoft Fabric に取り込まれ、ダッシュボード、分析、機械学習で活用できるようになりました。一方、機密性の高いレコードは、引き続き管理下の環境内にとどまります。
CData Sync でコンプライアンス対応データを Microsoft Fabric に取り込もう
CData Sync は、何を、いつ、どのように変換して移動するかを完全にコントロールできるため、オンプレミスデータの管理とクラウド分析の橋渡し役となります。オンプレミスへのデプロイと 数百種類のソース に対応した選択的レプリケーションにより、規制業界の組織でもコンプライアンスを損なうことなく Fabric を導入できます。
自社の管理された環境で試してみませんか?CData Sync の30日間無料トライアル をダウンロードして、今すぐ Fabric へのレプリケーションを始めましょう。ご不明な点があれば、いつでも当社のサポートチームにお気軽にお問い合わせください。