CData Sync でオンプレミスデータをコンプライアンスを保ちながら Microsoft Fabric へレプリケーションする方法

Microsoft Fabric は、データエンジニアリング、ウェアハウス、リアルタイム分析、Power BI を1つの環境にまとめた統合型クラウド分析プラットフォームです。ただし、Fabric は クラウド専用 で、オンプレミスでのデプロイはできません。ヘルスケア、金融サービス、政府機関 などの組織にとって、これは悩ましい課題となります。HIPAA、SOX、データ主権に関する法規制 などのコンプライアンス要件では、機密データをオンプレミスに保持することが求められるケースが多く、Fabric へのフルマイグレーションは現実的ではありません。

CData Sync は、管理された自社環境内で動作し、Fabric の OneLake にレプリケーションするデータを細かくコントロールできるため、このギャップを埋めてくれます。機密レコードはオンプレミスに残したまま、承認したテーブルだけをクラウドに移動可能です。この ハイブリッドアプローチ により、コンプライアンス重視の組織でも規制上の義務を守りながら Fabric の分析機能を活用できます。

本記事では、CData Sync をオンプレミスのデータソースに接続し、Microsoft Fabric OneLake を同期先として設定したうえで、保護対象レコードをローカル管理下に置いたまま、機密性のないデータだけを選択的にレプリケーションする方法を紹介します。ここでは SQL Server を例に手順を解説していますが、CData Sync は Oracle、PostgreSQL、MySQL、IBM DB2、SAP など、さまざまなオンプレミスデータベースに接続できます。

前提条件

オンプレミスのデータベース。本記事では SQL Server を使用していますが、CData Sync がサポートするソースであれば利用できます
オンプレミスにインストール済みの CData Sync
有効なトライアルまたは有償キャパシティを持つ Microsoft Fabric アカウント
Fabric ポータルで作成済みの Fabric ワークスペースと Lakehouse

CData Sync でソース接続を構成する

それでは、早速接続を設定していきましょう。ブラウザで CData Sync ダッシュボード（デフォルト：http://localhost:8181）を開きます。

Connections タブに移動し、Add Connection をクリックして Sources タブを選択します
ソースコネクタ（例：SQL Server）を選択します。コネクタがインストールされていない場合は、ダウンロードアイコンをクリックして先にインストールしてください
続いて、ソースに接続するために必要な接続プロパティを入力します

Create & Test をクリックして接続を検証します

CData Sync で OneLake 同期先を構成する

次に、OneLake コネクタを使って Fabric Lakehouse への接続を設定していきます。

Connections タブに移動し、Add Connection をクリックしてから Destinations タブを選び、Microsoft OneLake を検索します。コネクタがインストールされていない場合は、ダウンロードアイコンをクリックして先にインストールしてください
以下の接続プロパティを入力します。
- Connection Name：わかりやすい接続名を入力します
- URI：
```
onelake://Your_Workspace_Name/Your_Lakehouse.Lakehouse/Files/Your_File_Name
```
Auth Scheme を AzureAD に設定し、Connect to Microsoft OneLake をクリックします。Fabric で使用したものと同じ Microsoft アカウントでサインインしてください
Create & Test をクリックして接続を確認します

テーブルを選択してレプリケーションジョブを作成する

ここが、コンプライアンスアーキテクチャの要となるステップです。データベース全体をレプリケーションするのではなく、クラウドにプッシュするテーブルを明示的に選べます。

Jobs タブに移動し、Add Job を選択します
わかりやすいジョブ名（例：OnPrem-to-Fabric）を入力してジョブを構成します。次に、Select Source ドロップダウンから構成済みのソース接続を選び、同期先についても同じように設定しましょう

Add Job をクリックし、Task タブに移動して Add Tasks をクリックします
ソースデータベース内の利用可能なすべてのテーブルが表示されます。レプリケーションしたい機密性のないテーブルを選択しましょう。今回の例では、Companies（ビジネスデータ）と Contacts（氏名、メール、電話番号などの個人情報）の2つのテーブルがあります。Companies テーブルのみチェックを入れ、Contacts テーブルはチェックを外すことで、個人データをオンプレミスに残します
Add Tasks をクリックして確定します

これこそが、コンプライアンスにおいて最も重要なステップです。個人連絡先情報や保護された医療記録を含むテーブルは、オンプレミス環境の外に出ることはありません。クラウド分析に使用しても安全と判断したデータだけがレプリケーションされる仕組みです。

レプリケーションを実行して Fabric で確認する

ジョブ概要で Run をクリックします
実行完了後、Sync はレプリケーションされた行数と所要時間を表示します
Fabric Lakehouse に切り替えます。Explorer パネルで Files を展開すると、レプリケーションされたデータを確認できます
SQL analytics endpoint または Fabric の Notebook を使ってデータをクエリし、その上に Power BI レポートを構築できます

これで、オンプレミスのビジネスデータが Microsoft Fabric に取り込まれ、ダッシュボード、分析、機械学習で活用できるようになりました。一方、機密性の高いレコードは、引き続き管理下の環境内にとどまります。

CData Sync でコンプライアンス対応データを Microsoft Fabric に取り込もう

CData Sync は、何を、いつ、どのように変換して移動するかを完全にコントロールできるため、オンプレミスデータの管理とクラウド分析の橋渡し役となります。オンプレミスへのデプロイと数百種類のソースに対応した選択的レプリケーションにより、規制業界の組織でもコンプライアンスを損なうことなく Fabric を導入できます。

自社の管理された環境で試してみませんか？CData Sync の30日間無料トライアルをダウンロードして、今すぐ Fabric へのレプリケーションを始めましょう。ご不明な点があれば、いつでも当社のサポートチームにお気軽にお問い合わせください。

CData は、AI を本番環境で機能させるデータレイヤーです。数百の主要エンタープライズソースへのライブコネクティビティとレプリケーション、セマンティックコンテキスト、組み込みガバナンスを提供。Databricks、Microsoft、Google、Palantir をはじめ、世界中の 10,000 以上のお客様の AI を支えています。

お問い合わせ