データチームは、データの移動方法において大きな進歩を遂げてきました。システムへの接続、変更のレプリケーション、ウェアハウスやレイクハウスへのデータ配置は、もはや困難な部分ではありません。
CData Sync は長年、このコアな役割のために構築されており、システム間でデータを移動し、分析と運用を整合させるための信頼性の高い基盤を提供しています。
これらのデータ移動プロセスが組織の中心となるにつれて、接続性と並んで連携が重要になります。インジェストはレポートに供給され、変換はメトリクスを形成し、キュレートされた結果は運用システムに戻ります。
これらのステップを単一のワークフローとして扱うことの価値が高まっています。この進化は、データレプリケーションとフルスケールオーケストレーションの間のギャップを浮き彫りにしています。
レプリケーションとオーケストレーションの間の市場ギャップ
データ統合市場は長い間、2 つの極端な選択肢を提供してきました。
一方には、意図的にインジェストで止まるレプリケーション重視のツールがあります。これらはオーケストレーションが別の場所で行われることを前提としています。もう一方には、膨大な柔軟性と同時に、追加のインフラストラクチャ、エンジニアリング労力、運用オーバーヘッドを提供するフル機能のオーケストレーションプラットフォームがあります。
多くのデータチーム、特にハイブリッドまたはオンプレミス環境を運用しているチームにとって、どちらの選択肢も理想的ではありません。汎用ワークフローエンジンは必要ありません。デプロイ、保護、保守する別のプラットフォームを導入することなく、データ移動ワークフローを連携する信頼性の高い方法が必要なのです。
パイプラインでこのギャップを埋めました。
ジョブを単一のワークフローに変換
パイプラインは、ジョブ、変換、リバース ETL、およびイベントを連携する単一のワークフローを定義します。
パイプラインは、ステップが実行される順序、失敗とスキップの処理方法、下流の処理がいつ実行されるべきかを定義します。各パイプラインの実行は、明確な開始時間、結果、およびステップレベルの詳細を持つ 1 つの実行として追跡されます。
このスコープは意図的なものです。パイプラインは汎用オーケストレーションプラットフォームではなく、Airflow や Dagster などのツールを置き換えるものではありません。データ移動ワークフローのオーケストレーションを Sync 内に直接組み込みます。
実際の例:外部オーケストレーションなしの営業オペレーション
1 日を通じて収益メトリクスを最新の状態に保つ責任を持つ営業オペレーションチームを考えてみましょう。
彼らのデータフロー:
Salesforce は増分レプリケーションを介して CRM データを提供
SQL Server は CDC を介して注文と請求書を提供
クラウドデータウェアハウスはレポートと分析テーブルを保存
Salesforce は営業と管理ビュー用にキュレートされたメトリクスを受け取る
パイプライン以前は、これらの各ステップは Sync 内に存在していましたが、それらを連携するには外部スケジューリングとグルーコードが必要でした。
パイプラインを使用すると、チームは単一の営業オペレーションパイプラインを定義します。
パイプラインは、Salesforce からの増分レプリケーションと SQL Server からの CDC インジェストから始まります。これらのステップが完了するとすぐに、収益とパイプラインメトリクスを計算する変換が実行されます。その変換は、上流データが変更された場合にのみ実行されるように構成されており、不要な下流処理を回避します。
メトリクスが更新されると、リバース ETL ステップが最新の値を Salesforce にプッシュします。最後に、軽量イベントがパイプラインの完了を記録し、必要に応じて失敗を表示します。
すべてが単一のパイプライン実行の一部として行われます。
実行内容をエンドツーエンドで正確に確認
最も顕著な変化は、日常の運用に現れます。
データチームが問うのは 1 つの質問です:パイプラインは成功したか?
各パイプライン実行には、明確な開始時間、実行順序、結果があります。チームは、どのステップが実行されたか、どのステップがスキップされたか、どこで失敗が発生したかを正確に確認できます。各パイプライン実行が何が起こったかを正確に示すため、トラブルシューティングがより速くなります。
下流ステップはデータが実際に変更された場合にのみ実行されるため、ウェアハウスのコンピュートリソースと API 呼び出しが削減されます。下流ステップがすぐに実行されるため、エンドツーエンドのパイプラインはより早く完了し、不要な処理は回避されます。
最も重要なことは、オーケストレーションロジックがデータ移動と同じ環境に存在するようになったことです。管理する追加のインフラストラクチャ、保護する別のシステム、ツール間で分割された所有権がありません。
統合された実行可視性
パイプラインは、Sync のデータワークフローに単一の実行コンテキストを導入します。
すべてのパイプライン実行は以下をキャプチャします:
実行開始時刻
実行されたステップとその順序
スキップされたステップ
各ステップのステータスと期間
この統合された実行履歴により、データチームは何が起こったかを明確でエンドツーエンドに確認できます。また、各ワークフロー実行の単一の信頼できる記録を提供することで、監査と運用レビューを簡素化します。
Sync への連携機能の組み込み
パイプラインは、軽量なワークフロー連携機能を CData Sync 内に直接組み込み、より少ない可動部分とより明確な運用可視性でエンドツーエンドのデータパイプラインを構築および運用できるようにします。
パイプラインは、CData Sync 2026 年第 1 四半期リリースの一部として利用可能です。パイプラインが他の最近の機能強化とどのように適合するかについては、Sync リリース概要ブログをご覧ください。
※本記事はCData US ブログ Pipelines in CData Sync: Coordinating Data Workflows の翻訳です。