オープンテーブル形式は、モダンな分析プラットフォームの構築方法において基盤となる要素になっています。チームはデータレイクの柔軟性を求める一方で、従来ウェアハウスに関連付けられていた構造、ガバナンス、監査可能性も必要としています。
Apache Iceberg は、この課題に対する主要な解決策の 1 つとして登場しました。
V26 リリースにより、CData Sync は Iceberg テーブルへの直接書き込みをサポートするようになり、制御を手放すことなく、レプリケートされたデータをガバナンスの効いた分析対応の構造に配置する新しい方法をチームに提供します。
この機能は、Sync の既存の Delta テーブルサポートを基盤とし、一貫した製品の方向性を強化しています。チームは、データの取り込み方法を変更することなく、データの保存方法とガバナンス方法を選択できるべきです。
Iceberg がオープンスタンダードになった理由
Iceberg が重要なのは、大規模で管理が困難な環境に明確さをもたらすからです。データが最終的にウェアハウス、レイクハウス、またはその両方を通じてクエリされるかどうかに関係なく、この利点は変わりません。
スキーマは明示的であり、時間とともに安全に進化します。データの変更は、タイムトラベルと監査可能性をサポートするスナップショットを通じて追跡されます。オブジェクトストレージ上でも、書き込みはトランザクショナルです。
共有レイクハウスまたはウェアハウス環境を運用するチームにとって、影響は明確です。アナリストは一貫したデータをクエリできます。エンジニアは下流の利用者に影響を与えることなくスキーマを進化させることができます。コンプライアンスおよび監査チームは、履歴テーブル状態を直接参照できます。
Iceberg をネイティブでサポートすることにより、Sync は運用データをこのガバナンスの効いた状態で即座に配置でき、事後に構造を適用するための下流ツールやカスタムロジックに依存する必要がありません。
Delta か Iceberg か:意図的な選択
Sync V26 では、Iceberg が Delta と並んでファーストクラスのテーブル形式オプションとして加わります。これは過渡的なステップや一時的な橋渡しではありません。実際の組織が現在どのように運用しているかを反映しています。
特定のプラットフォームとの緊密な連携のために Delta を標準化するチームもあります。エンジンに依存しないモデルとオープンガバナンスのために Iceberg を好むチームもあります。多くの組織は、ワークロード、ドメイン、またはチームの所有権に応じて両方を使用しています。
多くの Snowflake をご利用のお客様は、特に完全に管理されたウェアハウステーブルを超えてレイクハウススタイルのアーキテクチャに分析を拡張するにつれて、Iceberg を優先するオープンテーブル形式として標準化を進めています。Iceberg により、Snowflake 中心のチームは、時間の経過とともに複数のエンジンからアクセスできるオープンストレージにデータを保持しながら、ガバナンスの効いた監査可能なテーブルを維持できます。
しかし、Sync は単一の選択肢を押し付けません。データが Delta テーブルに配置されるか Iceberg テーブルに配置されるかに関係なく、同じレプリケーションジョブ、変更処理、運用制御が適用されます。違いは、データがレイクハウスまたはウェアハウスに到達した後、そのデータがどのように表現され管理されるかです。
この分離は重要です。プラットフォームチームはデータ取り込みを制約することなく標準を設定でき、データチームはパイプラインを再構築することなく、時間の経過とともにストレージの決定を適応させることができます。
明確な動作を持つガバナンスの効いたテーブル
管理されたデータインジェストツールにおける持続的な課題の 1 つは、可視性の欠如です。データはテーブルに到着しますが、途中でどのように構造化、バージョン管理、または変換されたかを検査または説明することは困難です。
Sync はより透明性の高いアプローチを取ります。
Iceberg テーブルへの書き込み時、Sync は明示的なスキーマを保持し、変更を増分的に適用し、Iceberg のスナップショットモデルに沿った監査可能なデータファイルを生成します。データのレイアウト方法を隠す独自のラッパーや隠れた正規化レイヤーはありません。
チームは、時間の経過とともにデータがどのように変化するかを追跡し、スキーマ進化の影響を理解し、ベンダー固有の動作をリバースエンジニアリングすることなく問題をデバッグできます。
より広範な基盤の一部
Apache Iceberg サポートは、Sync V26 リリースの一部です。Delta テーブルやその他のプラットフォーム機能への継続的な投資と並んで、モダンなデータパイプライン全体での選択肢、ガバナンス、運用の明確さへの広範な焦点を反映しています。
V26 に含まれる内容の完全な概要、または Delta と Iceberg のどちらがお使いの環境に適しているかについて詳しく知りたい場合は、V26 リリース概要と関連する Delta ドキュメントをご覧ください。
※本記事はCData US ブログ CData Sync v26 Adds Apache Iceberg Table Support の翻訳です。