データエンジニアリングリソース
ETL データ変換
変換は、分析のためにデータをクレンジングおよび集約するプロセスです。アーキテクチャの観点から、ETL 変換を分類する 2 つの方法があります:
- マルチステージデータ変換 - これは、従来の抽出、変換、ロードプロセスです。抽出されたデータは、変換が「インフライト」で、つまりデータをウェアハウスにロードする前に行われるステージングエリアに移動されます。
- インウェアハウスデータ変換 - プロセスは ELT に似たものに変わります。データが抽出されてウェアハウスにロードされ、変換は基盤となるデータウェアハウスでの処理のためにプッシュダウンされます。
今日、ロード前ではなくインウェアハウスでデータを変換することは、2 つの理由で一般的になっています:
- 最新の分析データベースのスケーラビリティとパフォーマンスの向上
- ほとんどのアナリストが選択するデータ分析言語である SQL でインデータベース変換を記述できる可能性
これらの利点は、プロジェクトのコストと速度に大きなメリットをもたらし、ほとんどのデータ統合プロジェクトのデフォルト方法になっています。
ETL 変換のタイプ
プロセスのどこで変換が行われるかに関係なく、それは分析ワークフローの重要なステップです。変換は分析のためにデータを準備します。最も一般的なタイプのいくつかは次のとおりです。
基本的な ETL データ変換
- 重複排除 - 重複を見つけて削除する
- クレンジング - 最高経営責任者を CEO に、ゼロを 0 に、N を No に、Y を Yes にマッピングするなど。
- キー再構築 - テーブル間でキー関係を確立する
- フォーマット修正 - 文字セット変換、測定単位変換、日付/時刻変換など。
高度な ETL データ変換
- 集計: 値は集計されて合計値を取得します。これらはビジネスメトリックとして複数のレベルで計算および保存されます。たとえば、すべての支出を合計して総コストメトリックを取得します。
- 導出: データに適用するビジネスルールで、既存のデータから新しい計算値を抽出します。たとえば、コストを考慮した収益性メトリックを作成します。
- フィルタリング: 特定の行および/または列のみを選択します。
- 統合: 各データ要素に 1 つの標準名と 1 つの標準定義を与えます。データ統合は、同じデータ要素に対して異なるデータ名と値を使用するソース間のデータを統合します。
- 集約: データ要素は、複数のデータソースとデータベースから収集されます。
- 結合: 複数のソースからのデータを接続します。たとえば、Google Adwords や Facebook Ads などの複数のプラットフォームにわたる広告費データを追加します。
- 分割: 単一の列を複数の列に分割します。
- データ検証: 単純または複雑なデータ検証。
CData Sync: 強力な ETL & ELT データ変換
CData Sync は、エンタープライズデータレプリケーション、ETL、ELT を管理するための安全で直感的なソリューションです。数分でペタバイト規模のデータレプリケーションワークフローを作成し、100 以上のエンタープライズデータソースをすべての主要なデータウェアハウスに接続します。ETL と ELT をオンデマンドで管理します。今すぐ無料トライアルをダウンロードして始めましょう。
今すぐ始める準備はできていますか?
あらゆるデータソースから任意のデータベースまたはデータウェアハウスへのデータレプリケーションを、数回のクリックで自動化できます。
無料トライアル版をダウンロード:
無料トライアル