データドリブンなデジタルトランスフォーメーションに取り組む組織が増える中、事業部門はパフォーマンスやビジネスの健全性に対する実用的なインサイトを得るために、データへのアクセスをますます求めるようになっています。以前の記事では、分散したデータを単一のデータストアに統合することで、データの断片化を防ぎ、データアクセスの民主化を実現する方法について説明しました。
しかし、データウェアハウスやデータベース内の非常に大規模なデータセットに対してレポートを作成する場合、適切な接続ツールがなければ複雑になります。単一のデータセットが数十GBから数百GBに達する場合、BIおよび分析ツールで利用可能な従来のデータインポートオプションでは対応できなくなります。レポート作成を開始する前に、すべてのデータをインポートする時間やリソースがない場合もあります。

この記事では、大規模なデータセットに対するリアルタイムの分析とレポートを可能にするCData Connectorsの重要な機能について説明します。例としてCData Power BI Connector for Google BigQueryを使用しますが、これらの機能はどのデータウェアハウスとの連携においても不可欠なものです。
リアルタイムクエリの活用
BIおよび分析プラットフォームの大半には、ローカル環境にデータをインポートする代わりに、データソースからライブデータをクエリするオプションがあります。ライブクエリには以下のような利点があります:
最初にデータをインポートすることが非現実的(または不可能)な非常に大規模なデータセットに対して、レポート、チャート、ダッシュボードを構築できます。
データの基盤となる変更をニアリアルタイムで反映できます。新しい情報を収集するためにデータを再インポートするには、より多くの時間とローカルリソースが必要です。
プラットフォーム固有のデータセット上限を回避できます。たとえば、Power BIではデータセットに最大1 GBまでしかインポートできません。
CData Driversは、ツール、プラットフォーム、アプリケーションに関係なく、データへのリアルタイムアクセスをサポートしています。特に、CData Power BI Connectorsは、データソースに関係なくDirectQueryをサポートしています。
Power BIにおけるGoogle BigQueryのDirectQuery
Google BigQueryは「ビッグデータを価値あるビジネスインサイトに変えるために設計された、サーバーレスでコスト効率が高くマルチクラウド対応のデータウェアハウス」です。Power BIのリアルタイムクエリ技術であるDirectQueryへのビルトインサポートにより、CData Power BI ConnectorはPower BIのレポート、チャート、ダッシュボードから直接BigQueryデータへのライブアクセスを可能にします。
Power BIの1 GBというデータセット上限と、データのインポートおよび処理に必要なローカルリソースを考慮すると、大規模なデータセットを扱う場合、DirectQueryが唯一の選択肢となります。この記事では、ニューヨーク市タクシー&リムジン委員会(nyc-tlc)のデータセットを使用し、特にイエロータクシーの運行データに注目します。
以下に、クエリ対象のテーブルの詳細を示します:
Trips テーブルの詳細
Table ID: nyc-tlc:yellow.trips
Table size: 139.29 GB
Number of rows: 1,108,779,463
ご覧のとおり、このテーブルには10億行以上のデータが含まれており、Power BIの1 GBインポート制限を大幅に超えています。Power BIでデータセット全体をインポートして分析することは不可能であり、他のツールやプラットフォームでも時間とローカルリソースの面で非常にコストがかかります。
データに接続するために、テーブル(およびデータセット)をローカルプロジェクトにコピーし、CData Power BI Connectorを設定しました:

OAuth経由でBig Queryに認証し(ブラウザでGoogleの認証情報を使用してログイン)、Power BIから直接接続できるようになりました。
ビジュアライゼーションの構築
ライブデータをクエリする場合、フィルタ、集計、その他の複雑な処理の多くが基盤となるデータソースに渡されるため、大規模なデータセットに対するビジュアライゼーションの構築が可能になります。複雑なクエリをデータソースに渡すことで、サーバーサイドの計算能力を活用し、レポート作成を高速化し、クライアントサイドのリソースを解放します。ライブクエリにより、フィルタの変更やドリルダウンなどに基づいてリアルタイムで更新される、複数の連動したビジュアライゼーションを構築できます。
ベンダー別の運行回数
最初のビジュアライゼーションは、データセット内の各ベンダーの運行回数をカウントする円グラフです。データをインポートする場合、10億回以上のすべての運行データをインポートし、グループ化し、クライアントサイドでカウントする必要があります。代わりに、DirectQueryのおかげで、Power BIはGoogle BigQueryにグループ化とカウントの実行を依頼します。このクエリにより、Power BIは10億行以上ではなく、3行のデータ(ベンダーごとに1行)からビジュアライゼーションを構築するだけで済みます。

乗客数とベンダー別の平均総コスト
次のビジュアライゼーションでは、乗客数とベンダーごとにグループ化した各運行の平均総コストを計算しています。さらに複雑さを加えるために、乗客数が0人から10人の運行のみにフィルタリングしました。ここでも、10億行を管理するためのローカルリソースを必要とする代わりに、Power BIはBigQueryに平均化、グループ化、フィルタリング、ソートの実行を依頼します。これらすべての複雑な処理が含まれていても、Power BIは33行のデータ(3つのベンダー x 11種類の乗客数)をチャート化するだけで済みます。

ベンダーと場所別の降車地点
最後のビジュアライゼーションでは、各運行の降車地点(緯度と経度)をベンダーごとに色分けして表示しています。このビジュアライゼーションは最もシンプルなクエリを使用しているため、最大の結果セットを返します。

CData Power BI Connectors
CData Power BI Connectorsは、Google BigQueryをはじめとする幅広い人気のビッグデータストレージアプリケーションに対してDirectQueryを可能にします。DirectQueryサポートを含めることで、CDataはバックエンドのデータセットの規模に関係なく、円グラフや棒グラフからマップや散布図まで、Power BIで利用可能なあらゆるビジュアライゼーションでリアルタイムレポートを実現します。
この記事ではGoogle BigQueryに焦点を当てましたが、ここで議論した原則と技術は、CDataがサポートする250以上のSaaS、ビッグデータ、NoSQLデータソースに適用されます。
今すぐ始めましょう
Power BI Connectorsの無償30日間トライアルをダウンロードして、ビッグデータストアに対するリアルタイムレポートでCDataの違いを今すぐ体験してください。
※本記事はCData US ブログ Too Much Data in Your Warehouse for Power BI – Now What? の翻訳です。