Snowflake がプライマリ データ ウェアハウスである場合、なぜ組織は Google Cloud Platform (BigQuery) を必要とするのですか?
公開: 2023-01-27エグゼクティブサマリー
仮想データ ウェアハウジング (「クラウド」) がますます重要になりつつあり、企業がビッグ データを使用および保存する方法の未来であることは間違いありません。 そのため、ビジネス ニーズに適合し、重要なビジネス インサイトをタイムリーかつコスト効率の高い方法で取得するのに役立つデータ ウェアハウジング ソリューションを慎重に決定することがますます重要になります。 企業データの量と複雑さがどのように増大しているかを見ると、ハイブリッド ソリューションの方がうまく機能する場合があるため、利用可能なすべてのクラウド ウェアハウジング オプションの利点を客観的に見て、組織のデータに基づいて機能するカスタム ソリューションに取り組むことが重要です。目標。 この記事では、企業が現在使用している最も一般的で一般的な 2 つのプラットフォーム、BigQuery (Google Cloud Platform – GCP) と Snowflake のいずれかまたは両方をニーズに基づいて使用するユースケースについて説明します。
著者のメモ
多くのグローバル組織と協力してきたおかげで、InfoTrust チームは、複数のクラウド プラットフォームと連携することの実現可能性について尋ねられることがよくあります。 次のような質問があります。
- Snowflake をプライマリ クラウド プラットフォームとして複数のクラウド プラットフォーム (ハイブリッド クラウド) を使用することで、コストとクエリ実行の効率が向上しますか? はいの場合、どのようなユースケースが考えられますか?
- Snowflake が組織の主要なクラウド プラットフォームである場合、どのクラウド プラットフォームで実行できますか? 2 つの間の相乗効果を最大限に引き出すのに役立つのはどれですか?
- Snowflake インスタンスを実行するために、あるクラウド プラットフォームが別のクラウド プラットフォームよりも優れている点は何ですか (GCP、AWS、Azure)?
- GCP で Snowflake インスタンスを実行し、BigQuery も使用できますか? はいの場合、どのようなユースケースが考えられますか? AWS や Azure ではなく、なぜ GCP なのか?
あなたの組織もこれらの質問のいくつかに対する答えを探している場合は、読み進めてください! 明確さと方向性が得られることを願っています。
Google BigQuery について
2010 年 5 月にリリースされた BigQuery は、スケーラブルな分析を可能にする Google のフルマネージド サーバーレス データ ウェアハウスです。 BigQuery は、データを高速にスキャンするための列型ストレージと、巨大なコンピュータ クラスタ全体でクエリをディスパッチして結果を集計するためのツリー アーキテクチャを採用しています。 Google BigQuery を使用すると、データから最大限の価値を引き出すために重要なことに集中できます。 インフラストラクチャとスケーラビリティは自動的に処理され、料金はサービスの使用に対してのみ発生します。 卓越したパフォーマンスと標準 SQL 言語により、ハードウェアやライセンスへの投資を考えることなく、まったく新しい方法でデータを探索できます。 これにより、独自の柔軟性が提供され、データから貴重な洞察に費やす時間が短縮されます。
スノーフレークについて
2014 年 10 月にローンチされた Snowflake は、データ ウェアハウジング、データ レイク、データ エンジニアリング、データ サイエンス、データ アプリケーション開発、およびリアルタイム/共有データの安全な共有と消費のための単一のプラットフォームを提供する、完全に管理された SaaS (サービスとしてのソフトウェア) です。データ。 Snowflake には、ストレージとコンピューティングの分離、スケーラブルなコンピューティング、データ共有、データのクローン作成、サードパーティ ツールのサポートなど、すぐに使用できる機能が含まれており、成長する企業の厳しいニーズに対応できます。
エンタープライズ データ ウェアハウスとして Snowflake を使用している場合…
Snowflake は、さまざまな利点があるため、あらゆる企業にとって優れたデータ ウェアハウスの選択肢です。 簡単な移行からデータ セキュリティまで、グローバル企業がビッグ データ分析を管理するために求めるすべての機能を備えています。
上記とは別に、Snowflake のその他の注目すべき利点は次のとおりです。
- 極端なスケーラビリティ:ユーザーは実質的に無制限の数の仮想ウェアハウスを作成でき、それぞれがデータベース内のデータに対して独自のワークロードを実行します。さらに、ユーザーは各クラスター内のノード数をすばやく簡単にサイズ変更して、最適なパフォーマンスを得ることができます。 Snowflake は、接続を改善し、データベース ストレージを最適化することもできます。
- クラウドベース: Snowflake はクラウド データ ウェアハウスです。つまり、データを保存して分析するために高価なハードウェアに投資する必要はありません。
- 自動パフォーマンス チューニング: Snowflake には、ユーザーが手動で設定を微調整する必要なく、クエリ最適化エンジンを介した組み込みの自動クエリ パフォーマンス最適化が含まれています。
- 強力なデータ セキュリティ: Snowflake には、IP 許可リストとブロック リスト、多要素認証、自動 256 ビット AES 暗号化など、業界をリードするさまざまなデータ セキュリティ機能が備わっています。Snowflake は、GDPR、HIPAA、PCI DSS、SOC 1、SOC 2 などのデータ セキュリティ標準に準拠していると言われています。
- ユーザー アクセス制御:機密データにアクセスするユーザーを制御し、内部関係者が機密情報を閲覧できないようにすることができるようになりました。
しかし、それだけですか? そうでないかもしれない。 Snowflake の利点を調べたので、Snowflake が少し欠けている機能を見て、データの耐久性、整合性、および全体的なデータ エコシステムの設計についてより広い議論を提起するのは公正なことです。
そのような議論のトピックの 1 つは、Snowflake インスタンスを実行する場所です。 ご存知のように、Snowflake インスタンスを実行するには、Amazon (AWS)、Google (GCP)、または Microsoft (Azure) パブリック クラウドのいずれであっても、ベースライン クラウド プラットフォームが必要です。 これは、企業が下さなければならない決定です。
では、Google Cloud Platform が Snowflake 統合の優れた候補である理由は何ですか?
GCP 上の Snowflake は、両方の長所をユーザーに提供します。 これらの堅牢なプラットフォームのすべての利点を組み合わせることで、比類のないデータ処理と分析能力が得られます。 注目すべき GCP 機能のいくつかは次のとおりです。

BigQuery と Snowflake 間のアーキテクチャと処理のハンドシェイクを理解する
- Snowflake と同様に、Google Cloud Platform はストレージをデータ処理から分離します。 これらは両方とも、他の利用可能なパブリック クラウド オプションと比較して、より高いパフォーマンスの相乗効果を見つけることができます。
- Snowflake は構造化データと半構造化データをサポートしていますが、GCP (BigQuery) は列形式の非構造化データ (NESTED データ) もサポートしています。 ETL が Analytics や Ad Tech のデータに NESTED フィールドを持つ場合があることを考慮する前に、これを不利な点またはデータ変換の必要性と見なす人もいるかもしれませんが、データ ウェアハウスの概念を本当に理解し、それを「データの最小化」という最新のデータ追跡概念に合わせれば、これは、組織がどのデータをどのプラットフォームに置くかを決定する機会と見なされ、分析機能の向上につながります。
- Snowflake は、従来のレポートやダッシュボードを超えた幅広いユース ケースをサポートしています。 その分離されたストレージとコンピューティング アーキテクチャにより、さまざまなワークロードを分離して SLA を満たすことができ、高いユーザー同時実行性もサポートされます。 ただし、Snowflake は、データ アクセスが非効率的であり、広範なインデックス作成とクエリの最適化が欠如しているため、インタラクティブまたはアドホック クエリのパフォーマンスが最適ではありません。ここで BigQuery が役に立ちます。 各ワークロードを異なる予約スロットに割り当てることで、ワークロードを分離できます。 Snowflake、Redshift、Athena とは異なり、BigQuery は低レイテンシ ストリーミングもサポートしています。
GCP (BigQuery) が Snowflake と並行して作業しながらデータ エコシステム全体に提供するその他の重要な利点
- Google プロダクトである GCP (BigQuery) は、DV360、SA360、キャンペーン マネージャー、Google 広告などの他の Google SaaS プラットフォームとのシームレスな統合機能を備えています。ほとんどの企業組織は、これらのプラットフォームでメディア キャンペーンを実行しており、シームレスな統合は、メディア データを Analytics データと統合するための主要な要件の 1 つです。 これにより、顧客の行動を分析し、それに応じてマーケティング戦略を最適化する大きなチャンスが開かれます。
企業データのほとんどが Google Cloud で実行される Snowflake に存在する場合でも、統合が容易であり、BigQuery で利用可能な予測分析と機械学習機能により、ファーストパーティ データ分析、オーディエンス構築、およびその後の R-ETL により、すぐに使える API またはデータ転送サービスを使用して、GCP 経由でアクティベーション用の Ad Tech プラットフォームを作成できます。 これにより、2 つのデータ ウェアハウス間の相乗効果が生まれ、それぞれの利点に応じて選択的なユーティリティが提供されます。 - 機械学習と予測分析機能は、データの統合と分析に BigQuery を使用することで得られる最大の利点の 1 つであることがわかっているため、Snowflake が企業のプライマリ データであっても、BigQuery を使用してデータ モデリングのユースケースを実行することをお勧めします。倉庫。
- 組織の主要な分析プラットフォームが Google アナリティクスであり、要件が分析とメディア データを統合することである場合、ベースライン データ アーキテクチャを変更することなく、BigQuery でシームレスにこれを実現できます。 Snowflake では、イベント シーケンスを維持するためにプラットフォームに実際にデータをインポートする前に、分析データを UNNESTED (フラット化) する必要があります。 一方、統合と分析が BigQuery で実行される場合でも、NESTED データ構造を操作できます。 これにより、データ クレンジングの手順が減り、データ ウェアハウスでデータをより効率的に維持するのにも役立ちます。
- クエリ実行時の最適化とコスト効率に関して言えば、Snowflake と BigQuery を併用すると大きなメリットが得られます。 企業が大規模なデータ セットを扱っているがワークロードが急上昇している場合は、BigQuery を選択してコストを最適化するのが理想的ですが、企業であり、クエリとデータに関してより安定した使用パターンがある場合は、Snowflake を選択できます。同じコンピューティング時間でより多くのクエリを詰め込む機会が得られるため、この場合は Snowflake を使用すると費用対効果が高くなります。
要約すれば
Snowflake と BigQuery はどちらも、ミッション クリティカルなワークロード要件をすべて満たすようにスケーリングできる、分離されたストレージとコンピューティング リソースを提供します。これにより、市場の他のクラウド プロバイダーではなく、GCP で Snowflake インスタンスを実行することがより強力になります。 これにより、組織は GCP と Snowflake の同期の利点を活用できるだけでなく、BigQuery でより適切に実行されるユースケースも実現できます。


どのデータ ウェアハウスをいつ使用するかを要約すると、次のようになります。
次の場合に BigQuery を使用します。
- 非常に大きなデータがありますが、ワークロードのスパイクに一貫性がありません (つまり、多くのクエリをときどき実行し、アイドル時間が長くなります)。 BigQuery は、クエリベースの価格設定により、おそらく安価で使いやすいでしょう。
- Ad Tech (GMP) と GCP の統合とデータ インポートが必要なユースケースが多数あります。 GMP スイートと GCP スイートの両方が同じ親会社から提供されているため、統合の相乗効果が得られる可能性が高くなります。
- BigQuery の機械学習機能を必要とする高度な分析を行う予定です。
次の場合に Snowflake を使用します。
- クエリとデータに関しては、より安定した使用パターンがあります。 コンピューティング時間により多くのクエリを詰め込むことができるため、Snowflake を使用する方が費用対効果が高い場合があります。
- 構造化/プロセス データセットを扱っています。 Snowflake は半構造化および非構造化データ形式をサポートしていますが、BigQuery はこれらのデータ形式で作業するのに簡単に選択できます (特に GMP スイートからの分析および Ad Tech データの場合)。