Fivetran
Homeブログ
データレイクとデータウェアハウスの違い | 今さら聞けないデータ活用基礎知識

データレイクとデータウェアハウスの違い | 今さら聞けないデータ活用基礎知識

今更聞けないデータレイクとウェアハウスの違いとは?アナリティクスを成功させるためには、企業データを保存するための適切なアプローチが重要です。

データレイクとデータウェアハウスの違い | 今さら聞けないデータ活用基礎知識

Charles Wang 著 2021年10月6日

データウェアハウスとデータレイクは、ビジネスデータを収集し、ビジネス上の意思決定を行うためのプラットフォームをユーザーに提供します。両者にはそれぞれ特徴があり、ユースケースも異なります。この記事では、それぞれの特徴をご紹介します。

データウェアハウスとは?

データウェアハウスとは、分析クエリ用に設計されたリレーショナルデータベースのことです。分析クエリには、通常、多数のレコードの値を組み合わせて要約することが含まれます。例えば、分析チームは、イベントの流れを、日ごとのイベントの数を示すトレンドラインに変えることができます。

データウェアハウスは、個々のレコードに対して頻繁にクエリや更新を行うトランザクションデータベースやオペレーショナルデータベースとは設計思想が異なります。例えば、eコマースサイトのカートに商品を追加したり、削除したり、購入したりすることができます。このような基本的な設計の違いから、この2つを同じように使ってはいけません。というのも、この2つは基本的な構造レベルで、根本的に異なる種類の操作に最適化されているからです。この違いを別の言葉で表現すると、OLTPとOLAPです。

従来、データウェアハウスはオンプレミスのデータセンターで運用されていました。最近では、クラウドを利用したデータウェアハウスが増えています。最新のクラウドベースのデータウェアハウスは「サーバーレス」で、計算機やストレージのリソースを必要に応じて独立して拡張・縮小できるようになっています。最新のクラウド型データウェアハウスは、小規模なリソースを持つ企業にとって非常に利用しやすいものとなっています。

最新のクラウド型データウェアハウスは、アナリストがビジネスデータにアクセスしてレポートやダッシュボードを作成するビジネスインテリジェンスプラットフォームと容易に統合できます。また、データウェアハウスでは、データガバナンスに欠かせないユーザーの権限やアクセス制御を細かく設定することができます。

データレイクとは?

データウェアハウスは、企業の重要なデータが構造化され、データモデルやデータベーススキーマが定義されていることを前提としています。構造化されたデータは、予測可能なフォーマットに従っており、機械によって容易に解釈され、リレーショナルデータベースに保存することができます。

一方、データレイクは、構造化されたデータだけでなく、自由形式のテキスト、画像、動画などの非構造化形式の大量の生データを容易に収容することができるオブジェクトまたはファイルストアです。このようなデータは、データレイクに格納される前に、NoSQLデータベースに格納されたり、あるいはまったくデータベースに格納されないこともあります。

データレイクの最も基本的な使い方は、データの保存であり、膨大な量のデータを包括的に収集した上で、そのデータをどうするかを決めることです。このアプローチでは、データレイクはデータウェアハウスのステージングエリアとなります。

また、構造化されていない大規模なトレーニングデータを使って機械学習アプリケーションをトレーニングすることもできます。

データレイクの最大の欠点は、その「不明瞭さ」です。データレイクは、アクセスしやすいコンテンツを犠牲にして包括的なものになる可能性があります。整理されていない、管理されていないデータレイクは、すぐにデータの沼地となるほど濁ってしまいます。

データレイクのデータは、SQLやほとんどのビジネス・インテリジェンス・プラットフォームを使って簡単にアクセスしたり結合したりすることができないため、一般的にアナリストの使用には適していません。ほとんどの場合、分析に使用する構造化されたビジネスデータのリポジトリとしては、データウェアハウスの方が適切です。

また、データマネジメントやデータガバナンスの観点からも、データレイクではユーザーの権限やアクセスコントロールを細かく設定することはできません。

しかし、データレイクでは、文書、画像、動画、音声などの大量のメディアを保存することができます。これらのメディアは、機械学習モデルのトレーニングセットや検証セットとして利用できます。

新しいテクノロジーの中には、データウェアハウスとデータレイクの両方の特性を兼ね備えたものがあります。一部のデータレイクでは、データの「濁り」をなくすための機能として、ACID(atomicity, consistency, isolation, durability)トランザクションやスキーマの強制など、データウェアハウスの特徴を取り入れています。

同様に、データウェアハウスでは、構造化されていないデータや、Apache SparkやPythonなどのデータレイクでは一般的なデータサイエンスツールや言語をサポートしている場合もあります。データレイクとデータウェアハウスの両方の特徴を兼ね備えたデータリポジトリは、データレイクハウスと呼ばれることもあります。

データレイクとウェアハウスの技術比較

要するに、それぞれの技術を比較するとこうなります。

データウェアハウスデータマートデータレイク
Best Use CaseAnalyticsAnalyticsStaging area
リレーショナル構造YesYesNo
SQLでのアクセスYesYesNo
ビッグデータYesNoYes
BIツールとの互換性・相性YesYesNo
ストアファイル&メディアNoNoYes
データガバナンスの容易さYesYesNo
クラウドネイティブかIncreasingly yesTraditionally noYes

データウェアハウスとデータレイクの使用について

データウェアハウス、データマート、データレイクは、現代のデータスタックの中核を成すもので、異なるソースからのデータを単一のプラットフォームで利用できるようにするための一連のツールとテクノロジーです。これらの活動は総称してデータ統合と呼ばれ、アナリティクスの前提条件となっています。

データ統合の最もシンプルなアプローチであり、Fivetran社がほとんどの組織に推奨しているものは、データウェアハウスをデータリポジトリとして使用することです。データスタックは、以下のコンポーネントで構成されています。

  1. ソース
  2. データパイプライン
  3. データウェアハウス
  4. ビジネス・インテリジェンス・ツール

データレイクは、構造化データと非構造化データの両方の中央レポジトリとして使用できますが、(通常は)リレーショナル構造を犠牲にしています。このようなデータスタックは可能ですが、お勧めできません。

  1. ソース
  2. データパイプライン
  3. データレイク
  4. ビジネス・インテリジェンス・ツール

BIツールは一般的に、データレイクではなくデータウェアハウスへのアクセスをサポートします。データレイクからフィードするBIレポートやダッシュボードツールは、データサイエンティストやデータエンジニアが構築するカスタムソリューションである可能性が高く、それに伴うすべての費用が発生します。

また、データレイクは、データウェアハウスのステージング環境としても利用できます。

  1. ソース
  2. データパイプライン
  3. データレイク
  4. データウェアハウス
  5. ビジネスインテリジェンスツール

具体的な構成は、ユースケース、会社の規模や構成、アナリストやエンジニアのスキルセットなどによって異なります。しかし、すべてがうまくいかない場合は、まずデータウェアハウスを導入してください。

この記事は英文から翻訳されました。オリジナルの記事はこちら(英語)からご覧ください。