Fivetran
Homeブログ
データ分析に欠かせないELTとは?データパイプラインって?

データ分析に欠かせないELTとは?データパイプラインって?

ELTデータパイプラインをはじめてご利用になる方へのご利用ガイド

データ分析に欠かせないELTとは?データパイプラインって?

なぜETLよりELTなのか? 〜ELTの使い方〜

以下の投稿は、The Analytics Academyの創設者兼CEOであるDaniel Haville氏によるものです。ダニエルは、データチャンピオンプログラムの一環として、この記事を執筆しました。ブログへの寄稿やデータチャンピオンズプログラムの詳細にご興味のある方は、ぜひご連絡ください。

従来のデータパイプラインでは、データウェアハウスにデータをロードするためにETL(抽出、変換、ロード)プロセスを使用していました。ロードする前に変換すると、アナリストは使用するデータモデルとインサイトを事前に予測しなければなりません。そのため、データエンジニアやアナリストは、データを利用するための複雑なプロセスやワークフローを前もって設計・構築し、レポートのニーズが変わるたびに再設計・再構築しなければならないことが多いのです。

ELT(Extracting, Loading and Transforming Data)とは、データをそのまま使用し、クラウドベースのテクノロジーを使って変換することで、分析者が制限なくインサイトを抽出できるようにすることを意味します。データ統合に対するこの新しいアプローチは、データ取り込みのプロセスを促進し、包括的な分析のための参入障壁を根本的に低下させます。

Fivetranは、企業がデータの抽出とデータウェアハウスへのロードをクラウドに依存しない方法で自動化するために構築された、完全に自動化されたデータパイプラインを提供します。アナリティクス・アカデミーは、かなり以前からFivetranと密接に連携しており、今回は、FivetranとELT対ETLベースのツールやプロセスの違いに焦点を当てます。

エンジニア主体のETLとアナリスト主体のELT

従来のETLプロセスでは、アナリストは、レポートを作成する前に、手持ちのデータのあらゆる用途を想定しなければなりませんでした。ETLプロセスでは、データを読み込む前に変換が行われるため、各ソースからデータを抽出し、データのクリーニング、集約、結合などを行い、レポート作成に適したモデルに再構築するための特注コードを書くためのエンジニアリング時間が必要になります。このような高額な初期費用は、プロセス全体の柔軟性を著しく低下させます。

ELTのアプローチでは、生データをウェアハウスにロードし、アナリストがすぐにアクセスできるようにすることで、どのようなインサイトが必要かを事前に判断する必要がありません。このアプローチでは、企業の「真実の源」として機能するデータの生の層をデータウェアハウスに作成することができます。これにより、企業やアナリストは非常に柔軟に対応することができます。また、ロード後に変換をステージングすることで、ソースからのデータの流れを一貫した「監査証跡」として残すことができます。

ELTは、クラウドベースのデータウェアハウス技術への移行によって実現されています。データウェアハウスでは、ストレージと計算機が従来よりもはるかに安価であるため、データウェアハウス自体で変換を行うことができます。

現代の企業は膨大な量のデータを生み出しています。ELTを利用すれば、データ利用者にとって有用なインサイトを予測したり、データにどのような変換を行う必要があるかについてストレスを感じたりするような先行コストをかけずに、データをウェアハウスにロードすることができます。

Fivetran(ファイブトラン)とELT

Fivetranは、コードなしであらゆるデータソースからパイプラインを作成するほぼ簡単なソリューションを提供することで、企業を支援します。アナリスト、データサイエンティスト、エンジニアは、パイプラインの構築と保守に時間と労力を費やすことなく、重要なことに集中することができます。Fivetranを使えば、企業は5分以内に様々なデータソース(「コネクター」と呼ばれる)のデータパイプラインを構築することができます。

これまでに何度、会議で質問に答えるように言われ、それをデータで裏付けるように言われたことがあるでしょうか。 「今はまだデータがありませんが、当社のデータエンジニアに依頼してデータを取り込みます。データが手に入ればすぐにお返事しますが、彼らのバックログは長く、数週間かかることもあります」。

TAAでは、過去のプロジェクトで何度も同じような経験をしてきました。今、同じ状況を想像してみると、答えはこうなるかもしれません。”プラットフォームにはデータがありませんが、1時間いただければレポートを作成します!”

簡単な例で、Fivetranがどのようにそれを実現するのか見てみましょう。

具体例(わずか3ステップで S3バケットからSnowflakeへ簡単データ移動)

Fivetranは、BigQuery、Redshiftなどほとんどのデータベースで動作しますが、今回はSnowflakeを使用します。

ステップ1 – FivetranとSnowflakeの接続

FivetranとSnowflakeの接続を確立します。そのためには、SnowflakeインスタンスのPartner Connect経由でFivetranにアクセスし、Fivetranブロックをクリックします。SnowflakeやPartner Connectに慣れていない方は、アナリティクス・アカデミーチームまでお気軽にお問い合わせください。

モダンデータスタック(MDS)の真の価値とは?

S3バケットから集中型クラウドデータウェアハウス内の完全なデータソースへと、数分で移行する方法を見てきました。ロードする前に変換が必要な場合もあるかもしれませんが、それ以外のケースでは、最新のデータアーキテクチャと新しいインジェスト方法により、これらのステップを取り除くことができます。

ELT/ETLの実践、Fivetran、Snowflakeのようなクラウドデータウェアハウスについての詳細は、アナリティクスアカデミーまでお気軽にご連絡ください。

この記事は英文から翻訳されました。オリジナルの記事はこちら(英語)からご覧ください。