データウェアレイクとは

ローデータの忠実度とクラウドでの長期保存。

データレイクとデータウェアハウスはどちらもデザインパターンですが、反対です。 データウェアハウスは、品質、一貫性、再利用、および高い同時実行性を備えたパフォーマンスのために、データを構造化およびパッケージ化します。 データレイクは、元のローデータの忠実度と低コストでの長期保存に重点を置いた設計パターンでデータウェアハウスを補完すると同時に、新しい形式の分析の俊敏性を提供します。

データレイクの価値

データレイクソリューションは、爆発的なデータ量を経済的に活用し、価値を引き出すというニーズを満たします。 新しいソース(Web、モバイル、接続されたデバイス)からのこの「ダーク」データは、以前は破棄されることがよくありましたが、貴重な洞察が含まれています。 大量のデータに加えて、新しい形式の分析には、データを管理して価値を引き出すための新しい方法が必要です。

データレイクは、あらゆる形式のローデータを大規模にキャプチャ、精緻化、探索する長期的なデータコンテナのコレクションです。 これは、複数の下流施設が利用できる低コストのテクノロジー(データマート、データウェアハウス、およびレコメンデーションエンジン)によって可能になります。

キュレートされていないデータからの洞察
ビッグデータのトレンドが発生する前は、データ統合は、データベースなどのある種の永続的な形で情報を正規化し、それが価値を生み出していました。 これだけでは、企業内のすべてのデータを管理するにはもはや十分ではなく、すべてのデータを構造化しようとすると価値が損なわれます。 そのため、ダークデータがデータベースにキャプチャされることはめったにありませんが、データサイエンティストは、ダークデータを掘り下げて、繰り返す価値のあるいくつかの事実を見つけることがよくあります。

新しい形式の分析
クラウドの時代は、新しい形式の分析を生み出しました。 Apache Hadoop、Spark、およびその他のイノベーションなどのテクノロジーにより、手続き型プログラミング言語の並列化が可能になり、これによりまったく新しい種類の分析が可能になりました。 これらの新しい形式の分析は、グラフ、テキスト、マシンラーニングアルゴリズムなど、大規模に効率的に処理して回答を取得し、その回答を次のデータと比較するなど、最終的な出力に到達するまで実行できます。

企業の記憶保持
長期間使用されていないデータをアーカイブすると、データウェアハウスのストレージ容量を節約できます。 データレイクの設計パターンが登場するまで、高性能のデータウェアハウスまたはオフラインのテープバックアップを除いて、時折アクセスするためにコールドデータを配置する場所は他にありませんでした。 仮想クエリツールを使用すると、ユーザーは1回のクエリで、データウェアハウス内のウォームデータやホットデータとともにコールドデータに簡単にアクセスできます。

データ統合への新しいアプローチ
データ変換コストを最適に削減する方法についての業界の取り組みは一巡しました。 データレイクソリューションは、従来のETL(抽出、変換、ロード)サーバーよりも高い拡張性を低コストで提供します。 ベストプラクティスを採用している組織は、それぞれ独自の機能と経済性を備えている、データレイク、データウェアハウス、およびETLサーバー全体で数百のデータ統合ジョブのバランスを取り直しています。

データレイクの一般的な落とし穴

一見すると、データレイクは、大量の構造化データと非構造化データを管理および活用する方法を提供するという単純なことのように見えます。 しかし、それらは見た目ほど単純ではなく、失敗したデータレイクプロジェクトは多くの業界や組織で珍しいことではありません。 ベストプラクティスがまだ出現していなかったため、初期のプロジェクトは課題に直面していました。 現在、データレイクが十分な価値を提供していない主な理由は、確固たるデザインが欠如していることです。

データサイロとクラスターの急増。
データレイクは参入障壁が低く、クラウドでその場しのぎで実行できるという概念があります。 これにより、データが冗長になり、2つのレイクが調整されないという不整合が発生し、同期の問題が発生します。

エンドユーザーの採用の欠如。
ユーザーは、正しいか間違っているかは別にして、データレイクから回答を得るにはプレミアムコーディングスキルが必要であるため複雑すぎる、または膨大なデータの中から必要なデータを見つけることができないという認識を持っています。

制限のある市販のツール。
多くのベンダーがHadoopまたはクラウドオブジェクトストアに接続すると主張していますが、これらの製品は緊密な統合が不足しており、これらの製品のほとんどはデータレイクではなくデータウェアハウス向けに構築されています。

データアクセスの矛盾する目的。
セキュリティ対策をどの程度厳しくするかを決定することと、俊敏なアクセスの間でバランスを撮る必要があります。 すべての利害関係者を調整する計画と手順を実施する必要があります。

データレイクデザインパターン

デザインパターンは、実装を成功させるための一連のワークロードと予想を提供します。 テクノロジーと経験が成熟するにつれて、アーキテクチャとそれに対応する要件が進化し、主要ベンダーは実装に関する合意とベストプラクティスを得るようになりました。 テクノロジーは重要ですが、テクノロジーに依存しないデザインパターンが最も重要です。 データレイクは、複数のテクノロジーに基づいて構築できます。 Hadoop分散ファイルシステム(HDFS)は、ほとんどの人が最初に考えるものですが、必須ではありません。

Teradataデータレイクソリューション

広範なデータインテリジェンスのプラットフォームであるTeradata Vantageは、顧客のデータ内の情報の塊を利用するように設計されています。 Teradataサービスチームは、データレイクと、Hadoop、Cassandra、およびAmazon S3やAzure Blobなどのオブジェクトストアなどの関連テクノロジーの多くの利点を活用することに精通しています。

Cloud Analytics - AWS アマゾンウェブサービス

Teradata VantageでAWSインフラストラクチャを使用する

Cloud Analytics - Microsoft Azure Microsoft Azure

AzureリソースをTeradata Vantageと組み合わせる

無駄なボトルネックや複雑さから脱却し、分析をクラウドに移行する