データウェアハウス:
分析財団 

データウェアハウスとは何ですか?

データウェアハウスは、統合された一貫性のある詳細なデータを経時的に追跡し、メタデータとスキーマを使用してそれらの間の関係を確立するデザインパターンまたはデータアーキテクチャです。

データウェアハウスの起源

データウェアハウスの概念は、1988年にBarry DevlinとPaul MurphyがIBM Systems Journalに画期的な論文を発表したときに始まりました。 彼らのビジョンは、1990年代初頭にBill InmonとRalph Kimballが提供したデータベース実装のより具体的な定義の必要性を引き起こしました。Gartnerは2005年に定義をさらに明確にしました。現在、データウェアハウスに関する議論には、データウェアハウスソリューションの実装方法と場所も含まれています。例えば、クラウドの中で、あるいはオンプレミスとクラウドの間でハイブリッドな形でなどです。

データウェアハウスは、テーブルのコレクションではなく、テラバイト単位で測定されたものでもありません。 これはデザインパターンであり、多くの特徴を備えたデータアーキテクチャです。

サブジェクト指向
組織が日常的に使用するビジネスエンティティとプロセスを反映します。 サブジェクトエリアの詳細レベルが重要です。詳細データが存在する場合、それはデータウェアハウスです。 要約または限られたデータのみが存在する場合、それはデータマートです。 

統合、一貫性
データの形式と値はすべてのテーブルで標準化されており、ユーザーが理解できる完全で正確なデータを保証します。 また、整合性も必要です。たとえば、対応する顧客レコードがないと購入トランザクションを実行できません。 

不揮発性履歴
ウェアハウスは、データの変更をキャプチャし、時間の経過に伴うデータの変更を追跡します。 すべてのデータは保持され、トランザクションの更新によって変更されることはありません。 従来型、ハイブリッド型、クラウド型のいずれであっても、データウェアハウスは事実上最も意味のあるデータの「企業メモリ」です。 

メタデータ、スキーマ、辞書

組織は通常、顧客と販売取引について知っておくべきことをすべて把握します。これらは、製品の説明、在庫、部品表、サポートレコード、およびマーケティングキャンペーンにリンクされています。 サブジェクト領域は、列ヘッダーとデータ行を持つリレーショナルテーブルで構成されています。 列ヘッダーは、その列の値のコンテキストを説明するためメタデータと呼ばれ、フィールドの名前と、日付、通貨、時刻、整数、テキストなどのデータタイプが含まれています。 保存されているすべてのレコードには、ランダムな直接アクセスを可能にするキーフィールドが少なくとも1つあります。 すべてのテーブル定義(メタデータ)は一緒にスキーマと呼ばれ、データディクショナリに格納されます。 完全に構築されたデータウェアハウス全体は、トピック領域ごとに編成された4,000〜7,000のリレーショナルテーブルです。

データはどのようにしてデータウェアハウスに入りますか?

データソース
200または500の異なるアプリケーションがデータをウェアハウスに送信することは珍しくありません。ウェアハウスは、そのようなすべてのデータをサブジェクト領域に統合および統合します。 ウェアハウスは、エンタープライズリソースプランニング(ERP)、顧客関係管理(CRM)、サプライチェーン管理(SCM)などのアプリケーションから入力を受け取ります。

ウェブページでのマウスクリックからのクリックストリームデータは、機械車両などからのセンサーデータと同様に別のソースです。 JSON(JavaScript Object Notation)など、行と列に準拠していないがデータウェアハウスにキャプチャされている非構造化データもあります。 

データの読み込み
データは、通常は1日中、継続的なプロセスでウェアハウスにロードされます。 データの読み込みは、ウェアハウスのビジネス目的、つまり質問への回答を見つけるための基盤につながります。 データサイエンティストは高度な数学を適用してパターンや異常を見つけ、ビジネスアナリストはレポートとダッシュボードを視覚化して使用します。

データの読み込みは、ビジネスユーザーにデータを配信するというビジネス目的、つまり洞察を得てビジネス上の課題に対する答えを見つけることにつながります。 データサイエンティストは、高度な数学を大量のデータに適用して、パターンや異常を見つけます。 多次元分析では、すべてのデータが高度に要約され、地域、都市、営業担当者、販売された製品などによるロールアップの迅速なレビューが可能になります。 エグゼクティブとビジネスアナリスト(または「市民データサイエンティスト」)は、視覚化されたレポートとダッシュボードを使用します。これらはすべて、管理対象データのソースであるデータウェアハウスから取得されます。 

データ統合
データがデータウェアハウスデータベースに入る前に、データ統合ステップを通過します。これは、複数のソースからのデータを単一の結果に合理化する複雑なプロセスです。 元々、これは抽出、変換、および読み込み(ETL)と呼ばれていました。これは、データをソースから取得し、絞り込んでから、データウェアハウスのリレーショナルテーブルに読み込む必要があるためです。 

データクレンジング
最新の統合プロセスには、破損または不正確なレコードの検出と修正を含むデータクレンジングが含まれます。 エラーは、入力の誤り、ハードウェアの破損、または単純な人為的エラーが原因で発生します。 データ統合タスクは、複数のアプリケーションからの最良で最も正確で最も完全なデータを、ウェアハウス内のクリーンで信頼性の高い「ゴールデンレコード」に結合します。 

Teradata Data Warehouse

設立以来、Teradataは、分析データベースとデータウェアハウスの進化において重要な役割を果たしてきました。 実際、Teradata Vantage(以前はTeradata Databaseとして知られていました)とTeradataがデータウェアハウスに採用するアプローチは、多くの場合、顧客がそれぞれの業界のトップに立つための中心的な部分です。コミュニケーション、メディア、エンターテインメント金融サービスヘルスケアとライフサイエンス小売ユーティリティ製造旅行と輸送、などのもっと数多くの業界での実績があります

クラウドデータウェアハウスとTeradata Vantage

Teradataと業界全体の両方が、クラウドの展開とスケーラビリティの利点を組み込むように進化しました。 同社の主力製品であるTeradata Vantageは、Teradata Databaseの強力な基盤の上に構築されており、2011年にAster Dataで取得した高度な分析機能を組み込んでいます。

Vantageは、Amazon Web Services(AWS)、Microsoft Azure、Google Cloud、Teradataインフラストラクチャ(Teradata CloudまたはCustomer Cloud)、およびVMware仮想化ソフトウェアを実行する汎用ハードウェアで利用できます。

Cloud Analytics - AWS アマゾンウェブサービス(AWS) 

Teradata VantageでAWSインフラストラクチャを使用する

Cloud Analytics - Microsoft Azure Microsoft Azure

AzureリソースをTeradata Vantageと組み合わせる

分析をクラウドに取り入れます