Amazon Redshiftとビッグデータ解析に関して

ペタバイト級までいくとHadoop
しかし、デイリーバッチなどはありえない。
データはリアルタイムが重要。
また、Hadoopはよりネイティブに近く複雑。
そこでRedshiftが出てきます。

Amazon Redshiftとは

AWSの高速で完全マネージド型DWHサービス
PostgreSQL 8.0.2 に基づいている
自動的にS3にバックアップされている
リーダーノードとコンピュートノード
列指向なので、圧縮が効きIOがよい(RDBMSは行指向)
クロスリージョンスナップショットがある

aws.amazon.com

www.slideshare.net

Redshiftのアーキテクチャ

f:id:keiwt:20150320194012p:plain

BigData Landscape

f:id:keiwt:20150320200705p:plain

ETL

Extract - 外部の情報源からデータを抽出
Transform - 抽出したデータをビジネスでの必要に応じて変換・加工
Load - 最終的ターゲット(すなわちデータウェアハウス)に変換・加工済みのデータをロード

Redshiftの注意点

Vaccum column limit exceeded → 列数のmaxを意識する
Integer.MAX_VALUE()Postgres9系を使う