クラウドで、高性能データウェアハウス(DWH)がぐっと身近に

カテゴリー: コンポーネント, ビッグデータ   パーマリンク
このエントリーをはてなブックマークに追加

2014年7月1日より、IIJ GIOコンポーネントサービスのデータベースアドオンに「DWHデータベース」のラインナップが追加されます。月額98,000円から利用できる本格的なDWHデータベースサービスの特長を、開発担当の二ノ宮がご紹介します。


データウェアハウス(DWH)とは?

データウェアハウス(以下、DWH)の歴史は意外に長く、1990年には概念が提唱されていました。現在では多くのベンダからDWH製品/ソリューションが提供され、先進的な企業を中心に導入が進んでいます。

企業におけるDWH導入の目的、それは「蓄積されたデータの利活用」です。
企業には販売管理や顧客管理など複数の基幹系システムが存在し、これら基幹系システムには日々データが蓄積されています。しかし、これらのデータは各々のシステムに属した状態となっているため、各種データを連携した情報活用を行う上で大きな障壁となっていました。

複数システムのデータを集約するDWHそこで登場するのがDWHです。情報活用を推進している企業では、複数システムのデータを1つのデータベース=DWHに集約する手法を導入しています。DWHでは、異なるシステムから集められたデータとデータを統合・再編成して情報活用のための基盤を構成します。ユーザはDWH上のデータを可視化するツール等を使い、データとデータの相関関係を分析し、得られた知見を次のビジネスに活かす活動(ビジネスインテリジェンス)に利用しているのです。

今、再びDWHが注目されるわけ

そんなDWHですが、ここ数年で再び脚光を浴びています。そのきっかけが、ご存じ「ビッグデータ」活用の高まりです。
ビッグデータの代名詞ともなっているHadoopにビッグデータを格納し、MapReduceにより処理されたビッグデータの受け皿としてDWHと連携することで、より簡単に、素早く、そして小回りのきいた情報活用が可能になります。
現在、ビッグデータ活用を考えているユーザの多くがDWHを重要視しています。

DWHの処理は基幹系システムの処理とは違う

前述のとおり、DWHには複数システムのデータが統合された上で蓄積されます。加えて、情報活用の分野では長期間のデータに対し時系列分析を行うことも多いため、DWHに一度入れたデータは削除や更新がされず、データベースが大規模化していく傾向にあります。また、分析を専門に行う部門のユーザは、仮定に基づき自由にかつ多面的な分析を行います。
処理特性が異なるDWHとOLTPつまりDWHでは、「1つの処理で対象とするデータが大きく、また実行される処理内容も画一的なものではない」と言う処理特性があり、これは一般的にデータベースの使い方として最初に思いつくオンライントランザクション(以下OLTP)処理とは真逆の処理特性を持っています。

DWHは高級品??

さて、DWHと言ってもデータベースであることに変わりはありません。基幹系システムで使われる汎用データベース製品をDWHに使ってはいけないのでしょうか?
実際に、DWH用途にも汎用データベース製品が使われている例は多く見られます。ただ、汎用データベース製品の多くはOLTPを高速に処理することに軸足を置いた設計のため、処理特性が大きく異なるDWHでは十分な性能が得られなかったり、チューニングや運用にとても苦労するケースが多かったりするのも事実です。

そこでメーカー各社は、汎用データベースをDWH専用のアプライアンス化することで性能問題に対応してきました。確かにDWH専用アプライアンス製品は最新のハードウェアで構成され、文句なしの超高性能DWH環境を提供してくれます。
しかしその性能と引き換えに、膨大な初期導入コストや維持費、導入までに必要な時間や運用管理の難しさなどから、高性能なDWHを「おいそれと導入できない」カテゴリに位置付けてしまったことも否定できないのではないでしょうか。

DWHデータベースを支える2つの技術

今回リリースする「IIJ GIOコンポーネントサービス データーベースアドオン DWHデータベース(以下、データーベースアドオン DWHデータベース)」は、そんなDWHのネガティブなイメージを払拭し、より多くのお客様に本格的な高性能DWHを気軽にご利用いただくことを目的に開発しました。そのために採用した技術が、分散型DWHと列指向データベースです。

分散型DWHでスモールスタートが可能に

「分散型DWH」とは、1台のサーバでDWHのデータベースを構成するのではなく、複数のサーバで構成されたクラスタ上にデータベースを構成するアーキテクチャです。データを複数のサーバに分散配置することでデータベース性能の最大のボトルネックと言われるI/O処理を分散させ、長大な処理になりがちなDWH特有の処理も複数のサーバで分散かつ並列に実行することで処理時間の大幅な短縮を実現しています。

この分散型DWHには、高性能であることもさることながら、スモールスタートが可能という利点があります。分散型DWHでは、データが蓄積されてサイズが大きくなったらサーバを追加(スケールアウト)することでデータベースを拡張することができるのです。更に分散型DWHの凄味は、データベースの拡張だけではなく、スケールアウトに伴いCPU数やメモリのサイズも同時に拡張されるため、性能向上効果も期待できることです。

費用対効果を直接的に測定しにくい情報活用の分野において、初期導入コストを抑えられるスモールスタートはうれしいポイント。DWHに効果があると判断できたらスケールアウトさせ、より本格的なDWH環境へと成長させることができます。

高速読み込みが得意な列指向データベース

分散型DWHと並び、データーベースアドオン DWHデータベースの基礎となる技術が「列指向データベース」です(汎用データベースは「行指向データベース」)。
列指向とは、データをテーブルの列方向にまとめて扱う仕組みです。分析対象となる列だけを抽出し読み込むことができるため、無駄なデータの読み込みが発生しません。この仕組みによって、汎用データベースに比べ非常に高速な読み込み処理が実現できるのです。

データーベースアドオン DWHデータベースの特長

このように、データーベースアドオン DWHデータベースは、基盤となるデータベース自体がDWHの処理特性に最適化されています。
用途をDWHに限定した代わりに従来の汎用データベースより数倍から数十倍高い性能と、大規模なDWHデータベースに欠かせないパーティショニングやデータ圧縮といった機能も標準でご提供する、まさにスペシャリティなデータベースサービスです。

DWHデータベースは、用途に応じて「Greenplum Database」または「InfiniDB」の2種類からお選びいただけます。

データーベースアドオン DWHデータベースのサービス構成

「Greenplum Database」は高い可用性と性能を両立させたエンタープライズ向けのDWHで、PostgreSQLと互換性があります。「InfiniDB」は最少1サーバから利用できる、MySQL互換の手軽なDWHです。

ハードウェアはもちろん、ソフトウェアに必要なライセンスや保守、監視・運用も月額費用に含んだ形で提供しますので、お客様はご自身でデータを投入すればすぐに高性能DWHをご利用になれます。

なお、オンプレミスやIIJ GIO上の汎用データベース(Oracle、MySQL、Postgresql等)からDWHデータベースへの初期データ移行作業や、汎用データベースとDWHデータベースの継続的なデータ連携に必要なETL機能を提供するソリューションもご用意しています。併せてご検討いただけますと幸いです。

また、「DWHをちょっと試してみよう」というお客様向けには、無料トライアルがおすすめです。ぜひお気軽にご相談ください。

(アプリケーションソリューション部 データベースサービス課 二ノ宮)

コメントは受け付けていません。