Blog
第2回MapRユーザカンファレンスで話してきました!
アドテクスタジオではメインのHadoopディストリビューションにMapR M7を採用しています。
今回導入するに至った経緯や、サーバー構成、利用用途など説明してきました。
アドテクスタジオではデータ戦略として、大容量の広告データログを元に
広告の効果改善など行うため大規模な共通データストアが必要とされていました。
Hadoopのクラスターがごろごろしているのですが、今回大規模なデータを
ストアするにあたり、エンタープライズレベルの安定性やサポートを受けられる
MapR M7クラスターを構築しました。
サーバーにはHP社製のSL4540 gen8を採用しています。
6TBのハードディスクが60本OS領域とは別に入るため1サーバーあたり
0.36PBのデータをストアすることが出来ます。3台で1PBという驚異の数字ですね。
MapRは通常のHadoopクラスターでいうHDFSをC++で実装しているMapR-FSと
HBaseをC++で実装したMapR-DBが特徴です。
C++で実装されているため低レイテンシーで大規模トラフィックに耐えられる実装になっており、
MapR-FSではNFSプロトコルによるマウントが可能など通常のHadoopクラスターには無い機能が充実しています。
MapRはM3,M5,M7のライセンス体系になっており、
M3であればフリーで使うことが可能です。
M3は冗長化機能がないのですが、それほどクリティカルな状況でなければ
MapRをHadoopディストリビューションに選んでみるのも有りだと思います。
アドテクスタジオで導入しているMatrixのデータマウントや、
DrillやSparkを使ったデータ処理などに使われていく予定です。
Author
admin