Blog

第2回MapRユーザカンファレンスで話してきました!


 

アドテクスタジオではメインのHadoopディストリビューションにMapR M7を採用しています。

今回導入するに至った経緯や、サーバー構成、利用用途など説明してきました。

アドテクスタジオではデータ戦略として、大容量の広告データログを元に
広告の効果改善など行うため大規模な共通データストアが必要とされていました。

Hadoopのクラスターがごろごろしているのですが、今回大規模なデータを
ストアするにあたり、エンタープライズレベルの安定性やサポートを受けられる
MapR M7クラスターを構築しました。

HP SL4540 gen8

サーバーにはHP社製のSL4540 gen8を採用しています。
6TBのハードディスクが60本OS領域とは別に入るため1サーバーあたり
0.36PBのデータをストアすることが出来ます。3台で1PBという驚異の数字ですね。

MapRは通常のHadoopクラスターでいうHDFSをC++で実装しているMapR-FSと
HBaseをC++で実装したMapR-DBが特徴です。
C++で実装されているため低レイテンシーで大規模トラフィックに耐えられる実装になっており、
MapR-FSではNFSプロトコルによるマウントが可能など通常のHadoopクラスターには無い機能が充実しています。

MapRはM3,M5,M7のライセンス体系になっており、
M3であればフリーで使うことが可能です。
M3は冗長化機能がないのですが、それほどクリティカルな状況でなければ
MapRをHadoopディストリビューションに選んでみるのも有りだと思います。

アドテクスタジオで導入しているMatrixのデータマウントや、
DrillやSparkを使ったデータ処理などに使われていく予定です。

 

Author

アバター
admin