Blog

[Strata + Hadoop World 2016 in New York] Day 4 – Session


それでは、イベント 4 日目(最終日)で聞いてきたセッションについて書いていきます。
※ 1 日目、2 日目はトレーニング等中心でセッションがないため参加していません。

 

Caravel: An open source data exploration and visualization platform

Maxime Beauchemin (Airbnb)
11:20am–12:00pm Thursday, 09/29/2016
Visualization & user experience
Location: 1 E 10/1 E11
Audience level: Intermediate

Caravel という Airbnb 製のオープンソースデータビジュアライゼーションプラットフォームの紹介セッション

例えば Tableau だと Presto & Druid に対応していなかったり、スケールしなかったりコストもかかる。
Airbnb is builders not buyers!
ここで、Tableau10 だと Presto 対応しているよって声が。確かに。でも Druid までは対応してないですね。
http://www.tableau.com/about/blog/2016/8/tableau-10-includes-even-more-data-source-options-57505

Caravel のデモ
ダッシュボードを見る感じオープンソースとは思えないほど良くできている。
Github の Readme.md 見てもらうだけでそのインパクトがわかると思う。
1table or view という制限はあるもののキャッシュ機構が付いていたり、Druid により高速に動作したり。
Tableau の代替となるものではないかもしれないけどデータ可視化ツールとしては凄いのが出てきたというイメージ。
帰ったらとりあえずインストールしてみようと思う。

 

Twitter’s real-time stack: Processing billions of events with Heron and DistributedLog

Karthik Ramasamy (Twitter)
1:15pm–1:55pm Thursday, 09/29/2016
IoT & real-time
Location: 3D 12
Tags: media, real-time, data_platform
https://twitter.com/karthikzhttps://twitter.com/karthikz
https://twitter.github.io/heron/
https://github.com/twitter/heron

Twitter のログプロセッシングについて。

この 3D という場所が全くわからず遅刻しちゃいました。。。迷路すぎる。。

リアルタイムとは?なぜリアルタイムである必要があるのか?

Real time analytics
Scribe オープンソースログアグリゲーションシステム ハイスループット&スケール

 

Event Bus(PubSub) & Distributed log

Distributed log
400TB /Day IN
10PB/Day Out
2Trilion Event

Twitter Heron

  • コンテナベースアーキテクチャー
  • モニタリングとスケジューリングが分かれている
  • シンプルな実行モデル
  • グッドパフォーマンス

Heron がプロダクションになって 2 年、使われる場所が増えてきている。
500 Billion Event/Day

Lambda Architecture
Data -> Scribe -> Event Bus -> Heron -> Result

 

Lessons learned running Hadoop and Spark in Docker

Thomas Phelan (BlueData)
2:05pm–2:45pm Thursday, 09/29/2016
Data innovations
Location: 3D 12
Audience level: Beginner

実は昨日Expoで見つけた良さそうなプロダクトのセッションがあったので来てみました。
現在アドテクスタジオでやっている OpenStack Sahara のようなマルチテナンシー対応の Hadoop クラスターをマネージメントするシステムで
それをコンテナで実現するプロダクトです。

結構広い会場なのですが始まった直後立ち見が出るほどの盛況で、レアな同じ悩みを抱えた人も世界で見ると多いんだなぁと思いました。
Bluedata というプロダクトを作る上で苦労したことなどを紹介するセッションで
Storage, Network, CPU, Memory のリソースなどでここはこうした的な話でした。

Swarm, Kubernetes, AWS ECS, Mesos などいろんなマネージメントがあるけど独自でやっているとのこと。
CircleCI のようにコンテナ使ったプロダクトではこの先どうなるかわからない管理ツールを使わず独自実装するしかないのかもしれないですね。

マルチテナンシーをやる上でネットワークとストレージセキュリティーが肝になる。
CPU はオーバーコミットしているがメモリはしていないとのこと。

ネットワークの分離に VxLAN つかっている。
標準的な Hadoop のサーバー環境でベンチマーク結果がでていたが、ほとんどオーバーヘットがないことが証明されていた。
LDAP/AD による認証機構がある。

 

Machine intelligence at Google scale

Kazunori Sato (Google)
2:55pm–3:35pm Thursday, 09/29/2016
Data science & advanced analytics
Location: 3D 08
Audience level: Intermediate
Tags: cloud, ai, deep_learning

おそらくこの Strata Hadoop で登壇している中で唯一日本人の Google 佐藤さんのセッション。
昨日ブースでセッションやるよって聞いて来てみました。
ちょうど CloudML も Public Beta になり、3D12 よりさらにわかりづらい部屋にもかかわらず、会場が埋まるほどの人気セッションでした。

まずはニューラルネットワークの説明。
赤と青のデータポイントがかさらないようにニューラルネットワークによるディープラーニングで計算を行うデモが行われました。
https://cloud.google.com/blog/big-data/2016/07/understanding-neural-networks-with-tensorflow-playground
※こんなやつ。

Inbox で返信文がディープラーニングでレコメンデーションされる例の紹介。10% がこれにより返信されているみたいです。

Cloud Vision API のデモの説明。

Cloud Speach API demo

TesorFlow につい

1 Pbps のキャパシティーをもつジュピーネットワークについて

TPU について

CloudMLについて

オークネットでのCloudMLの利用についての紹介

 

Apache Kudu: 1.0 and beyond

Todd Lipcon (Cloudera)
4:35pm–5:15pm Thursday, 09/29/2016
Hadoop internals & development
Location: River Pavilion
Audience level: Intermediate

http://kudu.apache.org/

昨年の Strata のときは 0.5 だった Kudu がいよいよ 1.0 になりました。
コミュニティーも Slack で 360 人以上いるとのこと。

新機能について
UPSERT Support
HBase cassandra でいう Put に相当する機能。

セキュリティのロードマップについての紹介なども。
Kerberos 認証や、LDAP, UNIX での Group/Role 設定など対応予定。

オペラビリティについてもスタビリティの向上やリカバリーツール、障害解析機能などが予定されている。
パフォーマンスについても向上や、IN や LIKE でのフィルターも実装予定
簡単に始める VM などもあるので試してみるには簡単そう
http://kudu.apache.org/docs/quickstart.html

 

Parquet performance tuning: The missing guide

Ryan Blue (Netflix)
11:20am–12:00pm Thursday, 09/29/2016
Data innovations
Location: 1 E 07/1 E 08
Audience level: Intermediate
Tags: performance

Netflix では 40 PB 以上のデータを S3 において分析をしている
1000 以上のテーブル 100 万以上のパーティション
Parquet フォーマットを利用する事で早くなった。

とはいえ、Parquet で気を付けることが多々あるので紹介
Directory Filter の話( encoding fallback を避けるには…)
img_1260

img_1265
Format Version 2 の話と Brotli compression( Google の作った圧縮 LZ77 ベース)のどのタイプが効率が良いかという話

img_1269
img_1270

 

Implementing streaming architecture with Apache Flink: Present and future

Kostas Tzoumas (data Artisans)
2:05pm–2:45pm Thursday, 09/29/2016
IoT & real-time
Location: 3D 08
Audience level: Intermediate
Tags: real-time

Eコマース、金融、IoT、Internet&Mobile で使われている
UBER、NETFLIX、Alibaba、King、ERICSSON など
img_1299

 

Alibabaでは、1000 Node 以上 5000 Core 以上、秒間 100 万イベント
King では 30 Billion Event / day
img_1300

 

各Serverから集めて Kafka を経由して Flink 、そこから各種分析
img_1301

 

高パフォーマンス、低レイテンシ、対障害性に優れている
ステートフルアプリケーションでの秒間 1000 万以上のイベント処理
1 ケタ台の数ミリ秒で返すレイテンシ
障害時の挙動を説明
確実に1回だけ実行することが保証される
img_1305

 

Flink v1.1
Operations Ecosystem BroaderAudience ApplicationFeatures ごとの機能一覧図
img_1309

 

Dynamic Scalling
img_1312

 

ステートフルであり、障害発生後も、前回処理した内容を保持し途中から処理を再開する
1オペレーションごとに数十 GB のステートサイズに対応
img_1315

 

Strata + Hadoop 記事リンク
[Strata + Hadoop World 2016 in New York] Day 3 – Keynote
[Strata + Hadoop World 2016 in New York] Day 3 – Session

[Strata + Hadoop World 2016 in New York] Day 4 – Keynote

[Strata + Hadoop World 2016 in New York] – エキスポ・ランチ

Author

アバター
nario