Blog
Spark Summit 2015 in San Francisco【2日目】
こんにちは、Dynalyst kayanoです。
今日も引き続き、Spark Summitの様子をお届けします。
Spark Summit 2日目。
会場のホテルですが、1日目にエスカレータについて取り上げましたが、ロビーの柱にも大きくポスターがはってあります。ホテル全面協力なかんじですね。
Keynote
From DataFrames to Tungsten: A Peek into Spark’s Future
DataFramesからのTungstenの実装についてのkeynoteでした。Tugstenに「runtime code generation」がある点が気になりましたが、Tungstenについては午後のセッションで詳しく取り上げられていました。
Field Notes from Expeditions in the Cloud
Spark on EMR の事例紹介と、EMRでSparkを使う魅力について語られていました。EMRでSparkのサポートもされるようですので、今後より、手軽にSparkをAWS上で試せる様になりそうですね。
https://aws.amazon.com/jp/blogs/aws/new-apache-spark-on-amazon-emr/
How Spark Fits into Baidu’s Scale
BaiduのSparkの利用事例、歴史についての内容でした。データの規模感が全然違うのに圧倒させられました。Sparkの0系から試験利用している点から、baiduの技術に対するキャッチアップ能力、導入力がすごく高いことを感じました。
Tagging and Processing Data in Real-Time Using Spark Streaming
StreamingSQL、とうとう現れました。今の主流なSparkの使い方は、DataFrames, SparkSQLがベースとなり、利用意図によってStreamingや、ML Pipeline を使い分けるイメージになる流れの一つの様な感じがしました。
github : spark-streamingsql
ランチ
やはりアメリカンサイズのランチボックス(小ぶりのりんごが丸々1個入ってました)
Sessions
Building a Location Based Social Graph in Spark at InMobi
同アドテクノロジー分野InMobiのsparkの導入事例ということで、メンバー皆注目していたセッションでした。LocationベースのSocial GraphをSpark, GraphXでモデル化させる事例でしたが、InMobiの保持するデータ量も多く顕著な結果が見えていてすごく面白かったです。
A More Scalable Way of Making Recommendations with MLlib
ALSのスケーラビリティについてのセッションでしたが、精度をできるかぎり落とさずスケールするためにMatrix Factorizationの実装を工夫した内容が面白かったです。
Recipes for Running Spark Streaming Applications in Production
Spark Streamingを利用する際に、まず注意すべきコツを分かり易くまとめていたセッションでした。これからStreamingを導入する方は一度目を通しておいたらやり易いのではないかと思います。
Deep Dive into Project Tungsten: Bringing Spark Closer to Bare Metal
一番インパクトのあるセッションでした。SparkのボトルネックとなるメモリとCPUを最適化する施策がTungstenなのですが、今まで他のセッションで課題に挙っていたGCやSerializationの対策についても話されていました。今後順次リリースされていくようなので目が離せません。
Project Tungsten: Improving Physical Execution and Memory Management
★ 二日目に気になったキーワードは「StreamingSQL」「Tungsten」の2つでした。Sparkを利用する企業も、コミッターも去年に比べ飛躍的に伸びていて、今後のSparkの動きもより激しくなってくると思いますが、今後も注目していきます!
Attendee Reception
三日目には、TRAININGがあるのですが、私たちは今日までの参加で明日帰国します。
今回のイベントに関して、Spark Casual Talkでフィードバック会やりますので、詳しい内容はそちらでお伝え出来ればと思います。
http://connpass.com/event/15575/
簡単ではありますが、Spark Summit 2015 のレポートでした。
Author