Blog
[AdTech Scala Meetup] Apache Sparkについて情報共有
こんにちは、CA ProFit-Xという広告サービスを開発している塚本です。
先日、第9回 AdTech Scala Meetupを開催しました。今回はApache Sparkの情報共有を行いましたので、その様子を少しご紹介します。
Spark Streaming Snippets
一人目はSmalgoチームの阿川さんでした。
Spark Streamingのコードスニペットを交えて、SmalgoがどのようにSpark Streamingのコードを書いているかについて発表されていました。
私事ですが、最近Spark Streamingの利用を検討していましたので、非常にタイミングの良い発表でした。参考になります。
Spark SQL Thrift JDBC Server
二人目は私、塚本で、Spark SQLのThrift JDBC Server機能について発表しました。
色々とSparkの調査をしていたらJDBC Server起動ができることを発見したので、試してみた、という発表です。
JDBC接続できる点は非常に良いのですが、肝心のJDBC Driver(jarファイル)がどこにあるのかわからないという・・・。
どなたかご存知の方は@s_tsukaまで教えていただけますと、助かります!
SparkのShuffle周り
3人目はRightSegmentチームのhuyさんでした。
SparkはTimSortを使っているんですね、知りませんでした。TimSortを使えば最悪時間計算量の点でQuickSortよりも有利なようですね。
まとめ
今回はSparkについて軽く情報共有を行いました。発表者のみなさん、ありがとうございました。
CyberAgent アドテクスタジオでは複数のチームでSparkを活用しています。他にもSparkへコントリビュート(Pull Request)を行う活動をしたり、こちらのカンファレンスへ出席したり、色々とSparkに注目しております。
今回は少しScalaと離れた内容になりましたが、今後もScala Meetupでゆるーく様々なテーマについて情報共有を行なっていきたいと考えています。
塚本
Author