Blog

[AdTech Scala Meetup] Apache Sparkについて情報共有


こんにちは、CA ProFit-Xという広告サービスを開発している塚本です。

先日、第9回 AdTech Scala Meetupを開催しました。今回はApache Sparkの情報共有を行いましたので、その様子を少しご紹介します。

Spark Streaming Snippets

一人目はSmalgoチームの阿川さんでした。

Spark Streamingのコードスニペットを交えて、SmalgoがどのようにSpark Streamingのコードを書いているかについて発表されていました。

私事ですが、最近Spark Streamingの利用を検討していましたので、非常にタイミングの良い発表でした。参考になります。

Spark SQL Thrift JDBC Server

二人目は私、塚本で、Spark SQLのThrift JDBC Server機能について発表しました。

色々とSparkの調査をしていたらJDBC Server起動ができることを発見したので、試してみた、という発表です。

JDBC接続できる点は非常に良いのですが、肝心のJDBC Driver(jarファイル)がどこにあるのかわからないという・・・。

どなたかご存知の方は@s_tsukaまで教えていただけますと、助かります!

SparkのShuffle周り

3人目はRightSegmentチームのhuyさんでした。

SparkはTimSortを使っているんですね、知りませんでした。TimSortを使えば最悪時間計算量の点でQuickSortよりも有利なようですね。

まとめ

今回はSparkについて軽く情報共有を行いました。発表者のみなさん、ありがとうございました。

CyberAgent アドテクスタジオでは複数のチームでSparkを活用しています。他にもSparkへコントリビュート(Pull Request)を行う活動をしたり、こちらのカンファレンスへ出席したり、色々とSparkに注目しております。

今回は少しScalaと離れた内容になりましたが、今後もScala Meetupでゆるーく様々なテーマについて情報共有を行なっていきたいと考えています。

塚本

Author

アバター
shuya