Blog

SREcon17 Americas 3/13-14


AI Studioの神田です。
3/13-14
の二日間に渡りSREcon17 Americasに参加してきました!
SREとはSite Reliability Engineerの略で、日本ではあまり馴染みがないですが、
サイト(サービス)の信頼性を保つことをミッションとしているエンジニアです。

SREの細かい定義は採用している企業によって違いますが、運用の改善やオペレーションの自動化、
スケーラブルなアーキテクチャへアプリケーションを作り変えるなど、
従来、アプリケーションエンジニアが行なっていたソフトウェア開発に関わる領域も
ミッションに含まれることが多いようです。

今回のSREcon17では、既にSREとして活躍しているエンジニアや導入している組織に向けた
実践的な内容が多かったように思います。
その中でも
“Ten Persistent SRE Antipatterns: Pitfalls on the Road to a Successful SRE Program Like Netflix and Google“ は、立ち見が出るほど人気のセッションでした。
「緊急対応連絡が飛行機に乗る時にかかって来て、すぐに対応できないから次の人にローテーションしたら隣の同僚の携帯がなった」、などサービス運用でのあるある話がアンチパターンとしてまとめられており、会場からは終始笑い声が絶えませんでした。

また、文化づくりやプラクティスの他にもリリースエンジニアリングやモニタリング、
パフォーマンスチューニングに関するテクニカルなセッションも多くありました。
”Tune Your Way to Savings!” ではTwitterAd Serverにて、パフォーマンスをチューニングすることでビジネス上の主要KPIの改善につながったという内容でした。
このセッションは、mesosのチューニングやNUMAを考慮したメモリアロケーションによって
レイテンシを改善したなどテクニカルな部分も興味深かったのですが、データ駆動で意思決定をする、
コスト(どれくらいチューニングに時間を費やすか)を考慮して改善プロセスを実践したなど
テクニカルではない部分も興味深かったです。

最後になりますが、今回2日間カンファレンスを通してSREがどういった役割なのかといった
基本的なことについて、スピーカーと参加者の間で共通認識が既にあるということが一番印象深かったです。
SREが必要かどうかという議論はすでに終わっており、SREのプラクティスを自分たちの組織の中でどうやって実践していくか、どうやってSREチームを育てていくのかというフェーズに入っている組織が増えているのだと感じました。

今回はセッションの詳細まで踏み込んで紹介できませんでしたが、
後日改めて、主だったセッションについてもテックブログにて紹介していきたいと思います。

ーーーーーーーーー

神田さん、長谷川さんお疲れ様でした!
とても有意義なカンファレンス参加だったとのこと、
社内フィードバック会が楽しみです!

Author

アバター
hiroko