Blog
AutoML/ハイパーパラメータ最適化について議論!PyCon JP 2019に登壇します!
皆さんこんにちは!
9/14 – 17に開催されるPyCon JP 2019
当社AI Labより、野村と芝田の2名が登壇しますので、そのご紹介をします!
PyCon JPは、Pythonユーザが集まり、PythonやPythonを使ったソフトウェアについて情報交換、交流をするためのカンファレンスです。
Pythonはデータ分析や機械学習モデルの構築に必須のプログラミング言語であり、サイバーエージェントでも盛んに利用されています!
年々参加企業と参加者が増えているPyCon JPですが、今年はさらに応募数が増えており、
なんと45分枠は【 応募数 116, 採択数 14】→ 採択率 12.1%!
ますます注目されているPyCon JP。
当社 AI Labからの登壇者2名の当日の発表予定は下記をご覧ください!
芝田はこれまでも[エキスパートPythonプログラミング改訂2版]の共訳書を行ったりとサイバーエージェントだけでなくPythonコミュニティでも活躍しており、野村はハイパーパラメータ最適化の研究を専門的に行いながら2人ともAI LabのML最適化チームとして、効率的に機械学習モデルの性能を引き出すための最適化手法の提案やソフトウェア実装の改善に取組んでいます。
そんな2人に、来週に迫ったPyCon登壇内容において、ぜひ聞いてほしいポイントを聞いてみました!
PyCon楽しみですね!
それぞれの発表内容でぜひ皆さんに聞いてほしいポイントを教えてください!
芝田 将
Research engineer at AI Lab. 共訳書 エキスパートPythonプログラミング改訂2版
機械学習の活用のひろがりに伴いAutoMLへの期待や注目度が高まる一方で、現実的にどこまでが自動化可能なレベルにあるのかはまだまだ議論の余地があります。AutoMLと正しく向き合っていく上では、どういうことができるか(あるいはどういうことができないか)を、研究とソフトウェアの両面からキャッチアップし整理しておく必要があると考えています。
本セッションでは、AutoMLの主要な要素技術でもあるハイパーパラメーター最適化・特徴量エンジニアリング・モデル選択等を中心に、それぞれの主要なPythonライブラリの紹介とそれを支える研究の紹介を行います。AutoMLを構成するこれらの要素技術は、それぞれ単体でも機械学習エンジニアにとって抑えておく価値があるトピックなので、AutoML自体にはまだあまり期待していないという方もぜひ聞きに来てみてください!
野村 将寛
株式会社サイバーエージェント AI Labにてハイパーパラメータ最適化の研究に従事。2019年より産総研特定集中研究専門員(兼務)。
今回の発表では、機械学習モデルを構築する際に課題となる「ハイパーパラメータ最適化」について、最新の研究を踏まえたベストプラクティスをお伝えしようと思っています。
ハイパーパラメータというと、手動でのチューニングやランダムサーチをしたり、あるいはベイズ最適化を使ってみたりといったことが一般的だと思いますが、実は最近の研究では、それらの計算を数倍高速化するような手法が現れつつあります。しかし、日本語の文献が少ないということもあり、まだまだ知られていません。本発表では、それらの研究を踏まえて、効率的な機械学習モデルの構築について議論していきます。
3連休の最終日、9/16(月)に2名とも登壇を予定しています。
既にチケットは売切れ…!
注目度の高さがわかるカンファレンスです。
サイバーエージェントで取り組んでいる研究開発に興味を持っていただける内容だと思いますので、ぜひお越し頂けたら嬉しいです!
当日の発表内容は下記をご覧ください。
――――――――――――――――――――――――――――――――――――――――――――――
■登壇者2名の当日の発表予定■
芝田 将 9.16(月・祝) 11:25 – 12:10 45分
「 PythonとAutoML 」
データ分析の活用の幅の広がりに伴い、AutoMLの重要性が増してきました。本セッションでは、AutoMLの基礎事項から研究のトレンド、注目すべきPythonのOSSライブラリの紹介を行ないます。
発表詳細
- AutoMLの全体像
- AutoMLを構成する主要な3つの要素技術
- ハイパーパラメーター最適化:
- 3つの代表的なベイズ最適化手法: Gaussian Process, TPE, SMAC3
- バンディットベースの枝刈り手法: Successive Halving, HyperBand
- 各種Pythonライブラリの紹介と使い勝手、実装品質、開発状況、使用時の注意点について
- 私が開発しているDefine-by-Run上でGPベースのベイズ最適化をアルゴリズムを使えるライブラリの注意点
- 各種OSSが実装している枝刈り手法の本来の論文とは挙動が大きくことなることの解説
- 特徴量エンジニアリング
- 特徴量生成: Featuretoolsの紹介と使い方、具体的にどのような特徴量が生成できるのか
- 特徴量選択:
- scikit-learn.feature_selections パッケージが提供する各種特徴量選択アルゴリズムの解説
- Decision treeと特徴量選択の話
- borutaの特徴量選択アルゴリズムと使い方
- モデル選択
- モデル選択に関する議論・研究の紹介
- ハイパーパラメーター最適化ライブラリを使ったモデル選択
- auto-sklearnの紹介
- (残り時間に応じて) Google Cloud AutoMLなど外部のAutoMLソリューションの紹介
- AutoML Tables
- AutoML Vision
- AutoML Natural Language
――――――――――――――――――――――――――――――――――――――――――――――
野村 将寛 09.16(月・祝) 13:40 – 14:25 45分
「 機械学習におけるハイパーパラメータ最適化の理論と実践 」
機械学習システムの構築において、ハイパーパラメータ最適化は避けては通れない問題である。本発表では、ハイパーパラメータ最適化における最新の研究を含んだ理論の解説と、実践への適用可能性を議論する。
発表詳細
- ハイパーパラメータ最適化問題とは
- 問題設定 : ブラックボックス最適化
- 具体例
- 機械学習モデルのチューニング
- サーバーミドルウェアのチューニング
- ブラックボックス最適化手法
- グリッドサーチ、ランダムサーチ
- ベイズ最適化
- GP-EI (Gaussian Process with Expected Improvement)
- TPE (Tree-structured Parzen Estimator)
- SMAC (Sequential Model-based Algorithm Configuration)
- CMA-ES
- 各手法のメリット・デメリット
- 最新の研究 〜ブラックボックスからの脱出〜
- マルチフィデリティ最適化
- 学習曲線の予測に基づく早期停止
- 順序関係に基づく早期停止
- マルチタスクベイズ最適化
- マルチフィデリティ最適化
- Pythonライブラリ
- Optuna: PFNのハイパーパラメーター最適化フレームワーク
- Define-by-Runによる記述 (hyperoptとの比較)
- 枝刈り機能の解説
- Ax: FacebookによるAdaptive Experimentationプラットフォーム
- オフライン評価との組み合わせ
- A/Bテストの効率化
- 高度な可視化機能の紹介
- Optuna: PFNのハイパーパラメーター最適化フレームワーク
- まとめ
――――――――――――――――――――――――――――――――――――――――――――――
Author