情報論的学習理論ワークショップ（IBIS2016）参加レポート（その1） |

Blog

2016.12.9

情報論的学習理論ワークショップ（IBIS2016）参加レポート（その1）

情報論的学習理論ワークショップ（IBISML 2016）

こんにちは。AI labの杉尾です。
先月の11月16日から19日に京都大学で開催された情報論的学習理論ワークショップ (IBIS2016)にチームメンバーの馬場、渡辺、今井の4名が参加してきました。
IBISは今年が19回目の開催という歴史ある研究会であり、今回は「ブームを乗り越える」をテーマに掲げ、近年のAIブームの中心にあるDeep Learningをはじめ、さまざまな機械学習手法やその関連分野についての議論が行われました。
本レポートでは、ワークショップ第1日から第3日までの内容を紹介したいと思います。

企画セッション

この節では、印象に残ったセッションについて少しだけ…

「深層学習はどう世界を変えるのか？」
Preferred Networks 取締役副社長岡野原大輔

岡野原さんの講演は深層学習の仕組み、応用法、強み、課題などを軸に展開されました。
まず、今後の世界はIoT時代に合わせた分散知能を創造しないといけなくなり、意思決定を自動化するためにはセンシング、認識の技術が向上しなければ始まりません。
そこでDeep Learningは、画像・音声認識、予測、制御、異常検知、自然言語、対話、翻訳、アルゴリズム生成、最適化などで応用が進んでいます。
強みとしては特徴設計をしなくて済み、汎化性の高いモデルが作れるということにあります。

ブラックボックスとして見られているDeep Learningがなぜ応用性が高いのかは幾つかの要因が考えられます。
まず、知られている物理現象の変数間の相互作用の次数は2-4個しかないので、それを上手く表現できる（変数の数に対して線形にしか伸びない）のは嬉しい点です。
さらに画像や化学反応の対称性などを踏まえると変数の自由度が低いのでDeep Learningが適しています。
最後に直前の状態のみに依存する関係性（マルコフ性）がDeep Learningは表現しやすい点などが挙げられていました。

一番のテイクアウェーは現在の人工知能は機能としては達成できているが、使っている仕組みが実際の知能と違うため、今後の発展にはこの違いを理解して、追いつくための難易度を理解しなければいけないという論点です。
具体的には、自動運転の場合はバックと前進の違いを認識したり、環境依存しない学習の手法を編み出すことが挙げられます。
しかし、稀な環境・状態のデータは取得できる機会が少ないという課題もあり、転移学習などが必要となることが今後考えられます。

「科学と機械学習のあいだ：変量の設計・変換・選択・交互作用・線形性」
北海道大学 / JSTさきがけ瀧川一学

このセッションのテーマは、「The Art of Feature Engineering」です。
以前より増して機械学習アルゴリズムが多様な分野に応用されるようになりましたが、その各分野・各タスクで優秀な成績を収めるためには、それぞれで有効な特徴量（変数）を設計・生成する必要性があります。
それは所謂「Feature Engineering」であり、「Art」の世界とされています。

具体的には、「線形性と交互作用」と「交互作用から合成特徴量」という2つで構成されていました。
「線形性と交互作用」は、線形モデルにおいて、表現することができない他の変動値に依存した条件付きの変数値変動を、変数間の「絡み」、つまり交互作用項をもってして解決しよう」という話です。
しかし、そのような手法は、データが超高次元になった場合、「次元の呪い」の問題にぶち当たり、偽相関によって間違ったモデルを作成してしまいケースが多々見られます。
その回避方法として、「正則化と変数選択」が考えられます。方法としては、トラディショナルな変数増減法や検定を用いたもの、L0正則化、L1正則化、Elastic-Net、Adaptive Lasso、smoothly clipped absolute deviation（SCAD）、minimax concave （MC+）、Sure Independence Screening（SIS）、Stability Selection、Randomized Lassoといった方法が紹介されていました。

「交互作用から合成特徴量」の節では、高次元なデータから様々な低次元合成量を特徴量としてモデルに加える方法を紹介してくださいました。
具体的には、線形合成量を作成する方法（主成分、PLS、etc…）、次元削減法（ISOMAP、LLE、t-SNE、embedding、Auto encoders、etc…）、Random Forest・Gradient Boosting Decision Tree（GBDT）・Regularized Greedy Forest（RGF）、Decision Junglesに代表されるアンサンブル木型回帰の内容に関して軽く触れながら、どのような点が優れているのかに関してお話ししてくださいました。
このような手法を用いると、例え高次元なデータであったとしても、変数選択できる多種多様な方法があるため、「予測」に有効な特徴量を生成するだけは、さほど困難ではありません（タスクにはよる）。
しかし、滝川先生もおっしゃっていましたが、その特徴量（合成特徴量）は解釈性や普遍性の点でどうなのか、またそのモデルは科学的法則性に則った良いモデルと言えるのだろうか、いう点に関しては、僕自身も気になるところで、勉強していきます。

ポスターセッション

恒例のポスターセッションは連日大盛況でした。
ポスターの内容は、直面している課題の助けになるものから、次のアプローチの種になりそうなもの、また手をつけれていない領域など多様な分野と手法が勢ぞろいで非常に勉強になりました。
残念ながら全部の発表者の方々と議論できたわけではないですが、議論することができた中から印象に残ったものを抜粋します。

長期記憶のためのRecurrent Neural Network

RNN の勾配消失・発散問題を解決する手法の提案。
LSTM の時刻軸への連結をX個飛ばしにして接続してやると、昔の情報を最後まで伝搬することができたという内容。
発想がすごく秀逸で素晴らしかった。

Semi-Supervised Classification based on Classification from Positive and Unlabeled Data

既存の半教師学習は何かの仮定（クラスタ仮定や多様体仮定など）を置いていたが、それを置かない手法を開発。
PU分類（Positive + Unknown）とNU分類（Negative + Unknown）を組み合わせて最適化を解く。
ベンチマークのデータセットにおいて既存手法よりも高い識別性能を出した。

MDL原理に基づく連続値共クラスタリングによる野球データ分析

投手 vs 野手の打率行列をクラスタリング。
NMFを使う場合よりMDLを利用してやるほうが精度が高い。
「右投げには左打ち」のような通説はクラスタには現れなかった。
スポーツデータの解析は面白いのだよ！

非負制約付きスパースコーディングを用いたチームスポーツフォーメーション特徴量の自動抽出

元となるデータは各選手の試合中の位置情報で、そこでピッチをグリッド化した時に各グリッドの選手密度をデータ化。
スパースコーディングを使い上記の密度データを基底化する。
目的はフォーメーション解析の高度化。
時系列順に57,006フレームあるデータセットから一番頻度が多い基底などを集計するとチームのフォーメーション傾向性が浮かび上がる。
他の応用法としてイベントごとの選手配置をみることで関係性がわかるようになる。

Robust supervised learning under dataset shift uncertainty

訓練データとテストデータで分布シフト起きていると、精度がいいモデルでも外す。
そこでワーストケースシナリオ（シフト）を想定して、目的関数にシフトを最大限にして、誤差を最小にするということを行う。
しかし、このrobust learningは異常値に弱いため、クラスごとにシフトウェイトを作成する。

比較バンディット問題におけるコープランド勝者の推薦

二つの検索エンジンから検索ランキングをまとめて、新しい検索ランキングをつくる。
二つのコンテンツからペアを選んできたら、その報酬が手に入り、そいつをバンディット的に最適化する問題。
ペアワイズなバンディットの解き方で、おもしろい！

最後に

IBISMLは、チュートリアルも催されるのが通例です。
著名な研究者が講義をしてくださる機会は、僕らみたいな事業会社にとっては非常にありがたい場です。（学生時代ってホントに恵まれてたんだなぁ…）
次回はそのチュートリアル内容に関してサクッとお届けします。

Author

tatsuki