Blog
経済学徒が知らない機械学習の世界
AILabの経済学チームの森脇です。
2018年も残りわずかとなりました。振り返れば、今年初頭のAEA(全米経済学会)年次総会で「機械学習と計量経済学」と題したセッションが開催されたり、秋には日本経済学会で「ビッグデータ・機械学習と経済分析」と題したパネルディカッションが組まれたりと、機械学習の大きな波がいよいよ経済学に押し寄せた1年といえるでしょう。
ミーハーな私も乗り遅れまいと半年前から社内有志とその道の入門書である「統計的学習の基礎」([PDF(英語版)])を輪読しています。輪読といっても担当した章以外は読みもせずに臨んでいるので勉強した感は薄いのですが、分厚い本と親密なときを過ごした結果、機械学習というものの雰囲気を掴んだ気がしています。
せっかくなので、フツーのミクロマクロ計量を勉強してきた経済学徒がみた、「機械学習の世界」について今回は書いていきたいと思います。1
予測精度への執念
「統計的学習の基礎」には最初から最後まで誤差という言葉が頻出します。それも、期待誤差やテスト誤差、誤分類誤差などさまざまな誤差が登場します。これらはすべて予測値の精度、ひいてはモデルの性能を評価しているわけですが、一般的に経済学ではここまでモデルの予測精度をみていくことは少ないのではないかと思います。
また、予測精度をあげるための数々の手法–例えば、モデルの過剰適合を避けるための正則化や次元削減–は、一般的な計量経済学の教科書では深く議論されません。2
もちろん、計量経済学では、現実世界の予測ではなくて、モデルのパラメータの推定による因果関係の分析や、推定されたモデルにもとづいた反実仮想のシミュレーションに重点をおかれることが多く、予測に血道をあげる必要性が薄いという事情はあります。
しかし、経済学の研究においても、「予測」が重要になる局面は多くあり、例えば、外生的に賃金が決まると仮定したときの賃金関数の推定や、そもそも関数形を仮定せずに変数の特性を理解したいときなどには、機械学習の手法を借りることも選択肢のひとつだと思います。3
さらに、最近では反実仮想と機械学習の組み合わせ(”Counter-Factual Machine Learning”)の研究も盛んになりつつあり、目が離せません。
データに対する貪欲さ
「統計的学習の基礎」では、さまざまなデータが登場します。特に多く登場するのが医学・生理学で扱われるタンパク質や遺伝子のデータで、画像だったり、配列だったり多様です。
歴史的に、経済学は理論的な発展が先行し、実データを用いた分析–実証分析–は、公的機関を中心とした統計やサーベイデータの整備とともに発展してきた経緯があります。そのため、割としっかりとした機関が作成した「行儀の良い」データを前提とした研究が多く、民間調査機関を利用して自前でサーベイデータを作成すると、それだけで「ユニークな研究」と認められるといった傾向があります。
最近–といっても2000年代以降というイメージですが–では、サーベイデータの個票を活用することが当然になり、さらに税などの行政記録、クレジットカード、POS4、レセプトデータ5といった本来分析用に作成されたものではないデータを活用する取り組みも広がってきました。6
しかしながら、例えば、画像やテキストデータなど定量化されていないデータを用いた分析は、まだまだ一般的とは言えません。その理由の一つとして、そもそも解析して意味のある非構造化データの入手が難しかったというのもあるかもしれませんが、新たな「データ」の発見より、新たな「手法」の発見に重点があったのではないかと思います。新たなデータの利用は、その整備にコストと労力がかかる上、データの質について重箱の隅まで突かれるリスクもあります。しかし、データ自体が経済にとって重要となる中で、そうしたコストやリスクを乗り越えていく必要があるのではないかと思います。
公開・共有する文化
機械学習の爆発的な普及は、RやPythonをはじめとした科学技術計算言語において、誰でも使えるライブラリが提供されていることが大きな理由の一つだと思います。単純にライブラリがあるだけではなく、使い方が親切にウェブサイトにのっていたり、質問すれば作者が回答してくれたりというオープンな文化がその基盤になっていると思います。「統計的機械学習の基礎」でも、随所にアルゴリズムの実装についての言及があり、引用されている論文がそのままライブラリの解説になっていることも少なくありません。
経済学においては、長らくStataやMatlabといった有償のソフトウェアが隆盛を極めており、計算速度を重視する場合はFortranという敷居の高い状況が続いていました。
Stataでは自作のadoファイルを公開している研究者も少なくなく、マクロではDynareというプラットフォームが現在に至るまで活動しています。しかし、残念ながら、すべての研究者が論文のソースコードを公開しているわけではなく、実装の難易度から詳しい人が近くにいないとなかなか参入が難しい分野もあります。7
経済学研究者はあくまで研究者であってソフトウェアエンジニアではないからということもあるかと思いますが、論文とソースコード公開がセットになることで、経済学研究への参入が増えさらなる発展が望めるのではないかと思います。
おわりに
以上、つらつら機械学習のよいと思うところ、真似したいところをあげました。まだまだ機械学習の世界はわかっていませんが、強化学習でベルマン方程式という言葉が出てきておっと思ったり、勉強してくといろいろ面白そうだなとわくわくしています。
なお、経済学における機械学習の重要性については、”経済学に機械学習を広めるぞ教会”8伝道師の一人Susan Atheyによる論文(Athey, 2018)がよくまとまっているのでご参照ください。
引用文献
Hastie, T., Tibshirani, R., & Friedman, J. (2014). 統計的学習の基礎: データマイニング・推論・予測 (pp. 586-587). 共立出版.
Greene, W. H. (2003). Econometric analysis.
Nakamura, E., & Steinsson, J. (2008). Five facts about prices: A reevaluation of menu cost models. The Quarterly Journal of Economics, 123(4), 1415-1464.
Chetty, R., Friedman, J. N., Olsen, T., & Pistaferri, L. (2011). Adjustment costs, firm responses, and micro vs. macro labor supply elasticities: Evidence from Danish tax records. The quarterly journal of economics, 126(2), 749-804
Athey, S. (2018) The impact of machine learning on economics. In The Economics of Artificial Intelligence: An Agenda. forthcoming from University of Chicago Press.
- そもそも「統計的—」がカバーしている領域は機械学習の一部だろうというツッコミは胸にしまっておいてください。 ↩
- Greene (2003)では、モデル選択の文脈で若干の議論がなされています。 ↩
- ノンパラメトリック計量経済学という一大分野がありますが、経済学徒の常識かというとそこまでは至っていないと思います。 ↩
- 小売店における販売記録。商品名、数量、価格などが記録されている。 ↩
- 医療機関による傷病名、治療、薬の処方などが記録されている。 ↩
- Nakamura and Steinsson (2008)の物価統計の基礎データを用いた研究や、Raj Chettyらによるデンマークの徴税データを用いた研究(Chetty et al., 2011)などは、データの持つ力をまざまざと感じさせるものでした。 ↩
- ヘテロマクロとか構造推定とか。その点で、ノーベル賞受賞者のサージェントと早くから経済学におけるPythonの可能性を説いていたスタルスキによるQuantEconは、画期的な取り組みだと思います。 ↩
- そんな教会はありません。 ↩
Author