
【リサーチインターン】最適クリエイティブ数を予測する: UpLift Modelingを使った予測モデルの開発
こんにちは、暑い日が続いていますね!
このたびオーストラリアのメルボルンで開催された、自然言語処理のトップカンファレンスである ACL2018 に AdTech Studio AI Lab から張(@so1owingpixy)と岩崎(@chck)の2名が参加したので、二人の個人的な感想を交えつつ報告を行っていきたいと思います。
Annual Meeting of the Association for Computational Linguistics (通称 ACL) は、年次で開催される計算言語および自然言語処理分野においての世界的な権威を持つ学術会議であり、今年はオーストラリアのメルボルンで 56 回目の開催を迎えました。
ちなみに、去年 (2017年) はカナダのバンクーバーで、来年 (2019年) はイタリアのフィレンツェで催される予定であり、「北米」「アジア・オセアニア」「ヨーロッパ」と開催地を巡回しています。
余談になりますが、ACL のロゴは一見よく分からない奇特な形をしていますが、その実は ACL のアルファベットを組み合わせたものらしいです1。
開催期間は表1のようになっていて、初日の 7/15 (日) がチュートリアルで、7/16 (月) 〜 7/18 (水) が本会議、その後の二日間の 7/19 (木), 7/20 (金) がワークショップとかなり長い日程になっています。
日付 | 内容 |
---|---|
7/15 (日) | チュートリアル |
7/16 (月) – 7/18 (水) | 本会議 |
7/19 (木) – 7/20 (金) | ワークショップ |
開催場所は Melbourne Convention and Exhibition Centre という名前のメルボルン市内にあるコンベンションセンターで、端から端まで約 400m 以上と非常に広い会場でした。
また、地理的にも市内の中心部に位置しており、詳細は「開催地メルボルン」で書きますが観光などのアクセスがとてもしやすかったです。
今年の論文投稿数および採択数、採択率は表2のようになっています。
数値を見ていくとロングペーパーとショートペーパーを合わせて 1500 件以上の投稿数に上っており、そのうちの約 1/4 が採択されている状況でした。
論文種別 | 投稿数 | 採択数 | 採択率 |
---|---|---|---|
Long | 1018 | 258 | 25.3% |
Short | 526 | 126 | 24.0% |
Total | 1544 | 384 | 24.9% |
過去の投稿数と採択数の推移を見ると、多少のブレはあるものの増加傾向にありますが、ICML などの機械学習をメインとした国際会議2と比べると緩やかな増加でした。それでも10年前の2008年と比較すると約2倍の増加と盛り上がっていることが見て取れます。
採択率に関しては年々 20〜25% 程度を維持しており、他の NLP の国際会議と比べると安定して難関を貫いている印象です。
また、今回の ACL で少なからず話題を集めたのはなんと言っても AACL の発表でしょう。
AACL は Asis-Pacific Chapter of the Association for Computational Linguistics の略で、いわば ACL のアジア・環太平洋版と考えてよいでしょう。
EACL, EMNLP, NAACL に続く4つ目の地域限定開催の会議となり、これも言語処理分野の規模拡大を物語っています。
なお、図4のスライドにも書いてありますが、現アジア圏で開催されている IJCNLP との棲み分けは開催年になっています。IJCNLP は奇数年開催で AACL は偶数年開催になっていて、AACL の初回開催は2020年になる予定です。
今回の ACL ではロングとショート合わせて5本のベストペーパーが選び出されました。
これら各論文の概要は「研究紹介」に簡単にまとめていて、以下は全ベストペーパーを通しての所感です。
オープニングではワードクラウドで昨年と今年のトレンドを表現していました。
それを眺めてみると、2017年は Knowledge, Detection, Attention などの単語が多かったのに対し、今年は Learning, Embeddings などの単語が多かったです。
全体を通してみても2015, 2016年まで非常にホットだった Embeddings の話題が落ち着きを見せた2017年とは打って変わって、今年はまた盛り上がりを見せていました。ただ、以前の「なんとか2vec」のような様々なものを埋め込んでみました、というのではなく、サブワードや形態素で単語や文を扱ったりと埋め込み方を工夫した研究が多かった印象です。
また、ここ2, 3年でかなり数を減らしていた sentiment に関する研究も、embeddings の再興に引っ張られるように今年は例年と比べてその数を増やしていました。というのも、その多くが sentiment タスクを新しい手法の embeddings を使って解いた研究だったからです。word2vec が2013年に発表され話題を呼んでから約5年経ちましたが、まだまだ活発な活動が期待できそうです。
サブワードや形態素という、単語レベルより小さく文字レベルより大きい単位での扱いも浸透し始めてきている印象です。やはり単語レベルだと同義語や未知語などに対処できなくて、文字レベルだと特にアジア圏の漢字などスパースネスを起こしそうな言語には不向きという方向性はある程度共通でした。ここの部分はこれからもさらなる発展を遂げていきそうです。
手法に関しては、Encoder-Decoder に (Bi)LSTM + Attention を使ったものが非常に多かったです。2017年のワードクラウドに多くあった Attention が今年少なかったのはもはや常識となったためあえてタイトルに付けなくなったのが原因なのではないかと推測されます。
一方でやはりといいますか、CNN を使った手法は少なく、画像系と違って言語分野ではシーケンシャルな RNN ベースな手法が支配的と見て取れます。
とても便利だったため紹介したいと思います。
Whova というイベント用アプリの利用を公式から推奨していて、学会運営からの連絡や Author への DM、TimeSchedule 等一貫してこのアプリ1本で完結します。
同時期に開催された IJCAI でも使われていたとのことで、案内が紙媒体だけの学会など特に導入してほしいです。
トップカンファレンスということもあり、相変わらず広く豊かな会場で開催されました(参加人数1500人超)。
今回の開催地に選ばれたメルボルンという都市は、南半球に位置しているため季節が反転していて、夏の日本とは反対に冬の真っ只中で非常に寒かったですが、それでも過ごしていく上での満足度に関して言えば、我々の経験内ではかなりの上位に位置すると確信しました。
その理由は以下に大別できます。
街の綺麗さは語るより写真を見たほうが早く、いたるところに緑がありゴミも比較的少なかったです。もちろん裏路地などに足を踏み入れるとなるとダークな雰囲気を感じられますが、それはまあスパイスということで。
治安に関して、海外はやはり日本と比べてあまり良くない印象を受けることが多々あるのですが、自分たちが活動する範囲に関しては夜中に出歩いててもいつもと変わらないのどかさでした。
加えてなんと言ってもご飯やコーヒーが美味しい点は挙げずにはいられないでしょう。
メルボルンはカフェで有名な街でもあり、あちこちに焙煎されたコーヒー豆が香るお店でひしめき合っています。約一週間の滞在中に多くのカフェに足を踏み入れましたが、ひとつとして外れはなくどのお店でも美味しいカフェラテを可愛いラテアートとともに提供してくれました。
メルボルン市内を移動する際は、公共交通機関のひとつであるトラム――いわゆる路面電車――を使うことが非常に多かったです。というのも、血管のごとく張り巡らされた路線網で縦横無尽に駆け抜けられるからです。さらに市の中心部のトラムはなんと無料で乗車できるため、気軽に乗って気軽に降りることができ、我々のような初めて訪れる人だけでなく現地の人々の貴重な足にもなっていることが分かります。
まだまだ語り尽くせないほどの魅力を感じますが、あとはぜひご自身の目で確かめてみてください。
ここではベストペーパーを含む8本の気になった研究を紹介したいと思います。間違いなどがありましたらご一報をいただけると幸いです。
次はぜひとも発表で参加したいですね。それでは!
Author