Blog

ACL 2018 参加報告


こんにちは、暑い日が続いていますね!
このたびオーストラリアのメルボルンで開催された、自然言語処理のトップカンファレンスである ACL2018 に AdTech Studio AI Lab から(@so1owingpixy)と岩崎(@chck)の2名が参加したので、二人の個人的な感想を交えつつ報告を行っていきたいと思います。

もくじ

  • ACL について
    • ACL とは
    • ACL 2018 の全体感
      • 概要
      • ACL 2018 について
      • ベストペーパー紹介
      • 自然言語処理分野のトレンド
      • アプリ
      • 開催地メルボルン
  • 研究紹介
  • まとめ

ACL について

ACL とは

Annual Meeting of the Association for Computational Linguistics (通称 ACL) は、年次で開催される計算言語および自然言語処理分野においての世界的な権威を持つ学術会議であり、今年はオーストラリアのメルボルンで 56 回目の開催を迎えました。
ちなみに、去年 (2017年) はカナダのバンクーバーで、来年 (2019年) はイタリアのフィレンツェで催される予定であり、「北米」「アジア・オセアニア」「ヨーロッパ」と開催地を巡回しています。

余談になりますが、ACL のロゴは一見よく分からない奇特な形をしていますが、その実は ACL のアルファベットを組み合わせたものらしいです1

(ACL のロゴを分解)

ACL 2018 の全体感

概要

開催期間は表1のようになっていて、初日の 7/15 (日) がチュートリアルで、7/16 (月) 〜 7/18 (水) が本会議、その後の二日間の 7/19 (木), 7/20 (金) がワークショップとかなり長い日程になっています。

(表1: ACL 2018 の日程)
日付 内容
7/15 (日) チュートリアル
7/16 (月) – 7/18 (水) 本会議
7/19 (木) – 7/20 (金) ワークショップ

開催場所は Melbourne Convention and Exhibition Centre という名前のメルボルン市内にあるコンベンションセンターで、端から端まで約 400m 以上と非常に広い会場でした。

(Melbourne Convention and Exhibition Centre の写真)

 

また、地理的にも市内の中心部に位置しており、詳細は「開催地メルボルン」で書きますが観光などのアクセスがとてもしやすかったです。

ACL 2018 について

今年の論文投稿数および採択数、採択率は表2のようになっています。
数値を見ていくとロングペーパーとショートペーパーを合わせて 1500 件以上の投稿数に上っており、そのうちの約 1/4 が採択されている状況でした。

(ACL 2018 の論文投稿数・採択数・採択率)
論文種別 投稿数 採択数 採択率
Long 1018 258 25.3%
Short 526 126 24.0%
Total 1544 384 24.9%

過去の投稿数と採択数の推移を見ると、多少のブレはあるものの増加傾向にありますが、ICML などの機械学習をメインとした国際会議2と比べると緩やかな増加でした。それでも10年前の2008年と比較すると約2倍の増加と盛り上がっていることが見て取れます。

(ACL 論文の投稿数、採択数の推移)

 

(ICML 論文の投稿数、採択数の推移)

 

採択率に関しては年々 20〜25% 程度を維持しており、他の NLP の国際会議と比べると安定して難関を貫いている印象です。

(NLP 会議ごとの採択率の比較)

 

また、今回の ACL で少なからず話題を集めたのはなんと言っても AACL の発表でしょう。

(AACL の発表スライド)

 

AACL は Asis-Pacific Chapter of the Association for Computational Linguistics の略で、いわば ACL のアジア・環太平洋版と考えてよいでしょう。
EACL, EMNLP, NAACL に続く4つ目の地域限定開催の会議となり、これも言語処理分野の規模拡大を物語っています。
なお、図4のスライドにも書いてありますが、現アジア圏で開催されている IJCNLP との棲み分けは開催年になっています。IJCNLP は奇数年開催で AACL は偶数年開催になっていて、AACL の初回開催は2020年になる予定です。

ベストペーパー紹介

今回の ACL ではロングとショート合わせて5本のベストペーパーが選び出されました。

  • ロングペーパー
    • Finding Syntax in Human Encephalography with Beam Search
    • Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information
    • Let’s do it “again”: A First Computational Approach to Detecting Adverbial Presupposition Triggers
  • ショートペーパー
    • Know What You Don’t Know: Unanswerable Questions for SQuAD
    • ‘Lighter’ Can Still Be Dark: Modeling Comparative Color Descriptions

これら各論文の概要は「研究紹介」に簡単にまとめていて、以下は全ベストペーパーを通しての所感です。

  • 従来のタスクに対して state-of-the-art を更新した系のものではなく、新しいタスクの定義やデータセットの作成に関する話が多かった印象を受けた
  • 言語処理だけに囚われずに他分野(視覚情報、脳科学)に横断するタスクが評価されたのは非常に良い傾向だと感じた

自然言語処理分野のトレンド

オープニングではワードクラウドで昨年と今年のトレンドを表現していました。

(2017年 vs. 2018年)

 

それを眺めてみると、2017年は Knowledge, Detection, Attention などの単語が多かったのに対し、今年は Learning, Embeddings などの単語が多かったです。
全体を通してみても2015, 2016年まで非常にホットだった Embeddings の話題が落ち着きを見せた2017年とは打って変わって、今年はまた盛り上がりを見せていました。ただ、以前の「なんとか2vec」のような様々なものを埋め込んでみました、というのではなく、サブワードや形態素で単語や文を扱ったりと埋め込み方を工夫した研究が多かった印象です。
また、ここ2, 3年でかなり数を減らしていた sentiment に関する研究も、embeddings の再興に引っ張られるように今年は例年と比べてその数を増やしていました。というのも、その多くが sentiment タスクを新しい手法の embeddings を使って解いた研究だったからです。word2vec が2013年に発表され話題を呼んでから約5年経ちましたが、まだまだ活発な活動が期待できそうです。
サブワードや形態素という、単語レベルより小さく文字レベルより大きい単位での扱いも浸透し始めてきている印象です。やはり単語レベルだと同義語や未知語などに対処できなくて、文字レベルだと特にアジア圏の漢字などスパースネスを起こしそうな言語には不向きという方向性はある程度共通でした。ここの部分はこれからもさらなる発展を遂げていきそうです。

手法に関しては、Encoder-Decoder に (Bi)LSTM + Attention を使ったものが非常に多かったです。2017年のワードクラウドに多くあった Attention が今年少なかったのはもはや常識となったためあえてタイトルに付けなくなったのが原因なのではないかと推測されます。
一方でやはりといいますか、CNN を使った手法は少なく、画像系と違って言語分野ではシーケンシャルな RNN ベースな手法が支配的と見て取れます。

アプリ

とても便利だったため紹介したいと思います。
Whova というイベント用アプリの利用を公式から推奨していて、学会運営からの連絡や Author への DM、TimeSchedule 等一貫してこのアプリ1本で完結します。
同時期に開催された IJCAI でも使われていたとのことで、案内が紙媒体だけの学会など特に導入してほしいです。

(Reminder付TimeSchedule[左] Atendee連絡用掲示板[中央] Networking用EventForm[右])

 

開催地メルボルン

会場

トップカンファレンスということもあり、相変わらず広く豊かな会場で開催されました(参加人数1500人超)。

(会場周辺の衛星写真)

 

(長い通路を超えた先に)

 

(看板の前で記念撮影)

 

(Lunch Breakの様子)

 

メルボルンという都市

今回の開催地に選ばれたメルボルンという都市は、南半球に位置しているため季節が反転していて、夏の日本とは反対に冬の真っ只中で非常に寒かったですが、それでも過ごしていく上での満足度に関して言えば、我々の経験内ではかなりの上位に位置すると確信しました。

その理由は以下に大別できます。

  • 街の綺麗さ
  • 治安の良さ
  • 食べ物の美味しさ
  • 移動の便利さ

街の綺麗さは語るより写真を見たほうが早く、いたるところに緑がありゴミも比較的少なかったです。もちろん裏路地などに足を踏み入れるとなるとダークな雰囲気を感じられますが、それはまあスパイスということで。

(緑あふれる街メルボルン)

 

治安に関して、海外はやはり日本と比べてあまり良くない印象を受けることが多々あるのですが、自分たちが活動する範囲に関しては夜中に出歩いててもいつもと変わらないのどかさでした。

(図書館前でのどかにチェスに興じる人たち)

 

加えてなんと言ってもご飯やコーヒーが美味しい点は挙げずにはいられないでしょう。
メルボルンはカフェで有名な街でもあり、あちこちに焙煎されたコーヒー豆が香るお店でひしめき合っています。約一週間の滞在中に多くのカフェに足を踏み入れましたが、ひとつとして外れはなくどのお店でも美味しいカフェラテを可愛いラテアートとともに提供してくれました。

(可愛いラテアート)

 

メルボルン市内を移動する際は、公共交通機関のひとつであるトラム――いわゆる路面電車――を使うことが非常に多かったです。というのも、血管のごとく張り巡らされた路線網で縦横無尽に駆け抜けられるからです。さらに市の中心部のトラムはなんと無料で乗車できるため、気軽に乗って気軽に降りることができ、我々のような初めて訪れる人だけでなく現地の人々の貴重な足にもなっていることが分かります。

(とてもレアなレストランが入っているトラム)

 

まだまだ語り尽くせないほどの魅力を感じますが、あとはぜひご自身の目で確かめてみてください。

研究紹介

ここではベストペーパーを含む8本の気になった研究を紹介したいと思います。間違いなどがありましたらご一報をいただけると幸いです。

[BEST LONG PAPER] Finding Syntax in Human Encephalography with Beam Search3

  • DeepMind, Oxford University, University of Michigan, Cornell University
  • 構文木を表現する文法モデルの RNNG とビームサーチを組み合わせた生成手法における複雑さの指標と、人間が文・文章を聞いて発生する P600 などの脳波成分とは有意な相関関係にあることを示した論文。

[BEST LONG PAPER] Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information4

  • University of Maryland, Microsoft Research
  • 情報が不足している質問に対して、いかに不足情報を補えるような適切な質問を行えるかを測る Clarification Question Ranking というタスクを定義し、そのためのデータセットを作成し、解くためのモデルを提案。
  • モデルの方は EVPI (Expected Value of Perfect Information, 完全情報の価値の期待値) を使って質問と回答のスコアを算出している。

[BEST LONG PAPER] Let’s do it “again”: A First Computational Approach to Detecting Adverbial Presupposition Triggers5

  • McGill University, MILA
  • Adverbial Presupposition Triggers: 前提条件の存在を示す副詞
    • 例えば、”John is going to the restaurant again.” という一文があった時に、”again” があるということは John は以前そのレストランに行ったことがあることが分かる。このような副詞のことを Adverbial Presupposition Triggers という。
    • “again” 以外にも “too”, “also”, “still” などが挙げられる
  • このような副詞が文章に必要か否かを判断するタスクで、文脈を理解することに繋がるため要約や対話分野に適応できる。
  • BiLSTM + self-Attention モデルで予測を行ったところ従来手法よりも高い性能を示せた。

[BEST SHORT PAPER] Know What You Don’t Know: Unanswerable Questions for SQuAD6

  • Stanford University
  • スタンフォード大学で作られた質問応答タスク用のデータセットである SQuAD のバージョン2で、v1 にはなかった設定として答えがない質問が追加された。v1 では F1 が 85.8% の state-of-the-art 手法を v2 で試したところ 66.3% に下がった。ちなみに v2 の人間による正解 F1 は 89.5% 。

[BEST SHORT PAPER] ‘Lighter’ Can Still Be Dark: Modeling Comparative Color Descriptions7

  • Columbia University
  • 言語情報と視覚情報を組み合わせた論文。
  • RGB 値と比較となるような単語(”lighter”, “more neon”, “rustier” など)を与えることで、RGB の色空間内で比較を行い、単語の意味に即した色を返してくれる設定でデータセットの作成とモデルの提案を行った。

Illustrative Language Understanding: Large-Scale Visual Grounding with Image Search8

  • Google Brain
  • 視覚的な情報を取り入れて多様的かつRichな言語表現を獲得するInverse Picturebookを提案
  • Seed Word -> Google Image Search -> Embedding by CNNで手に入れた表現に似た単語を探すことで言語の壁を超えたEmbeddingが可能に
  • 単語の類似性、感情分類、機械翻訳等様々なNLP Taskで評価実験
  • “deep”で海・AI両方の多様的表現を捉えていたり、異なる言語で”太陽”が類似したり、”it”ならばテキスト特徴だけでは得られないホラー映画の”怖い”的な概念が手に入る

Whodunnit? Crime Drama as a Case for Natural Language Understanding9

  • Amazon, University of Edinburgh
  • 探偵ドラマから犯人予測
    • セリフ/シーン説明(テキスト特徴)、シーン映像(画像特徴)、BGM(音特徴)の3入力
  • データは各セリフ+シーン説明それぞれに対し、犯人or notのラベルを、動画を3分ずつに区切って一生懸命アノテーションして用意
  • シーン説明(biting his nails等)とBGMが意外と効くとのこと

Measuring the Evolution of a Scientific Field through Citation Frames10

  • University of Michigan, Stanford University
  • ACL論文中の引用の傾向からNLPの発展をいろいろ分析
  • 引用表現のCompareが減少、Usesが増加という全体傾向から手法が飽和してきている
  • ACL WorkShopと本会議の論文の引用の類似度が高まっていて、特にLong-RunningなWorkshop程体裁が本会議に近づいている
  • 引用含め諸々のテキスト特徴から論文を本会議orWorkshopかの分類器も作成、そこそこ分類できた
    • Workshop論文の引用表現はCompareが少なくUsesが多い

ひとこと

次はぜひとも発表で参加したいですね。それでは!

著者

Author

アバター
peinan