Interview

“人の手が加えられたデータ”に魅力 – 自然言語処理とコンピュータビジョンを横断する研究へ

大谷 まゆ / AI Lab

Pocket

Interviewee

大谷 まゆ

AI Lab

2018年に奈良先端科学技術大学院大学情報科学研究科博士後期課程修了後、サイバーエージェント入社。コンピュータビジョン、機械学習に関する研究に従事。

今回は2018年4月に博士後期課程を卒業しサイバーエージェントに入社、現在AI Labにて、広告クリエイティブの自動生成に関する研究に取り組んでいる研究員の大谷さんへのインタビューです。

まず、これまでどんな研究をされていたのでしょうか?ご経歴を教えてください。

京都大学の総合人間学部を卒業後、奈良先端科学技術大学院大学(NAIST)に進学しました。博士課程ではフィンランドのオウル大学に留学し、そこで深層学習を使った映像とテキストの対応付けの研究を始めました。応用として自然言語をクエリとした映像検索技術の開発をしました。博士課程の後半では主な研究場所を大阪大学に移し、そこでは自然言語処理が専門の先生と協力して別の分野の問題にも取り組んでいます。これらオウル大学と大阪大学との協力関係は入社後も継続しています。

サイバーエージェントのAI Labに興味をもったきっかけは何ですか?

サイバーエージェントにAI Labという研究グループがあるのは東北大で助教をしていらっしゃった山口先生が入社したことで知りました。以前から国際会議などで何度かお会いしたことがあったのですが、現在、山口先生がサイバーエージェントで取り組んでいる研究内容を聞いたときに、私自身が映像の自動編集をやっていたことから、「クリエイティブの生成は、自分の興味とオーバーラップする部分が大きい」と感じ、そこから関心を持って最終的に入社をした経緯です。

大学での研究を続けていた中、卒業後に研究を民間企業で行うことについてはどういった考えがあったのでしょうか。

もともと自分の研究の興味は産業にも近く、大学か民間企業、どちらで研究を続けるかについて特に強いこだわりはありませんでした。特に最近は研究コミュニティでも民間企業の存在感が大きくなってきており、大学以外でも研究者としてのキャリア考えることができるようになっていると感じています。

研究環境について、大学と現在のAI Lab、違いを感じることはありますか?


強いていうなら、企業に入ったことである程度決まった就業時間ができたこと、サービスへの導入が研究の目標の一つになったことは研究環境の変化ですが、特に窮屈さは感じていません。時間の使い方にもメリハリができて、「あ、これはいいな」と思いました(笑)大学でやっていた研究プロジェクトも継続していますし、思っていたより大学にいた時とあまり変わらないと感じています。一方で現在はエンジニア的な技能を持った人が多いので、新しいデータや計算リソース導入のハードルが大幅に下がったと感じています。私自身は基本的には実験をして論文を書くということをしています。

研究で扱うデータについてはどうでしょうか?


サイバーエージェントが扱う広告画像や映像は学術研究用のデータセットとはかなり違った特徴があります。まず1つめの違いは、広告画像として編集加工が施されていること。研究に使われている大規模なデータセットは、「撮影されたままの写真」がほとんどですが、サイバーエージェントが扱う広告画像や映像は、「デザイナーが写真やイラスト、さらにテキストを編集して作成した画像」です。このような画像を対象とした認識技術を開発することで、画像だけでは認識が難しい複雑な意味理解を実現できる可能性があります。実際、世の中にある画像や映像の多くは人間が編集したものです。このような画像・映像を対象とすることは、より現実に即した研究課題だと感じています。

また、2つめの大きな違いは「国内向けに作成されているデータである」という点です。学術研究用にデータセットとして共有されているものの多くは、欧米圏の写真と英語のテキストが大部分を占めています。テキストはもちろん、画像も作成された文化圏によって異なる特徴があります。大規模データセットでモデルを学習する手法がデファクトスタンダード化している今、そういった差異に対して頑健な手法でのアプローチはアカデミックな研究の場でも注目を集めている面白いテーマだと思います。

4月に入社されてから、現在はどんな研究活動をしていらっしゃいますか?

入社後は広告制作に関する研究をするクリエイティブリサーチグループに入りました。私が在籍していた大阪大学の研究者との共同研究で、「画像に関するテキストの言い換え表現」に関する研究をしていたのですが、これを広告に応用すれば、広告画像の内容に適した多様なタイトルやテキストを提示することができ、広告クリエイティブの自動生成の開発研究に役立てることが期待できます。
この研究については8月の自然言語処理分野の国際会議COLINGに採択されているほか、最新の成果は6月に開催されたコンピュータビジョン分野の国際会議であるCVPRのワークショップで発表し、コンピュータビジョンの観点からも議論をしてきました。(解説記事はこちら)CVPRでは複数のワークショップがあり、広告画像・映像をテーマにした技術コンペが開催されていたのでそちらにもAI Labのメンバーと研究グループとして挑戦し、コンペ1位で通過することができました。今回の技術コンペで行った実験で、広告内容を理解する上でのテキストの重要性が確認されたので、今後はより自然言語処理とコンピュータビジョンの両分野を横断するような研究をしていくことになると考えています。

今後、研究者として取り組みたいことやチャレンジしてみたいことなどあれば、教えてください。


今後は広告を対象に研究を始めていくにあたって、今まで扱ってこなかった映像なども研究してみたいです。例えばアニメやゲーム画面の認識に興味があります。これらは広告では主要なメディアの一つですが、研究対象としてはまだあまり手がつけられていない領域です。またクリックやコンバージョン(※)など膨大な広告の配信結果が蓄積されているので、ユーザが魅力を感じる視覚的要素をデータから学習し、広告画像・映像の制作支援に生かすことを最初の目標としていこうと考えています。

※コンバージョン・・・広告を経由した成果地点。購入や成約、アプリインストールなど。

大谷さん、ありがとうございました。

関連記事