CVPR2021 参加報告

Blog

2021.7.16

はじめに

AI Labの井上です．6月に開かれたコンピュータビジョン分野の最難関国際会議の1つ，CVPR2021に参加してきました．AI Labは「広告クリエティブの制作支援と自動生成」に関連する研究に取り組んでおり（博士インターンも通年募集中です），研究成果の一部は極予測AI・極予測AI人間・極予測LP・極予測トリミングなどといったサイバーエージェントの実プロダクトに還元されています．本記事では膨大なCVPR2021論文の中からクリエイティブに関わるトピックの研究を，実務との関わりにも触れながら紹介していきます．

開催概要

CVPR2021は昨年に引き続きバーチャル開催でした．本会議の採択数 (率) は 1661本 (23.6%) となっており，前年の1467本 (25.0%) と比べても着実に増加しており，この分野への関心が引き続き高いレベルにあることが見て取れます．本会議のページには，下の画像のように基本的に各セッションごとに論文一覧がずらっと並んだページが用意され，そこから各発表のページへと移動するスタイルになっています．今回はBest Paper等の各種賞の受賞作・最終候補作や，Oralの論文には少々目立つバッジが付与されていますが，それ以外には特別な扱いがないスタイルでした．個人的な感想としては，1600を超える論文を（興味の範囲内だけでも）数日間で見切るのはやはり大変で，事前にプレプリントやプロジェクトページ，コードを公開して継続的に宣伝することの大事さを再認識しました．リモート開催での公平性とアクセス性を担保する配慮は随所に伺えましたが，ライブでしか聞けないトークもあり（ワークショップに多い）日本から毎日リアルタイム参加は少々厳しいものがありました．

本会議論文紹介

素材の配置・組み合わせに関する研究

広告を構成するには，素材を加工して適切な位置に配置する必要がありますが，最終的な見た目の良さのために何をすれば良いかは非自明なことが多く，試行錯誤を伴います．ここではそのための部分問題に着目した研究を紹介します．

Composing Photos Like a Photographer

広告は様々な縦横比で出稿されるため，素材写真をトリミングして縦横比を調整することは日常茶飯事です．人が写真を撮る際には，メインの被写体を際立たせより良い印象を与えるための，定石（構図）があることが広く知られています（例：三分割法）．この研究では，この構図情報を考慮した写真のトリミングモデルを提案しています．提案手法は下図のようにトリミングと構図分類（9種類）の教師ありマルチタスク学習になっており，構図分類の際にどこに注目しているかを示す key composition map (KCM) を生成し，トリミング問題の補助情報とすることで構図情報を明示的に考慮したトリミングを実現しています．

Variational Transformer Networks for Layout Generation

多様かつ現実的なレイアウトを生成する計算モデルを作ることは，広告分野でも非常に重要な問題の1つです．この論文では，近年のCV分野で流行り始めた transformer と variational auto encoder (VAE) を組み合わせて従来手法より良いモデルを提案しています．下図に示すように，提案手法は様々なドメインのデータセットから学習して現実的なレイアウトを生成することができています．

効果・印象予測に関する研究

広告がどれくらい見られそうか，なぜ印象に残るのか，といった要素の分析は，広告の制作支援のためのフィードバックとして必要不可欠です．このような分析では画像・テキスト・テーブルデータなど多様なドメインの情報を効率よく統合したり，ドメイン間の対応を発見したりする事が必要です．これに関連した研究を紹介します．

Metadata Normalization

何らかの予測モデルを構築する際に，入出力として明示的に使わない（が入手は出来る）情報が実は結果に影響するケースというのが存在します．例えば，顔画像から性別予測をするときに実はその人の人種情報が結果に影響を及ぼす [Buolamwini+, 2018] などがあります．このような情報は剰余変数と呼ばれ，テーブルデータでは一般線形モデルなどを用いてその影響を排除する手法がよく知られています．しかし，入力が画像や映像である場合，大量のピクセルが相互に依存しており前述のような手法を直接適用できるかは非自明でした．この論文では，metadata normalizationという，batch normalization等の正規化層の代わりとして用いる層を使って．ニューラルネットの学習中に剰余変数の影響を排除しながら学習する方法を提案しています．実務ではなかなかにありがちかつ悩ましい問題ですが（広告の効果予測等に取り組んでいても大量のメタデータがあります），モデル本体の構造を大きく変えることなく組み込める，実用的な手法だと感じました．

ArtEmis: Affective Language for Visual Art

CV分野の認識系の多くの研究は物体やその関係性を理解するためのものですが，この研究では個人によっても捉え方の異なる，より主観的な感情の認識のための基盤作りに主眼を置いています．具体的には，画像に対し「見たときに何を感じたのか」のカテゴリ情報と「それは画像内の何によって引き起こされたのか」を説明する記述文を収集した数十万件規模のデータセットを提案しています．また感情分類や説明文生成のベースライン実験を行い，アノテータの主観によって様々な解答が存在するような難しい問題でありながら．それなりの良さのモデルが構成できることを実験的に示しました．

画像生成・編集に関する研究

広告画像には高解像度・高品質が求められますが，所望の写真が得られるまで被写体を繰り返し撮影したり，素材画像ストックを検索し編集し続けたりするのは非常に骨の折れるプロセスです．深層学習の発展に伴い，高解像度画像をユーザがコントロールできる形で自動生成する取り組みが目覚ましく発展しており，いくつかの面白い研究を紹介します．

Taming Transformers for High-Resolution Image Synthesis

Generative adversarial network (GAN)を用いて写実的な画像を生成する取り組みは長く行われてきていますが（例：DCGAN），高解像度な画像を生成しようとすると生成画像の大域的な整合性が崩れる問題がありました．この論文では，VAEの安定化のためにvector quantization（ベクトル量子化）を使用したVQVAEのアイデアをさらに空間方向に拡張し，transformerを使ってcodebookのグリッドを自己回帰的に生成することで整合性を担保し，そのグリッドをCNN decoderに入力して高解像度画像を生成するVQGANと呼ばれるモデルを提案しました．このモデルは条件付き画像生成にも容易に拡張でき，論文中では画像変換（例：edges, depth, segmentation, …）や画像補完での応用例を大量に紹介しています．

Anycost GANs for Interactive Image Synthesis and Editing

Image2StyleGANに代表されるように，画像とStyleGAN等の生成モデルの入力になるlatent codeの対応を見つけ，多種多様な画像編集タスクを生成モデルのlatent codeの空間上で表現する試みが汎用性の高さゆえに注目を集めています．しかし，理想的には画像編集では「ユーザの入力が低遅延で反映されること」かつ「生成される画像が高品質・高解像度」という相反する２つの特徴を実現する必要があり，単一の生成モデルではどちらかを満たすことができなくなります．そこで，この論文では生成モデルが出力解像度と使用できる計算量を追加入力として取得し，その制限に沿ったサブネットワークを使って画像を生成できるようなモデル，AnycostGANを学習することを提案しています．これにより，低解像度・低計算量の出力モデルを使った「プレビュー」モード上でユーザは低遅延な画像編集をし，その裏側で高解像度・高計算量のモデルの推論が走ることで，最終的な編集結果を高いクオリティで取得することも可能になります．

動画生成・編集に関する研究

Youtube等様々な媒体での動画試聴時間が増大する中，動画広告もより一般的なものになってきました．しかし動画の生成・編集は静止画以上に労力とコストのかかるものです．ここでは動画編集のための新たな問題やインターフェースを提案している論文を紹介します．

Hierarchical Motion Understanding via Motion Programs

この論文では，動画中のキーポイントの動きを複数の中間ステップを経て最終的に Abstract Motion Program という擬似コードのようなプログラムに落とし込み，またそこからキーポイントの動きを再構成するパイプラインを提案しています．推定されたプログラム上で直感的かつ簡単な編集をユーザが行うと，その編集が反映された動画を生成することが出来ます．また，推定されたプログラムの汎化性は高く，動きの内挿や予測といったタスクに関して補助情報として使うと keypoint heatmap 等に比べてより良い結果を得ることが出来ます．定量評価はゴルフスイングの動画データセットでのみ行われており，より複雑な動作でも同等の事が出来るのか等の疑問は残りますが，物量で押し切って質を上げていく主流の方向性とは別方向の研究として非常に興味深かったです．

Omnimatte: Associating Objects and Their Effects in Video

この論文では，ビデオとその中の1つの物体のマスクが与えられた時，それがシーンに対して及ぼす影響（例：影・煙・水の波）の部分を分割する手法です．デモビデオが非常に印象的なのでぜひプロジェクトページをご覧になることをお勧めします．静止画像でドメインを限ればこのようなタスクは研究されていたりするのですが，ドメイン知識を廃して汎用的な機構として解けるようになっている点，optical flowやtracking等の既存手法を補助情報として取り入れながら，自己教師あり学習として解いている為アノテーションが必要ない点，などは実応用を考えると非常に嬉しいです．

おわりに

本記事ではカバーできなかったですが，今年はtransformerやimplicit functionを発展させた研究で面白いものが顕著に多かったように感じます．Computer Visionの研究のスピードは凄まじく，例えば画像生成・編集分野では数年前には実用化までの道のりがまだ遠そうに見えた技術が次々に改良され，ドメインによっては実製品に組み込まれるようなケースも出てきました．最新の研究のトレンドを知るとても有意義な機会となりました．

Author

inoue