Blog

【採択論文紹介】AI Lab リサーチインターンでのレイアウト生成の研究について(CVPR2024)


東京大学大学院 博士後期課程3年の堀田大地です。 この記事では私がAI Labの夏季リサーチインターンシップで取り組んだレイアウト生成の研究について紹介します。

Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation
Daichi Horita, Naoto Inoue, Kotaro Kikuchi, Kota Yamaguchi, Kiyoharu Aizawa
IEEE/CVF Computer Vision and Pattern Recognition Conference (CVPR) 2024

初めに

今回のインターンでは、商品画像やバナーのような何かしらのコンテンツがあるキャンバス上にレイアウトを生成する問題、つまり、コンテンツ考慮型レイアウト生成(Content-aware Layout Generation)に取り組みました。レイアウト生成は見出しやキャッチコピーのような要素を自動で配置する技術であり、商品画像やバナーなどのグラフィックデザインの制作を大幅に効率化することが期待されています。例えば、「極予測AI」においてバナークリエイティブの自動生成への応用が期待されています。

図1は本問題の入力と出力の関係を示しています。具体的には、入力された画像中にバウンディングボックスとしてレイアウトを生成する問題です。レイアウトは位置情報に加え、テキストやロゴや下地を示すようなクラス情報も持ちます。要約すると、レイアウトの位置とクラスの情報を画像入力から生成する問題になります。本論文では、検索拡張型生成を用いた手法を提案し本問題に取り組みました。

図1: 提案手法の概要

 

提案手法

本問題には多くの既存研究がありますが、全て単一の学習型生成モデルに依存しており、一度学習した知識を用いてレイアウト生成を行います。しかし、本課題には学習に十分なデータが存在せず学習効率性が悪い問題や、安定した学習を行える生成モデルの構築が不十分な問題があります。

本研究では、クリエイターが作品を創る時に実際の例を参照するような創作方法に触発され、実際のレイアウトを見ながら生成を行う生成モデルの構築に取り組みました。具体的には、自己回帰モデル型Transformerを利用した生成モデルを構築し、検索拡張型生成(Retrieval Augmented Generation、RAG)を組み込んだ手法であるRetrieval Augmented Layout Transformer(RALF)を提案しました。この手法は既存の生成モデルに容易に組み込み学習を行える利点を持ちます。図2はRALFのネットワークアーキテクチャを示しています。

図2: RALFのアーキテクチャ

提案手法であるRALFは、主にエンコーダ・デコーダ型Transformerを用いた生成モデルと、実サンプルをヒントとして与える検索拡張の2つで構築されます。検索拡張のための実例を取得するために、入力画像とデータベースのサンプル間で画像特徴量の類似度を計算し、似た類似度を持つ画像はレイアウトも近しいだろうと仮定しています。そこで、類似度の高い画像が持つレイアウト情報をLayout encoderに入力し、TransformerデコーダであるLayout decoderのCross-attention層へと入力します。

実験

図3は検索拡張を用いない場合(Autoreg Baseline)と用いた場合(RALF)の比較を行っています。横軸は訓練データサンプル数を示し、縦軸はFréchet inception distance(FID)を示しています。低いスコアが良いパフォーマンスを示します。この結果から、RALFは学習効率性を向上させ、どの訓練サンプル数においても高い性能を達成することを示しています。

図3: 検索拡張の有無による性能の比較

次に、生成時に使う検索結果の数と性能の関係を検証しました。図4は横軸が実例数を示し、縦軸にFIDを示す検証結果を示しています。この結果から、1つでも実例を見るとFIDにおける性能が向上することがわかります。

図4: 拡張する実例数の変更による性能の比較

実際の生成例を図5に示します。Kは実例数を示しています。K=1では実例と同じようなレイアウトが生成されているのに対し、K=16ではより多様なレイアウトが生成されていることがわかります。つまり、実例数が極端に少ないとコピーをするような生成方法となりますが、実例数が多いことによって実例を見ながらの生成が可能になります。その結果、テキストとその下地のような関係性もきれいに生成できるようになります。一方で、実例をコピーをすることと、実例に忠実度の高い生成ができることは、どちらもFID上では良い結果をもたらす問題があります。この問題を解決し、検索拡張型生成を正しく評価するためには新たな評価指標を考えていくべきであり、この重要な問題は今後の研究コミュニティへと託します。

図5: 検索拡張するサンプル数を変えた時の生成結果の比較

おわりに

本研究では、検索拡張型生成を組み込んだ手法であるRetrieval Augmented Layout Transformer(RALF)を提案しました。この技術はグラフィックデザインの制作を大幅に効率化することが期待されています。詳細はぜひ論文を確認してみてください。

PR

堀田さんのメンターを担当した CyberAgent AI Lab 研究員の 井上 直人です。私たちのグループではグラフィックデザインの自動生成・制作支援・理解に関する技術に主に取り組んでいます。これらの技術は本記事で扱ったレイアウトだけでなく、画像、テキスト、各要素に対する細かな属性 (例: 文字のフォントや色) などを同時に扱う非常に挑戦的な課題であり、近年の言語や画像生成の基盤モデルをフル活用してもなお解けたとはいえない様々な課題が存在します。このような研究に興味を持たれた方はぜひ私たちに声をかけてみてください、一緒に研究しましょう。AI Labでは博士課程の学生を対象にリサーチインターンシップを募集しています。また、フルタイムのポジションも各種募集中です。

Author

アバター
inoue