Blog

[ICCV2023採択] AI Lab リサーチインターンでの顔画像生成の研究について


東京大学大学院 博士後期課程2年の塩原楓です。

この記事では私がAI Labのリサーチインターンで取り組んだ顔交換(Face-Swapping)の研究やAI Labでのインターン生活について紹介します。

インターンで取り組んだ研究について

初めに

今回のインターンでは、顔交換(Face-Swapping)という画像生成の問題に取り組みました。顔交換は与えられたターゲット人物画像に対して、その表情や背景、髪型など(これらを属性という)を維持しながら、顔のアイデンティティだけをソース人物画像の顔のアイデンティティで置き換えるタスクです。顔交換の技術は映像制作やバーチャルアバターなどの娯楽用途のほか、顔の非匿名化などのプライバシー保護のための技術としても近年需要が高まっています。

顔交換は既に多くの既存研究がありますが、既存法ではソース画像の属性情報が生成画像に漏れ出てしまうことがあるということが経験的にわかっていました(図1)。本研究では、この問題が顔交換で広く使われている顔認識モデル(ArcFace)にあることを突き止め、顔認識モデルを顔交換用に再設計した新しいエンコーダ(BlendFace)を用いて顔交換モデルを訓練することで、この問題を解決しました。

この研究成果はコンピュータビジョン分野の難関国際会議の一つであるICCV2023に採択されています。

BlendFace: Re-designing Identity Encoders for Face-Swapping
Kaede Shiohara, Xingchao Yang, Takafumi Taketomi
IEEE/CVF International Conference on Computer Vision (ICCV) 2023

既存研究の課題と提案法

なぜ既存手法で属性情報の漏れが起きているのかを解明するため、顔認識モデルを分析してみます。顔認識モデルは同一人物のさまざまなシーンの画像が同じ埋め込みになるように訓練されており、その特徴を使って人物識別を行います。人はさまざまなシーンにおいて似たような髪型や肌の色をしているため、それらの情報も個人の特徴として埋め込まれます。ここで、図2の左側に示すように、ある人物の画像(アンカー画像)と、同一人物の別シーンの画像()、異なる人物の画像()、異なる人物の顔を簡単な画像処理によって同一人物に置き換えた画像()の4つを用意して、アンカー画像とのアイデンティティ類似度を測定しました(横軸は類似度、縦軸は件数)。

この図からわかるように、既存の顔認識モデルは置き換えた画像()の類似度が本人の別シーンの画像()との類似度よりも低くなっています。つまり、顔認識モデルは髪型や肌の色の情報が類似度に影響しているということが統計的にわかりました。

顔交換モデルに戻ると、これはソース画像と生成画像の顔認識モデルの特徴量によるアイデンティティ類似度を近づけようとした時に、髪型や肌の色までもを過剰に近づけさせるということを意味しています。これにより冒頭で示したような属性の漏れが発生します。

本研究ではこの問題を解決するために、属性情報が交換された画像()も本人であると認識されるように属性情報を交換した画像を訓練データに用いて顔認識モデルを訓練し直しました。その結果が図2の右側で、属性情報を交換した画像()の類似度が属性情報を交換していない画像()の類似度に極めて近く分布していることが確認できます。このような顔認識モデルを使って顔交換モデルを訓練することで、属性の漏れがない顔交換モデルを実現できることが予想されます。顔を交換した画像(ブレンド画像)を用いて顔認識モデルを訓練することから本手法をBlendFaceと名付けています。

実際にBlendFaceを用いた顔交換モデルと既存法を比べた結果が図3です。ソース画像とターゲット画像の属性が大きく離れている場合に、属性情報の漏れによって顔の内外で不連続な領域が生じてしまっているのに対し、提案法では一貫性のある顔交換が行えていることが確認できました。詳細はぜひ原論文を確認してみてください。

 

サイバーエージェントでのインターンについて

インターンの参加経緯

応募当時は博士課程が始まった直後だったため就職活動は意識していませんでした。サイバーエージェントAI Labの博士インターンがアツいらしいという割とぼんやりとしたイメージと、インターンで大きな成果を生み出したいという圧倒的モチベーションがあり応募しました。他社の研究開発のインターンとも迷いましたが、自分の所属研究室のOBOGの方が複数人AI Labに勤めているということもあってサイバーエージェントを選びました。

研究テーマについて

修士課程の時にディープフェイクの検出の研究をやっていたので、広告のためのアバター生成を研究しているGraphicsチームにて、顔の生成に関する研究を提案しました。このように募集テーマから選ぶだけではなく、自分でテーマを提案できるのもAI Labのインターンの利点です。

インターン生活

サイバーエージェントAI Labの博士インターンでは2ヶ月間、正社員の方と同様にフルタイムで研究開発に取り組みます。自分の場合は週に1度のメンター・チームリーダーとの進捗報告ミーティング以外は黙々と実装や調査・実験を繰り返していました。そのため、社員の方やインターン生と昼食を食べるのが良い息抜きになりました。また、Graphicsチームでは週に1度カジュアルミーティングという、研究だけではなく生活等の話題を持ち寄って話す会があり、社員の方の多様な私生活やワークライフバランスについて聞くことができたのは面白かったです。

私の研究については、持ち込みテーマではありますが顔の生成については今まで研究として取り組んだことがなかったので、既存法のコードを見て理解するところから始めました。結果として2ヶ月では国際会議に投稿するほどの成果を出すことができませんでしたが、この期間に色々な実験を行ってじっくりと基礎を固めることができたのが後の国際会議採択に繋がったと感じています。

インターンを通して特に印象に残っているのはAI Labの非常に整備された環境です。社内GPUサーバなどのインフラ管理の部門がAI Labとは別に存在していたり、PCの社内ソフトのセットアップでわからないことがあった時にすぐに対応していただけるサポートデスクがあったりと、会社としての強みというのを存分に感じました。また、渋谷駅直結のスクランブルスクエアにオフィスがあるので、通いやすい、オフィスが綺麗という精神衛生上の利点や、飲み物飲み放題、割安の弁当がオフィス内で販売されているなどの間接的な経済的支援もあり、国内有数の働きやすい研究組織であること間違い無いでしょう。

インターン後の生活

インターンが終了してからは、論文投稿に向けて具体的に目標を立てて研究を進めていきました。当初は11月に投稿締切のCVPR2023に向けて動いていましたが、実験が間に合わず、納得のいかないものを投稿せざるを得なくなってしまい、その結果リジェクトされてしまいました。その後、大幅な修正を加えてICCV2023(3月投稿締切)に投稿し無事採択されました。

リサーチインターンに参加してみて

サイバーエージェントAI Labでのインターンは、国内トップレベルの研究者に囲まれながら研究に取り組める非常に刺激的な体験でした。社員の方はもちろんのこと、周りのインターン生も優秀な方ばかりで、モチベーティブな環境で研究に集中することができました。

特に私の場合は、自身の専門(コンピュータビジョン)とは少しだけ異なるコンピュータグラフィックスのチームを希望して所属させていただいたため、初めて知ることが多く非常に学びが多かったです。

優れた環境とメンターやチームリーダーの手厚いサポートのもとで難関国際会議への論文投稿、採択に繋げることができ、非常に良い経験になりました。
もし参加を迷われている方は一度応募してみてはいかがでしょうか。