Blog

【採択論文紹介】クラウドソーシングを使った画像生成の評価 (CVPR2023)


Media fundamentalsチームの大谷です。今回はText-to-Imageモデルを人手で評価する方法について分析した研究について概説します。この研究成果はCVPR2023に採択されています。論文はこちら

画像生成の良さはどうやって評価する?

最近は高品質な画像生成AIが発表されて、世間でも非常に注目されています。研究でもここ数年、大量の論文が出版されています。ですが新しい画像生成モデルが次々と開発されている一方で、そのモデルを評価する方法はまだまだ発展途上です。

生成された画像の性能を測る方法として、研究では自動評価指標が主に使われています。例えば一般的な画像生成でよく使われるFID(Fréchet inception distance)は、生成された画像の集合と本物の画像の集合をある特徴空間に埋め込み、その空間でそれぞれの分布がどれだけ近いかを測定しています。FIDは多くの研究で採用されていますが、欠点も多く報告されています。例えば、人の知覚としては軽微な変化に過剰に反応したりするなど、FIDにおいて良いモデルが人にとって必ずしも良いとは言えないことが知られています。

また画像とテキストの内容がどの程度正確に対応しているかを判定することも、まだ難しい点があります。最近は大規模な画像とテキストのペアデータから、画像とテキストの対応づけを可能とする強力なモデルが発表されていますが、十分に細かい内容まで正確に扱うのはまだ難しいところがあります。特にここ最近は画像生成モデルの性能がどんどん上がってきているので、生成された内容の正確性を評価しようと思うと、細かい対応まで考慮した評価が必要になってくると考えられます。

そこで今回の研究では、あらためて人による画像生成の評価に取り組みました。人は画像とテキストを高いレベルで理解することができるので、自動評価では見落とされていたことがわかるかもしれません。また人による評価ラベルを収集すれば、自動評価指標と人の判断のズレを分析することで自動評価指標自体の評価にも使えるなど、自動評価の改良にとっても有益です。

人によるText-to-Image生成評価実験の現状

これまでの研究でも人を使った評価実験は実施されてきました。ですが、この分野として共有された評価方法は確立されていません。そのため、論文がそれぞれみんな違う方法で画像の品質を評価しており、いったいどうやって評価したらいいのかわかりにくい状態になっています。

この研究ではまず主要なコンピュータビジョンの会議で出版されたText-to-Imageに関する論文など37本を調査しました。結果見えてきた現状の人手評価における主な課題は以下の2点です。

1. 実験の詳細報告が不十分
2. 収集されたデータの品質をチェックしていない

まず実験詳細の不透明性についてですが、例えば、一つのサンプルに対して評価したアノテータの数などはデータの信頼性を判断する上で重要な項目なのですが、ほとんどの論文でこの人数は明記されていません。また実際のアノテーションタスクで使われたインターフェースなども公開されていないことが多いです。

また、データ収集方法を正しく設計しないと、同じサンプルに対するアノテータの回答がバラバラになったり、間違った回答を誘発してしまいます。そのような問題を検知するために、アノテータの間の一致率をチェックするなど、収集したデータの品質をチェックすることは実験の信頼性を確かめる上で重要な手順です。しかし、調査した論文の中でそのような分析、特にアノテータ間の一致率を報告している論文はありませんでした。

人による評価実験方法の共有

このような現状をふまえて、今回の研究ではクラウドソーシングを使って評価実験をする標準的な方法を実装し、今後の研究でも使えるように整備することを目指しました。また分野として結果報告のやり方にも問題があることがわかったので、報告文のサンプルなど、今後の評価がやりやすくなるようなリソースを作ることにしました。

この研究では特に新しい評価方法の提案などはしていませんが、実験的に適切な評価方法の設計を探索しました。その過程については論文を参照ください。

自動評価と人による評価

実験ではいくつかの画像生成モデルを使って画像を生成し、(1)画像が本物に見えるか、また(2)入力キャプションの内容を正確に反映しているか、の2点について人手評価したデータを収集しました。そして自動評価指標の評価結果と比較しました。

まず主要な自動評価指標であるFIDの良さと、人が画像を本物らしいと判断するかどうかはあまり一致していないことが確認されました。このような傾向は従来の研究でも多く指摘されています。

もう一つの指標としてCLIPScoreと比較しました。CLIPScoreは、画像のキャプション生成のための指標として提案されましたが、最近では画像生成でも、キャプションと画像の意味的な類似度を計測するために使われるようになっています。この指標についても、やはり人の感覚とは異なる結果になることがわかりました。さらに本物の画像とキャプションのペアよりも、生成された画像との類似度の方が高く評価されていることも確認されました。少なくとも、より良いモデルができたとしても、その改善幅をCLIPScoreで適切に評価することはできなさそうです。やはり自動評価指標のみに頼ることはまだ難しいと言えるでしょう。

CLIPScoreの例。不正確な生成画像が高いCLIPScoreを達成している例。

キャプションに対応する本物の画像よりも、生成された画像の方が高いCLIPScoreを達成している例。テキストとの対応がより正確というわけではなさそうです。

人による評価のこれから

今回はクラウドソーシングを利用してText-to-Image生成を評価をする標準的な方法を整備しましたが、まだまだ改善の余地が残されています。たとえば、信頼性のある結果を得るにはそれなりの量のデータを収集する必要があるのですが、その結果、一回の評価実験にかかる費用は高額になりがちです。アノテーションインターフェースの改善や評価をするデータの選出方法を工夫することで、この費用を抑えることはできると思います。今回の実験方法はオープンソースにする予定なので、今後画像生成コミュニティで改善していくことができれば理想的です。

Author

アバター
otani