Blog
【産学連携研究】フォント画像におけるTotal disentanglement (特徴の解きほぐし)
九州大学大学院博士2年の原口[※1], AILab creative researchチームの下田[※2]です.
AI Labと九州大学は「広告効果の高いフォントについての理解」というテーマで2020年度から産学連携をしており,これまで研究内容が「ICCV2021」において採択されるほか,「極予測AI」において応用が進むなど, 学術貢献と社会実装を積極的に行っています。本稿では,産学連携成果であるフォント画像におけるクラス特徴(文字特徴)とスタイル特徴の分離についての研究の概要を解説します.この成果はMIRU2022[※3]のショートオーラルに採択され,インタラクティブセッション賞を受賞しています.
[※2]AILab creative researchチーム所属 リサーチサイエンティスト
[※3]画像認識・理解の国内最大の学会
私たちは ‘A’ はなぜフォントにかかわらず ‘A’ と理解できるのか?
私たちは初見のフォントスタイルの‘A’を,‘A’として正しく認識できます.これは,私たちがすべての‘A’に共通するような特徴 (人工知能の啓蒙書として著名な文献[1]では,これを‘A’-nessと呼んでいます) を見出している可能性を示唆しています.逆に,異なる文字種であっても,それらが同一フォントスタイルのものかどうか,ある程度判断できます.
このことを説明するため,文献[1]に倣い,図1の表を考えます.同表の水平方向に共通した特徴が存在するなら,それにより文字クラス認識ができると考えられます.また,垂直方向で共通した特徴が存在するなら,スタイルの同一性を判断できることになります.同文献(p.283)では,この垂直・水平方向の特徴分離問題をthe vertical and horizontal problems”と呼び,さらに「‘A’とは何か?」という人工知能の中心課題に関する重要問題と捉えています(同文献p.633).
論文の概要
本研究では,上述のクラス特徴・スタイル特徴の分離問題の解法として,Total disentanglementを提案しました.提案手法ではフォント画像が同一文字種で一貫したクラス特徴(‘A’-ness)を持ち,同一フォントスタイルでは一貫したスタイル特徴を持つ性質に注目し,特徴分離を実現しています.このために,各クラス特徴ごとの分散および各スタイル特徴ごとの分散を最小化するための新しい分散損失を提案しました.(学習には入力したフォントの再構成等も実施)
実験では,1文字のフォント画像から抽出されたスタイル特徴と他のフォント画像から抽出されたクラス特徴からA~Zの全てのフォント画像を生成するone-shotフォント生成を行いました.結果として,図2に示すように既存の手法としてより高精度にフォント画像を生成することに成功しました.また,この実験から,多少の揺らぎはあるものの,フォントに依らずほぼ同一のクラス特徴を抽出できることを確認しました.従って,このクラス特徴が「‘A’とは何か(‘A’-ness)」を表していると考えられます.
まとめと展望
本研究ではフォント画像のクラス特徴とスタイル特徴のTotal disentanglementを提案しました.フォント画像が文字クラスとフォントスタイルの2つの属性を明確に持つという特性を利用し,各属性における分散損失を提案することで,その実現を可能にしました.実験では,Total disentanglementにより分離抽出された特徴がOne-shotフォント生成等のタスクにおいて有用であることを示しています.
今後の発展として,提案手法により得られるスタイル特徴をフォントの印象と結びつけて解析を行うことなどが挙げられます.これにより,広告効果の良いフォントについての理解や,極予測AIにおいて効果の良いバナーを制作する際のサービスに活かすことが期待できます.また,本年度8月から,博士インターンシップで本手法を応用した,フォントの選定支援システムの研究にも取り組んでいます.
[1] D. Hofstadter, Metamagical Themas, Basic Books, 1985.
Author