
COLING2018参加報告
こんにちは!2020卒で内定者アルバイト中の川本峻頌(@shunyo_k)です。
今回は言語処理学会第26回年次大会にてAILabの張(@so1owingpixy)とポスター発表を行いました。言語処理学会で初のオンライン開催とのことで色々緊張しましたが、周囲から好評をいただき無事終えることができました。
この記事では私がサイバーエージェントで取り組んでいる研究の紹介と、言語処理学会のオンライン開催を経て感じたことを書いていきます!
発表した研究は「スタイル制御を考慮した多様な広告文生成」というタイトルです。広告制作の現場における自然言語処理の活用例としてコピーライターの支援が挙げられます。ここではより様々な表現をもった広告文の提案や、ライターの意図に沿った広告文の生成が重要となります。
今回の研究では、この “多様性” と “制御性” に注目し、品詞系列の制約による多様な文生成モデルであるPOS-VAEを提案しました。
POS-VAEでは品詞系列の生成と制約を学習することで、
を実現しています。
詳細については、ポスターの発表動画を作成しましたので、そちらをご覧いただけると幸いです!
ポスター以外にデモ画面も実装しました。
実験で用いたVAEとPOS-VAE(提案手法)による生成を実際に比較することができます。
デモでは、シードとなる元文のコピーを入力すると、VAEによって多様なコピーを生成することができます。
例えば、「つけた瞬間にうるおいをぐんぐん引き込む、ブースター化粧水」というコピーを入力すると、以下のようにコピーが生成されます。
POS-VAEでは品詞を指定して生成することもできるので、是非試してみてください!
発表では多数の質問やコメントをいただくことができ、非常に嬉しく思います。
以下発表中のFAQのピックアップです。
Q: なぜ一般的なseq2seqではなくVAEを用いたのか?
A: 一般的な最尤推定によるseq2seqでは1対1の関係を学習します。そのため1入力に対して多様な生成を行うのは困難です。これを解決するために確率分布を介して学習を行うVAEをベースとしました。
Q: 固有名詞を考慮するなど品詞の定義を変えるのはありか?
A: 非常にありだと思います。一方で品詞の粒度を細かくしすぎると制約が厳しくなってしまい、生成文の品質が低下する可能性もあります。データ量との塩梅も鑑みて、品詞の定義は今後検証していく予定です。
Q: 実応用で品詞を直接打つのは大変では?
A: 実応用では品詞のシードとなる文を別で入力し、その品詞を考慮した生成を行うような利用法や、効果の高い品詞系列を予めライターに提示しておくような使い方も想定しています。
Q: デモ画面は何で実装しましたか?
A: バックエンドはFlask、フロントエンドはJavaScriptとUIKitで実装し、Cloud Runにデプロイしました。Cloud RunはCPUで動いていますが、学習済みモデルを載せているため比較的高速に動作します。
今回は言語処理学会初のオンライン開催ということで、色々と不安でしたが、様々なコメントをいただき、無事終えることができました。私たちは3日目の発表だったので、1日目、2日目の様子を見ながら発表の形式を考えました。結果、以下の画像のように画面を二分割して発表を行いました。
発表画面(左側では解説動画を流しつつ、右側ではフィードバックのメモや各種リンクのQRコード等を載せています。)
以下、発表で気をつけた点について書いていきます。
オフラインでのポスターでは対面方式で意見を交わしますが、オンラインではチャットベースのコミュニケーションが多くなります。しかし今回の配信システム(ZOOM)では途中から入ってきた人は、それ以前のチャットの内容が見えません。そこで、それまでの情報を共有しながら発表するために、ノートを画面内に置き、メモを追加していく形式をとりました。
発表する側として感じた、オンラインとオフラインの最大の違いは「相手の顔が見えない=反応がわからない」ということです。顔の見えない相手に対して、何度も繰り返し説明するのはモチベーションが上がりにくいものです。そこで発表の動画を事前に録っておき、発表中は動画を発表する形式をとりました。これは非常に効果的で、オフラインのポスター発表と比較しても労力がかなり削減できました。
また動画の再生中は以前のターンでいただいた質問やフィードバックをメモすることで、時間を効率的に使うことができました。案外暇で画面をじっと眺めている時間もありましたが…笑
今回のオンライン形式を経て感じたメリット・デメリットを箇条書きをしていきます。
本記事では言語処理学会第26回年次大会にて発表した研究紹介と、オンライン開催の感想を書かせていただきました。
サイバーエージェント AI事業本部では自然言語処理を応用し、インターネット広告をはじめとしたドメインで研究開発に取り組んでいます。
▶︎ AI tech studioにおける自然言語処理の活用
今回私たちはコピーライター支援を想定した、広告文の多様性と制御性に着目した文生成手法の提案を行いました。今後はスタイルの定義や制約の強さを検証しながら、生成文の自然性、妥当性の向上を目指していきます。
最後までお読みいただきありがとうございました。
Author