Interview

音声認識システムの研究開発を通し、インタラクションの未来に挑む(リサーチインターン2019)

張 鑫磊(チョウ シンレイ) / 東京大学

Pocket

Interviewee

張 鑫磊(チョウ シンレイ)

東京大学

東京大学 博士後期課程3年。暦本研究室所属。技術を用いた人間拡張 (Human Augmentation)をテーマに、これまで音声認識を使った全自動語学練習システム、ギターの伴奏ロボット、指先で指した文字を検索可能にするデバイス、脳波で聞いてわからない英単語を検出する技術や、指を曲げなくてでも物が掴める装置などを研究開発。今後は音声を活かしたインタラクションの未来について研究を進めていく。

馬場 惇

AI Lab

2014年に京都大学情報学研究科を修了後、新卒でサイバーエージェントへ入社。 アドテクスタジオ初の研究開発組織の立ち上げ後、DSP事業におけるロジック開発責任者を経て、 現在はAI Labの接客対話グループのリーダーとして石黒研究室との産学連携を担当。 大阪大学基礎工学研究科 招聘研究員。

博士課程の学生を対象としたリサーチインターンシップに参加し、AI Labの対話エージェントチームにて研究を行なっていた張さんにお話を聞きました。

AI Lab のリサーチインターンシップとは

AI Labでは、若手研究者の実務経験価値が向上する機会を提供し、研究者育成に貢献したいと考えており、2018年度から博士後期課程の学生に向けてリサーチインターンシップを行なっています。リサーチインターンシップ中は、実際にAI Labの研究員と共にAI技術を用いた実践的かつより高度な研究テーマの課題解決に取り組み、ゴールのひとつとして各学術分野の国際カンファレンスへの論文寄稿・採択も目指しています。多くの優秀な若手研究者が、企業が保有する実データを用いた研究や社会実装を経験することは、研究者としてのキャリアの可能性を広げるきっかけになると期待しており、AILabでは今年も多くの博士学生の皆さんと研究に取り組んでいます。



 

参加の決め手は、明確な研究テーマ&裁量のある研究手法

はじめに、張さんのこれまでの経歴と研究内容について教えてください。

私が日本に来たのは、2013年の時で、半年ほど日本語学校に通った後に東京大学の修士に進学、そのまま博士課程に進みました。途中でマサチューセッツ工科大学に留学をして、現在に至ります。一貫してヒューマンコンピュータインタラクション(HCI)の分野をやってきた中で、これまでは音声認識を使った全自動語学練習システムや、指が不自由な人でも指を曲げずにモノが掴める装置、画像認識を活用した指先で指した文字を検索可能にするデバイスなどの研究開発をしてきました。最近では特に、音声認識や音声の特徴を使ったインタラクションシステムにフォーカスし、研究を行っています。そして、それが今後の自分の研究の方向性でもあります。

張さんと同じ、暦本研の城さんが、2018年のAI Labリサーチインターンに参加していましたが、事前にお話されてたのでしょうか?

はい、同じ暦本研究室の後輩である城くんから、AI Labのリサーチインターンが面白かったという話を聞いていました。僕も自分の研究の方向とマッチしたインターンがないかなと探していたのですが、その時にAI Labの対話エージェントに関する研究を知り、これは自分のやりたいこととマッチしている!と思い応募しました。
他のインターンの話も受ける機会がありましたが、AI Labリサーチインターンのサイトの募集ページを見たときに、研究テーマとやることがはっきり定義されていて、明確で分かり易かったのと、何より自分の研究テーマに一番マッチしているのはAI Labだなと思い、参加を決めました。

実際にAILabでリサーチインターンを経験してみて、働き方など印象に違いはありましたか?

城くんから話を聞いていたこともあり、大きな印象の違いは特にありませんでしたが、インターン開始前に研究内容についてメンターとなる研究員の馬場さんとディスカッションした際に今回のインターンの働き方として、「しっかりタスクはありつつ、でもやり方は自分で設定して自由に進められる」という部分が魅力的だと感じました。僕自身が一番重視していることとして、ちゃんとやるべきことの軸はありつつ手段は拘らない、という考え方があります。なので、面談で馬場さんのお話を聞いている中で、馬場さんと自分はスタイルが似ているなと感じました。

 

 

メンターの馬場さんにお聞きします。張さんと、研究テーマや目標はどのように決めていきましたか?

(馬場)これまで大阪大学 石黒研究室と進めてきた「対話エージェントによる接客」の研究の中で、課題となっていることや、やれると面白いことを張くんに伝えたうえで、どんなテーマが研究として取り組むことができるかを張くんとリストアップしました。

洗い出したリストを念頭に、2ヶ月という期間でやれるテーマを二人で相談して決めました。研究開発は上手くいかないことが十分ありうるので、2ヶ月でこれをやる!というよりは、やれることが3つあるから2ヶ月で行けるところまで行きましょう、少なくとも1つ目まではクリアしたいね、という感じで設定してました。

 

阪大の研究室・東京オフィスの2拠点での勤務。60名を超える社員を対象にした音声認識の実験を実施!

 

張さんは、はじめの2週間は共同研究を行っている大阪大学の研究室勤務、残りは東京オフィスで勤務されていましたね。 2拠点で働いてみた感想を教えてください。

阪大の研究室での環境は、いい意味で大学の研究室とほぼ変わりませんでした。ただ、研究の進め方においては新たな発見がありました。大学の研究室では、基本的に1人で研究を行い月単位の定例会での発表を元に先生と研究室の皆さんからフィードバックをもらうという方法で研究を進めていますが、今回のリサーチインターンでの研究の進め方は、チームで研究を行ことが印象的でした。メンターの馬場さんと阪大ではほぼ毎日顔を合わせ議論をし、東京へ移動してからも遠隔で週2くらいのペースで意見交換を行い随時状況を把握できる機会があり、チームで研究をしながらも、よりスピーディーに連携を取り進めることができました。これは事業に向き合っている企業研究所ならではの研究の進め方なのだなと思いました。

 

▼大阪大学の研究室、石黒研究室との定例会議の様子

 

 

 

 

 

 

東京のオフィス環境もとてもよかったですね。施設が充実していて、自分の席だけではなく、カフェやオープンスペースで作業をしていたのですが、誰でも自由に使えるモニターもあるので、そこで自由に作業できるのが大変有り難かったです。

 

▼東京オフィスの様子

 

リサーチインターン中は、どのような研究に取り組んでましたか?

主に、呼びかけ音声認識について研究していました。具体的には、既存手法のGoogle Speech APIの性能を定量評価し、その上でそれを超える様な手法を提案するようなことをやりました。

最初に必要になってくるのが、ロボットが人の呼びかけをしっかり認識する音声データです。まずはそのデータセットを作成し、既存手法がどのくらい認識できているかを試しました。また並行して自動的に性能テストができるシステムも作成しました。その後、既存手法の性能結果を出して、次にそれをどの様に超えるかを、関連手法や最新手法を使い実装・追試し、自分の収集データにはどれくらいの性能があるかを試しました。これらの評価を行った後に、提案手法が実際のデバイスに応用するためにはどうするべきか、また、学術的に解決できていない問題を明らかにして、それに対する解決策を考え提案するということに取り組んでいました。

音声収集のために60名を対象に2回社内実験も行ったことも大きな経験です。初めは知らない人ばかりこのあたりで少し声をかけることに躊躇しましたが、事前に声かけした際に、どういう実験で、どれだけの時間を要するかをきちんと説明していたので、社員の皆さんはとても協力的で実験もやりやすかったです。

大学と違って企業での実験は、とにかく協力してくれる人を集めやすかったですね!大学だと協力してくれる人を集めるのに研究室の同僚か、知り合いか、また時間をかけて募集を書いて、大学にお知らせして人が応募するのを待たないといけないのですが、企業だと社員の方が多く、そして何より研究に理解のある環境だったので、大量に人数が必要な実験でも早く人が集められ、そこに関しては実験が大変やりやすかったです!

▼音声取集のための社内実験の様子

 

たくさんの社員が、楽しそうに実験協力している姿も印象的でした(笑)インターンで取り組んだ研究で見つけたことなど教えてください。

インターンで取り組んだ研究における成果としては、既存手法に勝てそうな手法を見つけたことです。また、音声認識や音声を使って研究をするためのデータセットを構築できたというところですね。これからの研究の方向性も検討できてとてもよかったと思っています。

苦労したこととしては、既存データのクリーニングが大変でしたね(笑)
他の実験で収集した既存データを使う際に、もともとそのデータは機械学習をすることを目的に収集していなかったので、必要な情報が足りなかったり、それによって起きるズレを手動で対応したりしました。データのクリーニングはかなり大変でしたが、ある意味とても現場感のある対応だったので企業ならではの良い経験になりましたね。

張さんは、AI事業本部が開催した社内カンファレンス「AItech Developer Conference」にも聴講参加されましたね!企業内のイベントに参加してみていかがでしたか?

サイバーエージェントでは本当に色々なことをやっている人がいるなと思いました。実際に聴講していて、それぞれのテーマに関して、問題定義や手法などのストーリー性があって、どの発表もとても面白かったですね。全部で40人ほどの登壇者がいたのですが、事前に発表内容が分かっていたので、僕は特に自分の研究に近い内容の発表を聴講しました。その中でもヒューマンエージェントインタラクション(HAI)についての外部登壇者の発表がとても興味深かったです。最後には直接、登壇者にも質問できる時間もあり、とても勉強になりました。

 

メンターの馬場さんにお聞きします。今回張さんが取り組んだ「呼びかけ音声認識」の研究方針やその結果について、感じたことを教えてください。

(馬場)張くんは、自分から「これができる」「あれがやれる」とすごく提案してくれたで、研究テーマや方針、進め方なども決めるのもやりやすかったですし、すぐに行動してくれていたので、安心して研究を任せられました。インタラクションを前提とした認識モデルの構築は、非常に取り組む価値のある研究領域で、その領域の研究を、実データを使いながら認識モデルの構築まで試して評価できたことは、本人にとってはもちろん、僕たちのチームにとっても貴重な成果だと感じてます。この結果をもとに、チームの研究が加速するイメージが湧いてきています。

また、張くん本人としても、「研究テーマを決める」ところから、「必要な学習データセットを集める」、「それを既存手法で試して評価して考察する」、「さらに次の研究テーマを考える」といったところまで、一気通貫でこの短期間でやってもらえたのは大きな経験になったのではないかと思います。

「研究がどのように社会に生かされていくのか」一気通貫したインターンでの経験を通して分かったこと

最後に、AI Labリサーチインターンでの感想を教えてください。

今回の研究を通し、特に技術的にスキルアップができたと実感しています。
例えば今までは、プログラムでPC上にあるデータをいじったり、編集したりする作業はあまりやる経験もなく実務レベルでのスキルは伴っていなかったのですが、今回のインターンの経験を通し、それがスムーズに行えるようになりました。

また一つの音声認識機を作る上で、一番最初の音声収集から最後の性能テストまでの一連の実務研究と技術的な経験、そしてどのくらいのデータでどのくらいの性能が出るかといった考察までを一気通貫で全て体験できたことはとても大きいです。
今後、インタラクションにおける音声認識という点はこれからも引き続き研究が必要ですが、これからの研究テーマが明確になり、今後目指す学会もイメージが湧いてきました。
AILabでのインターンを経験して、社会的インパクトのある研究がやりたいと改めて思いました。これまでは、どの研究をやるかを決める際にほぼ研究テーマ自体の面白さだけで考えていましたが、今回インターンで行なった研究では、「その研究がどのように社会に生かされていくのか」がはっきり見えているので、それもまた自分のモチベーションになりました。
今後も引き続き、音声を活かしたインタラクションの未来について研究を進めていきたいと思います!

 

 

関連記事