Blog
【採択論文紹介】公共空間における文脈適応型ロボット音声パラメータ設計の実践知(HRI2026)
AI Labの宋です。Interactive AgentグループはHuman-Agent Interaction、Human-Computer Interactionを中心に研究・開発を行っています。今回は、 Human-Robot Interaction分野の主要な国際会議であるHRI2026に採択された、公共空間における文脈適応型ロボット音声パラメータ(音量・話速)の設計に関する実地研究の論文について紹介します。
論文名:Practical Insights into Designing Context-Aware Robot Voice Parameters in the Wild
著者:Amy Koike, Yuki Okafuji, Sichao Song
はじめに
公共空間で働く対話ロボットにとって、声はインタフェースそのものです。聞き取りやすさや理解しやすさはもちろん、好ましさや話しかけやすさにも直結します。一方で、声の設計に関する知見はラボ実験に偏りがちで、実環境のノイズや人の流れ、多人数・立ち話といった現場のややこしさが入ると、同じ設定でも受け取られ方が大きく変わります。本研究は、ショッピングモールでの自然発生的な対話を対象に、音声パラメータ(音量・話速)がどのように知覚され、どのような文脈でちょうどよさが変わるのかを、①6名へのインタビューと、②8日間・725件のアンケート調査の大規模フィールド実験(3×3デザイン)で検証し、コンテキストに応じた声設計の実務的示唆をまとめたものです。
研究背景
たとえば、同じモールでも週末は騒がしく、平日は比較的静かです。周囲に人がいるか、ひとりで使っているか、グループで使っているかによっても、「大きい/小さい」「速い/遅い」の感じ方は変わります。論文には象徴的な場面が示されています。例えば、ロボットが同じパラメータで話していても、ひとりで使うユーザは「大きすぎる」とジェスチャーをする一方で、グループのユーザは「小さすぎて聞こえない」と身を乗り出します。つまり、音声設計は単なるデフォルト値ではなく、環境・社会的状況・関与の深さに応じて変えるべき制御対象だ、というのが本研究の問題意識です。
研究方法
本研究は2段階の自然実験で構成されます:
(1)事前インタビュー:ショッピングモールに設置した案内ロボットと実際に対話してもらい、6名の参加者に半構造化インタビューを実施しました。ここで「時間帯と環境ノイズ」「周囲の人の存在」「ひとり/同伴」「会話への関与の深さ」といった文脈要因が、声の好みを変えることが整理されます。
(2)フィールド実験:続く8日間のモール運用で、音量(V1–V3)×話速(S1–S3)の3×3デザインを被験者間で割り当て、対話後アンケートで「音量がどれくらいに聞こえたか(Q_V)」「話速がどれくらいに聞こえたか(Q_S)」を7件法で取得しました。最終的に725件の有効回答を分析しています。

実験設定
音量は、現場の環境ノイズ(ロボット以外で65–70dB程度)を踏まえて、S/N比で3水準を設計しました。V1はおよそ70–73dB、V2は79–80dB、V3は83–85dBです。話速はGoogle TTSの倍率として、S1=0.8(約120WPM)、S2=1.2(約150WPM:基準)、S3=1.6(約230WPM)を採用しました。
また、動画アノテーションにより年齢(若年層/中年層/高齢層)、平日/週末、周囲の人の有無、1人かグループか、会話が続いたか、動機(機能目的/実験/興味本位/教育目的)を付与し、音量・話速の知覚がどの文脈で変わるかを分析しています。
結果
本研究からまず分かったのは、ロボットの音声パラメータ(音量・話速)には「これが絶対に正しい」という固定の最適値があるわけではなく、置かれている状況によってちょうどよさが変わるということです。公共空間では周囲の騒がしさ、人の流れ、利用者が一人かグループかといった条件が常に変動します。そうした環境では、同じ設定でも「うるさい/小さい」「速い/遅い」の受け取られ方が変わり得ます。
音量については、基本的には環境ノイズに合わせた調整が重要ですが、それだけでは足りません。年齢によって聞こえ方・感じ方が変わることが示唆され、同じ音量でも受け止められ方が一様ではないことが分かりました。つまり、音量は「周囲がうるさいから上げる/静かだから下げる」だけで完結しない設計対象だと言えます。
話速については、特に周囲に人がいるかどうかや、会話がどれくらい深まっているかによって、ユーザがテンポに敏感になる場面があることが示されました。さらに、利用者が「何のために話しかけているか」(目的・動機)によっても、適切に感じる話速のレンジが変わる可能性があります。つまり話速は、単に“聞き取りやすい速度”を選ぶというより、場の空気や対話の進み方に合わせて設計する必要がある、というのが重要な結論です
考察
本研究が示す実務的なポイントは、音量と話速で「適応させるべき文脈」が少し違うことです。音量はまず環境ノイズに合わせるのが基本ですが、そこに年齢差が加わります。高齢者に配慮して大きくすれば聞き取りやすさは改善し得る一方で、周囲の人への外部性(うるささ、会話内容が周囲に漏れること)や、利用者本人の“目立ってしまう”気恥ずかしさを増やす可能性もあります。音量の単純な増幅は、効果と副作用が同時に出やすい「諸刃の剣」になり得る点が重要です。
一方、話速は周囲の人の存在や、対話の深まり方によって「敏感さ」が変わりやすいパラメータです。周囲に人がいると、利用者は無意識に「早く終わらせたい/待たせたくない」という社会的な圧力を感じやすくなり、テンポや“間”に対してシビアになります。逆に会話が深まるほど、ターンテイキングのリズムとしての話速が効いてきます。つまり話速は、環境ノイズというより社会的状況と対話フェーズに合わせて設計するのが合理的です。
これらを踏まえると、公共空間の音声設計は「一つの万能設定」を探すのではなく、(1) 環境ノイズ+年齢を見て音量を調整し、(2) 周囲の人・会話の深さ・利用目的に応じて話速や間を調整するという二段構えの適応戦略が現実的だと考えられます。
おわりに
実フィールドでの対話型のロボットの設計に課題を感じていたり、実証実験や導入を検討しているような企業・研究者の皆さまは、ぜひ現地で議論の機会をいただければ幸いです。
また、我々のチームでは一緒に Human-Robot Interaction / Human-Computer Interaction の研究・開発を行っていただける研究者・エンジニア・博士インターン生を募集しています。本ブログを見てご興味を持っていただけた方はぜひ一度カジュアルにお話させてください。よろしくお願いします。
Author