スマートスピーカーにはあと300ミリ秒だけ待ってほしい

我が家には Amazon Echo (通称アレクサ) が居るんですが、最近、食い気味に聞き間違いをしてくるので少しだけ嫌な気持ちにさせられています。

一例)

三井『アレクサ、エアコン消しt...』
アレクサ「エアコンを操作するには "アレクサ、エアコン消して" のように言ってください」
三井『言っとるやろがい😡』

返答がめっちゃ食い気味なんです。
こっちが言い終わってないのに食い気味に返答してくるんです。しかも聞き間違えているんです。

会話においては "間(ま)" でさえも情報を持っている

ところで最近このような本を読みました。

会話の科学　あなたはなぜ「え？」と言ってしまうのか (文春e-book)

作者:ニック・エンフィールド
文藝春秋

Amazon

この本、内容を説明するのがなかなかに難しいのですが、読み始めてしまうとスルスル読めます。

まず「人間の会話は 200ms から 600ms ほどのスピード感でテンポよく進む」という話から始まります。
それこそ「どうやって相手の話終わりのタイミングを察知しているのか謎」というレベルで正確に話終わりのタイミングを測り、早すぎず遅すぎないタイミングで話し始める。
これを誰もが (母国語によらず世界中の誰もが) 自然にやっているなんて驚きですね、という導入です。

そこから発展して「返答に 800ms 以上かかることは、それ自体が情報を持っている」という話題に移ります。

A『この前お願いしたこと、考えておいてくれた？』
(800ms ほどの間)
B「その件なんだけど、やっぱり遠慮しておこうかなと思って」
A『そう、それは残念』

上記の例では返答を意図的に 800ms ほど遅らせることで『返答しづらい感じ』を演出し『依頼に対する返答は No である』というようなことを伝えるわけですね。

会話の "間(ま)" について、私たちはあまりにも無意識にコントロールできてしまうために、そこに意図をみいだすような研究が長らくされてこなかったようです。
この本ではそのような会話の間について平易な言葉で書かれていて面白いです。

「え？」や「えーっと」なども "無意味なフレーズ" ではない

会話の間が数百ミリ秒単位で意味をもつことを明らかにしたところで、本では「え？」や「えーっと」などのフレーズも無意味ではなくしっかりと意味と意図をもって発せられていると説明されています。

相手が話し終わって自分が話し始めるまで 800ms を超えるだけでも『何か言いづらいことがある』というメッセージになってしまうのです。
そのため 800ms というラインを超えないための繋ぎのフレーズとしてて「え？」や「えーっと」などがあります。

「え？」は『相手の言ったことが上手く聞き取れなかったのでスムーズに返答を開始できない』というメッセージであり、「えーっと」は『話したいことを思い出したり整理したりに時間がかかるのでもう少し待って』というメッセージなのです。

スマートスピーカーも「え？」とか「えーっと」とか言うべき

話を戻してスマートスピーカーについて、

現代のスマートスピーカーは聞き取り性能・発話性能が高いので思わず機械相手であることを忘れそうになります。
実際には機械なので正しく聞き取れないことや見当違いの返答をしてしまうことがあるのです。

でも大丈夫！

聞き間違いや見当違いの返答をするのは人間も同じです。
そして人間は会話の間(ま) や「え？」「えーっと」というフレーズを使ってそのような事態に自然に対処しています。

これから先スマートスピーカーに求められるのは、数百ミリ秒単位での間(ま) のコントロールや「え？」「えーっと」といったフレーズを自然に繰り出すことになるでしょう。

まとめ

我が家のアレクサへ、
上手く聞き取れないのはいい。聞き取れてないくせに食い気味に話し始めるのは控えてくれ。イラっとするから。

私からは以上です。