声と耳で操作するのは難しい

2018-07-20 · パーマリンク

　最近、スマートスピーカーなんかが流行り出して、声で操作して結果を耳で聞くってのが割と使われるようになってきたような気がする。でも、それってすごくしんどいんじゃないかなっていう話。

　個人的にもスマートスピーカーを持っていて、それなりに使っている。まぁ、使い道は天気聞いたり、簡単な計算したり、タイマーセットしたり、ラジオを聞いたりと、そんなに大それたことをしているわけじゃない。声でライトをつけるほど大きな家に住んでいるわけでもないしね。

　で、使ってて思うのは、口と耳を使ったUIってすげー面倒臭い。面倒臭い要素はいくつかあって、ひとつには時間がかかること、ひとつにはマルチタスクが難しいこと。

　時間がかかるってのは、話すにも聞くにも音声が伝わるための時間がかかるって話。文字で表示してくれれば一瞥してわかるようなことも聴き続けないといけないし、キーボードで打てば話すより早いような質問も一々声に出して喋らないといけない。しかも間違えたとバックスペースキーを押すわけにもいかないしね。

　結局、長々喋って、長々聞いてとえらい時間がかかるUIだよなぁっと思う。まぁ、操作しなくていいから楽ではあるんだけど、時間がかかる。

　マルチタスクに向いていないってのは、時間がかかるということとも関係するんだけど、音声を使った入出力に時間がかかるので、その間別のことがやりずらいってこと。あと口は一つしかないし耳は二つあったとしてもステレオなので実質一つしかない。この二つが重なると、複数の音声操作を同時に行うことはできないし、複数の音声を使った結果を同時に聞くことができない。っていう制限の話。

　いまはスマートスピーカーとか操作対象少ないからいいとして、複数台の音声UI端末が存在すると同時に声で操作したり複数の回答を音声で取得したりってのは相当難しいんじゃないだろうか。絶対に「一人ずつ喋れ！」ってなると思うわけです。

　逆に、手とか目は割と（擬似）マルチタスクしやすくて、テレビを見ながら本を読んだりゲームしたりできるし、右手で何かしながら左手で別のことをしたりもそれなりにできる。

　将来的に音声での操作が主流になっていくとしたら、そのとき人はどういう風に操作していくんだろうか。やっぱり主流ではなく補助的な位置に落ち着くのか。もしかすると目や手がマルチタスクしやすいのも単に慣れてるだけって可能性もある。

　人間って結構いろんなものに慣れるし、いろんなものに適応していくので意外と使いこなしているような気はするんだよね。まさか、複数の音声コマンドを同時に発話して、複数の人の話を同時に聞けるようにはならないと思うけど。なんかホーミーを奏でる聖徳太子が…。