音声入力の長所と短所。普及の鍵はディスプレイとの統合?

Echo Show

技術開発と生活様式が変化していくにつれて、革新的な技術も次々に誕生しています。

そのひとつが音声入力を用いたインターフェースです。Siriのように検索や端末操作が可能な音声アシスタントのほか、自動車やハンズフリーで操作できるゲーム機器などに利用されています。

Where to use voice assistants

話しかけるだけで端末を操作できる音声認識機能は、未来的なインターフェースとして人気が出ています。一方で「プライベートな場でしか使えない」という課題も明確です。

本記事では、音声入力の長所と短所を分析し、音声入力の未来を考察します。

需要が高まっている音声入力の4つの長所

音声認識機能が普及し、音声検索の利用が拡大しているのはなぜでしょうか。

多くの理由が考えられますが、ここでは代表的な4点をご紹介します。

  • 話しかけたほうがタイプするより速い
  • 障害がある人にも使いやすい
  • ハンズフリーで使用できる
  • 操作方法がユニークで楽しい

1. 話しかけたほうがタイプするより速い

音声入力を使えば、テキストを打ち込むよりもスピーディーに検索や端末操作ができます。

話しかけるだけ、というシンプルで魅力的なインターフェースが多くの人に受け入れられているのです。

2. 障がいのある人にも使いやすい

音声入力はバリアフリーの観点からも大きなメリットがあります。

リモコン操作やキーボードなどの物理的な入力インターフェースを使うのが困難な人でも、音声検索であれば問題なく操作可能です。

3. ハンズフリーで使用できる

手を使わずにアプリケーションを操作できるのも音声入力の長所です。

例えばあなたが部屋の掃除をしながら音楽をかけたいと思ったとき、スピーカーまで足を運んだりスマートフォンを操作したりしなくても、「音楽をかけて」と口にするだけでオーディオを操作できます。

他にも運転しながらでもカーナビを操作できたり、スマートフォンアプリを表示することなくピザを注文できたりします。ハンズフリーの可能性は無限大に広がっているのです。

4. 操作方法がユニークで楽しい

音声インターフェースは、「車を発進させたい」「出前を注文したい」「美容院を予約したい」といった日々のニーズに対し、「了解しました」と答えてすぐに実行してくれます。話しかけるだけで身の回りのことを全てコントロールできるのです。

音声インターフェースとの暮らしは、誰しもが楽しいと感じることでしょう。

普及を遅らせている音声入力の3つのデメリット


多くのアナリストが「音声入力機能は今後、ほぼ全てのソフトウェアに導入されるだろう」と分析しています。

確かに音声入力には多くのメリットがありますが、一方でまだまだ数多くの課題があることを忘れてはいけません。視覚情報や文字によるインターフェースが主流であり続けているのには、さまざまな構造的な理由があるのです。

以下、音声入力の課題を3点ご紹介します。

  • 複雑な仕事が苦手
  • 正確とは限らない
  • 公共の場では使用しづらい

1. 複雑な仕事が苦手

音声インターフェースが特に苦手なのは、複数のタスクを同時にこなすことです。

一問一答の質問に回答するのは優れている一方で、複雑な作業にはあまり長けていません。マルチタスクをこなすのは、テキストやビジュアルによるインターフェースの方が優れています。

例えば音声入力でレシピを検索すると、デバイスはレシピを上から下へと全て読み上げていくでしょう。これでは、ユーザーが紙に一言一句書き留めない限り、各ステップを確認しながら料理をするのは非常に困難です。

2. 正確とは限らない

音声検索をしたとき、発音が間違っていれば検索結果も間違って出てくるように、音声検索はいつも正確な結果が得られるとは限りません。

間違いを避けるには、テキストで検索した方がより確実です。

3. 公共の場では使用しづらい

音声入力の一番の弱点であり、普及の妨げになっている最も大きな要因のひとつに「公共の場で使いづらい」という点が挙げられます。

大きな声でスマートフォンに呼びかけているのが聞こえるのは周囲の人にとって迷惑ですし、プライバシー保護や恥ずかしさの面から音声検索自体をためらう人も多いです。

そのため音声検索の活躍の場は、現状では車内エンターテイメントやテレビ、スマートスピーカーなど、プライベートな環境に限られています。

音声入力の未来とは

音声入力は今後どのように変わっていくのでしょうか。

音声入力のデメリットとして、活躍がプライベートな環境に限られてしまうことを紹介しました。一方「素早く検索できる」「ハンズフリーで使用できる」といった唯一無二のメリットは見逃せません。

したがって音声入力は、音声使用に適した環境に特化したテクノロジーとして発展していくでしょう。

また将来的に、音声インターフェースは視覚的なインターフェースと統合されることが予想されます。シンプルな音声入力に対する返答を、ディスプレイ情報とともに補うことで、複雑なタスク操作が可能になるのです。

Google Assistant on iPhone
この傾向はすでに、液晶画面を搭載したスマートスピーカー『Amazon Echo Show』や、スマートディスプレイ向けに更新された最新のGoogleアシスタントなどに現れています。いずれも音声入力と視覚的なUIが統合されており、非常に便利です。

まとめ

音声入力機能はまだ開発の初期段階にあるにも関わらず、驚くべき速さで発展し、さまざまな機器に搭載されるようになりました。

一方、音声入力にはまだ構造的な課題があります。しかしこの現状は、タッチ操作/音声入力/ディスプレイが統合し、ひとつのインターフェースになる前の初期段階と言えるでしょう。

それぞれの技術が補い合い、ますます便利なインターフェースへと発展していく未来が期待できそうです。

(翻訳:Akiko Ogita)

 

あわせて読みたい!▼

SHARE

  • 広告主募集
  • ライター・編集者募集
  • WorkshipSPACE
週1〜3 リモートワーク 土日のみでも案件が見つかる!
Workship