視線入力を併用する新たな音声認識エンジン、ニュアンスがデモ…CES 2019

ニュアンス・コミュニケーションが行った視線入力を併用する音声認識のデモ。
音声認識エンジンの世界的メーカーとして知られるニュアンス・コミュニケーションズ(以下:ニュアンス)は、米ラスベガスで開催されたCES 2019に出展。開発中の自動車用音声認識エンジン「ドラゴン・ドライブ」の最新バージョンのデモンストレーションを披露した。

同社は音声認識ソフト「ドラゴンスピーチ」などで一般に知られるが、近年は自動車向け音声認識エンジン「ドラゴン・ドライブ」の開発を通して急速にその地位を高めてきた。特にその実力を広く知らしめることになったのが、メルセデス・ベンツで採用されている「Hi, Mercedes!」をキーワードに立ち上げる音声認識だ。CMでも盛んに展開されたことで多くの人がその存在を知ることになったのだ。

今回のデモはその発展系で、音声認識入力に加えて視線入力を追加したものだ。デモ車には視線入力を実現するシステムとして、フロントウインドウにタイル状のメニューを表示するプロジェクターと、ドライバーの視線を読み取るための赤外線カメラが設置されていた。これにより、左右から照射した赤外線をカメラが受光して目の動きを検知し、そこから座標を割り出すというわけである。

このシステムで最大のポイントとなるのは、音声認識と視線入力を併用していることだ。たとえばドアを開けるコマンドを発する場合、音声認識だけだと「Open the right door.(右のドアを開けて)」と開けたいドアを音声で指定する必要があった。これに視線入力を加えれば、開けたいドアの方向を見ながら「Open the door.(ドアを開けて)」といえば、希望するドアを明けることができる。これは窓を開ける時などでも有効だ。

驚かされたのは、フロントウインドウに映し出されたタイル状のメニューも視線入力で選択できていたことだ。電話をかける時にこのメニューを表示させ、リストの中から電話をかけたい項目に視線を合わせて「This one.(こここにかける)」と発話すればいい。これで自動的に電話が発信されるのだ。

さらに、デモでは外側の風景と連動してコマンドをこなすことができる。たとえば、見ていると思われる建物が何であるかを知りたい時、その建物を見ながら「What is this building?(この建物は何ですか?)」と発話すると答えが出てくる。その様子は本当にガイドが横に座って答えてくれているかのようだ。

しかも、この音声認識システムでは「Hi, Mercedes!」といったウェイクアップワードを入力しなくてもよい。常に車室内の会話を読み取っていて、コマンドと思われるワードをAIが理解して対応するのだ。視線入力と合わせて使う以上、この組み合わせは必須だったのは言うまでもない。

ただ、この機能を使うには視線移動が伴うわけで、当然ながら走行中の利用には制約が出てくるはず。それについて担当者は「当然ながら安全上、影響のない形で提案していくことになるし、それは国ごとの法規制に合わせていく必要もある」と述べた。いずれにしても、スマートフォンやスマートスピーカーによる音声操作が定着しつつある中で、CES 2019の中でも特に最先端技術の素晴らしさを実感できたデモだったと言えるだろう。

(レスポンス 会田肇)

[提供元:レスポンス]レスポンス