“明日”をつむぐテクノロジー special

スタンドアロンかつ体感的に応答性0.1秒を実現 徹底した軽量化を追求 家電や住宅設備などに適した東芝の音声HMIソリューション

※記事中の情報につきましては、すべて取材時点のものとなります。
音声入力インタフェースの応用が広がる中、東芝デバイス&ストレージは、音声辞書を含めたメモリフットプリントが300kB程度と小さく、しかも両面(2層)基板に実装可能な、スタンドアロン型の音声認識ソリューションを開発した。20ワード登録時で、認識レスポンスはおよそ0.1秒と高速である。家電、住宅設備、OA機器などに手軽に音声インタフェースを搭載できるのが特徴だ。

音声認識機能を用いた音声インタフェースが注目を集めている。2010年代の初め、スマートフォンに音声アシスタントとして搭載されたのを皮切りに、音声で操作や対話ができるスマートウォッチやAIスピーカーなどがここ数年ほどの間に相次いで登場。一気に主流へと躍り出た。

音声認識技術は1970年代からさまざまな研究が進められ、1990年代になると音声による文字入力ソフトなどが実用化されたものの、機械に向かって話すことを躊躇するユーザー心理もあって、なかなか広がりを見せるまでには至らなかった。しかし、子供の頃からスマートフォンに接してきた「デジタルネイティブ」の登場もあって、これからは本格的な普及と定着が進むだろう。

一方で、より一層の普及には「軽量化」がキーワードになるだろうと、東芝デバイス&ストレージの橘宏明氏は指摘する。

「スマートフォンやAIスピーカーに搭載されている音声認識機能は、認識のきっかけとなるトリガーワードを除いてクラウド上で処理されており、ネットワーク接続が必須となっています。また、高性能なマイコンとOSでプラットフォームを構成しなければなりません。白物家電を含むさまざまな機器に音声認識機能を低コストで搭載するには、より軽量なソリューションが必要と考えます」(橘氏)

こうした課題に対して同社が提供するのが、アプリケーションプロセッサ「TZ2100」に、小フットプリントの音声認識ミドルウェア「Voice Trigger」と音声合成ミドルウェア「D-Amp Driver」を組み合わせた音声HMI(Human Machine Interface)ソリューションである。

ネットワーク接続が不要、なおかつスタンドアロンで動作し、認識のレスポンスがおよそ0.1秒と高速(20ワード登録時)。しかも両面(2層)基板上にも実装可能などの特徴があり、リビングやキッチン、あるいはオフィスなどでの活用に適している(図1)。

さっそく詳細を見ていこう。

図1 音声HMIソリューションの適用例
リンク
続きを読む

次ページ以降をお読みいただいた方については、日経BP社が登録情報をとりまとめ、クリック後に表示される当該企業に第三者提供します。
表示される説明文をお読みいただき、ご同意の上ご利用ください。

● ApP Lite™アプリケーションプロセッサとVoice Triggerミドルウェアで構成
● Arduino UNOと同サイズの小型評価ボードを提供
● ASICやASSPをトータルに提供し顧客ニーズに応える
pagetop