“明日”をつむぐテクノロジー special

夢のAI通訳機「ポケトーク®」 瞬時の通訳・流暢な発話を実現した 東芝のToSpeak(TM) Gx NEO

ソースネクストの人気AI通訳機「POCKETALK W(以下、ポケトークW)」に、東芝の日本語音声合成ミドルウェア「ToSpeak™ Gx NEO」が活躍している。他国語を日本語に通訳させると自然で滑らかな話し方で発声され、円滑なコミュニケーションができる。東芝はToSpeak™ Gx NEOを省リソース環境に実装し、手のひらサイズのコンパクトな商品「ポケトークW」に内蔵。新商品発表からわずか2カ月で音声翻訳機シェア97.5%(※)を達成、日本経済新聞社の日経優秀製品・サービス賞 最優秀賞 日本経済新聞賞も受賞するなど、通訳を必要とする人々のライフスタイルを変革させた。
※ 2018年10月(出典:株式会社BCN)

スマートフォンを小ぶりにしたような卵型デバイスに喋りかけると、まるで通訳がいるかのように瞬時に翻訳して音声で返してくれる―――ソースネクストが開発した "夢のAI通訳機"「POCKETALK(以下、ポケトーク)」シリーズが人気だ(図1)。

互いに相手の言葉を話せなくても、意思疎通ができる「ポケトーク」は、対応言語が74[*1]もあり、個人での購入に加え、店舗、宿泊施設、交通機関などでの導入も増えている。本商品は、対話のために設計された専用機ならではの使いやすさが特長だ。この人気の背景にあるのは、外国人とのコミュニケーション機会の急増である。2013年はおよそ1000万人だった訪日外国人旅行者は、2018年に3000万人を突破[*2]。買い物や飲食、宿泊を含めた「インバウンド消費」は年間で4兆5000億円[*3]を超えるなど大きな商機となっており、「ポケトーク」が1台あるだけで訪日外国人旅行者への対応力が高くなる。

また、海外出張や旅行に「ポケトーク」を携行するユーザーも多い。ソースネクストによると、「ポケトーク」は、箱を開けたら特別な設定をすることなく、すぐ使い始めることができ、内蔵のグローバルSIMが126の国と地域[*4]に対応しているので、行き先の国と地域が変わるたびに買い直したり設定を変えたりする必要もないという。通信の利用実績を基に、ソースネクストが集計したところ、内蔵のグローバルSIMが対応している109の国と地域のうち101(2018年11月時点、日本からの利用は除く)を超える国と地域で利用されている結果もあったという。

気になる「ポケトーク」シリーズの仕組みはこうだ。ユーザーが喋った音声は3G/4G通信またはWi-Fiを通じてクラウドにストリーミングで送られ、音声認識エンジンが文字に起こし、翻訳エンジンによって訳され、音声合成エンジンで音声に変換されてストリーミングで送り返されてくる。併せて、ソース言語とターゲット言語の両方のテキストが画面に表示される[*5]。なお、それぞれのエンジンには外部のクラウドサービスが使われている。

図1 ソースネクストのポケットAI通訳機の最新機種「ポケトークW」。
        グローバル通信を搭載したモデルとWi-Fiモデルとがある
リンク
  • [*1] 2018年12月時点
  • [*2] 日本政府観光局
  • [*3] 観光庁
  • [*4] 2019年2月1日時点
  • [*5] 一部言語は音声での発話はなく翻訳テキストの表示のみ

自然で流暢な日本語の音声合成が採用の決め手に

最新機種の「ポケトークW」に、日本語の音声合成エンジンとして採用されたのが、東芝が提供するコミュニケーションAI 「RECAIUS™」のサービスの一つ、音声合成ミドルウェア「ToSpeak™ Gx NEO」(トゥースピーク・ジーエックス・ネオ)である。2018年12月27日にリリースされたソフトウェアアップデートによって、外国語から翻訳させたときの日本語の音声が、これまでに比べて格段と流暢になったと評判だ。

川竹 一 氏
ソースネクスト株式会社
執行役員
技術戦略室
シニア製品設計スペシャリスト

「以前採用していた他社の日本語の音声合成エンジンは、レスポンスが軽いなどの特徴はあったものの、どことなくなまったような喋り方をするため、ユーザーからより自然な喋り方を望む声が上がっていました」と、同社の製品企画Teamのシニアマネージャー 柳沼友香氏はそれまでの課題を説明する。「イントネーションやアクセントに違和感があると、いかにも機械で合成しています、という印象を与えてしまい、まじめな会話もまじめに聞こえなくなってしまいます。そのため、より優れた音声合成エンジンがあれば切り替えたいと考えていました」(柳沼氏)。

ToSpeak™ Gx NEOを採用した経緯をソースネクストの川竹 一氏は、次のように説明する。「従来の使用メモリが小さいToSpeak G3でも十分なクオリティがあったのですが、ToSpeak™ Gx NEOでは、日本語の滑らかさや流暢さがまったく違い、とても驚きました。音声は『ポケトーク』シリーズにとって重要なユーザーインタフェースであり、比較デモを聴いた弊社の経営陣も口をそろえて、ToSpeak™ Gx NEOをぜひ採用しよう、との意見でした」。

新音声版(ToSpeak™ Gx NEO搭載版)(左)と旧音声版(右)との合成音声の比較

高性能な音声合成エンジンを「ポケトークW」に内蔵

ここで、東芝の最先端の音声技術について説明しておこう。東芝は、1978年に日本初の日本語ワードプロセッサーを実用化するなど、日本語の研究で業界をリードしてきた。音声認識や音声合成の研究もそうした取り組みの一環として進められ、このうち音声合成ミドルウェアは組み込み機器用のエンジンとして、電話機、ゲーム機などに使われている。また、東芝の音声合成技術は、人々の生活を支えており、エレベーターやカーナビなどの音声ガイドのエンジンは、高いシェアを獲得してきた。

柳沼 友香 氏
ソースネクスト株式会社
プロデュースGroup 製品企画Team
シニアチームマネージャー

そして今回、次世代の音声合成として開発されたのが最新のToSpeak™ Gx NEOである。音素情報やアクセント情報に応じて音声の特徴パラメータを動的に選択することで自然な発話を実現しているのが特長である。もともと、パソコンやクラウドサーバー上で動作させることを想定して開発された。しかし、今回の「ポケトークW」への採用に当たっては、クラウドで動作させるのではなく「ポケトークW」本体へ実装することにした。

東芝は、従来開発していたToSpeak™ Gx NEOを「ポケトークW」の内部アーキテクチャに合わせ最適化させるとともに、辞書の小型化やビットレートの削減などの工夫で省リソース環境での動作を実現したのである。

柳沼氏は、「本体に音声合成エンジンを搭載しておけば、翻訳後のテキストデータのみを受信するので、音声データをクラウドから受信する場合に比べ、ネットワークの通信量と費用を抑えることにつながります」と話す。

図2 「RECAIUS™」が実現する音声合成ソリューション
リンク

コミュニケーションAI 「RECAIUS™」で新たな価値を提案

「ポケトークW」の日本語の音声合成エンジンが、他社のクラウドサービスから東芝のToSpeak™ Gx NEOに切り替わってから数カ月。ユーザーからは「アナウンサーのようなきれいな日本語に聞こえる」「より自然な会話ができるようになり、ポケトークへの愛着がさらに湧いた」といった感想が寄せられているという。

ソースネクストは、2020年末までに「ポケトーク」シリーズの累計販売台数100万台を目標に掲げており、法人利用も含めて積極的な拡販を進めていく計画だ。「法人のお客さまには、外国語に対応するだけで商機が大きく広がることをアピールしていきたいと考えています。もちろん、個人のお客さまや、海外にお土産として買っていく旅行客の方も増えていくと見込んでいます」と川竹氏は目標達成に自信を見せる。

また、「東芝の技術はとても優れていると思いますし、担当してくださった東芝の皆さんは、私たちの立場になって一緒に考え、開発でもかなりご協力いただきました。今後は日本語以外の音声合成エンジンなどの提案にも期待しています」と川竹氏。

東芝は音声認識、音声合成、知識処理といったさまざまな技術を融合し、コミュニケーションAI 「RECAIUS™」として提供している。「ポケトークW」に搭載されたToSpeak™ Gx NEOをはじめ、東芝のテクノロジーは、人と人、人と機械のコミュニケーション向上のため、これからも新しいライフスタイルと豊かな社会を実現していく。

  • 取材日:2019年2月13日
    ※記事中の情報につきましては、すべて取材時点のものとなります。
    Photo: Kenji Kamada / HAPPY JAPAN Co., Ltd.

【関連リンク】

pagetop

お問い合わせ

  • 東芝デジタルソリューションズ株式会社

    〒212-8585 神奈川県川崎市幸区堀川町72-34