同リポートによると、Amazonの音声認識技術に準拠しているサードパーティの製品やサービスが急増しており、2015年にはAmazon Ecoで操作できるデバイスやサービスの数がわずか14個だったのに対し、2016年5月には950個にも増えている。Amazonの音声認識技術を核にしたスマートホームのエコシステムが完成しつつあるようだ。

 Meekerリポートでは、iPhoneの出荷台数が今年初めて前年比割れする見通しを挙げ、「Amazon Echoが飛び立とうとする中で、iPhoneはもう山を超えたのかも」と評している。

yukawa160606.jpg

 今回のリポートの中で私自身が最も気になったのは、人工知能研究の権威、スタンフォード大AI研究所の元所長で、現在中国百度(バイドゥ)のチーフサイエンティストAndrew Ng氏が語ったとされる次の引用文だ。

「ほとんどの人は音声認識率95%と99%の違いの重要性を理解していない。99%に達すれば、すべての人が音声認識技術を常に使うようになるだろう。99%に達したときに、潮目が変わるんだ」。

 このままのペースで技術革新が進めば、あと2、3年で99%に達するだろう。パソコンからスマホにパラダイムが移行したときに業界勢力図が大きく塗り替えられたように、スマホからボイスにパラダイムが移行すれば、業界勢力図はさらに大きく変化することだろう。その変化が、2,3年後に迫っているかも知れないわけだ。

技術革新を牽引しているのはやはり人工知能

 音声認識技術が順調に認識率を高めているのは、Deep Learningのおかげだ。Deep Learningとは、人工知能研究の50年来のブレークスルーと呼ばれる技術で、画像認識の領域では既に大きな成果を上げている。Facebook上に写真を投稿すると、写っている人物の顔を認識して名前を自動的に表示するが、これもDeep Learningのおかげだ。

【参考記事】女子高生AI「りんな」より多才な人工知能が中国で生まれたワケ

 このDeep Learningが音声の領域にも利用され始めた。音声認識技術がここ2,3年で精度を上げているのはこのためだ。

 人工知能はデータさえ与え続ければ自分で学習していく。音声認識率が99%に達するのも時間の問題だというわけだ。

 しかしスマホから音声のパラダイムに移行するには、音声認識技術だけでは不十分。人間の音声を聞いて認識し、それを理解して、的確な受け答えをしなければならない。人間と対話できなければならないわけだ。

ディープラーニングで認識率99%に