人工知能が加速させるボイス革命

2016年06月06日（月）17時00分

　同リポートによると、Amazonの音声認識技術に準拠しているサードパーティの製品やサービスが急増しており、2015年にはAmazon Ecoで操作できるデバイスやサービスの数がわずか14個だったのに対し、2016年５月には950個にも増えている。Amazonの音声認識技術を核にしたスマートホームのエコシステムが完成しつつあるようだ。

　Meekerリポートでは、iPhoneの出荷台数が今年初めて前年比割れする見通しを挙げ、「Amazon Echoが飛び立とうとする中で、iPhoneはもう山を超えたのかも」と評している。

　今回のリポートの中で私自身が最も気になったのは、人工知能研究の権威、スタンフォード大AI研究所の元所長で、現在中国百度（バイドゥ）のチーフサイエンティストAndrew Ng氏が語ったとされる次の引用文だ。

「ほとんどの人は音声認識率95%と99%の違いの重要性を理解していない。99%に達すれば、すべての人が音声認識技術を常に使うようになるだろう。99%に達したときに、潮目が変わるんだ」。

　このままのペースで技術革新が進めば、あと２、３年で99%に達するだろう。パソコンからスマホにパラダイムが移行したときに業界勢力図が大きく塗り替えられたように、スマホからボイスにパラダイムが移行すれば、業界勢力図はさらに大きく変化することだろう。その変化が、２，３年後に迫っているかも知れないわけだ。

技術革新を牽引しているのはやはり人工知能

　音声認識技術が順調に認識率を高めているのは、Deep Learningのおかげだ。Deep Learningとは、人工知能研究の50年来のブレークスルーと呼ばれる技術で、画像認識の領域では既に大きな成果を上げている。Facebook上に写真を投稿すると、写っている人物の顔を認識して名前を自動的に表示するが、これもDeep Learningのおかげだ。

【参考記事】女子高生AI「りんな」より多才な人工知能が中国で生まれたワケ

　このDeep Learningが音声の領域にも利用され始めた。音声認識技術がここ２，３年で精度を上げているのはこのためだ。

　人工知能はデータさえ与え続ければ自分で学習していく。音声認識率が99%に達するのも時間の問題だというわけだ。

　しかしスマホから音声のパラダイムに移行するには、音声認識技術だけでは不十分。人間の音声を聞いて認識し、それを理解して、的確な受け答えをしなければならない。人間と対話できなければならないわけだ。

次のページディープラーニングで認識率99％に

この筆者のコラム

AppleとOpenAIの提携は何を意味するのか 2024.06.13

AIは今後も急速に進化する？進化が減速し始めた？ 2024.06.05

AI自体を製品にするな＝サム・アルトマン氏からスタートアップへのアドバイス 2024.05.29

汎用AIが特化型モデルを不要に＝サム・アルトマン氏最新インタビュー 2024.05.27

マーク・ザッカーバーグ氏インタビュー「なぜAIを無料公開するのか」 2024.05.14

AIエージェントの時代はどこまできているのか 2024.05.07

生成AIでネット広告はどう変わるのか 2024.04.25

記事一覧へ

プロフィール

湯川鶴章

AI新聞編集長。米カリフォルニア州立大学サンフランシスコ校経済学部卒業。サンフランシスコの地元紙記者を経て、時事通信社米国法人に入社。シリコンバレーの黎明期から米国のハイテク産業を中心に取材を続ける。通算２０年間の米国生活を終え２０００年５月に帰国。時事通信編集委員を経て２０１０年独立。2017年12月から現職。主な著書に『人工知能、ロボット、人の心。』（2015年）、『次世代マーケティングプラットフォーム』（2007年）、『ネットは新聞を殺すのか』（2003年）などがある。趣味はヨガと瞑想。妻が美人なのが自慢。