ディープラーニングで画像/音声認識が進化

 ディープラーニングが最も実用に供されているのは、画像や音声の認識、分類である。もちろん、人間の視覚や聴覚に相当するものをコンピューターで実現するという点で、人工知能の一種であるとも言える。

 例えば、ソーシャルネットワーキング・サービス「Facebook」では、写真が投稿されると、そこに人間が写っていることを自動的に認識し、誰であるかを推定して、「この人をタグ付けしますか」とユーザーに提案してくる(提案を無効にもできる)。この処理に、Facebookが2014年に発表した「DeepFace」というディープラーニングが使われている。これは97.25パーセントという非常に高い精度で、顔の画像を分類することができるという。

 画像の共有にフォーカスしたソーシャルメディア、 「Pinterest(ピンタレスト)」では、ユーザーから寄せられるたくさんの写真を分析し、「この写真に写っているバッグと似たものを検索したい」といったニーズに応える機能を提供している。ここにもディープラーニングが活用されている。詳しく知りたい人は、「Introducing a new way to visually search on Pinterest」「Introducing automatic object detection to visual search」を読んでみるとよいだろう。

「Pinterest・世界中のおしゃれアイデアまとめ」では、写真の中の物を検出し、似た画像を探すのにディープラーニングを活用している
[画像のクリックで拡大表示]

 音声認識もまた、ディープラーニングの活用で精度が大きく向上した分野と言える。Microsoftは2016年10月に、音声認識精度の世界記録を更新した。なんと誤り率5.9パーセント! 人間と同等ではないだろうか。それから半年も経たない2017年3月、今度は米IBMが誤り率5.5パーセントで世界記録を更新した。今後も「人間以上」を目指して進化が進むに違いない。既にAmazon.comの「Echo」、Appleの「Siri」、Googleの「Googleアシスタント」、Microsoftの「Cortana」といった音声アシスタントを活用している人も多いだろうが、こうした製品やサービスの認識精度は、今後さらに高まるはずだ。

 日本でも、ヤフーの「YJVOICE」という音声認識エンジンが、ディープラーニングを利用して認識精度を向上させた。日本語の音声認識が実用的になるのも、そんなに遠い未来ではないだろう。