膨大な計算処理を可能にするGPU(Graphics Processing Unit)。これを使うことで実現するのが「ディープラーニング」だ。深層学習とも呼ばれ、コンピューターが「入力されたデータを自力で分析、処理」するというもの。この技術を活用して実現したのが、Amazon EchoやGoogle Homeといった音声認識を使ったサービスだ。GPU最大手NVIDIAの専門家が、かつての「使えない技術」を「使える技術」によみがえらせたディープラーニングを解説する。

 ひと昔前に登場したときはすごそうな機能と注目されたものの、いざ使ってみるとうまく動作せず、ユーザーには「実際には使えない機能」の烙印を押され、以来見向きもされない――。

 そんな忘れ去られていた機能のなかで、最近、「使える技術」として突然復活してきているものがある。音声認識や画像認識が、その代表例だ。「使われない」最大の原因だった精度が大幅に向上。ユーザーのライフスタイルに変革をもたらし、関係する業界への影響力も高まっている。この飛躍的な精度向上を支えているのが、コンピューターがデータから勝手に学んで賢くなるディープラーニングの技術だ。

 全く新しい機能を実現するだけでなく、今まで使えなかった機能も復活させ、ライフスタイルまで変えてしまうディープラーニングのからくりをみてみよう。

コンピューターが自分でデータを分析、処理する

 カーナビの音声認識機能。この機能を知ったユーザーは、映画などでみる未来的なシーンがとうとうやってきたと期待して使ってみるのだが、実は定型文や限られた語彙しか認識しないことが分かり、実際の走行中の認識精度も悪いために、すぐに使わなくなってしまう。カーナビの音声認識機能といったら、長らくこういう印象であった。

 しかし、カーナビと組み合わせて使う最近の音声認識機能は、さまざまなスピーチパターンを賢く認識し、走行中の騒音があっても非常に精度良く認識する。

 この背景には、革新的な精度向上を果たすブレークスルーがあった。2012年に画像認識精度を競うコンテストでディープラーニングの手法を利用したアルゴリズムが10ポイントもの精度向上を果たして研究者の注目を浴び、一気にこの手法を利用した研究が加速した。それ以降、コンピューター業界だけでなく、各方面から注目され、一気に研究が進んだディープラーニング手法によるAI(人工知能)の進化だ。

スタンフォード大学が立ち上げた「Imagenet」主催のコンピューターによる画像認識の精度を競う国際コンテスト。2012年に認識の手法としてGPUディープラーニングが初めて使用されたことで、画像認識のエラー率が2011年に比べ一気に10ポイントも下がった
[画像のクリックで拡大表示]

 ディープラーニングは、従来手法と全く違うコンピューティングモデルだ。従来は、それぞれの分野の見識を持つ専門家が一つひとつ手でチューニングして、AIのアルゴリズムを組み上げていく必要があった。

 それに対しディープラーニングは、人間の脳の構造をある程度模した「ニューラルネットワーク」という仕組みにひたすらデータを与え、それらのデータをどのように処理すればいいか、コンピューターに学ばせてしまうという手法だ。極端に言うと、コンピューター自身がコンピューターのプログラムを書くようなことが出来るわけだ。ここにディープラーニングの大きな特徴とインパクトがある。

従来型のAI手法では、専門家によるアルゴリズムのチューニングが欠かせなかった。ディープラーニングでは、コンピューター自身がデータ処理方法を学習する
[画像のクリックで拡大表示]
ディープラーニングでは人間の脳を模倣した「ニューラルネットワーク」に大量の教師データを与え、その特徴を自動獲得させる。例えば顔認識ならば、ニューラルネットワークに学習用の顔データを与えると、その中から「目」や「鼻」など顔に含まれる特徴を獲得していく。最終的にはどのような顔に対しても識別可能なニューラルネットワークになるわけだ
[画像のクリックで拡大表示]