cedec01465

【CEDEC 2015】東大准教授の松尾豊氏が語る人工知能の未来~ディープラーニングの先にあるもの~

  • このエントリーをはてなブックマークに追加

by [2015年9月07日]

 先日パシフィコ横浜でゲーム開発者向けのイベント「CEDEC 2015」が開催された。ここではセッション「人工知能の未来 ~ディープラーニングの先にあるもの~」を紹介する。
 講演者である松尾豊氏は長年Webデータ分析を中心に人工知能についての研究をしている。今回は、人工知能の歴史から昨今話題のディープラーニングの意義、人工知能が社会に与える影響について語った。

cedec01465

東京大学大学院 工学系研究科 准教授 松尾豊氏

 

現在までの人工知能の歴史

 人工知能は今3度目のブームでして、歴史的には1956年にダートマス会議というところでArtificial Intelligenceと言う言葉が出来ました。そのあと冬の時代になって、またブームになって冬の時代が来てと……人工知能という分野が誕生してから来年でちょうど60年。今回もまたいつ冬の時代が来るのかと戦々恐々としている人もいます。僕はこのままいくんじゃないかとは思っています。

cedec01473

人工知能にもブームや不遇の時期がある。

 第一回目のブームのときは探索や推論が中心になりまして、第二回のときは知識・処理が注目されました。当時は、エキスパートシステムという人間の専門家の意思決定能力をエミュレートするAIソフトウェアがすごく流行って、いろんな企業が導入しました。また、第五世代コンピュータプロジェクトというプロジェクトもスタートし通産省も570億円を使ってかなり大規模に予算を通したと。僕が大学院にいたころはこのブームのあとだったので冷たく見られましたが、ここ2~3年ではみんなの見る目が変わりました(笑)。どこいっても人工知能という言葉が聞かれるのでうれしいです。

ディープラーニングとは

 ディープラーニングはそんな人工知能界の50年来のブレイクスルーで、データを元に何を表現するべきかと言うのが機能的に獲得されるシステムを指します。
 また、ディープラーニングは非連続なイノベーションだと思っています。連続したイノベーションは基本的には連続的で少しずつ性能が上がっていくものですが、ブームになって過度に注目されている面があります。連続か非連続かというのは別で考えたほうがいいと思っています。

人工知能は繰り返される

 人工知能は、私たちの生活にワトソン、Siri、Pepperなど色々な形で、人工知能というキーワードを隠して出ています。そうした人工知能は実は以前に開発されています。例えば、ワトソンのような知識処理系のものは医療応用できると言われていますが、医療に人工知能を使うのは1970年の初頭に、既にスタンフォード大学で開発されたシステムで、血液疾患を診断するシステムがあり、当時の技術レベルでも人間の研修医よりも精度がよかったと言われています。

cedec01474

今話題の人工知能は過去を踏襲したもの

 こうした知識を入れるタイプの人工知能というのは、どんどん知識を入れていくと、ある病気に対しては診断してくれるけど、他の病気の判断には悪くなってしまって、精度が下がってきてしまう。しかも知識の量が数千・数万と多くなると維持管理が非常に大変だと言うことで、同様の人工知能としてはエキスパートシステムもたくさん使われたんですが、きちんと使っていくのが難しいという結論に至り、冬の時代になってしまったのです。
 他にも、Siriも元を辿ればELIZA(イライザ)という、人間と機械がテキストで対話するシステムが1967年に出されています。Siriもそういう意味で基本的には変わってないですね。

人工知能が抱える問題 ~機械学習の面から~

 人工知能は将棋でも非常に強くなってきていて、今やプロ棋士にも勝つようになってきています。どういうふうにやっているかというと、膨大なGIFデータを使ってこういうときにはプロ棋士の人はこういう手で指しましたというのを学習させていくわけです。すなわち、情報として変数を設定して、関係性の学習をさせるということです。
 プロ棋士に勝つためには数百万の素性を使う必要があります。なぜ数百万にもなるかというと3つの駒の関係性を使うか、いろんな相対的な素性を使っているわけです。

cedec01477

機械学習も大本の部分は人間が担当してきた

 でも結局3つの駒の関係性を使えばいいというのを考えついたのは人間なんです。機械学習の手法は色々ありますが、結局どういう変数や素性をつくればいいのかは人間がデザインしているのです。つまり、一番難しいことをしているのが人間です。これが機械学習における素性設計と言う問題です。
 この他にも60年の人工知能研究の中で非常に難しい問題がいくつかあるとされています。

人工知能のその他の問題

 例えばシンプルグラウンディング問題です。我々人間は、シマウマが「シマがあるウマ」だと言われたらなんとなくわかります。一回も見たことがない人でも、動物園に行ってシマウマを見たら「ああこれがシマウマか」と理解します。でもコンピュータにはそれが出来ません。なぜならコンピュータは、「シマ」が何か、「ウマ」が何かがわからないからです。さらにそれを重ね合わせるということも上手くできません。つまり、シンボルが設置されていない、グラウンドされてないという問題です。

人工知能が抱える問題の根本

 今挙げたように色々問題はありますが根本は1つです。現実世界の現象のどこに注目するかを人間が決めるしかない、言いかえると特徴量をコンピュータが発見することができなかったということです。いろんなモデル、手法、アルゴリズムがありますが、人間が対象を一生懸命観察して「ここが一番大切じゃないか」というのを選び、変数に設定して、モデルに組んで、そのあとは自動で処理できます。つまり最初の「現象から何か大事なものを取り出す」処理を人間がするしかないというのが限界になっています。これが自動になると、最初から最後までコンピュータ自身でできるようになるのですが、そこが一番難しいのです。

シニフィエ(概念)とシニフィアン(言葉)

 言語学者のソシュールが、記号はシニフィエ(概念)とシニフィアン(言葉)から出来ると言いました。これは、我々が今「ネコ」と聞いて、それが何かわかるのは、ネコという言葉のラベルを知っているだけでなく、概念を知っているということです。言い換えれば、この概念と言葉が結びついたものとして実際にネコが運用されることを知っていると。だからネコと聞いたときに意味がわかる。今までのAIは、このシニフィアンだけをやっていました。ネコという言葉を一生懸命他の言葉で定義しようとしていたわけです。しかし、ネコと言う概念を作り出すことが出来なければ、このシニフィアンと結びつけることができません。
 これを結びつけるためにはデータを集めて、特徴量を取り出して、それを元にして概念を作り出すことをやったうえで、その概念に名前をつけることをしないといけません。そうやって初めて一体になったものをシニフィエとシニフィアンとして運用できるということだと思います。

cedec01480

言葉と概念の理解の双方が成立して初めて認識が出来る

これを解決するのがディープラーニング

 これをやっているのがディープラーニングだと言うことができます。もちろんこれで全部出来るわけではありませんが、一番難しい部分のある種の取っ掛かりになっていて、非常に大きな進展だと感じています。ではこれが何をやっているかというのを理論的に話すと、人間が見てわかる「3」を、コンピュータはわかりません。そこでこの画素のデータを入力し、それでこれが「3」だということが正解と教えることをやれば、この画像を入れたときに「3」であることを判断できるようになるというのが通常のやり方です。

ディープラーニングの具体的な画像認識の話(ディープラーニングの核)

 画像を入力したときに画像自身を正解とします。画像から画像を予測させるということをします。あまり意味のないことをやってるように思われるかもしれませんが、隠れ層のところが細くなっていて、一回情報がその細いところを通ってから、出来るだけ復元せよ、という問題を解かせるためです。
 例えば一時間の講演を3分にまとめて元の一時間を精度よく再現せよと言われたら、3分には、一時間の中の重要なところを取り出そうとします。それと同じように画像も重要なところを取り出そうとします。重要なところ=特徴のあるところを指し、たくさん見せてやると真ん中に模様みたいのが出てきます。模様の一個一個がニューロンの一個一個に当たるので、隠れ層がたくさん出てきます。
 この模様は何かと言うと、例えば「1」で一番大切なのは始まりのところと、終わりのところです。真ん中のところは多少外れててもいいです。「5」だと、縦棒横棒も大事ですけど、クネっと曲がっているところがあると5だとわかるわけです。このように、数字を認識するだけでも、部分部分が重要な情報を持っているんですね。

 ディープラーニングは、この認識方法をディープにするということなので、三層のニューラルネットワークの真ん中部分を持ち上げてやります。そうするといったん上に上がって降りてくるという形になります。これはつまり、二段目のニューラルネットワークの情報は一段目の隠れ層の情報になるということで、重ねれば重ねるほど模様が複雑になっていきます。

cedec01482

特徴的な部分を認識させることが画像認識のキモ

その例

 こちらは2012年に行われた実験です。YouTubeから取ってきた画像をたくさん見せると下の方のレイヤーだと線、点だけですが、上の方のレイヤーだと人の顔や猫の顔っぽいものが出てきます。これがそうだと教えなくても自立的に出てきます。つまりこれは画像の中に内在する高次の特徴量を自動的に取り出せるようになっているということです。こうした、情報として存在するネコや人の顔を自動で取り出す。そうすると、シニフィエが得られていることになるので、これがネコだとか当てはめれば良いのです。

cedec01487

何層にもレイヤーを重ねることでより精密な画像認識が可能になる

 この絵は脳科学の分野で視覚野のモデルとして知られているものと非常に近い。視覚野でも下のほうのニューロンはエッジに反応します。上にいくと、もっと高次のウィジェットに反応します。

ディープラーニングの急激な成長

 ディープラーニングは、2012年の画像認識のコンペで優秀な成績を残しています。画像認識とは写っているのが何なのかを当てるタスクで、当時の技術力だとエラー率が26%。カテゴリーは数千あるので、かなり難易度は高く、一年間頑張って研究すると1%くらい精度が上がるという技術領域でした。しかし、2012年に突然現れたチームが10%台を出しました。10年分のイノベーションをいきなりやってしまったわけです。ディープラーニングではないチームは一生懸命特徴量の抽出を人手でやっていたので、それは衝撃的な出来事だったのです。

cedec01488

非連続的なブレイクスルーは大きな進歩を数字で示す

 それ以降の技術はすごい勢いで伸びて、あっという間に人間の認識精度を抜いてしまいました。これはすごい進歩です。
 この人間を超えた精度がどんなものかというと、GoogleのFaceNet=顔画像認識をご紹介します。2枚の写真に写っている顔が同じ人かそうでないのかを当てるタスクです。少し前までは3層を多層にしたかったのですが、層を増やすと精度が悪くなっていたので4層、5層にするのですら難しかったのですが、なんと使っているニューラルネットワークは22層の階層に上るようになりました。研究によっては100層もできるようになってきて、そうなると精度が99.63%となり、ほとんど間違わなくなります。

人工知能は新たなステップへ

 人間を超えた精度がどんなものかというと、人工知能で有名な研究者のマービン・ミンスキーが昔から言っていることで子供の出来ることほどコンピュータでやらせるのは難しいという説があります。例えば「積み木の紐は引っ張れるけど押せない」といった常識が分からないのです。画像認識もそうした典型的な例の1つです。
 スパムを防ぐ手法として、コンピュータにゆがんだ数字を入力させるCAPTCHA(キャプチャ)がありますが、これは少しくらいゆがんでいても人間は認識できます。しかし、どんなに技術力の長けた人でもこれをプログラムで自動的に読み取ることが出来なかったからこそ、こういう(画像認識の)セキュリティの仕組みが出来たのです。
 今ではこれがディープラーニングによってあっという間にできるようになっており、人工知能が明らかに新しいステップにいったと感じています。

ディープラーニングにより、世界が人工知能の可能性に動き始める

 そして、2013からは世界で買収、投資合戦が起こっていて、それに伴う技術競争が激しくなっています。ディープラーニングの人工知能における意味は、現実世界から何を取り出してモデルにするか、人間がやるしかなかった部分をディープラーニングが切り込んでいるということです。

cedec01498

海外では人工知能への投資がいち早く行われている。

 実は、ディープラーニングの手法は日本人が最初(1980年)に提案していました。当時NHKにいた福島先生です。ディープラーニングの資料を読んでいると福島先生の名前が結構出てきます。手法は今のディープラーニングとそっくりですが、当時の計算機技術だと全然出来なませんでした。Googleの顔画像認識の研究でもサーバーを並行して、2,000時間=2~3ヶ月といった学習時間をかけてようやく現在の精度になったのです。

 人工知能の分野はもともと野心的な仮説をもっています。すなわち人間の知能をコンピュータで実現できるのではないかということです。人間の脳は電気回路ですし、万能チューニングマシンが情報処理をやっているようなものです。そして情報処理であればプログラムで書けるはずです。魂とか霊的なものがあることを持ち出さなければこれを否定するのは難しいです(笑)。
 しかし、60年研究してきていまだ出来ていません。問題はデータを元に表現を取り出せなかったからです。今それが出来つつあるなら、人間の知能はコンピュータで再現できるという仮説が成立する日が来るかもしれません。

赤ちゃんのように発達するディープラーニング

 そうはいってもまだまだ研究しないといけないことはたくさんあります。今出来るようになったのは画像から特徴量を取り出して、画像認識の精度をあげることです。その認識能力は人間を超えてしまったから、研究としてはほとんど終わっていて、あとはハードウェアでどれくらい早くできるかという問題のみです。 
 これが映像、動画になると精度が人間のほうがよいのです。そこで現在もリカレントニューラルネットワークの発展系のLSTM、GRUなどが現在どんどん研究されています。
 ただ、人間も動物も行動することによって情報を引き出しているので、人工知能も行動できないといけません。これを真っ先にやったのが、Googleが400億で買収したディープマインドです。行動できるようになるとインタラクションできるようになります。例えば、コップは倒すとこぼれる、ガラスは叩くと壊れるといったことを経験から学ぶことが出来るようになり、いろんな概念が分かるようになります。
 これを言葉と紐付けることで、言葉の意味が分かるようになります。言葉を聞いてイメージ生成が出来るので本が読めます。言語から知識を獲得できるようになります。ディープラーニングの発達過程は人間の赤ちゃんのそれに近いと考えられています。

cedec01500

ディープラーニングを機に広がるAIの可能性

ディープラーニングで出来ること

 今までは人工知能にいきなり数学の証明をさせたり医療をさせたり、基礎ができていないのに応用をたくさんやらせようとしていましたが、今回(第3次ブーム)、ディープラーニングは下から上へ段階を踏んで進むと思っています。
 これによって産業や社会に大きく影響を与えます。例えば、医療の分野でレントゲンやCTの画像から病気を判断するということも、トップクラスの医者と同じレベルを出せるはずです。他にも、オフィスの入退出チェックはセキュリティカードでなく、顔認識で出来るはずです。実際にアメリカのマスターカードがクレジットカードの代わりに顔認識で決済をやっています。コンビニで商品を手にとってそのまま外に出ると決済されているというのも、誰が、何を手に取ったかまで認識することが可能です。このように出来ることは相当広がっていますが技術の進展が早すぎて産業化が追いついていないというのが現状です。
 ロボティクスは今でもありますが、もっと進むと、人工知能はどういうところに目を付けたらいいのかわかるようになるので、環境変化に強くなります。優しく触る、痛くないように持ち上げる、お皿を割らないように洗うなど家事や介護分野への進出が考えられます。
 また、翻訳や教育分野での活躍が期待されます。ディープラーニングを使った自然言語処理は、言葉を文字列として扱う、パターン化での認識なので、意味をわかって処理しているわけでありません。言葉からイメージを生成してイメージを操作できるようになって、その上で他の言語に翻訳できるようにならないといけないのです。

ディープラーニングの何がポイントか

 ディープラーニングのおかげで何が変わったかと言うと特徴量の抽出ができるようになるというこの一点だけです。私たちはこの一点で何が出来るかを考える必要がありますし、逆に言えばこの一点が出来ないがゆえに今出来ないことがたくさんあるのです。
 例えば今までのロボットの操作は人間が変数を決めてやっていたので「コツを掴む」ことができませんでした。言うなれば運動神経がゼロの状態です。しかし現在ではブロック崩しのゲームをやり、画像を入力して認識させ、スコアがあがるような強化学習をさせることが出来ます。昔はボールやバーの位置を変数として入れればできましたが、これは画像認識でやっているということが重要なのです。これによりいろんなゲームが上手くなり、コツも掴み始めます。これこそが画像認識をして特徴量を掴んでいるから出来ることであり、これをロボットに入れることで動きを良くすることが出来るのです。

実際の例

 ロボットに飛行機の部品をはめさせる実験で、入力は画像です。出来たら報酬が待っています。なかなか入りませんが、たまに入ったときにやったことを強化すると上手くできるようになります。他にもレゴも組み立てられるようになったり、反射神経も出るようになります。

 今年の5月に日本のPreferred Infrastructureが出したのは、レーシングサーキットのようなところで運転を覚えるAIです。AIには操作方法を一切教えておらず、32の視覚情報とハンドルとアクセルだけが与えられます。最初は動けませんが、最後には美しいフォームで曲がったりもするようになります。今までは人間が「相手の車が何センチまで近づいたらどちらにハンドルを切れ」という計算を一生懸命しないといけませんでした。今転んでるロボットも近いうちにはスムーズに走るようになり、ロボティクスの世界はかなり変わると予想されます。
 

人工知能の発達と社会

 防犯などの異常検知は人間しかできません。いつもと違う動きとか怪しい人がいるということは特徴量が多くないとわからないことです。防犯カメラも人間が最終チェックをしているのが実情です。しかしディープラーニングだと、変な動きをしているとそこだけ注目することも出来るようになり、犯罪率を低下させることも考えられます。
 WebでABテストをする時も、テストの部分は自動化されてきていますが、仮説を出すところは人間がやっています。「過去のデータから特徴量を出してそれに基づいて新しい案を考える」という仮説生成が出来るとすべてが自動化できる。
 シミュレーションも変わるでしょう。基礎言語は力学的なしっかりした方程式でかけるものですが、特徴量の抽出を人間がやっているから、たとえそのモデルを機械にフィッティングさせても現実と乖離してきてしまいます。これからは人工知能によって今までシミュレーションで出来なかったことも出来るようになってきます。
 また、情報システムの連携がもっと進みます。現在は人間が画像を認識して違うシステムに入れていますが、将来的には自動的に読み取って違うシステムに入れる仕組みさえ出来ればすべて繋がるようになります。

cedec01502

人工知能の可能性はあらゆる分野へと及ぶ

 このように人工知能は大きなポテンシャルを秘めていますので、どんどん仕掛けていくのは良い流れです。ただ、これを受けて産業や社会がどう変わっていくかをしっかり見る必要があります。
 例えば倫理的な問題です。自動運転の車が2人を轢きそうになったときにどちらか一方は避けられない状況で、どちらを避けるのか? 真夜中の明らかに車の来ない横断歩道で信号無視をすべて取り締まるのか? つまり、人間の「少し悪いことをしても良い権利」をどう扱うかということです。

 (人工知能のメリット、デメリットについて)社会全体でも議論していかないといけませんが、現状は20年前のインターネットの台頭と似ており、社会に人工知能が広がっていく間で、検索エンジンやプラットフォームなどが生まれてくることが予想されます。
 日時や手段はまだ不明ですが将来的には人工知能分野の大きな企業が出てくるはずです。国内でも人工知能の動きは加速していて、例えば文部科学省は人工知能研究に年間100億円を投入するとしており、日本にはチャンスがあると考えられます。

もっと人がほしい

 ですがディープラーニングを使いこなせる人材が足りていません。しかもディープラーニングだけではなく、機械学習の数学的背景、コーディング、ハードウェアの3つを分かっていることが重要です。これらを兼ね備えた人材は相当マーケットバリューがある貴重な存在となるでしょう。

ニーズはある

 日本は少子高齢化なので、人=生産力が足りません。まさに必要は発明の母という市場の状態で、ニーズはかなりあります。しかも人工知能研究者も多くの人が第1次、2次の人工知能ブームを経験しています。日本では上層部の人が理解してくれないと何かを動かすのが難しい社会ですが、今回(第3次ブーム)は理解できる人がたくさんいるので社会が動く可能性は十分にあるのです。

cedec01513cedec01515

日本にもAI分野の土壌、ニーズ、そして大きな可能性は存在する

 ディープラーニングはネットの話というよりは、ものにどう組みこんで広げていくかというものづくりの話です。これだけ革新的な話なので企業の中に内製化した仕組みがあったほうが良いとも思います。製造業にとってかなりのチャンスであり、農業や医療などそれぞれのドメインでのファーストムーバーが勝つ状態だと考えらます。
 人工知能を活用することによって経済成長を取り戻すことも不可能ではない、それくらい大きな可能性を秘めていると思います。

▼参考リンク
松尾 豊 – Yutaka Matsuo
東京大学松尾研究室
CEDEC 2015

PageTopへ