しくみデザインのKAGURA公式サイト

アニメや特撮映画のように ~インテル RealSense テクノロジーの示す未来~

  • このエントリーをはてなブックマークに追加

by [2015年1月23日]

インテル® RealSense™ テクノロジー 公式サイト

インテル® RealSense™ テクノロジー 公式サイト

コンピュータと人間の間で情報を伝達する手段、特に人間からコンピュータに対して指示などを入力する手段は、これまで実に多種多様な方式が試みられ、また実用化されてきました。

黎明期の配線プラグの抜き差しと結線変更という最も回路に近いところでの指示伝達に始まり、パンチカードやマークシートといった恐らくはオルゴールのメカニズムに由来する情報入力手段を経て、キーボードの出現でようやく人間の話す自然言語をリアルタイムで入力に用いる手段が確立され、さらにマウスやトラックボールなどの出現によって二次元座標上での相対的な位置移動を指示する手段が実現しました。

そしてタッチパネルの実用化により、遂には手書き入力や画面上に表示されたオブジェクトを手で操作することが可能となって現在のスマートフォンに至る道が切り開かれたわけですが、ここまでの入力デバイスには一つの共通点がありました。

それは、いずれの方式も人の手が何らかの形で直接に入力デバイスを操作する必要があることです。

結局の所、コンピュータにおける入力という行為は何らかのスイッチをオンオフする作業と等価であって、そうであるが故に、人の意思を伝達するにはいずれかの段階で人の手により直接スイッチをオンオフする作業を行う必要があったのです。

もっとも、特撮映画やアニメーション作品などのSF作品に見られるように、音声やジェスチャーなどを用いて人の意思をコンピュータに反映させる手段はかなり古くから構想されてきました。

比較的早く実用化された音声認識

特に入力デバイスが比較的低コストなマイクとそれにつながるPCMサウンドデバイスだけで済む音声入力は、コンピュータに内蔵されたプロセッサによる音声認識技術さえ確立してしまえば比較的容易に実現可能であったため、例えば1993年に発表されたApple Macintosh 840AVなどでの「PlainTalk」の実装や、1997年にIBMが発表した「ViaVoice」など、音声認識をコンピュータ操作に応用するソフトウェア技術が1990年代以降幾つか出現しました。

しかしそれらの技術は、以後20年近く主流になることがありませんでした。

それは、音声認識にあたって必要となる辞書データベースの膨大さや、個々人の発声に合わせたキャリブレーションが必要であることなど、この種の技術の実用化にあたってのハードルが当初予想された以上に高かったためです。

極論すれば方言を使われたり「ら」抜き言葉を使われたりするだけで認識されない、あるいは滑舌が悪いとそれだけでアウト、という状況を解決できない限り、音声認識技術が普遍化するのは困難だったのです。

あまりに重いジェスチャー入力操作

一方ジェスチャー入力は、カメラやセンサーなどによってある空間を一定間隔で「撮影」し、その撮影した画像上での人の動きを検出・判定するという音声認識にもましてハードルの高い技術を必要としたことから、なかなか実用化にこぎ着けることができませんでした。

Microsoft Kinect実用的なジェスチャー入力を実現した恐らく最初の量産製品。複数のカメラとセンサーを搭載し、筐体内にプロセッサも搭載する。

Microsoft Kinect
実用的なジェスチャー入力を実現した恐らく最初の量産製品。複数のカメラとセンサーを搭載し、筐体内にプロセッサも搭載する。

そのため、マイクロソフトの家庭用据え置きゲーム機であるXbox 360用の周辺機器として2010年11月に登場した「Kinect」において音声認識とセットでジェスチャー入力への対応が行われるまで、この種の技術が一般に市販される製品で実用段階に達することはありませんでした。

実際、この種の入力デバイスとしては事実上初の量産製品となった「Kinect」を分解してみると、RGB出力を行うカメラユニットと深度センサー、複数のマイクロフォン、それにそれらから入力された情報をプリプロセッシングしてからXbox 360本体へ送るための専用プロセッサ、と外見や機能から予想以上に複雑かつ高度な(そしてコストのかかる)内部構成となっていました。

実はXbox 360本体はPower PC系のCPUコアを3基搭載する、当時としてはかなり強力なハードウェアを備えていたのですが、「Kinect」を利用する場合、Xbox 360本体内蔵のプロセッサ群では性能が十分でなく、周辺機器側に専用ハードウェアを搭載して処理を分担せねばこの機能に対応するゲームで処理落ちが起きる恐れがあったのです。

Kinectの抱える難問

「Kinect」はXbox 360だけでなく、後にデバイスドライバや開発キット等の提供によりWindows環境でも利用可能となりました。

しかし、この「Kinect」には一つやっかいな問題がありました。

家庭用ゲーム機である「Xbox 360」の周辺機器として開発されたため、またその処理内容をある程度単純化・簡素化するために、「Kinect」は1人の場合最短でもディスプレイから約1.8m離れて、2人同時使用の場合は約2.5m離れて、しかも2人が立って両手を振り回しても当たらない程度に自由に動き回れるスペースを確保しないと実用にならないのです。

これは「Xbox 360」が基本的に「10フィートUI」、すなわちディスプレイあるいはテレビの画面から10フィート≒3m程度離れたところで視聴・利用することを前提としていたことから許容された仕様ですが、それはつまりデスクトップパソコンのディスプレイ前に陣取って操作を行うユーザーがそのまま「Kinect」を利用するのは難しいことを意味します。

通常、デスクトップパソコンは「3フィートUI」、つまりディスプレイから約0.9m程度離れて使用するのを前提としたユーザーインターフェイスを備えていますが、それゆえにキーボードなどをディスプレイ前に置いて1人で利用する場合、「Kinect」を利用する度にいちいち1m程後方に下がらねばならない/1m程後退した所にジェスチャー指示で動き回るためのスペースを確保しなければならないという大変に面倒くさいことになってしまったのです。

実のところ、「Kinect」のこのあたりの仕様は特に日本の狭い家屋ではゲーム機としても色々厳しい部分があって、筆者もKinectがセットになったXbox 360Sを買って持っているものの、その「ディスプレイから約1.8m離れる」という条件をディスプレイを設置している部屋の物理的形状の制約などからどうしてもクリアできなくて(※注1)、結局使用を諦めたものでありました。

 ※注1:ぎりぎり1.8mに足りない程度しか距離を確保できず、試しに認識させてみたら正しく検出されませんでした。

モバイルコンピュータでもジェスチャー入力や音声認識を

このように、21世紀に入ってようやく実用化が始まったジェスチャー入力もそれに先行した音声認識もそれぞれスペースユーティリティや外乱要因のある状況での認識精度といった問題が結構大きくて、十分な実用性を保ってそれらを利用できる環境がなかなか得られない状況が続いてきました。

AppleがiPhoneなどに搭載した「Siri」はこれらの問題のうち音声認識についての一つの回答で、ハードウェア的な制約の大きなモバイル機器でもクラウドに処理内容を丸投げすることで辞書リソースの問題や認識精度の問題を解決しよう、というものです。

しかし、これとてOSレベルでの操作を全て音声認識で肩代わりできるものではなく、また時々全く思いもかけない、大変に前衛的というか色々斬新な回答が出てくることがあるため、俗な言い方をすれば「行け、ジャイアント□ボ!」で齟齬なくユーザーの意図通りの動作を行う、というレベルにはたどり着けていません。

ハードルは高いが旨みも大きい

もっとも、コンピュータへの入力手段としてみた場合、直感的というか日常生活で行うアクションがそのまま入力に利用できるジェスチャーや音声認識は、今なお非常に魅力的です。

実際、これまで(コスト的な問題もあったにせよ)キーボードを搭載するノートパソコンという形態ではなかなか普及が難しかったモバイルコンピュータ機器が、多少の「作法」を覚える必要があるにせよ従来よりも直感的な操作で入力を行えるタッチパネル内蔵のディスプレイを搭載するタブレットやスマートフォンとなった途端、爆発的な普及をみたわけですから、より直感的で日常的なアクションでの入力を可能とするデバイスが実用化できれば、現在タブレットやスマートフォンもノートパソコンも一切持たない層に広くコンピュータ機器を携行させる(=市場を大きく拡大させる)ことが可能になると期待できます。

また、最近流行のヘッドマウントディスプレイ(Head Mount Display:HMD)を利用したバーチャルリアリティ技術では、音声認識やジェスチャー入力が利用できた方が望ましい(※注2)ため、その面でも今後大きな需要が期待できます。

 ※注2:例えば「Google Glass」のような拡張現実(Augmented Reality:AR)タイプのウェアラブルコンピュータなら現実の視界にコンピューターの表示がオーバーラップされるためキーボードやマウスの併用も特に問題無く行えますが、「Oculus Rift」のような両目の視界を塞いでコンピュータ画面の投影を行うタイプのHMDだと、そもそもキーボードの利用はずっと画面を見たままタッチタイピングを行えるクラスの人でないと困難で、何らかの代替入力手段が必要です。また、直感的なインタラクティブ操作の観点でも、この種の環境では音声認識やジェスチャー入力の方が親和性が高いと言えます。

つまり、パソコンなどのコンピュータ機器を製造するメーカーや、CPUなどを製造する半導体メーカー、それに各種ソフトハウスにとっては、この分野は巨額の資金を投じてでも大規模な研究開発を行う価値のある、将来性のある分野となっているということなのです。

インテルの参入

音声認識やジェスチャー入力といった新しいコンピュータへの入力手段について、半導体業界最大手のインテルが参入、あるいは開発を本格化させることを表明したのは、そうした状況を考えればある意味当然のことだと言えるでしょう。

同社が「損して得取れ」的な方針の下、手厚い開発支援体制を整え、時には関係ベンチャー企業などへ巨額の資金援助を行いつつ(自社製プロセッサを使ってくれることが期待できる)新分野への積極的な参入を行うことは、最近のIoTへの積極的なコミットでも明らかです。

そして同社は、この新しい入力手段についても、「インテル® RealSense™ テクノロジー」と総称して大々的な製品開発に乗り出すことを表明しました。

これはフルHD解像度に対応する2Dカメラと非常に高精度の深度センサーを組み合わせた「インテル® RealSense™ 3D カメラ」を中核とする技術・製品群です。

このカメラは、接続される機器のプロセッサ性能が5年前の家庭用ゲーム機とは比較にならないほど高性能化してきていることを前提として、3フィートUIが前提の環境でも問題無く認識・利用できるほど高精度かつ実用的なジェスチャー入力を実現するものです。

さらに「インテル® RealSense™ App Challenge 2014」と称する、賞金総額100万ドルの対応アプリケーションソフト開発コンテストを開催し応用アプリケーションソフトウェアの開発を促進するという施策も行われています。

このコンテストでは「ゲームとプレイ(GAMING & PLAY)」、「学習と教育エンターテインメント(LEARNING & EDUTAINMENT)」、「PCとの自然なやりとり(INTERACT NATURALLY)」、「没入型コラボレーションと制作(IMMERSIVE COLLABORATION & CREATION)」、「オープン・イノベーション(OPEN INNOVATION)」の5つのカテゴリでアプリのアイデアが募集されていて、その審査結果でファイナリストとなった応募者に「インテル® RealSense™ 3D カメラ」とソフトウェア開発キットが授与されることになっています。

思いもかけないものが登場したコンテスト

実はこのコンテスト、「インテル® RealSense™ テクノロジー」というブランディングが確立する前の2013年にも「Intel Perceptual Computing Challenge 2013」という名称で同様の趣旨にて開催されていました。

しくみデザインのKAGURA公式サイト

しくみデザインのKAGURA公式サイト

このときは世界16カ国から約2,800の応募があった由ですが、その中から日本の福岡県福岡市に本拠を置く、しくみデザインが制作した「KAGURA for PerC(※注3)」というジェスチャーで演奏する、具体的に言えばダンス=演奏となる楽器ソフトウェアがグランプリを受賞し、これまでにないインターフェイスでこれまでにない用途を提示したことで話題になりました。

 ※注3:「PerC」はコンテストの参加条件として利用が義務づけられていた「Intel Perceptual Computing SDK」という開発キットの略称です。また、これに合わせて提供された専用のカメラが「インテル® RealSense™ 3D カメラ」の前身となります。

ちなみにこの「KAGURA」は先日通常のWebカメラでも(機能制限があるものの)利用可能な一般向けバージョンの無償配布が始まったのですが、利用するAPIの都合や処理に必要となるプロセッサ性能の問題からか、x64版のWindows 8.1のみ対応とされています。

これに対し、このソフトウェアの性能や機能をフルに発揮させるのに必要な「インテル® RealSense™ 3D カメラ」は各社のIntel製プロセッサ搭載タブレット機やノートパソコンでの標準搭載が始まっていて、その搭載対象機種に合わせて何種類かのモジュールがインテルからメーカー各社へ供給され、さらに「Kinect」と同様に据え置き型の外付けカメラユニットも発売されることがアナウンスされています。

つまり、インテルはタブレットなどで従来搭載されていたカメラモジュールの代わりにこの「インテル® RealSense™ 3D カメラ」モジュールを搭載するようメーカー各社に積極的に働きかけているということで、インテル製品のシェアを考慮するとソフトウェア的にはともかくハードウェア的には、特にタブレットやノートパソコンでは、この技術が今年以降爆発的に普及する可能性が高いといえます。

一方、スマートフォンでジェスチャー入力というのは、ほとんど罰ゲームというか公開処刑みたいなものですし、そもそも現状ではインテル製プロセッサの採用実績の少ない分野ですから、こちらは恐らく今後も長期にわたってタッチパネル操作のまま推移することとなるでしょう。

なお、深度センサーがついた3Dカメラ、というところでこのカメラを3Dプリンタで複製したい物の「撮影」に、つまり3Dスキャナとして利用できるのではないか、と思い至った勘の良い方もおられることでしょう。当然ながら、というべきかインテルはその方面での研究も進めていて、ドゥ・イット・ユアセルフ (DIY) 向けアプリケーションの提供予定であることがアナウンスされています。

SFの時代を目指して

以上、ジェスチャー入力や音声認識についてみてきましたが、インテルの公開している「インテル® RealSense™ テクノロジー」のイメージ画像を見て、特に指先のジェスチャーで操作を行うイメージを見て、「まるでアニメ『ゼーガペイン』のようだ」と思った方も少なくなかったのではないでしょうか。

21世紀に入り、透明なチューブの中を疾走する列車も巨大ロボットも巨大海中都市も未だ実現しないことにがっかりしたSFマニアな筆者としては、こういういかにも未来っぽいガジェットの登場は大歓迎ですし、それが一定以上の実用性を備えているのならば自分でも喜んで使うことでしょう。

正直、良い時代になったものだと思います。

この「インテル® RealSense™ テクノロジー」に問題があるとすればただ一つ。

それは、現状で見る限りどうやらインテルの独自規格の域を出ず、普遍的な規格となっていないようであることです。

そもそもジェスチャー入力の普遍的な形態がいまだ定まっているとは言い難いことを考えると、それも致し方ないことではあるのですが、このまま各社で似たような独自規格が乱立するようなことになると、OS開発元などの積極的な支持を得られず、ソフトウェアレベルで普及に失敗してしまう恐れがあります。

このあたりのことをこれまで自社独自規格の標準規格化を行ってきた経験豊富なインテルが承知していない筈はないと思いますが、ジェスチャー入力の標準規格化が今後どのように進められることになるか、要注目です。

▼参考リンク
インテル® RealSense™ テクノロジー
RealSense – Develop for 3 Amazing Cameras | Intel® Developer Zone

THE MOTION PERFORM INSTRUMENT|JP|KAGURA

コメントは受け付けていません。

PageTopへ